Validación de Datos Sintéticos Mediante Análisis Out-of-Distribution para la Mejora de Clases Minoritarias en Detección de Emociones
Contenido principal del artículo
Resumen
El desbalance de clases limita severamente la generalización de los modelos de aprendizaje automático, especialmente en espacios de alta dimensionalidad donde los métodos tradicionales de interpolación (ej. SMOTE) pierden efectividad. Este trabajo propone y valida un marco de balanceo probabilístico basado en la estimación robusta de la matriz de covarianza mediante el método de contracción de Ledoit-Wolf. Se extrajeron embeddings de 768 dimensiones con RoBERTa aplicados al corpus TASS 2020 (detección de emociones en español) para generar instancias sintéticas a partir de la distribución multivariada aprendida. La novedad del enfoque radica en la validación sistemática de los datos generados mediante pruebas Out-of-Distribution (OOD) utilizando la distancia de Mahalanobis y un clasificador two-sample regularizado. Los resultados evidencian una mejora sustancial en la detección de clases minoritarias críticas: el F1-Score de "Sorpresa" subió del 10.9% al 26.4%, y el de "Miedo" del 0% al 7.1%. Asimismo, las pruebas OOD arrojaron un AUC cercano a 0.5, demostrando que los datos sintéticos son indistinguibles de la distribución real. El método propuesto alcanza un Macro F1 competitivo (35.51%) superando la línea base (28.08%), ofreciendo la ventaja adicional de un bajo costo computacional al eliminar la necesidad de fine-tuning. Se concluye que el modelado probabilístico regularizado es una alternativa superior y matemáticamente más segura a la interpolación local para mitigar el desbalance en alta dimensionalidad.



