Técnicas para garantizar la calidad de los datos en una aplicación de software del Servicio de Terapia Intensiva: La clave de una minería de datos confiable

Contenido principal del artículo

Marcos Díaz Bastida
Armando Caballero López
Armando Caballero Font
Ramiro Alberto Pérez Vázquez
Rafael Bello Pérez

Resumen

La calidad de los resultados obtenidos en la minería de datos está directamente relacionada con la calidad de los datos utilizados. Si los datos contienen errores, valores inconsistentes y duplicados o faltantes los resultados de los análisis y de los modelos de minería de datos pueden ser inexactos o poco confiables. El objetivo de este trabajo es describir las técnicas utilizadas durante el proceso de adquisición de los datos en el software “Generador de conjuntos de datos dinámicos para el Servicio de Terapia Intensiva” para lograr la limpieza de los datos en la base de datos relacional que soporta al sistema. Normalización de datos, restricciones de integridad referencial en la base de datos, validación de datos en el lado del cliente, la utilización de controles especializados, validación de datos del lado del servidor y empleo de disparadores son las técnicas utilizadas para mantener la integridad y la calidad de los datos en el momento que son adquiridos. Las técnicas aplicadas han permitido que los datos introducidos cumplan con los requisitos esperados, que no exista duplicidad ni inconsistencia en los datos y que se hayan automatizado acciones de validación en el momento de su adquisición, lo que deriva en una óptima calidad de los datos y el mantenimiento de su limpieza en un sistema en explotación que ha generado conjuntos de datos que han sido utilizados para la aplicación de técnicas de aprendizaje automático, lo que ha potenciado la investigación médica y la toma de decisiones oportunas.

Detalles del artículo