Prueba de bondad de ajuste para la distribución de distancias en secuencias de datos categóricos

Niuman Comas Arias, Oscar Oro Dosouto, Belarmino Catalá González

Resumen


El análisis de aleatoriedad en secuencias de datos categóricos es relevante para el estudio de procesos de Markov,  fiabilidad de sistemas, big data, encriptación de datos  y la evaluación de generadores de números pseudoaletorios. Existen diferentes enfoques para valorar el fenómeno de la aleatoriedad que conducen a una variedad de paquetes de pruebas como la batería de pruebas “Diehard”, el Test U01 y NIST Statistical Test Suite. Se estudió el comportamiento de secuencias categóricas interpretadas como series cronológicas de tiempo discreto demostrándose que la distribución esperada de las distancias entre eventos de cada categoría corresponde a la distribución geométrica (distribución teórica) cuando los datos son aleatorios. La distribución de frecuencias de distancias observadas fue comparada con la teórica mediante prueba de bondad de ajuste basada en el estadístico chi-cuadrado. El algoritmo de la prueba fue implementado como módulo javascript para  paquetes estadísticos en plataforma web comprobando su sensibilidad a diversas causas de comportamiento no aleatorio, entre ellas el carácter periódico de los eventos, el agrupamiento en bloques, la autocorrelación y la propiedad markoviana. La convergencia y robustez de la prueba fueron estudiadas mediante simulación en ordenador detectándose pequeñas desviaciones en la proporción de casos significativos esperados que indican la existencia de sesgos inherentes al criterio de agrupamiento utilizado en la prueba chi-cuadrado.


Palabras clave


Secuencias categóricas; aleatoriedad; prueba de bondad de ajuste

Texto completo:

PDF

Enlaces refback

  • No hay ningún enlace refback.




_________________________________________________________________________________________________________

La Universidad de las Ciencias Informáticas (UCI), a través del sello editorial Ediciones Futuro, publica los contenidos de la Revista Cubana de Ciencias Informáticas (RCCI) bajo licencia Creative Commons de tipo Atribución 4.0 Internacional (CC BY 4.0). Esta licencia permite a otros distribuir, mezclar, ajustar y construir a partir de su obra, incluso con fines comerciales, siempre que le sea reconocida la autoría de la creación original.
_________________________________________________________________________________________________________

 INDEXACIÓN