Recuperación de información para artículos científicos soportada en el agrupamiento de documentos XML

Damny Magdaleno Guevara, Ivett E. Fuentes, Michel Cabezas, María M. García Lorenzo

Resumen


Cada día más datos electrónicos en formato semiestructurado, específicamente XML, se encuentran disponibles en el World Wide Web, intranets corporativas, y otros medios de comunicación. Por tal motivo la gestión de información se vuelve cada vez más compleja y desafiante, sobre todo porque las colecciones de documentos generalmente son heterogéneas, grandes, diversas y dinámicas. Superar estos desafíos es esencial para dar a los científicos mejores condiciones de administrar el tiempo necesario para procesar la información científica. En el laboratorio de Inteligencia Artificial de la Universidad Central “Marta Abreu” de las Villas se han obtenido varios sistemas que permiten manipular la información, como: SATEX, GARLucene y LucXML, este último da tratamiento de forma específica a los documentos XML, aunque no garantiza gestionar los documentos desde un repositorio en la red. En este trabajo se implementó una herramienta Web que usa las técnicas de recuperación inteligente, soportada en un algoritmo de agrupamiento de documentos XML que combina el contenido y la estructura existente en estos. Los principales resultados son: (1) el uso de la metodología para el agrupamiento de los documentos recuperados; (2) la utilización de herramientas especializadas en recuperación de información y manipulación de documentos; (3) al evaluar el sistema con datos representativos se obtuvieron resultados favorables lo que corrobora la validez de la implementación realizada.


Palabras clave


Recuperación de Información; Agrupamiento; XML

Texto completo:

PDF

Enlaces refback

  • No hay ningún enlace refback.




_________________________________________________________________________________________________________

La Universidad de las Ciencias Informáticas (UCI), a través del sello editorial Ediciones Futuro, publica los contenidos de la Revista Cubana de Ciencias Informáticas (RCCI) bajo licencia Creative Commons de tipo Atribución 4.0 Internacional (CC BY 4.0). Esta licencia permite a otros distribuir, mezclar, ajustar y construir a partir de su obra, incluso con fines comerciales, siempre que le sea reconocida la autoría de la creación original.
_________________________________________________________________________________________________________

 INDEXACIÓN