Componente para la extracción automática de metadatos bibliográficos desde corpus textuales en formato PDF

Leduan Flores Riera, Alejandro Jesús Mariño Molerio, Luis Ángel Mojena Román, Yusniel Hidalgo Delgado

Resumen


Las bibliotecas digitales se encargan de la gestión documental de los recursos digitales que almacenan, realizando tres procesos fundamentales: la selección, tratamiento y explotación de los recursos. La extracción de los metadatos es una de las tareas del tratamiento de los documentos digitales, facilita la búsqueda, acceso y recuperación de la información. La extracción de metadatos es un proceso que requiere tiempo para su ejecución y en caso de ejecutarse manualmente puede existir el riesgo de introducir errores humanos. Estos problemas se pueden aliviar con el uso de herramientas automatizadas que apoyen esta actividad. En este artículo se describe un componente web para la extracción automática de metadatos bibliográficos. El componente está basado en tres procesos fundamentales que siguen un flujo de datos representando una arquitectura de tuberías y filtros, donde la salida de un proceso constituye la entrada al próximo. Para validar si el componente de extracción de metadatos reduce el tiempo de extracción se realiza un diseño experimental a partir de un caso de estudio. Además de validar el componente a través del diseño experimental se le aplican un conjunto de pruebas de calidad. Estas pruebas van encaminadas a comprobar si el funcionamiento del componente es el adecuado, si las funciones implementadas se ejecutan correctamente, si los resultados obtenidos son los deseados y si el usuario final tiene un nivel alto de aceptación con el componente de extracción de metadatos.

Palabras clave


Artículos científicos; Documentos PDF; Extracción de metadatos; Metadatos; Web Semántica

Texto completo:

PPT PDF

Enlaces refback

  • No hay ningún enlace refback.




_________________________________________________________________________________________________________

La Universidad de las Ciencias Informáticas (UCI), a través del sello editorial Ediciones Futuro, publica los contenidos de la Revista Cubana de Ciencias Informáticas (RCCI) bajo licencia Creative Commons de tipo Atribución 4.0 Internacional (CC BY 4.0). Esta licencia permite a otros distribuir, mezclar, ajustar y construir a partir de su obra, incluso con fines comerciales, siempre que le sea reconocida la autoría de la creación original.
_________________________________________________________________________________________________________

 INDEXACIÓN