Un investigador gallego mejora el sistema de recuperación de información digital
miércoles 27 de enero del 2010, por | | Compartir
En los tiempos que corren, en los que prácticamente
todas las instituciones, tanto públicas cómo personales, están digitalizando sus
documentos y generando los nuevos en formato electrónico el fin de volver a ellos y a la
información que contienen de la manera más rápida y eficaz posible, es necesario
que los criterios de busca sean claros y concretos, algo que con nuestro idioma se hace
una tarea más complicada que en otras lenguas debido al doble significado y la ambigüedad
segmental de muchas palabras.
En este contexto, el investigador de la Escuela
Superior de Ingeniería Informática de la Universidad de Vigo, Juan Otero, viene de desarrollar
para su tesis de doctorado un
sistema de corrección ortográfica que soluciona los problemas más
importantes a la hora de procesar las consultas en un sistema de recuperación de información..
La principal aportación de su trabajo consiste, segundo indicó el propio
investigador, âen la creación de un método que
resulta mucho más eficiente que los métodos globales clásicosâ.
Bajo el título Análisis léxico fuerte,
Otero aborda el desarrollo y la evaluación de técnicas de corrección
ortográfica fuerte y su aplicación en entornos de recuperación de información
en las que las consultas presentan errores.
Los sistemas de recuperación de información permiten localizar aquellos
documentos de una colección que satisfagan los requerimientos de un usuario,
expresados en forma de consultas en lenguaje natural, pero es frecuente a introducción
de errores ortográficos o de dixitación a la hora de hacer las búsquedas,
de ahí la importancia de desarrollar herramientas como las que ahora acerca este
investigador ourensano.
El método de corrección
ortográfica elaborado por Otero fue integrado en la herramienta de etiquetación
morfosintáctica Mr. Tagoo, desarrollada en el grupo de investigación
Compiladores y Lenguajes de la Universidad de Vigo, a lo que también pertenece el autor
de la tesis. De este modo, se obtuvo una solución integral capaz de resolver de forma
eficiente los tres problemas principales que se presentan a la hora de procesar
las consultas en un sistema de recuperación de información, âla ambigüedad segmental, la ambigüedad
morfosintáctica y la corrección ortográfica contextualâ, explicó Otero.
El resultado de los experimentos, realizados en un entorno de recuperación de información
con consultas degradadas, ponen de manifiesto que âel empleo de técnicas de corrección
ortográfica tiene un impacto muy positivo sobre los sistemas de recuperación de información
â, frente a otras propuestas realizadas con anterioridad.
Además, como alternativa a la aplicación de algoritmos de corrección ortográfica,
se evaluó también âuna técnica de recuperación
de información basada en n-gramas de carácteres superpostos, que
presenta la ventaja de no requerir ningún recurso lingüístico extraâ, y ofreció
también unos excelentes resultados en entornos en las que existe un elevado
número de errores en las consultas.
Rúa Conxo de Arriba 49- 1 C
15706 Santiago de Compostela
Teléfono-fax:981 53 02 68














