PuntoGal

Nuestro boletín por e-mail cuenta ya con 2.886 lectores. ¡Suscríbete!
Código Cero

Diario de Noticias Tecnológicas de Galicia

Un investigador gallego mejora el sistema de recuperación de información digital

miércoles 27 de enero del 2010, por Raquel Noya | | Compartir

En los tiempos que corren, en los que prácticamente todas las instituciones, tanto públicas cómo personales, están digitalizando sus documentos y generando los nuevos en formato electrónico el fin de volver a ellos y a la información que contienen de la manera más rápida y eficaz posible, es necesario que los criterios de busca sean claros y concretos, algo que con nuestro idioma se hace una tarea más complicada que en otras lenguas debido al doble significado y la ambigüedad segmental de muchas palabras.
En este contexto, el investigador de la Escuela Superior de Ingeniería Informática de la Universidad de Vigo, Juan Otero, viene de desarrollar para su tesis de doctorado un sistema de corrección ortográfica que soluciona los problemas más importantes a la hora de procesar las consultas en un sistema de recuperación de información..
La principal aportación de su trabajo consiste, segundo indicó el propio investigador, “en la creación de un método que resulta mucho más eficiente que los métodos globales clásicos”.
Bajo el título Análisis léxico fuerte, Otero aborda el desarrollo y la evaluación de técnicas de corrección ortográfica fuerte y su aplicación en entornos de recuperación de información en las que las consultas presentan errores.
Los sistemas de recuperación de información permiten localizar aquellos documentos de una colección que satisfagan los requerimientos de un usuario, expresados en forma de consultas en lenguaje natural, pero es frecuente a introducción de errores ortográficos o de dixitación a la hora de hacer las búsquedas, de ahí la importancia de desarrollar herramientas como las que ahora acerca este investigador ourensano.
El método de corrección ortográfica elaborado por Otero fue integrado en la herramienta de etiquetación morfosintáctica Mr. Tagoo, desarrollada en el grupo de investigación Compiladores y Lenguajes de la Universidad de Vigo, a lo que también pertenece el autor de la tesis. De este modo, se obtuvo una solución integral capaz de resolver de forma eficiente los tres problemas principales que se presentan a la hora de procesar las consultas en un sistema de recuperación de información, “la ambigüedad segmental, la ambigüedad morfosintáctica y la corrección ortográfica contextual”, explicó Otero.
El resultado de los experimentos, realizados en un entorno de recuperación de información con consultas degradadas, ponen de manifiesto que “el empleo de técnicas de corrección ortográfica tiene un impacto muy positivo sobre los sistemas de recuperación de información ”, frente a otras propuestas realizadas con anterioridad. Además, como alternativa a la aplicación de algoritmos de corrección ortográfica, se evaluó también “una técnica de recuperación de información basada en n-gramas de carácteres superpostos, que presenta la ventaja de no requerir ningún recurso lingüístico extra”, y ofreció también unos excelentes resultados en entornos en las que existe un elevado número de errores en las consultas.

 

Grupo Código Cero Comunicación, S.L.
Rúa Conxo de Arriba 49- 1 C
15706 Santiago de Compostela
Teléfono-fax:981 53 02 68

 RSS