PuntoGal

O nosso boletim por e-mail conta já com 2.886 leitores. Subscreve-te!
Código Cero

Diário de Novas Tecnológicas da Galiza

Um investigador galego melhora o sistema de recuperação de informação digital

quarta-feira 27 de Janeiro do 2010, por Raquel Noya | | Partilhar

Nos tempos que correm, nos que praticamente todas as instituições, tanto públicas como privadas, estão a dixitalizar os seus documentos e gerando os novos em formato electrónico o fim de voltar a eles e à informação que contêm da maneira mais rápida e eficaz possível, é necessário que os critérios de busca sejam claros e concretos, algo que com o nosso idioma faz-se uma tarefa mais complicada que noutras línguas devido ao duplo significado e a ambigüidade segmental de muitas palavras.
Neste contexto, o investigador da Escola Superior de Engenharia Informática da Universidade de Vigo, Juan Otero, vem de desenvolver para a sua tese de doutoramento um sistema de correcção ortográfica que soluciona os problemas mais importantes à hora de processar as consultas num sistema de recuperação de informação.
A principal achega do seu trabalho consiste, segundo indicou o próprio investigador, “na criação de um método que resulta bem mais eficiente que os métodos globais clássicos”.
Baixo o título Análise léxico robusto, Otero aborda o desenvolvimento e a avaliação de técnicas de correcção ortográfica robusta e a sua aplicação em contornas de recuperação de informação nas que as consultas apresentam erros.
Os sistemas de recuperação de informação permitem localizar aqueles documentos de uma colecção que satisfaçam os requirimentos de um utente, expressados em forma de consultas em linguagem natural, mas é frequente a introdução de erros ortográficos ou de digitação à hora de fazer as procuras, daí a importância de desenvolver ferramentas como as que agora achega este investigador ourensão.
O método de correcção ortográfica elaborado por Otero foi integrado na ferramenta de etiquetación morfosintáctica Mr. Tagoo, desenvolvida no grupo de investigação Compiladores e Linguagens da Universidade de Vigo, ao que também pertence o autor da tese. Deste modo, obteve-se uma solução integral capaz de resolver de forma eficiente os três problemas principais que se apresentam à hora de processar as consultas num sistema de recuperação de informação, “a ambigüidade segmental, a ambigüidade morfosintáctica e a correcção ortográfica contextual”, explicou Otero.
O resultado dos experimentos, realizados numa contorna de recuperação de informação com consultas degradadas, põem de manifesto que “o emprego de técnicas de correcção ortográfica tem um impacto muito positivo sobre os sistemas de recuperação de informação”, face a outras propostas realizadas com anterioridade. Ademais, como alternativa à aplicação de algoritmos de correcção ortográfica, avaliou-se também “uma técnica de recuperação de informação baseada em n-gramas de caracteres superpostos, que apresenta a vantagem de não requerer nenhum recurso linguístico extra”, e ofereceu também uns excelentes resultados em contornas nas que existe um elevado número de erros nas consultas.

 

Grupo Código Zero Comunicação, S.L.
Rua Conxo de Arriba 49- 1 C
15706 Santiago de Compostela
Telefone-fax:981 53 02 68

 RSS