Um investigador galego melhora o sistema de recuperação de informação digital
quarta-feira 27 de Janeiro do 2010, por Raquel | | Partilhar
Nos tempos que correm, nos que praticamente
todas as instituições, tanto públicas como privadas, estão a dixitalizar os seus
documentos e gerando os novos em formato electrónico o fim de voltar a eles e à
informação que contêm da maneira mais rápida e eficaz possível, é necessário
que os critérios de busca sejam claros e concretos, algo que com o nosso idioma faz-se
uma tarefa mais complicada que noutras línguas devido ao duplo significado e a
ambigüidade segmental de muitas palavras.
Neste contexto, o investigador da Escola
Superior de Engenharia Informática da Universidade de Vigo, Juan Otero, vem de desenvolver
para a sua tese de doutoramento um
sistema de correcção ortográfica que soluciona os problemas mais
importantes à hora de processar as consultas num sistema de recuperação de informação.
A principal achega do seu trabalho consiste, segundo indicou o próprio
investigador, âna criação de um método que
resulta bem mais eficiente que os métodos globais clássicosâ.
Baixo o título Análise léxico robusto,
Otero aborda o desenvolvimento e a avaliação de técnicas de correcção
ortográfica robusta e a sua aplicação em contornas de recuperação de informação nas que as consultas apresentam erros.
Os sistemas de recuperação de informação permitem localizar aqueles
documentos de uma colecção que satisfaçam os requirimentos de um utente,
expressados em forma de consultas em linguagem natural, mas é frequente a introdução
de erros ortográficos ou de digitação à hora de fazer as procuras,
daí a importância de desenvolver ferramentas como as que agora achega este
investigador ourensão.
O método de correcção ortográfica elaborado por Otero foi integrado na ferramenta de etiquetación
morfosintáctica Mr. Tagoo, desenvolvida no grupo de investigação
Compiladores e Linguagens da Universidade de Vigo, ao que também pertence o autor
da tese. Deste modo, obteve-se uma solução integral capaz de resolver de forma eficiente os três problemas principais que se apresentam à hora de processar
as consultas num sistema de recuperação de informação, âa ambigüidade segmental, a ambigüidade
morfosintáctica e a correcção ortográfica contextualâ, explicou Otero.
O resultado dos experimentos, realizados numa contorna de recuperação de informação com consultas degradadas, põem de manifesto que âo emprego de técnicas de correcção
ortográfica tem um impacto muito positivo sobre os sistemas de recuperação de informaçãoâ, face a outras propostas realizadas com anterioridade.
Ademais, como alternativa à aplicação de algoritmos de correcção ortográfica,
avaliou-se também âuma técnica de recuperação de informação baseada em n-gramas de caracteres superpostos, que
apresenta a vantagem de não requerer nenhum recurso linguístico extraâ, e
ofereceu também uns excelentes resultados em contornas nas que existe um elevado
número de erros nas consultas.
Rua Conxo de Arriba 49- 1 C
15706 Santiago de Compostela
Telefone-fax:981 53 02 68














