SIBI! EM BREVE O RIUFPA ESTARÁ LIBERADO! AGUARDEM!
 

Abordagem para o desenvolvimento de um etiquetador de alta acurácia para o Português do Brasil

Imagem de Miniatura

Tipo

Data

21-10-2011

Orientador(es)

FAVERO, Eloi Luiz Lattes

Título da Revista

ISSN da Revista

Título de Volume

item.page.theme

Tipo de acesso

Acesso Abertoaccess-logo

Agência de fomento

Contido em

Citar como

DOMINGUES, Miriam Lúcia Campos Serra. Abordagem para o desenvolvimento de um etiquetador de alta acurácia para o Português do Brasil. 2011. 140 f. Orientador: Eloi Luiz Favero. Tese (Doutorado em Engenharia Elétrica) –Instituto de Tecnologia, Universidade Federal do Pará, Belém, 2011. Disponível em: http://repositorio.ufpa.br/jspui/handle/2011/2828. Acesso em:.

DOI

A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável.

browse.metadata.ispartofseries

Área de concentração

Linha de pesquisa

CNPq

CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::TEORIA ELETROMAGNETICA, MICROONDAS, PROPAGACAO DE ONDAS, ANTENAS

País

Brasil

Instituição

Universidade Federal do Pará

Sigla da Instituição

UFPA

Instituto

Instituto de Tecnologia

Programa

Programa de Pós-Graduação em Engenharia Elétrica

item.page.isbn

Fonte

item.page.dc.location.country

Fonte URI