Abordagem para o desenvolvimento de um etiquetador de alta acurácia para o Português do Brasil

DOMINGUES, Miriam Lúcia Campos Serra

Use este identificador para citar ou linkar para este item: https://repositorio.ufpa.br/jspui/handle/2011/2828

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	DOMINGUES, Miriam Lúcia Campos Serra	-
dc.date.accessioned	2012-06-01T13:28:30Z	-
dc.date.available	2012-06-01T13:28:30Z	-
dc.date.issued	2011-10-21	-
dc.identifier.citation	DOMINGUES, Miriam Lúcia Campos Serra. Abordagem para o desenvolvimento de um etiquetador de alta acurácia para o Português do Brasil. 2011. 140 f. Orientador: Eloi Luiz Favero. Tese (Doutorado em Engenharia Elétrica) –Instituto de Tecnologia, Universidade Federal do Pará, Belém, 2011. Disponível em: http://repositorio.ufpa.br/jspui/handle/2011/2828. Acesso em:.	pt_BR
dc.identifier.uri	http://repositorio.ufpa.br/jspui/handle/2011/2828	-
dc.description.abstract	Part-of-speech tagging is a basic task required by many applications of natural language processing, such as parsing and machine translation, and by applications of speech processing, for example, speech synthesis. This task consists of tagging words in a sentence with their grammatical categories. Although these applications require taggers with greater precision, the state of the art taggers still achieved accuracy of 96 to 97%. In this thesis, corpus and software resources are investigated for the development of a tagger with accuracy above of that of the state of the art for the Brazilian Portuguese language. Based on a hybrid solution that combines probabilistic tagging with rule-based tagging, the proposed thesis focuses on an exploratory study on the tagging method, size, quality, tag set, and the textual genre of the corpora available for training and testing, and evaluates the disambiguation of new or out-of-vocabulary words found in texts to be tagged. Four corpora were used in experiments: CETENFolha, Bosque CF 7.4, Mac-Morpho, and Selva Científica. The proposed tagging model was based on the use of the method of transformation-based learning (TBL) to which were added three strategies combined in a architecture that integrates the outputs (tagged texts) of two free tools, Treetagger and -TBL, with the modules that were added to the model. In the tagger model trained with Mac-Morpho corpus of journalistic genre, tagging accuracy rates of 98.05% on Mac-Morpho test set and 98.27% on Bosque CF 7.4 were achieved, both of journalistic genres. The performance of the proposed hybrid model tagger was also evaluated in the texts of Selva Científica Corpus, of the scientific genre. Needs of adjustments in the tagger and in corpora were identified and, as result, accuracy rates of 98.07% in Selva Científica, 98.06% in the text set of Mac-Morpho, and 98.30% in the texts of the Bosque CF 7.4 have been achieved. These results are significant because the accuracy rates achieved are higher than those of the state of the art, thus validating the proposed model to obtain a more reliable part-of-speech tagger.	pt_BR
dc.description.provenance	Submitted by Samira Prince (prince@ufpa.br) on 2012-06-01T13:27:50Z No. of bitstreams: 2 Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)	en
dc.description.provenance	Approved for entry into archive by Samira Prince(prince@ufpa.br) on 2012-06-01T13:28:30Z (GMT) No. of bitstreams: 2 Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5)	en
dc.description.provenance	Made available in DSpace on 2012-06-01T13:28:30Z (GMT). No. of bitstreams: 2 Tese_AbordagemDesenvolvimentoEtiquetador.pdf: 1889587 bytes, checksum: 3c065577821e8f688e91c0a70bb1340e (MD5) license_rdf: 23898 bytes, checksum: e363e809996cf46ada20da1accfcd9c7 (MD5) Previous issue date: 2011	en
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal do Pará	-
dc.rights	Acesso Aberto	-
dc.subject	Etiquetagem morfossintática	pt_BR
dc.subject	Processamento de linguagem natural (Computação)	pt_BR
dc.subject	Linguística computacional	pt_BR
dc.subject	Linguística de corpus	pt_BR
dc.subject	Part-of-speech tagging	en
dc.subject	Natural language processing	en
dc.subject	Computational linguistics	en
dc.subject	Corpus linguistics	en
dc.title	Abordagem para o desenvolvimento de um etiquetador de alta acurácia para o Português do Brasil	pt_BR
dc.type	Tese	pt_BR
dc.publisher.country	Brasil	-
dc.publisher.department	Instituto de Tecnologia	-
dc.publisher.initials	UFPA	-
dc.subject.cnpq	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::TEORIA ELETROMAGNETICA, MICROONDAS, PROPAGACAO DE ONDAS, ANTENAS	-
dc.contributor.advisor1	FAVERO, Eloi Luiz	-
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/1497269209026542	-
dc.creator.Lattes	http://lattes.cnpq.br/3537804199856734	-
dc.description.resumo	A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável.	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Engenharia Elétrica	-
Aparece nas coleções:	Teses em Engenharia Elétrica (Doutorado) - PPGEE/ITEC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Tese_AbordagemDesenvolvimentoEtiquetador.pdf		1,84 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciado sob uma Licença Creative Commons