Conversão grafema-fone para um sistema de reconhecimento de voz com suporte a grandes vocabulários para o português brasileiro

HOSN, Chadia Nadim Aboul

Use este identificador para citar ou linkar para este item: https://repositorio.ufpa.br/jspui/handle/2011/1648

Tipo:	Dissertação
Data do documento:	12-Jun-2006
Autor(es):	HOSN, Chadia Nadim Aboul
Primeiro(a) Orientador(a):	KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha
Título:	Conversão grafema-fone para um sistema de reconhecimento de voz com suporte a grandes vocabulários para o português brasileiro
Título(s) alternativo(s):	Conversion grapheme-phone for a system of recognition of voice with support the great vocabularies for the Brazilian Portuguese
Citar como:	HOSN, Chadia Nadim Aboul. Conversão grafema-fone para um sistema de reconhecimento de voz com suporte a grandes vocabulários para o português brasileiro. Orientador: Aldebaro Barreto da Rocha Klautau Júnior. 2006. 77 f. Dissertação (Mestrado em Engenharia Elétrica) - Instituto de Tecnologia, Universidade Federal do Pará, Belém, 2006. Disponível em: http://www.repositorio.ufpa.br/jspui/handle/2011/1648. Acesso em:.
Resumo:	O processamento de voz tornou-se uma tecnologia cada vez mais baseada na modelagem automática de vasta quantidade de dados. Desta forma, o sucesso das pesquisas nesta área está diretamente ligado a existência de corpora de domínio público e outros recursos específicos, tal como um dicionário fonético. No Brasil, ao contrário do que acontece para a língua inglesa, por exemplo, não existe atualmente em domínio público um sistema de Reconhecimento Automático de Voz (RAV) para o Português Brasileiro com suporte a grandes vocabulários. Frente a este cenário, o trabalho tem como principal objetivo discutir esforços dentro da iniciativa FalaBrasil [1], criada pelo Laboratório de Processamento de Sinais (LaPS) da UFPA, apresentando pesquisas e softwares na área de RAV para o Português do Brasil. Mais especificamente, o presente trabalho discute a implementação de um sistema de reconhecimento de voz com suporte a grandes vocabulários para o Português do Brasil, utilizando a ferramenta HTK baseada em modelo oculto de Markov (HMM) e a criação de um módulo de conversão grafema-fone, utilizando técnicas de aprendizado de máquina.
Abstract:	Speech processing has become a data-driven technology. Hence, the success of research in this area is linked to the existence of public corpora and associated resources, as a phonetic dictionary. In contrast to other languages such as English, one cannot find, in public domain, a Large Vocabulary Continuos Speech Recognition (LVCSR) System for Brazilian Portuguese. This work discusses some efforts within the FalaBrasil initiative [1], developed by researchers, teachers and students of the Signal Processing Laboratory (LaPS) at UFPA, providing an overview of the research and softwares related to Automatic Speech Recognition (ASR) for Brazilian Portuguese. More specifically, the present work discusses the implementation of a large vocabulary ASR for Brazilian Portuguese using the HTK software, which is based on hidden Markov models (HMM). Besides, the work discusses the implementation of a grapheme-phoneme conversion module using machine learning techniques.
Palavras-chave:	Conversão grafema-fonema Reconhecimento automático da voz Modelos ocultos de Markov Aprendizado de máquina Grapheme-phoneme conversion Automatic speech recognition Hidden Markov models Machine learning
CNPq:	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES
País:	Brasil
Instituição:	Universidade Federal do Pará
Sigla da Instituição:	UFPA
Instituto:	Instituto de Tecnologia
Programa:	Programa de Pós-Graduação em Engenharia Elétrica
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	Dissertações em Engenharia Elétrica (Mestrado) - PPGEE/ITEC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Dissertacao_ConversaoGrafemaFone.pdf		1,63 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciado sob uma Licença Creative Commons