Logo do repositório
Tudo no RIUFPA
Documentos
Contato
Sobre
Ajuda
  • Português do Brasil
  • English
  • Español
  • Français
Entrar
Novo usuário? Clique aqui para cadastrar. Esqueceu sua senha?
  1. Início
  2. Pesquisar por Assunto

Navegando por Assunto "Natural language processing"

Filtrar resultados informando as primeiras letras
Agora exibindo 1 - 3 de 3
  • Resultados por página
  • Opções de Ordenação
  • Carregando...
    Imagem de Miniatura
    TeseAcesso aberto (Open Access)
    Abordagem para o desenvolvimento de um etiquetador de alta acurácia para o Português do Brasil
    (Universidade Federal do Pará, 2011-10-21) DOMINGUES, Miriam Lúcia Campos Serra; FAVERO, Eloi Luiz; http://lattes.cnpq.br/1497269209026542
    A etiquetagem morfossintática é uma tarefa básica requerida por muitas aplicações de processamento de linguagem natural, tais como análise gramatical e tradução automática, e por aplicações de processamento de fala, por exemplo, síntese de fala. Essa tarefa consiste em etiquetar palavras em uma sentença com as suas categorias gramaticais. Apesar dessas aplicações requererem etiquetadores que demandem maior precisão, os etiquetadores do estado da arte ainda alcançam acurácia de 96 a 97%. Nesta tese, são investigados recursos de corpus e de software para o desenvolvimento de um etiquetador com acurácia superior à do estado da arte para o português brasileiro. Centrada em uma solução híbrida que combina etiquetagem probabilística com etiquetagem baseada em regras, a proposta de tese se concentra em um estudo exploratório sobre o método de etiquetagem, o tamanho, a qualidade, o conjunto de etiquetas e o gênero dos corpora de treinamento e teste, além de avaliar a desambiguização de palavras novas ou desconhecidas presentes nos textos a serem etiquetados. Quatro corpora foram usados nos experimentos: CETENFolha, Bosque CF 7.4, Mac-Morpho e Selva Científica. O modelo de etiquetagem proposto partiu do uso do método de aprendizado baseado em transformação(TBL) ao qual foram adicionadas três estratégias, combinadas em uma arquitetura que integra as saídas (textos etiquetados) de duas ferramentas de uso livre, o TreeTagger e o -TBL, com os módulos adicionados ao modelo. No modelo de etiquetador treinado com o corpus Mac-Morpho, de gênero jornalístico, foram obtidas taxas de acurácia de 98,05% na etiquetagem de textos do Mac-Morpho e 98,27% em textos do Bosque CF 7.4, ambos de gênero jornalístico. Avaliou-se também o desempenho do modelo de etiquetador híbrido proposto na etiquetagem de textos do corpus Selva Científica, de gênero científico. Foram identificadas necessidades de ajustes no etiquetador e nos corpora e, como resultado, foram alcançadas taxas de acurácia de 98,07% no Selva Científica, 98,06% no conjunto de teste do Mac-Morpho e 98,30% em textos do Bosque CF 7.4. Esses resultados são significativos, pois as taxas de acurácia alcançadas são superiores às do estado da arte, validando o modelo proposto em busca de um etiquetador morfossintático mais confiável.
  • Carregando...
    Imagem de Miniatura
    DissertaçãoAcesso aberto (Open Access)
    Algoritmos para seleção de metodologias de avaliação de softwares educacionais
    (Universidade Federal do Pará, 2023-09-26) CASTILHO, Janize Monteiro de; FARIAS, Fabricio de Souza; http://lattes.cnpq.br/1521079293982268; https://orcid.org/0000-0003-4344-6953
    Com o propósito de auxiliar nos processos de ensino-aprendizagem, muitos professores têm decidido utilizar Software Educacional (SE) em suas aulas. No entanto, para escolher um SE como recurso didático é fundamental avaliar a metodologia empregada pelo professor, uma vez que esta precisa ser pedagogicamente e funcionalmente apropriada para suprir as necessidades e objetivos presentes em sala de aula. Além disso, é necessário fazer uso de mecanismos que avaliem o SE para verificar sua adequação aos objetivos do professor. Atualmente, verifica-se que existem diversas técnicas e metodologias disponíveis na literatura para avaliação de SE, no entanto ainda não há uma solução para tomada de decisão e escolha de um SE que atenda plenamente os perfis de usuários e suas diferentes necessidades a serem atendidas por determinada aplicação metodológica, o que gera a demanda oriunda do desenvolvimento de soluções feitas sob demanda e com baixa capacidade de generalização em termos de aplicação prática. Desta forma, são disponibilizadas soluções sem padronização e que diversas vezes não levam em consideração critérios relativos à qualidade, escalas de mensuração e procedimentos de verificação do SE. Essa heterogeneidade dificulta muito a avaliação de um SE, uma vez que a subjetividade na escolha da metodologia de avaliação de SE pode produzir resultados inconclusivos. Diante deste contexto, esse trabalho criou um modelo de qualidade que considera 24 metodologias de avaliação de SE disponíveis na literatura e objetiva automatizar a escolha da metodologia de avaliação de SE a partir da aplicação de algoritmos de inteligência artificial (IA), reduzindo a possibilidade de subjetividade no processo de escolha. Durante a investigação foram utilizados processamento de linguagem natural (PLN), Random Forest, k-Nearest Neighbors e Redes Neurais Artificiais. Em todos os cenários de pesquisa, o processamento de linguagem natural foi combinado com os demais algoritmos, oferecendo uma solução baseada na aplicação de algoritmos de IA híbridos e fracamente acoplados, com vistas na melhoria dos resultados. Deste modo, sendo realizadas simulações considerando PLN+Random Forest, PLN+k-Nearest Neighbors e PLN+Redes Neurais Artificiais. Após as simulações, os resultados indicam que é possível determinar a melhor metodologia de avaliação de SE utilizando algoritmos de IA, sendo obtido os melhores resultados com a combinação de PLN+Random Forest.
  • Carregando...
    Imagem de Miniatura
    DissertaçãoAcesso aberto (Open Access)
    Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”
    (Universidade Federal do Pará, 2024-02-01) MARTINS, Victor Simões; SILVA, Cleison Daniel; http://lattes.cnpq.br/1445401605385329; https://orcid.org/0000-0001-8280-2928
    A aplicação do Processamento de Linguagem Natural (PLN) e Inteligência Artifical (IA) no contexto jurídico brasileiro é uma área em franco crescimento, que pode alterar o modo e rotina de trabalho dos profissionais da área, dada a quantidade de texto gerada. Dentre as possibilidades de aplicação da PLN e IA há a classificação automática de documentos, que dentre outras, pode ser empregada na automatização do processo de digitalização de Processos Judiciais que ainda estão apenas em meio físico. Assim, este trabalho aplica e compara algoritmos de IA para a classificação de documentos jurídicos. Os algoritmos são divididos em duas Abordagens diferentes, a primeira (I) separa o processo representação computacional do texto do treinamento do classificador em si aplicando SVM e Regressão Logística em conjunto com representações computacionais baseadas em: TF-IDF, Word2Vec, FastText e BERT. A segunda Abordagem (II) realiza em conjunto a representação computacional dos documentos e o treinamento do classificador, e para tal são aplicados algoritmos de Deep Learning baseados em redes neurais recorrentes, especificamente o ULMFiT (Universal Language Model Fine-tuning) e HAN (Hierarchical Attention Networks). O Dataset estudado é denominado VICTOR, composto por documentos do Supremo Tribunal Federal (STF) do Brasil. A pesquisa conclui pela possibilidade de aplicação de ambas abordagens para a classificação de documentos jurídicos do Dataset empregado, bem como, apesar de menos custosos computacionalmente, os pipelines de classificação da Abordagem I que empregam a representação computacional do documento com TF-IDF apresentam resultados equivalentes aos pipelines que empregam Deep Learning. Além disso, a especialização da representação computacional dos documentos com os dados do dataset em estudo, melhoram o desempenho dos pipelines que empregam Word2Vec, FastText e ULMFiT, quando comparados aos pipelines que aplicam as representações genéricas desses, ou seja, modelos pré-treinados com dados do contexto geral.
Logo do RepositórioLogo do Repositório
Nossas Redes:

DSpace software copyright © 2002-2025 LYRASIS

  • Configurações de Cookies
  • Política de Privacidade
  • Termos de Uso
  • Entre em Contato
Brasão UFPA