Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”

Carregando...
Imagem de Miniatura

Data

2024-02-01

Título da Revista

ISSN da Revista

Título de Volume

item.page.theme

Editora(s)

Universidade Federal do Pará

Tipo de acesso

Acesso Abertoaccess-logo

Contido em

Citação

MARTINS, Victor Simões. Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”. 2024. 78 f. Orientador: Cleison Daniel Silva Dissertação (Mestrado em Computação Aplicada) – Núcleo de Desenvolvimento Amazônico em Engenharia, Universidade Federal do Pará, Tucuruí, 2024. Disponível em: https://repositorio.ufpa.br/jspui/handle/2011/17390. Acesso em:.

DOI

A aplicação do Processamento de Linguagem Natural (PLN) e Inteligência Artifical (IA) no contexto jurídico brasileiro é uma área em franco crescimento, que pode alterar o modo e rotina de trabalho dos profissionais da área, dada a quantidade de texto gerada. Dentre as possibilidades de aplicação da PLN e IA há a classificação automática de documentos, que dentre outras, pode ser empregada na automatização do processo de digitalização de Processos Judiciais que ainda estão apenas em meio físico. Assim, este trabalho aplica e compara algoritmos de IA para a classificação de documentos jurídicos. Os algoritmos são divididos em duas Abordagens diferentes, a primeira (I) separa o processo representação computacional do texto do treinamento do classificador em si aplicando SVM e Regressão Logística em conjunto com representações computacionais baseadas em: TF-IDF, Word2Vec, FastText e BERT. A segunda Abordagem (II) realiza em conjunto a representação computacional dos documentos e o treinamento do classificador, e para tal são aplicados algoritmos de Deep Learning baseados em redes neurais recorrentes, especificamente o ULMFiT (Universal Language Model Fine-tuning) e HAN (Hierarchical Attention Networks). O Dataset estudado é denominado VICTOR, composto por documentos do Supremo Tribunal Federal (STF) do Brasil. A pesquisa conclui pela possibilidade de aplicação de ambas abordagens para a classificação de documentos jurídicos do Dataset empregado, bem como, apesar de menos custosos computacionalmente, os pipelines de classificação da Abordagem I que empregam a representação computacional do documento com TF-IDF apresentam resultados equivalentes aos pipelines que empregam Deep Learning. Além disso, a especialização da representação computacional dos documentos com os dados do dataset em estudo, melhoram o desempenho dos pipelines que empregam Word2Vec, FastText e ULMFiT, quando comparados aos pipelines que aplicam as representações genéricas desses, ou seja, modelos pré-treinados com dados do contexto geral.

Agência de Fomento

browse.metadata.ispartofseries

item.page.isbn

Fonte

item.page.dc.location.country

Citação

MARTINS, Victor Simões. Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”. 2024. 78 f. Orientador: Cleison Daniel Silva Dissertação (Mestrado em Computação Aplicada) – Núcleo de Desenvolvimento Amazônico em Engenharia, Universidade Federal do Pará, Tucuruí, 2024. Disponível em: https://repositorio.ufpa.br/jspui/handle/2011/17390. Acesso em:.