Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”

Imagem de Miniatura

Data

01-02-2024

Título da Revista

ISSN da Revista

Título de Volume

item.page.theme

Tipo de acesso

Acesso Abertoaccess-logo

Agência de fomento

Contido em

Citar como

MARTINS, Victor Simões. Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”. 2024. 78 f. Orientador: Cleison Daniel Silva Dissertação (Mestrado em Computação Aplicada) – Núcleo de Desenvolvimento Amazônico em Engenharia, Universidade Federal do Pará, Tucuruí, 2024. Disponível em: https://repositorio.ufpa.br/jspui/handle/2011/17390. Acesso em:.

DOI

A aplicação do Processamento de Linguagem Natural (PLN) e Inteligência Artifical (IA) no contexto jurídico brasileiro é uma área em franco crescimento, que pode alterar o modo e rotina de trabalho dos profissionais da área, dada a quantidade de texto gerada. Dentre as possibilidades de aplicação da PLN e IA há a classificação automática de documentos, que dentre outras, pode ser empregada na automatização do processo de digitalização de Processos Judiciais que ainda estão apenas em meio físico. Assim, este trabalho aplica e compara algoritmos de IA para a classificação de documentos jurídicos. Os algoritmos são divididos em duas Abordagens diferentes, a primeira (I) separa o processo representação computacional do texto do treinamento do classificador em si aplicando SVM e Regressão Logística em conjunto com representações computacionais baseadas em: TF-IDF, Word2Vec, FastText e BERT. A segunda Abordagem (II) realiza em conjunto a representação computacional dos documentos e o treinamento do classificador, e para tal são aplicados algoritmos de Deep Learning baseados em redes neurais recorrentes, especificamente o ULMFiT (Universal Language Model Fine-tuning) e HAN (Hierarchical Attention Networks). O Dataset estudado é denominado VICTOR, composto por documentos do Supremo Tribunal Federal (STF) do Brasil. A pesquisa conclui pela possibilidade de aplicação de ambas abordagens para a classificação de documentos jurídicos do Dataset empregado, bem como, apesar de menos custosos computacionalmente, os pipelines de classificação da Abordagem I que empregam a representação computacional do documento com TF-IDF apresentam resultados equivalentes aos pipelines que empregam Deep Learning. Além disso, a especialização da representação computacional dos documentos com os dados do dataset em estudo, melhoram o desempenho dos pipelines que empregam Word2Vec, FastText e ULMFiT, quando comparados aos pipelines que aplicam as representações genéricas desses, ou seja, modelos pré-treinados com dados do contexto geral.

browse.metadata.ispartofseries

Área de concentração

País

Brasil

Instituição(ões)

Universidade Federal do Pará

Sigla(s) da(s) Instituição(ões)

UFPA

item.page.isbn

Fonte

item.page.dc.location.country

Fonte URI

Disponível na internet via Sagitta