Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”

MARTINS, Victor Simões

Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”

Arquivo(s)

Dissertacao_AplicacaoComparacaoTecnicas.pdf (2.61 MB)

Tipo

Dissertação

Data

01-02-2024

Autor(es)

MARTINS, Victor Simões

Afiliação

MPF - Ministério Público Federal

Orientador(es)

SILVA, Cleison Daniel

Tipo de acesso

Acesso Aberto

Citar como

MARTINS, Victor Simões. Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”. 2024. 78 f. Orientador: Cleison Daniel Silva Dissertação (Mestrado em Computação Aplicada) – Núcleo de Desenvolvimento Amazônico em Engenharia, Universidade Federal do Pará, Tucuruí, 2024. Disponível em: https://repositorio.ufpa.br/handle/2011/17390. Acesso em:.

A aplicação do Processamento de Linguagem Natural (PLN) e Inteligência Artifical (IA) no contexto jurídico brasileiro é uma área em franco crescimento, que pode alterar o modo e rotina de trabalho dos profissionais da área, dada a quantidade de texto gerada. Dentre as possibilidades de aplicação da PLN e IA há a classificação automática de documentos, que dentre outras, pode ser empregada na automatização do processo de digitalização de Processos Judiciais que ainda estão apenas em meio físico. Assim, este trabalho aplica e compara algoritmos de IA para a classificação de documentos jurídicos. Os algoritmos são divididos em duas Abordagens diferentes, a primeira (I) separa o processo representação computacional do texto do treinamento do classificador em si aplicando SVM e Regressão Logística em conjunto com representações computacionais baseadas em: TF-IDF, Word2Vec, FastText e BERT. A segunda Abordagem (II) realiza em conjunto a representação computacional dos documentos e o treinamento do classificador, e para tal são aplicados algoritmos de Deep Learning baseados em redes neurais recorrentes, especificamente o ULMFiT (Universal Language Model Fine-tuning) e HAN (Hierarchical Attention Networks). O Dataset estudado é denominado VICTOR, composto por documentos do Supremo Tribunal Federal (STF) do Brasil. A pesquisa conclui pela possibilidade de aplicação de ambas abordagens para a classificação de documentos jurídicos do Dataset empregado, bem como, apesar de menos custosos computacionalmente, os pipelines de classificação da Abordagem I que empregam a representação computacional do documento com TF-IDF apresentam resultados equivalentes aos pipelines que empregam Deep Learning. Além disso, a especialização da representação computacional dos documentos com os dados do dataset em estudo, melhoram o desempenho dos pipelines que empregam Word2Vec, FastText e ULMFiT, quando comparados aos pipelines que aplicam as representações genéricas desses, ou seja, modelos pré-treinados com dados do contexto geral.

Palavras-chave

Classificação de documentos Aprendizado de máquina Processamento de linguagem natural Documentos jurídico Documents classification Machine learning Natural language processing Legal documents

Área de concentração

COMPUTAÇÃO APLICADA

Linha de pesquisa

DESENVOLVIMENTO DE SISTEMAS

CNPq

CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO

País

Brasil

Instituição(ões)

Universidade Federal do Pará

Sigla(s) da(s) Instituição(ões)

UFPA

Instituto

Núcleo de Desenvolvimento Amazônico em Engenharia - NDAE/Tucuruí

Programa

Programa de Pós-Graduação em Computação Aplicada

Fonte URI

Disponível na internet via Sagitta

URI

https://repositorio.ufpa.br/handle/2011/17390

Coleção

Dissertações em Computação Aplicada (Mestrado) - PPCA/NDAE/Tucuruí

Página do item completo

Este item está licenciado sob uma Licença Creative Commons

Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”

Arquivo(s)

Tipo

Data

Autor(es)

Afiliação

Grau

Orientador(es)

Título da Revista

ISSN da Revista

Título de Volume

Tema

Eixo temático

Tipo de acesso

Agência de fomento

Contido em

Citar como

DOI

browse.metadata.ispartofseries

Palavras-chave

Área de concentração

Linha de pesquisa

CNPq

País

Instituição(ões)

Sigla(s) da(s) Instituição(ões)

Instituto

Programa

item.page.isbn

Fonte

item.page.dc.location.country

Fonte URI

URI

Coleção

Aplicação e comparação de técnicas de classificação automática de documentos: um estudo de caso com o dataset do domínio jurídico “Victor”

Arquivo(s)

Tipo

Data

Autor(es)

Afiliação

Grau

Orientador(es)

Título da Revista

ISSN da Revista

Título de Volume

Tema

Eixo temático

Tipo de acesso

Agência de fomento

Compartilhar

Contido em

Citar como

DOI

browse.metadata.ispartofseries

Palavras-chave

Área de concentração

Linha de pesquisa

CNPq

País

Instituição(ões)

Sigla(s) da(s) Instituição(ões)

Instituto

Programa

item.page.isbn

Fonte

item.page.dc.location.country

Fonte URI

URI

Coleção