Use este identificador para citar ou linkar para este item: https://repositorio.ufpa.br/jspui/handle/2011/12798
Tipo: Dissertação
Data do documento: 2-Dez-2019
Autor(es): GAIA, Antonio Sérgio Cruz
Primeiro(a) Orientador(a): VERAS, Adonney Allan de Oliveira
Título: Ferramenta baseada em cuckoo filter para remoção de redundância em dados de sequenciadores de segunda geração (NGS - next generation sequencing)
Citar como: GAIA, Antonio Sérgio Cruz. Ferramenta baseada em cuckoo filter para remoção de redundância em dados de sequenciadores de segunda geração (NGS - next generation sequencing). Orientador: Adonney Allan de Oliveira Veras. 2019. 108 f. Dissertação (Mestrado em Computação Aplicada) - Núcleo de Desenvolvimento Amazônico em Engenharia, Universidade Federal do Pará, Tucuruí, 2019. Disponível em: http://repositorio.ufpa.br:8080/jspui/handle/2011/12798. Acesso em:.
Resumo: As plataformas de sequenciamento de segunda geração também conhecidas como NGS – Next Generation Sequencing produzem grande volume de dados, o que demanda alta complexidade e custo computacional no processamento destes dados. Essas plataformas geram leituras duplicadas que surgem na preparação da biblioteca genômica e são introduzidas na etapa de amplificação por PCR (Polymerase Chain Reaction). Essa redundância de leituras pode aumentar os requisitos computacionais e tempo de processamento de análises subsequentes (por exemplo, a montagem de novo). Para reduzir o custo computacional dessas análises é necessário realizar a remoção dessas leituras do conjunto de dados do organismo sequenciado. Neste trabalho apresentamos o NGSReadsTreatment uma ferramenta computacional para a remoção de leituras duplicadas em conjuntos de dados pareados ou fragmentos. A entrada de dados para o NGSReadsTreatment consiste em leituras oriundas de qualquer plataforma de sequenciamento com o mesmo ou diferentes comprimentos. A sua engine utiliza a estrutura probabilística Cuckoo Filter para identificar e remover as leituras redundantes, a identificação é feita comparando as leituras entre si, assim, nenhum pré-requisito é necessário além do conjunto de leituras. A validação da ferramenta foi realizada utilizando-se conjuntos de dados reais e simulados. Para aferir a eficiência da ferramenta, a mesma foi comparada com outras ferramentas de remoção de redundância. Os resultados indicam a eficiência do NGSReadsTreatment, pois obteve-se melhor resultado, tanto na quantidade de redundâncias removidas quanto no uso de memória em todos os testes realizados. Desenvolvido em JAVA, o NGSReadsTreatment é compatível com os sistemas operacionais UNIX/Linux e Windows e dispoẽ de uma versão com interface gráfica para facilitar seu uso.
Abstract: The second-generation sequencing platforms, also known as NGS – Next Generation Sequencing, produce a great amount of data, which demands high complexity and computational cost in the processing of these data. These platforms generate duplicated reads that come from the preparation of the genomic library and are included in the amplification stage by PCR (Polymerase Chain Reaction). This redundancy can increase the computational requirements and processing time of subsequent analyses (for instance, de novo assembly). To reduce the computational cost of theses analyses, it is necessary to remove these reads from the data set of the sequenced organism. In this work, we present the NGSReadsTreatment, a computational tool to remove duplicated reads in paired-end or single-end data sets. The input for NGSReadsTreatment consists of reads from any sequencing platform with same or different read lengths. Its engine uses a Cuckoo Filter probabilistic structure to identify and remove redundant readings. The identification is done by comparing the reads among themselves, this way, not any pre-requisite is necessary besides the reads set. The validation of the tool was carried out by using a set of real and simulated data. To assess the efficiency of the tool, it was compared to other tools of redundancy removal. The results indicate the efficiency of the NGSReadsTreatment, for it produced the best outcome, both in the number of redundancies removed and the use of memory, in all tests done. Developed in JAVA, the NGSReadsTreatment is compatible with UNIX/Linux and Windows operating systems and has a version with a graphic interface to facilitate its use.
Palavras-chave: Software - Desenvolvimento
Estruturas de dados (Computação)
Cuckoo Filter
Redundância de strings
Sequenciamento de DNA
Área de Concentração: COMPUTAÇÃO APLICADA
Linha de Pesquisa: DESENVOLVIMENTO DE SISTEMAS
CNPq: CNPQ::ENGENHARIAS
País: Brasil
Instituição: Universidade Federal do Pará
Sigla da Instituição: UFPA
Instituto: Núcleo de Desenvolvimento Amazônico em Engenharia - NDAE/Tucuruí
Programa: Programa de Pós-Graduação em Computação Aplicada
Tipo de Acesso: Acesso Aberto
Fonte URI: Disponível na internet via site: https://ppca.propesp.ufpa.br/index.php/br/teses-e-dissertacoes/dissertacoes
Aparece nas coleções:Dissertações em Computação Aplicada (Mestrado) - PPCA/NDAE/Tucuruí

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Dissertacao_FerramentaBaseadaCuckoo.pdf2,49 MBAdobe PDFVisualizar/Abrir


Este item está licenciado sob uma Licença Creative Commons Creative Commons