Navegando por Assunto "Data mining"

Agora exibindo 1 - 18 de 18

Acesso aberto (Open Access)
Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLID
(Universidade Federal do Pará, 2011-07-01) LOBATO, Fábio Manoel França; SANTANA, Ádamo Lima de; http://lattes.cnpq.br/4073088744952858
Os sequenciadores de nova geração como as plataformas Illumina e SOLiD geram uma grande quantidade de dados, comumente, acima de 10 Gigabytes de arquivos-texto. Particularmente, a plataforma SOLiD permite o sequenciamento de múltiplas amostras em uma única corrida (denominada de corrida multiplex) por meio de um sistema de marcação chamado Barcode. Esta funcionalidade requer um processo computacional para separação dos dados por amostra, pois, o sequenciador fornece a mistura de todas amostras em uma única saída. Este processo deve ser seguro a fim de evitar eventuais embaralhamentos que possam prejudicar as análises posteriores. Neste contexto, o presente trabalho propõe desenvolvimento de um modelo probabilístico capaz de caracterizar sistema de marcação utilizado em sequenciamentos multiplex. Os resultados obtidos corroboraram a suficiência do modelo obtido, o qual permite, dentre outras coisas, identificar faltas em algum passo do processo de sequenciamento; adaptar e desenvolver de novos protocolos para preparação de amostras, além de atribuir um Grau de Confiança aos dados gerados e guiar um processo de filtragem que respeite as características de cada sequenciamento, não descartando sequências úteis de forma arbitrária.
Acesso aberto (Open Access)
Agrupamento de fornos de redução de alumínio utilizando os algoritmos Affinity Propagation, Mapa auto–organizável de Kohonen (som), Fuzzy C–Means e K–Means
(Universidade Federal do Pará, 2017-10-11) LIMA, Flávia Ayana Nascimento de; CARDOSO, Diego Lisboa; http://lattes.cnpq.br/0507944343674734; OLIVEIRA, Roberto Célio Limão de; http://lattes.cnpq.br/4497607460894318
O constante avanço da tecnologia requer medidas que beneficiem as indústrias em busca do lucro e da competitividade. Em relação à indústria de minerais, o processo de fundição de alumínio geralmente possui grande número de células, também chamado de forno ou cuba de redução, produzindo alumínio em um procedimento contínuo e complexo. Um monitoramento analítico é essencial para aumentar a vantagem competitiva dessa indústria, por exemplo, durante a operação, algumas células compartilham comportamentos semelhantes às outras, formando grupos ou clusters de células. Esses clusters dependem de padrões de dados geralmente implícitos ou invisíveis para a operação, mas que podem ser encontrados por meio da análise de dados. Neste trabalho, são apresentadas quatro técnicas de agrupamento, o Affinity Propagation, o mapa auto–organizável de Kohonen (SOM), o algoritmo difuso Fuzzy C–Means (FCM) e o K–Means. Essas técnicas são utilizadas para encontrar e agrupar as células que apresentam comportamentos semelhantes, de acordo com sete variáveis tais como as que consiste no processo de redução do alumínio. Este trabalho visa trazer o benefício do agrupamento, principalmente pela simplificação da análise da linha de produção do alumínio, uma vez que um grande número de células pode se resumir em um único grupo, o que pode fornecer informações mais compactas para o controle e a modelagem dos dados. Este benefício de identificar os dados que possuem características semelhantes e agrupá–los faz com que a análise dos grupos se torne mais simples para quem irá manusear esses dados futuramente. Nesse trabalho de dissertação também será feito a identificação da quantidade ideal de grupo em cada técnica utilizada.
Acesso aberto (Open Access)
Análise dos fatores relacionados ao desempenho das escolas no IDEB: estudo de caso no Estado do Pará
(Universidade Federal do Pará, 2022-02-11) GOMES, Vitor Hugo Macedo; SILVA, Marcelino Silva da
A complexidade em identificar todos os fatores que estão relacionados ao desempenho das escolas no Índice de Desenvolvimento da Educação Básica (IDEB) é enorme. Neste estudo foram analisados três bases de dados com o objetivo de identificar diversos fatores em que há correlação com o baixo desempenho nas escolas estaduais no estado do Pará. Inicialmente observou-se por meio das análises que142 municípios do estado estavam com risco de descumprimento da meta no que se refere a diminuição da evasão escolar e, consequentemente, afetando o desempenho das escolas. Este estudo utilizou técnicas de mineração de dados educacionais para primeiramente selecionar variáveis com características estruturais no ambiente de ensino, comparando as escolas com maior e menor desempenho no IDEB identificando possíveis relações com a evasão escolar. Em seguida, foi utilizado o algoritmo Randon Florest (RF), para selecionar as variáveis mais importantes e que impactam de forma direta ou indireta no índice do IDEB. Após a fase de seleção, as variáveis foram submetidas ao algoritmo de Regressão Linear (RL). Os resultados revelam que no grupo de escolas abaixo da média no IDEB, 60,6% residem em famílias com rendimentos até um salário-mínimo, enquanto que 37,5% possuem rendimentos acima de um salário-mínimo. No grupo de escolas acima da média no IDEB, 42,4% residem em famílias com rendimentos até um salário-mínimo, enquanto que 51,6% residem em famílias com rendimentos acima de um salário-mínimo. Evidenciando que a renda das famílias está relacionada à melhores notas no IDEB e, consequentemente, melhores condições de infraestrutura. Os resultados também apontam que os rendimentos das famílias dos estudantes estão relacionados a renda média das famílias nos municípios analisados. Em seguida foram utilizadas variáveis relacionadas ao rendimento dos pais para identificar possível relação entre a escolaridade dos pais e desempenho dos alunos. Por fim, as análises se encerram com a análise do impacto do Índice de Desenvolvimento Humano Municipal (IDHM) nas variáveis que relacionadas à nota dos alunos, qualificação dos professores e experiencia vivenciada pelos professores no ambiente escolar. Os resultados revelam que há correlação entre o índice e o aprendizado dos estudantes em sala de aula. Por outro lado, melhores notas no IDEB, estão diretamente relacionadas a adequação do currículo à disciplina ministrada, além de boas condições de trabalho para os professores.
Acesso aberto (Open Access)
Análise dos impactos harmônicos em uma indústria de manufatura de eletroeletrônicos utilizando árvores de decisão
(Universidade Federal do Pará, 2015-03-27) NOGUEIRA, Rildo de Mendonça; SANTANA, Ádamo Lima de; http://lattes.cnpq.br/4073088744952858; TOSTES, Maria Emília de Lima; http://lattes.cnpq.br/4197618044519148
A Qualidade da Energia Elétrica (QEE) é constantemente alvo de vários estudos, principalmente os que estão relacionados com o setor de produção industrial, onde estão concentradas grandes cargas dos sistemas elétricos. Com a evolução dos processos de produção industrial e a inserção de novas tecnologias no setor industrial, foram adicionadas grandes quantidades de equipamentos eletrônicos que são fontes geradoras de perturbações nos sistemas, e que alteram a qualidade do produto “energia elétrica”. Com o intuito de minimizar os transtornos decorrentes da baixa qualidade da energia e os prejuízos causados para as concessionárias e consumidores (industriais, residenciais e comerciais), foi desenvolvido no Brasil, os procedimentos de distribuição no sistema elétrico nacional (PRODIST), criado e desenvolvido pela Agencia Nacional de Energia Elétrica (ANEEL). O PRODIST tem o objetivo de normatizar e padronizar as atividades relacionadas à distribuição de energia, incluindo os padrões de qualidade do produto. O presente trabalho foi concentrado e realizado em uma empresa do polo industrial de Manaus (PIM), que possui um sistema elétrico trifásico de baixa tensão, com objetivo de monitorar a qualidade do produto “energia elétrica” através do conteúdo harmônico gerado pela rede elétrica envolvida na manufatura. Os dados gerados foram submetidos a uma técnica de inteligência computacional (IC), com uso do processo de descoberta de extração de conhecimento em bases de dados ou KDD. O objetivo do trabalho é analisar, identificar e diagnosticar os pontos de acoplamento e processos que apresentam conteúdos harmônicos representativos para o sistema, podendo-se assim verificar o quanto cada processo analisado pode estar afetando a qualidade da energia dentro da própria indústria e no ponto de acoplamento com a concessionária, através das gerações de distorções harmônicas, evitando assim, penalizações e outras sanções regulamentadas.
Acesso aberto (Open Access)
Análise dos impactos harmônicos na qualidade da energia elétrica utilizando kdd – estudo de caso na Universidade Federal do Pará
(Universidade Federal do Pará, 2019-03-18) SILVA, Waterloo Ferreira da; TOSTES, Maria Emília de Lima; http://lattes.cnpq.br/4197618044519148
O presente trabalho apresenta uma análise de dados relacionados a Qualidade da Energia Elétrica (QEE), a crescente utilização de cargas não lineares, equipamentos baseados na eletrônica de potência nas instalações residenciais, comerciais e industriais estão contribuindo para o aumento significativo dos níveis de distorção harmônica de corrente e, consequentemente de tensão, conforme observado no sistema brasileiro de distribuição de energia elétrica. Foi desenvolvido no Brasil, os procedimentos de distribuição no sistema elétrico nacional (PRODIST), criado e desenvolvido pela Agencia Nacional de Energia Elétrica (ANEEL). O PRODIST tem o objetivo de normatizar e padronizar as atividades relacionadas à distribuição de energia, incluindo os padrões de qualidade do produto. Com objetivo de monitorar a qualidade do produto “energia elétrica” através do conteúdo harmônico gerado pela rede elétrica da instituição, propõe-se uma metodologia para as analise utilizando técnicas de inteligência computacional (IC) e mineração de dados para análise dos dados coletados por medidores de qualidade de energia instalados nos principais setores desta instituição, e no ponto de acoplamento comum do consumidor e consequentemente estabelecer a relação entre as correntes harmônicas das cargas não lineares com a distorção harmônica no ponto de acoplamento comum. Aplicou-se o processo do KDD, incluindo coleta, seleção, limpeza, integração, transformação e redução, mineração, interpretação e avaliação dos dados, com objetivo de monitorar a qualidade do produto “energia elétrica” através do conteúdo harmônico gerado pela rede elétrica da instituição de ensino. Na fase de mineração de dados “Data Mining”, utilizou-se o classificador Naive Bayes. Os resultados obtidos evidenciaram que o processo KDD possui aplicabilidade na análise da Distorção Harmônica Total de Tensão no Ponto de Acoplamento Comum podendo ser aplicado em qualquer área comercial, residencial e industrial.
Acesso aberto (Open Access)
Uma arquitetura de pré-processamento para análise de sentimento em mídias sociais em português brasileiro
(Universidade Federal do Pará, 2018-08-23) CIRQUEIRA, Douglas da Rocha; SANTANA, Ádamo Lima de; http://lattes.cnpq.br/4073088744952858
A Web 2.0 e a evolução nas Tecnologias da Informação e Comunicação, têm impulsionado novos meios de interação e relacionamento. Neste contexto, as Redes Sociais Online (RSO) são um exemplo, como plataformas que permitem a interação e o compartilhamento de informações entre pessoas. Além disso, é possível observar que RSO passaram a ser adotadas como canal de desabafo de consumidores, por meio de opiniões sobre produtos e experiências. Este cenário apresenta uma ótima oportunidade para que empresas possam melhorar produtos, serviços e estratégias de mercado, já que as RSO são poderosas fontes massivas de dados não-estruturados gerados pelo consumidor (do inglês, User- Generated Content - UGC), com opiniões e avaliações sobre ofertas em plataformas tais como Facebook, Twitter e Instagram. O Brasil é um grande exemplo onde esse fenômeno pode ser observado e apresenta potencial oportunidade de exploração de mercado, dado que a população brasileira é uma das nações que mais utiliza RSO no mundo. Neste âmbito, técnicas computacionais de Mineração de Opinião (MO) ou Análise de Sentimento (AS) são aplicadas com o intuito de inferir a polaridade dominante (positivo, negativo, neutro) quanto ao sentimento associado a textos, e, podem ser aplicadas em dados de RSO a fim de avaliar o feedback do público-alvo. Apesar das diversas estratégias de AS reportadas na literatura, ainda há vários desafios enfrentados na aplicação de AS em textos oriundos de RSO, devido às características da linguagem utilizada em tais plataformas. O estado da arte de AS é voltado para a língua inglesa e as propostas existentes para Português Brasileiro (PT_Br) não apresentam uma metodologia padronizada nas tarefas de pré-processamento. Neste âmbito, esta pesquisa investiga uma metodologia sem tradução e propõe uma nova arquitetura expandida de pré-processamento de AS voltada para o PT_Br, a fim de prover atributos enriquecidos para os algoritmos de AS. A proposta foi comparada com modelos bem estabelecidos na literatura, e resultados obtidos indicam que esta pode superar o estado da arte em até 3% de revocação, para 6 de 7 bases de dados avaliadas.
Acesso aberto (Open Access)
Avaliação da distorção harmônica total de tensão no ponto de acoplamento comum industrial usando o processo KDD baseado em medição
(Universidade Federal do Pará, 2018-03-27) OLIVEIRA, Edson Farias de; TOSTES, Maria Emília de Lima; http://lattes.cnpq.br/4197618044519148
Nas últimas décadas, a indústria de transformação, tem proporcionado a introdução de produtos cada vez mais rápidos e energeticamente mais eficientes para utilização residencial, comercial e industrial, no entanto essas cargas devido à sua não linearidade têm contribuído significativamente para o aumento dos níveis de distorção harmônica de tensão em decorrência da corrente conforme indicadores de Qualidade de Energia Elétrica do sistema brasileiro de distribuição de energia elétrico. O constante aumento dos níveis das distorções, principalmente no ponto de acoplamento comum, tem gerado nos dias atuais muita preocupação nas concessionárias e nos consumidores de energia elétrica, devido aos problemas que causam como perdas da qualidade de energia elétrica no fornecimento e nas instalações dos consumidores e isso têm proporcionado diversos estudos sobre o assunto. Com o intuito de contribuir com o assunto, a presente tese propõe um procedimento com base no processo Knowledge Discovery in Database - KDD para identificação das cargas impactantes das distorções harmônicas de tensão no ponto de acoplamento comum. A metodologia proposta utiliza técnicas de Inteligência computacional e mineração de dados para análise dos dados coletados por medidores de qualidade de energia instalados nas cargas principais e no ponto de acoplamento comum do consumidor e consequentemente estabelecer a correlação entre as correntes harmônicas das cargas não lineares com a distorção harmônica no ponto de acoplamento comum. O processo proposto consiste na análise das cargas e do layout do local onde a metodologia será aplicada, na escolha e na instalação dos medidores de QEE e na aplicação do processo KDD completo, incluindo os procedimentos de coleta, seleção, limpeza, integração, transformação e redução, mineração, interpretação, e avaliação dos dados. Com o propósito de contribuição foram aplicadas as técnicas de mineração de dados Árvore de Decisão e Naïve Bayes e foram testados diversos algoritmos em busca do algoritmo com resultados mais significativos para esse tipo de análise conforme apresentado nos resultados. Os resultados obtidos evidenciaram que o processo KDD possui aplicabilidade na análise da Distorção Harmônica Total de Tensão no Ponto de Acoplamento Comum e deixa como contribuição a descrição completa de cada etapa desse processo, e para isso foram comparados com diferentes índices de balanceamento de dados, treinamento e teste e diferentes cenários em diferentes turnos de análise e apresentaram bom desempenho possibilitando sua aplicação em outros tipos de consumidores e empresas de distribuição de energia. Evidencia também, na aplicação escolhida e utilizando diferentes cenários, que a carga mais impactante foi a sétima harmônica de corrente das centrais de ar condicionado para o conjunto de dados coletados.
Acesso aberto (Open Access)
Avaliação de desempenho de algoritmos de mineração de dados e simulação de Monte Carlo na descoberta de tendências no Hambre Delivery
(Universidade Federal do Pará, 2025-08-14) GARCIA, Laciene Melo; FARIAS, Fabrício de Souza; https://lattes.cnpq.br/1521079293982268; https://orcid.org/0000-0003-4344-6953; PINHEIRO, Daniel da Conceição; ALVES, Elton Rafael; COSTA, Allan Barbosa; BALIEIRO, Andson Marreiros; https://lattes.cnpq.br/2970581734279237; https://lattes.cnpq.br/8408339809247090; https://lattes.cnpq.br/1243311868600821; https://lattes.cnpq.br/9825617657358787
O setor food service agiliza as transações e contribui para melhorar a qualidade dos produtos e serviços oferecidos, ocasionando crescimento contínuo e valorização de compras via marketplace. Com a maior adesão da população à digitalização do food service, novas informações e conhecimentos podem ser gerados a partir da análise de tendências extraídas de bases de dados oriundas de transações comerciais. Para a coleta de dados, este setor tem adotado apps especializados, que se mostram viáveis para usuários que buscam atendimento em plataformas digitais. Além disso, o uso Inteligência Artificial (IA), em conjunto com os apps, tem reconfigurado a forma como os negócios operam, representando uma nova tendência para empresas que oferecem produtos e serviços na modalidade online. Diante desse cenário, surge a necessidade de considerar soluções baseadas em software que apliquem IA para sistematizar a análise de tendências em dados coletados. Por essa razão, este trabalho propõe uma investigação por meio de simulações que avaliam o desempenho computacional, combinando o método Monte Carlo e diferentes algoritmos de mineração de dados, a fim de identificar o modelo mais adequado para o suporte a decisões na gestão do setor de food service via apps. Para validar a eficácia das simulações, dados reais foram coletados nas lojas parceiras da plataforma Hambre Delivery. Durante as simulações, foram analisados os algoritmos FP-Growth, FP-Max, Apriori e Eclat, considerando escalabilidade, tempo de execução e uso de memória como critérios de desempenho. Os resultados revelaram que o algoritmo Eclat é mais indicado para conjuntos pequenos e de baixa complexidade, enquanto FP-Growth e FP-Max são escaláveis para grandes volumes de dados, sendo mais eficientes quanto ao tempo de execução e ao uso de memória. Além disso, as 27 regras de associação geradas revelaram tendências relevantes, mostrando que a aplicação do Monte Carlo gera padrões mais precisos e confiáveis.
Acesso aberto (Open Access)
Avaliação de desempenho em programa de formação massiva utilizando técnicas de mineração de dados
(Universidade Federal do Pará, 2015-08-28) PINHEIRO, Marcia Fontes; CARDOSO, Diego Lisboa; http://lattes.cnpq.br/0507944343674734; SANTANA, Ádamo Lima de; http://lattes.cnpq.br/4073088744952858
Com a evolução da aplicação de Tecnologias da Informação e Comunicação (TICs) no sistema educacional, foi fomentado o surgimento de novos métodos, técnicas e procedimentos que favoreçam a aprendizagem ativa, planejamento e gestão de cursos e suporte para superação de dificuldades no processo educacional, sejam presenciais ou a distância. Os Ambientes Virtuais de Aprendizagem (AVAs) tornaram-se fundamentais à condução de processos educacionais, propiciando a democratização da educação e permitindo a formação continuada, além de gerar grandes volumes de dados a respeito do processo de aprendizagem. Ter informações sobre o processo de aprendizagem é de extrema importância para os educadores e alunos, uma vez que permite apoiar a tomada de decisão e reflexão sobre as metodologias aplicadas no ensino, conteúdo utilizado e desempenho dos alunos. Neste sentido, esta pesquisa propõe metodologia de seleção de atributos para avaliação de desempenho de alunos de Programa de Formação Massiva utilizando técnicas de Mineração de Dados. A metodologia proposta considera identificar atributos a serem utilizados para realização de inferências relacionadas ao desempenho dos estudantes e correlacionando com aspectos sociais através de análise qualitativa e quantitativa de resultados. Esta metodologia foi desenvolvida considerando o contexto educacional e valorizando a diversidade neste processo. Para demonstrar a viabilidade da metodologia proposta aplicou-se estudo de caso em ambiente híbrido de aprendizagem massiva com bases de dados proprietárias do Programa Telecentros.BR disponibilizadas pelos gestores do Programa. No estudo de caso foi aplicada a metodologia de seleção de atributos para a mineração de dados educacionais, conseguinte foram aplicadas tarefas de classificação utilizando os algoritmos J48, Random Forest e Random Tree para predição de notas de alunos; tarefas de agrupamento utilizando os algoritmos de K-means para encontrar perfil de alunos baseado em logs de utilização do AVA e Self-Organized Maps (SOM) para encontrar características educacionais qualitativas a partir de avaliações qualitativas textuais. Os resultados obtidos através de estudo de caso demonstraram a viabilidade da metodologia considerando o contexto educacional e apresentam novos indicadores de desempenho aos gestores do Programa Telecentros, tais como perfil de uso do AVA, indicadores de evasão, perfil dos alunos.
Acesso aberto (Open Access)
Classificação de dados utilizando algoritmos genéticos e lógica difusa
(Universidade Federal do Pará, 2008-12-14) KATO, Rodrigo Bentes; OLIVEIRA, Roberto Célio Limão de; http://lattes.cnpq.br/4497607460894318
Várias das técnicas tradicionais de Mineração de Dados têm sido aplicadas com êxito e outras esbarram em limitações, tanto no desempenho como na qualidade do conhecimento gerado. Pesquisas recentes têm demonstrado que as técnicas na área de IA, tais como Algoritmo Genético (AG) e Lógica Difusa (LD), podem ser utilizadas com sucesso. Nesta pesquisa o interesse é revisar algumas abordagens que utilizam AG em combinação com LD de forma híbrida para realizar busca em espaços grandes e complexos. Este trabalho apresenta o Algoritmo Genético (AG), utilizando Lógica Difusa, para a codificação, avaliação e reprodução dos cromossomos, buscando classificar dados através de regras extraídas de maneira automática com a evolução dos cromossomos. A Lógica Difusa é utilizada para deixar as regras mais claras e próximas da linguagem humana, utilizando representações lingüísticas para identificar dados contínuos.
Acesso aberto (Open Access)
Detecção de fraudes no consumo de energia elétrica usando árvores de decisão
(Universidade Federal do Pará, 2017-07-11) MATOS, Yasmin Christine Correa; VIEIRA, João Paulo Abreu; http://lattes.cnpq.br/8188999223769913
Os prejuízos causados nos últimos anos pelas perdas comerciais às concessionárias de distribuição de energia elétrica no Brasil têm sido estimados aproximadamente em R$ 7 bilhões. Essa realidade representa, um desafio para algumas das distribuidoras do país, as quais necessitam de medidas eficazes no combate às perdas comerciais. Neste cenário, a presente dissertação de mestrado, apresenta uma metodologia capaz de detectar fraudes no consumo de energia elétrica, usando uma técnica de mineração de dados, conhecida como árvore de decisão. Testes de desempenho do método foram realizados usando dados reais do histórico de consumo de energia elétrica e de fiscalização de irregularidades em unidades consumidoras (UC’s) da região metropolitana de Belém. Os resultados mostraram que o método proposto baseado em árvore de decisão possui bom desempenho na detecção de fraudes no consumo de energia elétrica.
Acesso aberto (Open Access)
Estratégia de otimização para a melhoria da interpretabilidade de redes bayesianas: aplicações em sistemas elétricos de potência
(Universidade Federal do Pará, 2009-12-10) ROCHA, Cláudio Alex Jorge da; FRANCÊS, Carlos Renato Lisboa; http://lattes.cnpq.br/7458287841862567
A investigação de métodos, técnicas e ferramentas que possam apoiar os processos decisórios em sistemas elétricos de potência, em seus vários setores, é um tema que tem despertado grande interesse. Esse suporte à decisão pode ser efetivado mediante o emprego de vários tipos de técnicas, com destaque para aquelas baseadas em inteligência computacional, face à grande aderência das mesmas a domínios com incerteza. Nesta tese, são utilizadas as redes Bayesianas para a extração de modelos de conhecimento a partir dos dados oriundos de sistemas elétricos de potência. Além disso, em virtude das demandas destes sistemas e de algumas limitações impostas às inferências em redes bayesianas, é desenvolvido um método original, utilizando algoritmos genéticos, capaz de estender o poder de compreensibilidade dos padrões descobertos por essas redes, por meio de um conjunto de procedimentos de inferência em redes bayesianas para a descoberta de cenários que propiciem a obtenção de um valor meta, considerando a incorporação do conhecimento a priori do especialista, a identificação das variáveis mais influentes para obtenção desses cenários e a busca de cenários ótimos que estabeleçam valores, definidos e ponderados pelo usuário/especialista, para mais de uma variável meta.
Acesso aberto (Open Access)
Experimentos de mineração de dados aplicados a sistemas scada de usinas hidrelétricas
(Universidade Federal do Pará, 2012-04-13) OHANA, Ivaldo; BEZERRA, Ubiratan Holanda; http://lattes.cnpq.br/6542769654042813
O atual modelo do setor elétrico brasileiro permite igualdade de condições a todos os agentes e reduz o papel do Estado no setor. Esse modelo obriga as empresas do setor a melhorarem cada vez mais a qualidade de seu produto e, como requisito para este objetivo, devem fazer uso mais efetivo da enorme quantidade de dados operacionais que são armazenados em bancos de dados, provenientes da operação dos seus sistemas elétricos e que tem nas Usinas Hidrelétricas (UHE) a sua principal fonte de geração de energia. Uma das principais ferramentas para gerenciamento dessas usinas são os sistemas de Supervisão, Controle e Aquisição de Dados (Supervisory Control And Data Acquisition - SCADA). Assim, a imensa quantidade de dados acumulados nos bancos de dados pelos sistemas SCADA, muito provavelmente contendo informações relevantes, deve ser tratada para descobrir relações e padrões e assim ajudar na compreensão de muitos aspectos operacionais importantes e avaliar o desempenho dos sistemas elétricos de potência. O processo de Descoberta de Conhecimento em Banco de Dados (Knowledge Discovery in Database - KDD) é o processo de identificar, em grandes conjuntos de dados, padrões que sejam válidos, novos, úteis e compreensíveis, para melhorar o entendimento de um problema ou um procedimento de tomada de decisão. A Mineração de Dados (ou Data Mining) é o passo dentro do KDD que permite extrair informações úteis em grandes bases de dados. Neste cenário, o presente trabalho se propõe a realizar experimentos de mineração de dados nos dados gerados por sistemas SCADA em UHE, a fim de produzir informações relevantes para auxiliar no planejamento, operação, manutenção e segurança das hidrelétricas e na implantação da cultura da mineração de dados aplicada a estas usinas.
Acesso aberto (Open Access)
Mineração de dados educacionais aplicada à busca de perfis de alunos em casos de evasão ou retenção: uma abordagem através de Redes Bayesianas
(Universidade Federal do Pará, 2017-09-12) COUTO, Diego da Costa do; SANTANA, Ádamo Lima de; http://lattes.cnpq.br/4073088744952858
Este trabalho investiga os perfis de alunos de cursos da graduação da Universidade Federal do Pará propensos a dois problemas enfrentados em diversas universidades brasileiras denominados evasão e retenção. Estas problemáticas estimularam o estudo de metodologias que detectassem padrões que suscitam a extrapolação ou o fim prematuro dos estudos. A ferramenta elegida a este fim, a Rede Bayesiana é poderosa ao propiciar raciocínio sobre incertezas, especialmente em diagnósticos de causas e efeitos tendo como pressuposto o relacionamento das variáveis e suas probabilidades de ocorrências conjuntas e marginais. Outro aspecto inerente a estrutura das Redes Bayesianas diz respeito à compreensibilidade da representação e dos resultados, os quais geram subsídios voltados a especialistas e usuários inseridos no domínio. Considerando tais colocações, essas potencialidades da metodologia em questão fortaleceram a sua aplicação nesta pesquisa. Dessa forma, registros acadêmicos contendo dezenas de milhares de amostras oriundas de alunos imersos em ambientes de ensino presencial pertencentes aos alunos de graduação ingressantes na Universidade Federal do Pará até o ano de 2016 foram submetidos ao processo de Descoberta de Conhecimento em Base de Dados, especificamente na etapa de Mineração de Dados os padrões desejados foram extraídos valendo-se da tarefa de classificação. Em adição, realizou-se na etapa de Mineração de Dados várias análises de desempenhos da Rede Bayesiana junto a outros algoritmos clássicos do aprendizado supervisionado, e aquela revelou a sua grande acurácia e eficiência, ressaindo dentre as melhores soluções encontradas, isto posto o seu uso foi certificado sobre a base de dados selecionada. Em três estudos de casos avaliados, os resultados indicaram a qualidade do classificador baseado em Redes Bayesianas que apresentou acurácia superior a 82%, condição que legitima a sua utilidade no domínio pesquisado. Assim, os resultados atingidos foram satisfatórios e apontaram fortes influências de algumas variáveis à propensão da evasão ou retenção.
Acesso aberto (Open Access)
Otimização do processo de aprendizagem da estrutura gráfica de Redes Bayesianas em BigData
(Universidade Federal do Pará, 2014-02-20) FRANÇA, Arilene Santos de; SANTANA, Ádamo Lima de; http://lattes.cnpq.br/4073088744952858
A automação na gestão e análise de dados tem sido um fator crucial para as empresas que necessitam de soluções eficientes em um mundo corporativo cada vez mais competitivo. A explosão do volume de informações, que vem se mantendo crescente nos últimos anos, tem exigido cada vez mais empenho em buscar estratégias para gerenciar e, principalmente, extrair informações estratégicas valiosas a partir do uso de algoritmos de Mineração de Dados, que comumente necessitam realizar buscas exaustivas na base de dados a fim de obter estatísticas que solucionem ou otimizem os parâmetros do modelo de extração do conhecimento utilizado; processo que requer computação intensiva para a execução de cálculos e acesso frequente à base de dados. Dada a eficiência no tratamento de incerteza, Redes Bayesianas têm sido amplamente utilizadas neste processo, entretanto, à medida que o volume de dados (registros e/ou atributos) aumenta, torna-se ainda mais custoso e demorado extrair informações relevantes em uma base de conhecimento. O foco deste trabalho é propor uma nova abordagem para otimização do aprendizado da estrutura da Rede Bayesiana no contexto de BigData, por meio do uso do processo de MapReduce, com vista na melhora do tempo de processamento. Para tanto, foi gerada uma nova metodologia que inclui a criação de uma Base de Dados Intermediária contendo todas as probabilidades necessárias para a realização dos cálculos da estrutura da rede. Por meio das análises apresentadas neste estudo, mostra-se que a combinação da metodologia proposta com o processo de MapReduce é uma boa alternativa para resolver o problema de escalabilidade nas etapas de busca em frequência do algoritmo K2 e, consequentemente, reduzir o tempo de resposta na geração da rede.
Acesso aberto (Open Access)
Stormsom: clusterização em tempo-real de fluxos de dados distribuídos no contexto de BigData
(Universidade Federal do Pará, 2015-08-28) LIMA, João Gabriel Rodrigues de Oliveira; CARDOSO, Diego Lisboa; http://lattes.cnpq.br/0507944343674734; SANTANA, Ádamo Lima de; http://lattes.cnpq.br/4073088744952858
Cresce cada vez mais a quantidade de cenários e aplicações que algoritmo necessitam de processamento e respostas em tempo real e que se utilizam de modelos estatísticos e de mineração de dados a fim de garantir um melhor suporte à tomada de decisão. As ferramentas disponíveis no mercado carecem de processos computacionais mais refinados que sejam capazes de extrair padrões de forma mais eficiente a partir de grandes volumes de dados. Além disso, há a grande necessidade, em diversos cenários, que o os resultados sejam providos em tempo real, tão logo inicie o processo, uma resposta imediata já deve estar sendo produzida. A partir dessas necessidades identificadas, neste trabalho propomos um processo autoral, chamado StormSOM, que consiste em um modelo de processamento, baseado em topologia distribuída, para a clusterização de grandes volumes de fluxos, contínuos e ilimitados, de dados, através do uso de redes neurais artificiais conhecidas como mapas auto-organizáveis, produzindo resultados em tempo real. Os experimentos foram realizados em um ambiente de computação em nuvem e os resultados comprovam a eficiência da proposta ao garantir que o modelo neural utilizado possa gerar respostas em tempo real para o processamento de Big Data.
Acesso aberto (Open Access)
Uso de árvore de decisão para avaliação da segurança estática em tempo real de sistemas elétricos de potência
(Universidade Federal do Pará, 2014-09-12) RODRIGUES, Benedito das Graças Duarte; VIEIRA, João Paulo Abreu; http://lattes.cnpq.br/8188999223769913; BEZERRA, Ubiratan Holanda; http://lattes.cnpq.br/6542769654042813
As técnicas utilizadas para avaliação da segurança estática em sistemas elétricos de potência dependem da execução de grande número de casos de fluxo de carga para diversas topologias e condições operacionais do sistema. Em ambientes de operação de tempo real, esta prática é de difícil realização, principalmente em sistemas de grande porte onde a execução de todos os casos de fluxo de carga que são necessários, exige elevado tempo e esforço computacional mesmo para os recursos atuais disponíveis. Técnicas de mineração de dados como árvore de decisão estão sendo utilizadas nos últimos anos e tem alcançado bons resultados nas aplicações de avaliação da segurança estática e dinâmica de sistemas elétricos de potência. Este trabalho apresenta uma metodologia para avaliação da segurança estática em tempo real de sistemas elétricos de potência utilizando árvore de decisão, onde a partir de simulações off-line de fluxo de carga, executadas via software Anarede (CEPEL), foi gerada uma extensa base de dados rotulada relacionada ao estado do sistema, para diversas condições operacionais. Esta base de dados foi utilizada para indução das árvores de decisão, fornecendo um modelo de predição rápida e precisa que classifica o estado do sistema (seguro ou inseguro) para aplicação em tempo real. Esta metodologia reduz o uso de computadores no ambiente on-line, uma vez que o processamento das árvores de decisão exigem apenas a verificação de algumas instruções lógicas do tipo if-then, de um número reduzido de testes numéricos nos nós binários para definição do valor do atributo que satisfaz as regras, pois estes testes são realizados em quantidade igual ao número de níveis hierárquicos da árvore de decisão, o que normalmente é reduzido. Com este processamento computacional simples, a tarefa de avaliação da segurança estática poderá ser executada em uma fração do tempo necessário para a realização pelos métodos tradicionais mais rápidos. Para validação da metodologia, foi realizado um estudo de caso baseado em um sistema elétrico real, onde para cada contingência classificada como inseguro, uma ação de controle corretivo é executada, a partir da informação da árvore de decisão sobre o atributo crítico que mais afeta a segurança. Os resultados mostraram ser a metodologia uma importante ferramenta para avaliação da segurança estática em tempo real para uso em um centro de operação do sistema.
Acesso aberto (Open Access)
Uso de técnicas de mineração de dados para a extração de indicação de falha na operação de hidrogeradores a partir de medidas de descargas parciais
(Universidade Federal do Pará, 2016-06-17) PARDAUIL, Ana Carolina Neves; BEZERRA, Ubiratan Holanda; http://lattes.cnpq.br/6542769654042813
Mediante estudos realizados pelo CIGRE em 2009, constatou-se que a fonte principal de falhas elétricas em hidrogeradores estão correlacionados a isolação elétrica. Devido a isto, monitorar as condições do enrolamento estatórico tornou-se primordial e um dos meios de se realizar este procedimento é através da medição e análise de descargas parciais, sendo este um dos métodos mais eficazes e seguros para análise do isolamento do estator do gerador. No entanto, apesar de possuírem padrões bem definidos, não é trivial encaixar os sinais obtidos nestes padrões, devido principalmente ao grande número e variedades de ocorrências de DPs. Este aumento no volume de dados obtidos foi devido a melhorias nos equipamentos e softwares do IMA-DP que viabilizou melhor planejamento e periodicidade nas medições. O uso de uma ferramenta que agilize este processo de identificação e diagnóstico das Descargas Parciais é proposto neste trabalho, baseado em técnicas de mineração dados utilizando árvores de decisão, que é uma solução para análise de grandes volumes de dados. No caso especifico aqui apresentado, utilizou-se 2435 medições provenientes da fase A de um dos hidrogeradores da Casa de Força 1 da Usina Hidrelétrica de Tucuruí, o que foi fundamental para validar o método, pois trata-se de dados reais do sistema. Foi utilizada uma abordagem híbrida (não-supervisionado/ supervisionado) para identificar padrões e posteriormente classifica-los dentre as formas conhecidas de DPs. Obteve-se respostas de classificação dos sinais de forma rápida e muito satisfatória, principalmente ao se converter os dados dos mapas estatísticos em histogramas de amplitude, conseguindo assim, clusters bem definidos e uma árvore de decisão que apresentou índices de acerto global na sua validação acima de 98%.