Use este identificador para citar ou linkar para este item: https://repositorio.ufpa.br/jspui/handle/2011/11265
Tipo: Dissertação
Data do documento: 9-Abr-2019
Autor(es): SANTOS, Aurea Milene Teixeira Barbosa dos
Primeiro(a) Orientador(a): SILVA, Marcelino Silva da
Título: Mineração de dados educacionais: um estudo sobre os dados socioeconômicos na educação na base de dados do INEP
Título(s) alternativo(s): Educational data mining: a study of socioeconomic data on education in the INEP database
Citar como: SANTOS, Aurea Milene Teixeira Barbosa dos. Mineração de dados educacionais: um estudo sobre os dados socioeconômicos na educação na base de dados do INEP. Orientador: Marcelino Silva da Silva. 2019. 86 f. Dissertação (Mestrado em Engenharia Elétrica) - Instituto de Tecnologia, Universidade Federal do Pará, Belém, 2019. Disponível em: http://repositorio.ufpa.br/jspui/handle/2011/11265. Acesso em:.
Resumo: Este trabalho investiga os perfis dos alunos do terceiro ano do ensino médio brasileiro da rede escolar pública e privada, a fim de identificar quais fatores extraescolares e interescolares influenciam para que o estudante possa vim a ter um desempenho consideravelmente bom no Exame Nacional do Ensino Médio (ENEM). Dessa forma, foram realizados dois estudos de caso, um com os registros socioeconômicos contendo dezenas de milhares de amostras oriundas de alunos que realizaram o exame, dividido por cada região brasileira, possibilitando uma análise dos fatores socioeconômicos (extraescolares) influentes em cada região. E o outro estudo analisou os atributos relacionados às condições de infraestrutura escolar ofertada pelas escolas públicas (estaduais) de ensino médio no estado do Pará, para esse estudo foi relacionada cada nota que o estudante conseguiu no exame do Enem com a base do censo escolar, ou seja, esta base detalha as condições das escolas secundárias correspondente a cada aluno que participou da prova do Enem ambos de 2016. Para alcançar o objetivo proposto, os dois estudos de casos foram submetidos ao processo de Descoberta de Conhecimento em Base de Dados, a mineração de dados educacionais (MDE). No processo da MDE foi empregada a técnica de análise de componentes principais (PCA) na etapa do pré-processamento, com o intuito de diminuir a quantidade de variáveis sem perder as informações fornecidas pelo conjunto total, utilizando essa técnica foi possível diminuir de 43 para 22 o número de variáveis analisadas no estudo de caso um, e de 39 para 9 no segundo estudo de caso, com o percentual de 0.8226 % e 0.9099 % respectivamente. Tal técnica foi utilizada para propiciar a execução de mais outra técnica aplicada na pesquisa, as Redes Bayesianas, fazendo uso do software Bayesware Discoverer, sendo utilizada na etapa de mineração de dados, a escolha por essa técnica se deu por ela possibilitar o raciocínio sobre incertezas, especialmente em diagnósticos de causas e efeitos tendo como pressuposto o relacionamento das variáveis e suas probabilidades de ocorrências. Outro aspecto inerente é a sua estrutura que diz respeito à compreensibilidade da representação e dos resultados, os quais geram subsídios voltados para que especialistas e usuários inseridos no domínio realizem análises mais aprofundadas sobre o assunto tratado pelos dados. Os resultados atingidos apontaram o sucesso dessa metodologia e as técnicas empregadas, a pesquisa nos possibilitou ter uma análise a nível nacional dos estudantes do terceiro ano do ensino médio brasileiro, onde nenhum estudo realiza essa análise a nível Brasil se tratando dos dados do Enem. Foram apontadas fortes influências de variáveis socioeconômicas destacando como fatores influentes diretos no desempenho dos estudantes a diferença se ele estudou em escolas pública, privada ou federal. Aliada a essa variável encontra-se a questão da renda familiar, se o estudante abandonou ou reprovou no ensino fundamental, se tem acesso a computador e internet na sua residência e o turno em que estudou no ensino médio, a partir dessas variáveis foi possível realizar inferências e analisar o comportamento probabilístico das notas obtidas pelo aluno com cada uma dessas variáveis. Se tratando da análise da influência da estrutura escolar no desempenho do estudante paraense da escola pública, destacou-se as variáveis biblioteca e laboratório de ciências. Ao analisar só o estado do Pará se verificou que mais de 80% dos alunos da rede pública tiveram um desempenho ruim tirando notas iguais ou menores que 450 no Enem, mesmo que em sua escola tenha as duas variáveis aponta como influentes.
Abstract: This work investigates the profiles of the third year students of the Brazilian high school of the public and private school network, in order to identify which extracurricular and interscholastic factors influence the student to have a good performance in the National High School Examination (ENEM). In this way, two case studies were carried out, one with the socioeconomic records containing tens of thousands of samples from the students who took the exam, divided by each Brazilian region, making possible an analysis of the influential socioeconomic (extra-school) factors in each region. And the other study analyzed the attributes related to the conditions of school infrastructure offered by public (state) high schools in the state of Pará, for this study was related each note that the student obtained in the examination of enem with the base of the school census, that is, this database details the conditions of the secondary schools corresponding to each student who participated in the test of the enem both 2016. In order to reach the proposed objective, the two case studies were submitted to the process of Knowledge Discovery in Database, the educational data mining (EDM). In the MDE process, the main component analysis (PCA) technique was used in the preprocessing stage, in order to reduce the number of variables without losing the information provided by the total set, using this technique it was possible to decrease from 43 to 22 the number of variables analyzed in case study one, and 39 to 9 in the second case study, with a percentage of 0.8226% and 0.9099% respectively. This technique was used to propitiate the execution of another technique applied in the research, the Bayesian Networks, being used in the data mining stage, the choice for this technique was made possible by it to reason about uncertainties, especially in causes and effects having as presupposition the relationship of the variables and their probabilities of occurrences. Another inherent aspect is its structure, which concerns the comprehensibility of representation and results, which generate subsidies aimed at allowing specialists and users in the field to carry out more in-depth analysis on the subject treated by the data. The results showed the success of this methodology and the techniques used, the research allowed us to have a national analysis of the students of the third year of high school in Brazil, where no study performs this analysis at the Brazilian level when dealing with enem data. Strong influences of socioeconomic variables were pointed out highlighting as direct influential factors in student performance the difference if he studied in public, private or federal schools. Allied to this variable is the question of family income, if the student left or failed in elementary school, if he has access to the computer and internet in his residence and the shift in which he studied in high school, from these variables it was possible to perform inferences and analyze the probabilistic behavior of the grades obtained by the student with each one of these variables. When analyzing the influence of the school structure on the performance of the Paraense student of the public school, the variables library and science laboratory were highlighted. When analyzing only the state of Pará, it was verified that more than 80% of the students in the public network performed poorly, taking notes equal to or less than 450 in the enem, even though in their school the two variables were considered as influential.
Palavras-chave: Mineração de dados educacionais
Redes bayesianas
ENEM (Exame Nacional de Ensino Médio)
Censo escolar
Educational data mining
Bayesian networks
ENEM (National High School Exam)
School census
Área de Concentração: COMPUTAÇÃO APLICADA
Linha de Pesquisa: INTELIGÊNCIA COMPUTACIONAL
CNPq: CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
País: Brasil
Instituição: Universidade Federal do Pará
Sigla da Instituição: UFPA
Instituto: Instituto de Tecnologia
Programa: Programa de Pós-Graduação em Engenharia Elétrica
Tipo de Acesso: Acesso Aberto
Fonte: 1 CD-ROM
Aparece nas coleções:Dissertações em Engenharia Elétrica (Mestrado) - PPGEE/ITEC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Dissertacao_MineracaoDadosEducacionais.pdf1,86 MBAdobe PDFVisualizar/Abrir


Este item está licenciado sob uma Licença Creative Commons Creative Commons