Analysis of classical and advanced control techniques tuned with reinforcement learning

SILVA, Daniel Abreu Macedo da

Use este identificador para citar ou linkar para este item: https://repositorio.ufpa.br/jspui/handle/2011/16686

Tipo:	Dissertação
Data do documento:	1-Set-2023
Autor(es):	SILVA, Daniel Abreu Macedo da
Primeiro(a) Orientador(a):	SILVEIRA, Antonio da Silva
Título:	Analysis of classical and advanced control techniques tuned with reinforcement learning
Agência de fomento:	CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
Citar como:	SILVA, Daniel Abreu Macedo da. Analysis of classical and advanced control techniques tuned with reinforcement learn9ing. Orientador: Antonio da Silva Silveira. 2023. 111 f.Dissertação (Mestrado em Engenharia Elétrica) - Instituto de Tecnologia, Universidade Federal do Pará, Belém, 2023. Disponível em: https://repositorio.ufpa.br/jspui/handle/2011/16686. Acesso em:.
Resumo:	A teoria de controle é utilizada para estabilizar sistemas e obter respostas específicas para cada tipo de processo. Controladores clássicos, como o PID utilizado nesta pesquisa, são difundidos globalmente nas indústrias, isto por possuírem topologias bem estudadas pela literatura e serem facilmente aplicados em microcontroladores ou controladores lógico programáveis; já os avançados, como GMV, GPC e LQR também utilizados neste trabalho, possuem certa resistência em aplicações comuns das indústrias de base, mas são muito utilizados em sistemas de energia, aerospaciais e robóticos, pois a complexidade e estrutura desses métodos gera robustez e alcança desempenhos satisfatórios para processos de difícil controle. Neste trabalho, esses métodos são estudados e avaliados com uma abordagem de sintonia que utiliza o aprendizado por reforço. São aplicadas duas formas de sintonia para os controladores, estas são o método da Repetição e Melhora e o método de Jogos Diferenciais. O primeiro utiliza iterações offline, onde o agente do processo é a técnica de controle escolhida, que trabalha com os índices de desempenho e robustez como ambiente (métrica de como o processo está evoluindo), sendo capaz de organizar uma política de ajuste para o controlador, que se baseia em recompensar o fator de ponderação até obter o critério de parada do processo (resposta desejada). O segundo método se baseia em utilizar estratégias de reforço que recompensam o controlador conforme a resposta se modifica, assim o LQR aprende as políticas de controle ideais, adaptando se às mudanças do ambiente, o que permite obter melhor desempenho por recalcular os tradicionais ganhos encontrados com a equação de Ricatti para sintonia do regulador; neste método, os jogos diferenciais são utilizados como uma estrutura para modelar e analisar sistemas dinâmicos com múltiplos agentes. Para validar o que é apresentado, o Motor Tacogerador e o Ar Drone são escolhidos. O Motor Tacogerador é modelado com a estimação dos mínimos quadrados em uma estrutura ARX-SISO para avaliação do primeiro método de sintonia. O Ar Drone é modelado com uma abordagem em espaço de estados para avaliação do segundo método de sintonia.
Abstract:	Control theory is used to stabilize systems and obtain specific responses for each type of process. Classic controllers, such as the PID used in this research, are spread globally in industries because they have well studied topologies in the literature and are easily applied in microcontrollers or programmable lógic devices; advanced ones,such as GMV, GPC and LQR, also used in this work, have some resistance in common applications in base industries, but are widely used in energy, aerospace and robotic systems, since the complexity and structure of these methods generate robustness and reach satisfactory performances for processes that are difficult to control. In this work, these methods are studied and evaluated with a tuning approach that uses re inforcement learning. The tuning methods are used in two forms and are applied to the controllers, these are the Repeat and Improve method and the Differential Games method. The first works using offline iterations, where the process agent is the chosen control technique, which selects performance and robustness indexes as an environment (metric of how the process is evolving), being able to organize an adjustment policy for the controller, which is based on rewarding the weighting factor until reaching the process stopping criterion (desired response). The second method uses reinforcement strategies that reward the controller as the response changes, so the LQR learns the ideal control policies, adapting to changes in the environment, which allows for better performance by recalculating the traditional gains found. With the Ricatti equation for tuning the regulator; in this method, differential games are used as a framework to model and analyze dynamic systems with multiple agents. To validate what is presented, the Tachogenerator Motor and the Ar Drone have been chosen. The Tachogenerator Motor is modeled with least squares estimation in an ARX-SISO topology, in order to evaluate the first tuning method. The Ar Drone is modeled with a state space approach to evaluate the second tuning method.
Palavras-chave:	Teoria do controle Inteligência artificial Controle programáveis Control theory Artificial intelligence Programables controllers
Área de Concentração:	SISTEMAS DE ENERGIA ELÉTRICA
Linha de Pesquisa:	ALTA TENSÃO
CNPq:	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES
País:	Brasil
Instituição:	Universidade Federal do Pará
Sigla da Instituição:	UFPA
Instituto:	Instituto de Tecnologia
Programa:	Programa de Pós-Graduação em Engenharia Elétrica
Tipo de Acesso:	Acesso Aberto Attribution-NonCommercial-NoDerivs 3.0 Brazil
Fonte URI:	Disponível na internet via correio eletrônico:bibliotecaitec@ufpa.br
Aparece nas coleções:	Dissertações em Engenharia Elétrica (Mestrado) - PPGEE/ITEC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Dissertacao_AnalysisClassicalAdvances.pdf		6,29 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciado sob uma Licença Creative Commons