Navegando por Assunto "Reinforcement learning"
Agora exibindo 1 - 2 de 2
- Resultados por página
- Opções de Ordenação
Dissertação Acesso aberto (Open Access) Hybrid CAVIAR Simulations and Reinforcement Learning Applied to 5G Systems: Experiments with Scheduling and Beam Selection(Universidade Federal do Pará, 2022-01-28) BORGES, João Paulo Tavares; KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha; http://lattes.cnpq.br/1596629769697284Aprendizado por reforço, do inglês Reinforcement Learning (RL), é um paradigma de aprendizagem adequado para problemas em que um agente tem que maximizar uma determinada recompensa, enquanto interage com um ambiente em constante mudança. Esta classe de problema aparece em diversos tópicos de pesquisa da 5a Geração (5G) e da 6a Geração (6G) das redes móveis. No entanto, a falta de conjuntos de dados ou ambientes disponíveis gratuitamente para treinar e avaliar os agentes de RL é um obstáculo prático que atrasa a adoção de RL em redes 5G e futuras. Esses ambientes devem ser capazes de fechar o chamado reality gap, onde os agentes de aprendizagem por reforço, treinados em ambientes virtuais, são capazes de generalizar suas decisões quando expostos a situações reais, nunca antes vistas. Portanto, este trabalho descreve uma metodologia de simulação denominada CAVIAR, ou Communication Networks, Artificial Intelligence and Computer Vision with 3D Computer-Generated Imagery, voltada para pesquisa sobre métodos de RL aplicados à camada física (PHY) dos sistemas de comunicações sem fio. Neste trabalho, essa metodologia de simulação é utilizada para gerar um ambiente para as tarefas de escalonamento de usuários e seleção de feixes, onde, a cada passo, o agente RL precisa escalonar um usuário e então escolher o índice de um codebook de beamforming para atendê-lo. Um aspecto fundamental desta proposta é que a simulação do sistema de comunicação e o software de inteligência artificial devem estar intimamente integrados, de modo que as ações realizadas pelo agente possam refletir de volta no loop de simulação. Esse aspecto torna a compensação de tempo de processamento versus realismo da simulação, um elemento a ser considerado. Este trabalho também descreve a modelagem dos sistemas de comunicação e agentes RL usados para experimentação, e apresenta estatísticas sobre a dinâmica do ambiente, como tráfego de dados, bem como resultados para sistemas baseline. Por fim, é discutido como os métodos descritos neste trabalho podem ser aproveitados no contexto do desenvolvimento de gêmeos digitais.Tese Acesso aberto (Open Access) Intent-based radio resource scheduling in ran slicing scenarios using reinforcement learning(Universidade Federal do Pará, 2024-11-04) NAHUM, Cleverson Veloso; KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha; http://lattes.cnpq.br/1596629769697284O fatiamento da rede móvel no domínio da rede de acesso requer elasticidade, compartilhamento de recursos de forma eficiente e customização para lidar com a escassez e limitação dos recursos de rádio enquanto cumpre as intenões das fatias de rede definidas em um contrato de nível de servico. Nesse cenário, o alocador de recursos de rádio é essencial para prover a administração de recursos a fim de prevenir as violações de intenções de rede, e consequentemente oferecer recursos de rádio suficientes para as fatias de rede de acesso cumprirem seus objetivos. A grande variedade de cenaários suportados nas redes 5G e pós-5G torna o problema da alocação de recursos de rádio em cenários de fatiamento da rede de acesso ainda mais desafiador. Essa tese propõe investigar um alocador de recursos de rádio baseado nas intenções das fatias de rede de acesso, utilizando aprendizado por reforço para cumprir as intenções de rede. O método proposto tem por objetivo prevenir as violações de intenções de rede através da administração de recursos de rádio disponíveis entre as fatias de rede de acesso e usuários usando um alocador de recursos de rádio entre as fatias de rede e outro para os usuários dentro da fatia de rede. Esta tese também descreve uma estrutura para priorização de fatias de rede para assegurar os requisitos definidos nas intenções de rede para as fatias mais importantes quando os recursos de rádio não são suficientes para garantir todas as intenções de rede requisitadas. Esta tese apresenta os resultados obtidos usando um alocador de recursos de rádio baseado nas intenções das fatias de rede de acesso, utilizando aprendizado por reforco para um número fixo de fatias de rede e também para múltiplos cenários de rede para evitar violações de intenções de rede, e demonstra a importância de um alocador de recursos de rádio baseado nas intenções das fatias de rede em cenário com fatiamento da rede de acesso. O método proposto apresentou melhor desempenho em comparação aos métodos da literatura avaliados tanto na proteção de slices prioritários quanto na minimização do número total de violações.
