Navegação Autônoma em Ambientes Dinâmicos com Interação com Humanos baseada em Aprendizado por Reforço Profundo e Visão Computacional

Afonso, Paulo de Almeida

Visualizar/Abrir

Tese_Paulo de Almeida Afonso.pdf (3.303Mb)

Data

2023-09-01

Autor

Afonso, Paulo de Almeida

Metadata

Mostrar registro completo

Resumo

Pesquisas recentes demonstram que a navegação autônoma em ambientes dinâmicos, compartilhados com humanos, permanece como um problema em aberto. Nesse tipo de ambiente a movimentação das pessoas pode gerar obstruções, dificultando o sensoriamento e prejudicando a percepção do robô em relação à sua posição. Além disso, a incerteza do comportamento humano pode levar a situações inseguras para o robô e para as pessoas em seu entorno. Frente a esse cenário, tem se destacado o estudo de métodos baseados em aprendizado, assim como a implementação de estruturas híbridas, combinando diferentes arquiteturas e algoritmos, em busca de uma solução eficiente. Este trabalho propõe a combinação de técnicas de aprendizado por reforço profundo com técnicas de visão computacional para o desenvolvimento de uma solução capaz de permitir que o robô navegue de forma autônoma e segura em ambientes internos compartilhados com humanos, considerando as características particularmente associadas ao problema em questão. Assim, a navegação deve considerar questões de segurança, como o distanciamento entre o robô e as pessoas. Para isso, foi desenvolvida uma abordagem inédita, baseada em aprendizado por reforço profundo, que utiliza o algoritmo Deep Deterministic Policy Gradient (DDPG), combinado com técnicas de visão computacional. Foram conduzidos testes comparativos entre os algoritmos DDPG e Deep Q-Network (DQN), abordando quatro etapas, cada uma representando dois cenários diferentes do ambiente de treinamento e com níveis de complexidade superiores ao que o robô foi treinado. O DDPG demonstrou ser mais eficiente e estável que o DQN, com taxas médias de sucesso superiores em todas as etapas, demonstrando melhor capacidade de generalização e apresentando resultados consistentemente melhores. Por outro lado, o DQN teve dificuldades em evitar colisões e obteve taxas médias de sucesso significativamente mais baixas. Essas descobertas destacam a superioridade do DDPG e demonstram que a solução proposta é promissora, contribuindo para o avanço da pesquisa na área, possibilitando a análise de experimentos em ambiente simulado e realização de testes para posterior implantação de sistemas robóticos em cenários do mundo real.

URI

http://guaiaca.ufpel.edu.br/xmlui/handle/prefix/10840

Collections

PPGC: Dissertações e Teses [236]