Navegação Autônoma em Ambientes Dinâmicos com Interação com Humanos baseada em Aprendizado por Reforço Profundo e Visão Computacional
Resumo
Pesquisas recentes demonstram que a navegação autônoma em ambientes dinâmicos,
compartilhados com humanos, permanece como um problema em aberto.
Nesse tipo de ambiente a movimentação das pessoas pode gerar obstruções, dificultando
o sensoriamento e prejudicando a percepção do robô em relação à sua posição.
Além disso, a incerteza do comportamento humano pode levar a situações inseguras
para o robô e para as pessoas em seu entorno. Frente a esse cenário, tem se destacado
o estudo de métodos baseados em aprendizado, assim como a implementação
de estruturas híbridas, combinando diferentes arquiteturas e algoritmos, em busca de
uma solução eficiente. Este trabalho propõe a combinação de técnicas de aprendizado
por reforço profundo com técnicas de visão computacional para o desenvolvimento de
uma solução capaz de permitir que o robô navegue de forma autônoma e segura
em ambientes internos compartilhados com humanos, considerando as características
particularmente associadas ao problema em questão. Assim, a navegação deve
considerar questões de segurança, como o distanciamento entre o robô e as pessoas.
Para isso, foi desenvolvida uma abordagem inédita, baseada em aprendizado por reforço
profundo, que utiliza o algoritmo Deep Deterministic Policy Gradient (DDPG),
combinado com técnicas de visão computacional. Foram conduzidos testes comparativos
entre os algoritmos DDPG e Deep Q-Network (DQN), abordando quatro etapas,
cada uma representando dois cenários diferentes do ambiente de treinamento e com
níveis de complexidade superiores ao que o robô foi treinado. O DDPG demonstrou
ser mais eficiente e estável que o DQN, com taxas médias de sucesso superiores
em todas as etapas, demonstrando melhor capacidade de generalização e apresentando
resultados consistentemente melhores. Por outro lado, o DQN teve dificuldades
em evitar colisões e obteve taxas médias de sucesso significativamente mais baixas.
Essas descobertas destacam a superioridade do DDPG e demonstram que a solução
proposta é promissora, contribuindo para o avanço da pesquisa na área, possibilitando
a análise de experimentos em ambiente simulado e realização de testes para posterior
implantação de sistemas robóticos em cenários do mundo real.

