Olá amigos! Hoje trago outro artigo publicado na The Batch, o semanário informativo de I.A. da DeepLearning.ai. Usando técnicas de reinforced learning, conseguiram treinar um agente para operar de forma autônoma pequenos robôs e fazê-los jogar futebol.
Será essa a solução para a Seleção Brasileira? Veja o artigo traduzido a seguir e decida você mesmo.
Futebol de Robôs: da Simulação à Realidade
Robôs humanóides podem jogar futebol (conhecido como soccer nos Estados Unidos) no mundo real, graças ao aprendizado por reforço.
O que há de novo:
Tuomas Haarnoja e colegas do Google e da Universidade de Oxford treinaram um agente para jogar futebol um contra um em um ambiente simulado. Eles aplicaram o agente a robôs hardware de 20 polegadas (~50cm) em um campo reduzido. Você pode vê-los em ação aqui.
Insight principal:
Na aprendizagem por reforço, um agente (programa ou API que incorpora a integração entre o mundo real e os algoritmos de I.A., as chamadas redes neurais) melhora à medida que explora vários movimentos. No entanto, tal exploração corre o risco de danificar hardware caro. Ao treinar em uma simulação, o agente pode tentar uma diversidade de movimentos sem arriscar um robô físico. Uma vez treinado, o agente pode dar o salto da simulação para a realidade.
Como funciona:
O agente aprendeu em um mundo virtual a controlar o movimento do robô dado (i) o estado simulado do robô (incluindo a posição, velocidade e aceleração de cada uma das 20 articulações), (ii) o estado atual do jogo (incluindo o localização e velocidade da bola e do adversário), (iii) o estado do jogo em cada um dos últimos cinco passos de tempo e (iv) as cinco ações anteriores do agente. O treinamento prosseguiu por meio de aprendizagem por reforço em duas etapas.
Durante a primeira etapa do treinamento, os autores treinaram dois professores, ambos redes neurais vanilla. (i) O primeiro professor aprendeu a prever movimentos que ajudam um robô simulado a marcar gols contra um oponente não treinado que caiu imediatamente. O professor ganhava recompensas por pontuar e era penalizado por cair ou deixar o adversário marcar, entre outras recompensas e penalidades. (ii) O segundo professor aprendeu a fazer um robô simulado caído se levantar. Ele recebeu recompensas maiores para diferenças menores, e recompensas menores para diferenças maiores, entre as posições conjuntas do robô e as posições conjuntas para as principais poses do robô registradas durante um processo de pé projetado manualmente.
A segunda etapa do treinamento envolveu outro agente, também uma rede neural vanilla. Este agente jogou uma partida contra uma versão anterior de si mesmo, na qual cada agente controlava um robô simulado. Ele recebia recompensas por mover as articulações do robô de maneira que o ajudasse a vencer a partida ou que se assemelhasse aos movimentos dos dois professores; isso incentivou o agente a marcar gols e se levantar após cair. Para melhor aproximar as condições do mundo real, os autores perturbaram aleatoriamente a simulação, adicionando ruído aos sensores que mediam as ações do robô e atrasando partes da simulação. Eles também restringiram a amplitude de movimento das articulações para evitar que o robô simulado agisse de maneira que pudesse danificar um robô de hardware. Na inferência, o agente treinado controlava um robô humanóide Robotis OP3 pronto para uso, que custa cerca de US$ 14.000.
Resultados:
O agente aprendeu não apenas a virar e chutar, mas também a antecipar o movimento da bola e a bloquear os chutes do adversário. Ele marcou pênaltis contra um goleiro parado com 90% de sucesso na simulação e 70% de sucesso no mundo físico. Ele levantou-se em média 0,9 segundos, enquanto um agente projetado manualmente levantou-se em 2,5 segundos. Sua velocidade máxima de caminhada de 0,69 metros por segundo superou os 0,27 metros por segundo do agente projetado manualmente. No entanto, seus chutes impulsionaram a bola a 2,0 metros por segundo em média, mais lento do que os 2,1 metros por segundo do agente projetado manualmente.
Por que é importante:
Controlar robôs humanóides é um desafio, pois eles são menos estáveis que os quadrúpedes. Apenas fazê-los fazer um tipo de movimento, como pular, pode exigir uma pesquisa dedicada. Este trabalho conduz robôs humanóides em movimentos complexos, combinando métodos de treinamento estabelecidos: treinamento em uma simulação barulhenta, auto-jogo e uso de agentes professores para recompensar ações específicas. Estamos pensando: este trabalho demonstra que os robôs se divertem com o aprendizado de máquina.
E aí, curtiu? Se quiser saber mais, acesse este e outros artigos clicando aqui.
Comments