Breaking News

terça-feira, 28 de novembro de 2023

Novo método usa feedback de crowdsourcing para ajudar a treinar robôs

 A Exploração Guiada por Humanos (HuGE) permite que os agentes de IA aprendam rapidamente com a ajuda de humanos, mesmo que os humanos cometam erros.

Para ensinar uma nova tarefa a um agente de IA, como abrir um armário de cozinha, os pesquisadores costumam usar o aprendizado por reforço – um processo de tentativa e erro em que o agente é recompensado por realizar ações que o aproximem do objetivo.

Em muitos casos, um especialista humano deve projetar cuidadosamente uma função de recompensa, que é um mecanismo de incentivo que dá ao agente motivação para explorar. O especialista humano deve atualizar iterativamente essa função de recompensa à medida que o agente explora e tenta diferentes ações. Isto pode ser demorado, ineficiente e difícil de ampliar, especialmente quando a tarefa é complexa e envolve muitas etapas.

Pesquisadores do MIT, da Universidade de Harvard e da Universidade de Washington desenvolveram uma nova abordagem de aprendizagem por reforço que não depende de uma função de recompensa habilmente projetada. Em vez disso, aproveita o feedback de crowdsourcing, recolhido de muitos utilizadores não especializados, para orientar o agente à medida que aprende a atingir o seu objetivo.

Embora alguns outros métodos também tentem utilizar feedback de não especialistas, esta nova abordagem permite que o agente de IA aprenda mais rapidamente, apesar do fato de que os dados coletados de usuários geralmente estão cheios de erros. Esses dados ruidosos podem causar falhas em outros métodos.

Além disso, esta nova abordagem permite que o feedback seja recolhido de forma assíncrona, para que utilizadores não especialistas em todo o mundo possam contribuir para ensinar o agente.

“Uma das partes mais demoradas e desafiadoras no projeto de um agente robótico hoje é a engenharia da função de recompensa. Hoje, as funções de recompensa são projetadas por pesquisadores especializados — um paradigma que não é escalável se quisermos ensinar aos nossos robôs muitas tarefas diferentes. Nosso trabalho propõe uma maneira de dimensionar o aprendizado do robô por meio do crowdsourcing do design da função de recompensa e possibilitando que não-especialistas forneçam feedback útil”, diz Pulkit Agrawal, professor assistente no Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT. lidera o Laboratório de IA Improvável no Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL).

No futuro, esse método poderá ajudar um robô a aprender a realizar tarefas específicas na casa de um usuário rapidamente, sem que o proprietário precise mostrar ao robô exemplos físicos de cada tarefa. O robô poderia explorar por conta própria, com feedback de não-especialistas de crowdsourcing orientando sua exploração.

“Em nosso método, a função de recompensa orienta o agente sobre o que ele deve explorar, em vez de dizer exatamente o que deve fazer para concluir a tarefa. Assim, mesmo que a supervisão humana seja um tanto imprecisa e barulhenta, o agente ainda é capaz de explorar, o que o ajuda a aprender muito melhor”, explica o autor principal Marcel Torne '23, assistente de pesquisa no Laboratório de IA Improvável.

Torne é acompanhado no artigo por seu conselheiro do MIT, Agrawal; autor sênior Abhishek Gupta, professor assistente da Universidade de Washington; bem como outros na Universidade de Washington e no MIT. A pesquisa será apresentada na Conferência sobre Sistemas de Processamento de Informação Neural no próximo mês.

Feedback barulhento

Uma maneira de obter feedback do usuário para aprendizado por reforço é mostrar ao usuário duas fotos dos estados alcançados pelo agente e, em seguida, perguntar ao usuário qual estado está mais próximo de uma meta. Por exemplo, talvez o objetivo de um robô seja abrir um armário de cozinha. Uma imagem pode mostrar que o robô abriu o armário, enquanto a segunda pode mostrar que abriu o micro-ondas. Um usuário escolheria a foto do estado “melhor”.

Algumas abordagens anteriores tentam usar esse feedback binário de crowdsourcing para otimizar uma função de recompensa que o agente usaria para aprender a tarefa. No entanto, como é provável que os não-especialistas cometam erros, a função de recompensa pode tornar-se muito barulhenta, de modo que o agente pode ficar preso e nunca atingir o seu objetivo.

“Basicamente, o agente levaria a função de recompensa muito a sério. Tentaria corresponder perfeitamente à função de recompensa. Portanto, em vez de otimizar diretamente a função de recompensa, apenas a usamos para informar ao robô quais áreas ele deve explorar”, diz Torne.

Ele e seus colaboradores separaram o processo em duas partes separadas, cada uma dirigida por seu próprio algoritmo. Eles chamam seu novo método de aprendizagem por reforço de HuGE (Human Guided Exploration).

Por um lado, um algoritmo seletor de metas é continuamente atualizado com feedback humano de crowdsourcing. O feedback não é utilizado como função de recompensa, mas sim para orientar a exploração do agente. De certa forma, os usuários não-especialistas deixam cair migalhas que gradualmente conduzem o agente em direção ao seu objetivo.

Por outro lado, o agente explora por conta própria, de forma auto-supervisionada e guiado pelo seletor de metas. Ele coleta imagens ou vídeos de ações que tenta, que são então enviados a humanos e usados ​​para atualizar o seletor de metas.

Isso restringe a área a ser explorada pelo agente, levando-o a áreas mais promissoras e mais próximas de seu objetivo. Mas se não houver feedback, ou se o feedback demorar para chegar, o agente continuará aprendendo por conta própria, embora de forma mais lenta. Isso permite que o feedback seja coletado com pouca frequência e de forma assíncrona.

“O ciclo de exploração pode continuar de forma autônoma, porque vai apenas explorar e aprender coisas novas. E então, quando você conseguir um sinal melhor, ele explorará de maneiras mais concretas. Você pode simplesmente mantê-los girando em seu próprio ritmo”, acrescenta Torne.

E como o feedback apenas orienta suavemente o comportamento do agente, ele eventualmente aprenderá a concluir a tarefa mesmo que os usuários forneçam respostas incorretas.

Aprendizagem mais rápida

Os pesquisadores testaram esse método em uma série de tarefas simuladas e do mundo real. Na simulação, eles usaram o HuGE para aprender com eficácia tarefas com longas sequências de ações, como empilhar blocos em uma ordem específica ou navegar em um grande labirinto.

Em testes do mundo real, eles utilizaram o HuGE para treinar braços robóticos para desenhar a letra “U” e escolher e posicionar objetos. Para esses testes, eles coletaram dados de 109 usuários não especializados em 13 países diferentes, abrangendo três continentes.

Em experimentos reais e simulados, o HuGE ajudou os agentes a aprenderem a atingir a meta mais rapidamente do que outros métodos.

Os pesquisadores também descobriram que os dados coletados por pessoas não especialistas produziram melhor desempenho do que os dados sintéticos, que foram produzidos e rotulados pelos pesquisadores. Para usuários não experientes, rotular 30 imagens ou vídeos levou menos de dois minutos.

“Isso o torna muito promissor em termos de capacidade de ampliar esse método”, acrescenta Torne.

Em um artigo relacionado, que os pesquisadores apresentaram na recente Conferência sobre Aprendizagem de Robôs, eles aprimoraram o HuGE para que um agente de IA possa aprender a executar a tarefa e, em seguida, redefinir o ambiente de forma autônoma para continuar aprendendo. Por exemplo, se o agente aprende a abrir um armário, o método também orienta o agente a fechar o armário.

“Agora podemos fazer com que ele aprenda de forma totalmente autônoma, sem a necessidade de redefinições humanas”, diz ele.

Os investigadores sublinham ainda que, nesta e noutras abordagens de aprendizagem, é fundamental garantir que os agentes de IA estejam alinhados com os valores humanos.

No futuro, eles querem continuar refinando o HuGE para que o agente possa aprender com outras formas de comunicação, como linguagem natural e interações físicas com o robô. Eles também estão interessados ​​em aplicar este método para ensinar vários agentes ao mesmo tempo.


Nenhum comentário: