Teaching robots through positive

reinforcement

Brian Heater@bheater / 5:51 AM GMT+9•October 27, 2020


There likely isn’t a robotics teacher institute in the world actively pursuing robotic learning. The field, after all, holds the key to unlocking a lot of potential for the industry. One of the things that makes it so remarkable is the myriad different approaches so many researchers are taking to unlock the secrets of helping robots essentially learn from scratch.


Image Credits: Johns Hopkins University


 

로봇 가르치기


인센티브 제공이 핵심

 

  세상에 로봇 학습을 적극적으로 추구하는 로봇 교사 기관은 없는 것 같다. 결국, 그 분야는 그 산업에 대한 많은 잠재력을 열 수 있는 열쇠를 쥐고 있다. 그중 매우 주목할 만한 것 중 하나는 수많은 다른 접근법들 때문에 많은 연구자들이 로봇이 근본적으로 처음부터 배우는 것을 돕는 비밀을 풀기 위해 몰두하고 있다.




존스 홉킨스 대학교의 "좋은 로봇"이라는 유명한 이름을 가진 새로운 논문은 긍정적인 강화를 통해 학습의 가능성을 탐구한다. 이 제목은 다람쥐를 쫓지 않도록 그의 개를 가르친다는 작가 앤드루 헌트의 일화에서 유래되었다.


하지만 이 아이디어의 핵심은 로봇에게 무언가를 잘못했을 때 의욕을 꺾는 것이 아니라, 어떤 것이 옳을 때 어떤 식으로든 인센티브를 제공하는 것이다. 로봇의 경우, 인센티브는 채점 시스템의 형태로 제공되는데, 이는 본질적으로 과제를 올바르게 실행하는 것에 기초하여 많은 점수를 보상하는 일종의 게이밍이다.


이 박사 지원자는 이 방법이 과제의 훈련 시간을 크게 줄일 수 있었다고 말한다. 헌트는 이번 연구와 연계한 발표에서 "로봇은 더 높은 점수를 원한다"고 말했다. "그것은 최고의 보상을 받기 위한 올바른 행동을 빨리 배운다. 사실, 로봇이 100% 정확도를 달성하는 데는 한 달 정도의 연습이 필요했었다. 그렇지만 이틀 만에 할 수 있었다고 말했다.

벽돌 쌓기와 비디오 게임 탐색 등 아직 초창기 과제지만, 미래 로봇들이 더 복잡하고 유용한 실제 작업까지 할 수 있을 것이라는 희망이 있다.


황기철 콘페이퍼 에디터

Ki Chul Hwang Conpaper editor curator



via youtube


edited by kcontents


A new paper from Johns Hopkins University  sporting the admittedly delightful name “Good Robot” explores the potential of learning through positive reinforcement. The title derives from an anecdote from author Andrew Hundt about teaching his dog to not chase after squirrels. I won’t go into that here — you can just watch this video instead:


The JHU Hub - Johns Hopkins University

edited by kcontents


But the core of the idea is to offer the robot some manner of incentive when it gets something correct, rather than a disincentive when it does something wrong. For robots, incentives come in the form of a scoring system — essentially a kind of gamification that rewards a number of points based on correctly executing a task.


The PhD candidate says the method was able to reduce the training time of a task significantly. “The robot wants the higher score,” Hundt said in a release tied to the research. “It quickly learns the right behavior to get the best reward. In fact, it used to take a month of practice for the robot to achieve 100% accuracy. We were able to do it in two days.”




The tasks are still quite elementary, including stacking bricks and navigating through a video game, but there’s hope that future robots will be able to work up to more complex and useful real-world tasks.


https://techcrunch.com/2020/10/26/teaching-robots-through-positive-reinforcement/


Dog Training Methods Help Teach Robots to Learn New Tricks 

 kcontents

728x90
Posted by engi, conpaper Engi-

댓글을 달아 주세요