대부분의 AI 교육은 간단한 원칙을 따릅니다. 훈련 조건을 현실 세계와 일치시킵니다. 하지만 MIT의 새로운 연구 AI 개발에서 이러한 기본 가정에 도전하고 있습니다.
그들의 발견? AI 시스템은 종종 배치에서 직면 할 수있는 복잡한 조건이 아니라 깨끗하고 간단한 환경에서 교육을받을 때 예측할 수없는 상황에서 종종 더 잘 수행됩니다. 이 발견은 놀라운 일뿐만 아니라 더 유능한 AI 시스템을 구축하는 것에 대해 어떻게 생각하는지 잘 재구성 할 수 있습니다.
연구팀은 Pac-Man 및 Pong과 같은 클래식 게임으로 작업 하면서이 패턴을 발견했습니다. 그들이 예측 가능한 버전의 게임에서 AI를 훈련시킨 다음 예측할 수없는 버전으로 테스트했을 때, 예측할 수없는 조건에서 직접 훈련 된 AI를 지속적으로 능가했습니다.
이러한 게임 시나리오 이외의 발견은 AI 개발의 미래 로봇 공학에서 복잡한 의사 결정 시스템에 이르기까지 실제 응용 프로그램의 경우.
전통적인 접근법
지금까지 AI 훈련에 대한 표준 접근 방식은 명확한 논리를 따랐습니다. AI가 복잡한 조건에서 작동하기를 원한다면 동일한 조건에서 훈련하십시오.
이것은 다음으로 이어졌습니다.
- 실제 복잡성과 일치하도록 설계된 교육 환경
- 여러 도전적인 시나리오에서 테스트
- 현실적인 훈련 조건을 만드는 데 많은 투자
그러나이 접근법에는 근본적인 문제가 있습니다. 처음부터 AI 시스템을 시끄럽고 예측할 수없는 조건으로 훈련하면 핵심 패턴을 배우는 데 어려움을 겪고 있습니다. 환경의 복잡성은 기본 원칙을 파악하는 능력을 방해합니다.
이것은 몇 가지 주요 과제를 만듭니다.
- 훈련은 훨씬 덜 효율적입니다
- 시스템에는 필수 패턴을 식별하는 데 어려움이 있습니다
- 성과는 종종 기대치에 미치지 못합니다
- 리소스 요구 사항은 극적으로 증가합니다
연구팀의 발견은 AI 시스템이 복잡성을 도입하기 전에 핵심 개념을 마스터 할 수 있도록 단순화 된 환경으로 시작하는 더 나은 접근법을 제안합니다. 이 기술은 기초 기술이보다 복잡한 상황을 처리하기위한 기초를 만드는 효과적인 교수법을 반영합니다.
실내 훈련 효과 : 반 직관적 인 발견
MIT 연구원들이 실제로 찾은 것을 분해합시다.
이 팀은 실험을 위해 두 가지 유형의 AI 에이전트를 설계했습니다.
- 학습 가능성 에이전트 : 이들은 같은 시끄러운 환경에서 훈련 및 테스트되었습니다.
- 일반화 에이전트 : 이들은 깨끗한 환경에서 훈련을 받았으며 시끄러운 환경에서 테스트되었습니다.
이 에이전트가 어떻게 배운 지 이해하기 위해 팀은 Markov 결정 과정 (MDP). MDP를 AI가 이러한 행동의 결과와 함께 취할 수있는 모든 상황과 행동의지도로 생각하십시오.
그런 다음 이러한 환경이 얼마나 예측할 수 없는지 신중하게 통제하기 위해“노이즈 주입”이라는 기술을 개발했습니다. 이를 통해 다양한 수준의 임의성으로 동일한 환경의 다른 버전을 만들 수있었습니다.
이 실험에서 “노이즈”로 간주되는 것은 무엇입니까? 결과를 덜 예측하기 어려운 요소입니다.
- 동작이 항상 같은 결과를 갖는 것은 아닙니다
- 사물이 어떻게 움직이는 지에 대한 임의의 변형
- 예상치 못한 상태 변경
그들이 시험을 실행했을 때, 예상치 못한 일이 일어났습니다. 깨끗하고 예측 가능한 환경에서 훈련 된 일반화 에이전트는 종종 그러한 조건에 대해 특별히 훈련 된 에이전트보다 시끄러운 상황을 더 잘 처리했습니다.
이 효과는 너무 놀랍게도 연구자들이 그것을“실내 훈련 효과”라고 불렀으며, AI 시스템을 어떻게 훈련시켜야하는지에 대한 기존의 지혜에 도전했습니다.
더 나은 이해를위한 게임
연구팀은 자신의 요점을 증명하기 위해 클래식 게임으로 돌아섰습니다. 왜 게임? AI의 성능을 정확하게 측정 할 수있는 통제 된 환경을 제공하기 때문입니다.
Pac-Man에서는 두 가지 다른 접근법을 테스트했습니다.
- 전통적인 방법 : 유령 움직임이 예측할 수없는 버전으로 AI를 훈련
- 새로운 방법 : 먼저 간단한 버전으로 훈련 한 다음 예측할 수없는 것에서 테스트하십시오.
그들은 Pong과 비슷한 테스트를 수행하여 패들이 컨트롤에 어떻게 반응했는지를 변경했습니다. 이 게임에서 “소음”으로 간주되는 것은 무엇입니까? 예제는 다음과 같습니다.
- 때때로 팩맨에서 순간 이동하는 유령
- Pong에서 항상 일관되게 반응하지 않는 패들
- 게임 요소가 어떻게 움직이는 지에 대한 임의의 변형
결과는 분명했습니다. 깨끗한 환경에서 훈련 된 AI는보다 강력한 전략을 배웠습니다. 예측할 수없는 상황에 직면했을 때, 그들은 시끄러운 조건에서 훈련 된 상대방보다 더 잘 적응했습니다.
숫자가 이것을 뒷받침했습니다. 두 게임 모두에서 연구자들은 다음과 같이 발견했습니다.
- 평균 점수가 높습니다
- 보다 일관된 성능
- 새로운 상황에 대한 더 나은 적응
팀은“탐사 패턴”이라는 것을 측정했습니다. 깨끗한 환경에서 훈련 된 AIS는 문제 해결에 대한보다 체계적인 접근 방식을 개발했으며, 이는 예측할 수없는 상황을 처리하는 데 결정적인 것으로 판명되었습니다.
성공의 과학을 이해합니다
실내 훈련 효과의 역학은 흥미 롭습니다. 핵심은 깨끗한 환경과 시끄러운 환경에 관한 것이 아니라 AI 시스템이 이해하는 방법에 관한 것입니다.
대행사가 깨끗한 환경에서 탐구 할 때, 그들은 명확한 탐사 패턴 인 중요한 것을 개발합니다. 정신지도를 만드는 것처럼 생각하십시오. 소음이 붙어 있지 않으면이 에이전트는 작동하는 것과 그렇지 않은 것에 대한 더 나은지도를 만듭니다.
이 연구는 세 가지 핵심 원칙을 밝혀 냈습니다.
- 패턴 인식 : 깨끗한 환경의 에이전트는 진정한 패턴을 더 빨리 식별하고 임의의 변형에 의해 산만 해지지 않습니다.
- 전략 개발 : 그들은 복잡한 상황으로 이어지는보다 강력한 전략을 구축합니다.
- 탐사 효율성 : 그들은 훈련 중에 더 유용한 상태 쌍을 발견합니다
데이터는 탐사 패턴에 대해 놀라운 것을 보여줍니다. 연구원들은 에이전트가 환경을 탐구하는 방식을 측정했을 때 분명한 상관 관계를 발견했습니다. 교육 패턴을 가진 대리인은 훈련 한 위치에 관계없이 더 잘 수행되었습니다.
실제 영향
이 전략의 의미는 게임 환경을 훨씬 뛰어 넘습니다.
훈련을 고려하십시오 제조를위한 로봇: 즉시 복잡한 공장 시뮬레이션에 넣는 대신 단순화 된 버전의 작업으로 시작할 수 있습니다. 이 연구는 실제로 실제 복잡성을 이런 식으로 더 잘 처리 할 것이라고 제안합니다.
현재 응용 프로그램에는 다음이 포함될 수 있습니다.
- 로봇 공학 개발
- 자율 주행 차량 훈련
- AI 의사 결정 시스템
- 게임 AI 개발
이 원칙은 또한 우리가 접근하는 방식을 향상시킬 수 있습니다 AI 훈련 모든 도메인에서. 회사는 잠재적으로 다음과 같습니다.
- 교육 자원을 줄입니다
- 보다 적응할 수있는 시스템을 구축하십시오
- 보다 안정적인 AI 솔루션을 만듭니다
이 분야의 다음 단계는 다음과 같습니다.
- 단순한 환경에서 복잡한 환경으로 최적의 진행
- 환경 복잡성을 측정하고 제어하는 새로운 방법
- 신흥 AI 필드의 응용 프로그램
결론
Pac-Man과 Pong에서 놀라운 발견으로 시작된 것은 AI 개발을 변화시킬 수있는 원칙으로 발전했습니다. 실내 훈련 효과는 더 나은 AI 시스템을 구축하는 경로가 우리가 생각했던 것보다 간단 할 수 있음을 보여줍니다. 기본부터 시작하고 기본을 마스터 한 다음 복잡성을 해결합니다. 기업 이이 접근법을 채택하면 모든 산업에서 더 빠른 개발주기와 더 유능한 AI 시스템을 볼 수 있습니다.
AI 시스템을 구축하고 작업하는 사람들에게는 메시지가 분명합니다. 때로는 가장 좋은 방법은 훈련에서 실제 세계의 모든 복잡성을 재현하는 것이 아닙니다. 대신, 먼저 통제 된 환경에서 강력한 기초를 구축하는 데 집중하십시오. 데이터는 강력한 핵심 기술이 종종 복잡한 상황에서 더 나은 적응으로 이어진다는 것을 보여줍니다. 이 공간을 계속 지켜보십시오 – 우리는이 원칙이 AI 개발을 어떻게 향상시킬 수 있는지 이해하기 시작했습니다.
게시물 깨끗한 환경에서 AI 에이전트를 훈련 시키면 혼란에 빠지게됩니다. 먼저 나타났습니다 Unite.ai.