LLM(대형 언어 모델)에는 변경됨 자연어 처리를 처리하는 방법. 질문에 답하고, 코드를 작성하고, 대화를 나눌 수 있습니다. 그러나 실제 작업에 있어서는 부족합니다. 예를 들어, LLM은 재킷 구입 과정을 안내할 수 있지만 주문을 해줄 수는 없습니다. 생각과 행동 사이의 이러한 격차는 주요 제한 사항입니다. 사람들은 정보만 필요한 것이 아닙니다. 그들은 결과를 원합니다.
이러한 격차를 해소하기 위해 Microsoft는 선회 LLM을 행동 지향 AI 에이전트로 전환합니다. LLM이 작업을 계획하고, 작업을 분해하고, 실제 상호 작용에 참여할 수 있도록 함으로써 LLM이 실제 작업을 효과적으로 관리할 수 있도록 해줍니다. 이러한 변화는 LLM이 수행할 수 있는 작업을 재정의하여 LLM을 복잡한 작업 흐름을 자동화하고 일상적인 작업을 단순화하는 도구로 전환할 수 있는 잠재력을 가지고 있습니다. 이를 실현하는 데 무엇이 필요한지, 그리고 Microsoft가 이 문제에 어떻게 접근하고 있는지 살펴보겠습니다.
LLM이 행동해야 하는 것
LLM이 실제 세계에서 작업을 수행하려면 텍스트를 이해하는 것 이상의 것이 필요합니다. 변화하는 조건에 적응하면서 디지털 및 물리적 환경과 상호 작용해야 합니다. 필요한 기능은 다음과 같습니다.
사용자 의도 이해
효과적으로 행동하려면 LLM은 사용자 요청을 이해해야 합니다. 텍스트나 음성 명령과 같은 입력은 모호하거나 불완전한 경우가 많습니다. 시스템은 지식과 요청 컨텍스트를 사용하여 격차를 메워야 합니다. 다단계 대화는 이러한 의도를 구체화하여 AI가 조치를 취하기 전에 이해할 수 있도록 하는 데 도움이 될 수 있습니다.
의도를 행동으로 바꾸기
LLM은 작업을 이해한 후 이를 실행 가능한 단계로 변환해야 합니다. 여기에는 버튼 클릭, API 호출 또는 물리적 장치 제어가 포함될 수 있습니다. LLM은 특정 작업에 맞게 조치를 수정하고, 환경에 적응하고, 발생하는 문제를 해결해야 합니다.
변화에 적응
실제 작업이 항상 계획대로 진행되는 것은 아닙니다. LLM은 문제를 예측하고, 단계를 조정하고, 문제가 발생할 경우 대안을 찾아야 합니다. 예를 들어, 필요한 리소스를 사용할 수 없는 경우 시스템은 작업을 완료하기 위한 다른 방법을 찾아야 합니다. 이러한 유연성을 통해 상황이 변경될 때 프로세스가 중단되지 않습니다.
특정 업무 전문화
LLM은 일반적인 용도로 설계되었지만 전문화하면 더욱 효율적입니다. 특정 작업에 집중함으로써 이러한 시스템은 더 적은 리소스로 더 나은 결과를 제공할 수 있습니다. 이는 스마트폰이나 임베디드 시스템과 같이 컴퓨팅 성능이 제한된 장치에 특히 중요합니다.
이러한 기술을 개발함으로써 LLM은 단순한 정보 처리 이상의 발전을 이룰 수 있습니다. 그들은 의미 있는 조치를 취하여 AI가 일상적인 작업 흐름에 원활하게 통합될 수 있는 기반을 마련할 수 있습니다.
Microsoft가 LLM을 혁신하는 방법
행동 지향 AI를 만들기 위한 Microsoft의 접근 방식은 구조화된 프로세스를 따릅니다. 주요 목표는 LLM이 명령을 이해하고 효과적으로 계획하고 조치를 취할 수 있도록 하는 것입니다. 그 방법은 다음과 같습니다.
1단계: 데이터 수집 및 준비
첫 번째 문구에서는 특정 사용 사례인 UFO 에이전트(아래 설명)와 관련된 데이터를 수집했습니다. 데이터에는 사용자 쿼리, 환경 세부 정보 및 작업별 작업이 포함됩니다. 이 단계에서는 두 가지 유형의 데이터가 수집됩니다. 첫째, LLM이 작업을 완료하는 데 필요한 상위 수준 단계를 설명하는 데 도움이 되는 작업 계획 데이터를 수집했습니다. 예를 들어 “Word에서 글꼴 크기 변경”에는 텍스트 선택 및 도구 모음 설정 조정과 같은 단계가 포함될 수 있습니다. 둘째, 작업-작업 데이터를 수집하여 LLM이 이러한 단계를 특정 버튼 클릭이나 키보드 단축키 사용과 같은 정확한 지침으로 변환할 수 있도록 했습니다.
이 조합은 모델에 작업을 효과적으로 수행하는 데 필요한 큰 그림과 자세한 지침을 제공합니다.
2단계: 모델 훈련
데이터가 수집되면 여러 교육 세션을 통해 LLM이 개선됩니다. 첫 번째 단계에서 LLM은 사용자 요청을 실행 가능한 단계로 분류하는 방법을 가르쳐 작업 계획을 위한 교육을 받습니다. 그런 다음 전문가가 라벨을 붙인 데이터를 사용하여 이러한 계획을 특정 조치로 변환하는 방법을 가르칩니다. 문제 해결 능력을 더욱 강화하기 위해 LLM은 미해결 과제를 해결하고 지속적인 학습을 위한 새로운 사례를 생성할 수 있는 자체 강화 탐색 프로세스에 참여했습니다. 마지막으로 강화학습을 적용해 성공과 실패로부터 얻은 피드백을 활용해 의사결정을 더욱 향상시킵니다.
3단계: 오프라인 테스트
훈련 후에는 신뢰성을 보장하기 위해 통제된 환경에서 모델을 테스트합니다. 다음과 같은 측정항목 작업 성공률(TSR) 및 SSR(단계 성공률)을 사용하여 성능을 측정합니다. 예를 들어, 달력 관리 에이전트를 테스트하려면 오류 없이 회의를 예약하고 초대장을 보내는 능력을 확인해야 할 수 있습니다.
4단계: 실제 시스템에 통합
검증되면 모델은 에이전트 프레임워크에 통합됩니다. 이를 통해 버튼 클릭이나 메뉴 탐색과 같은 실제 환경과 상호 작용할 수 있었습니다. UI 자동화 API와 같은 도구는 시스템이 사용자 인터페이스 요소를 동적으로 식별하고 조작하는 데 도움이 되었습니다.
예를 들어 Word에서 텍스트를 강조 표시하는 작업을 맡은 경우 에이전트는 강조 버튼을 식별하고 텍스트를 선택한 다음 서식을 적용합니다. 메모리 구성 요소는 LLM이 과거 작업을 추적하여 새로운 시나리오에 적응하는 데 도움이 될 수 있습니다.
5단계: 실제 테스트
마지막 단계는 온라인 평가이다. 여기에서는 시스템이 예상치 못한 변경 사항과 오류를 처리할 수 있는지 확인하기 위해 실제 시나리오에서 테스트되었습니다. 예를 들어, 고객 지원 봇은 잘못된 입력이나 누락된 정보에 적응하면서 사용자에게 비밀번호 재설정을 안내할 수 있습니다. 이 테스트를 통해 AI가 강력하고 일상적으로 사용할 수 있는지 확인합니다.
실제 사례: UFO 요원
행동 지향 AI의 작동 방식을 보여주기 위해 Microsoft는 UFO 요원. 이 시스템은 Windows 환경에서 실제 작업을 실행하여 사용자 요청을 완료된 작업으로 전환하도록 설계되었습니다.
기본적으로 UFO 에이전트는 LLM을 사용하여 요청을 해석하고 작업을 계획합니다. 예를 들어 사용자가 “이 문서에서 ‘중요’라는 단어를 강조 표시하세요”라고 말하면 에이전트는 Word와 상호 작용하여 작업을 완료합니다. UI 컨트롤의 위치와 같은 상황별 정보를 수집하고 이를 사용하여 작업을 계획하고 실행합니다.
UFO 에이전트는 다음과 같은 도구를 사용합니다. Windows UI 자동화 (UIA) API. 이 API는 애플리케이션에서 버튼이나 메뉴와 같은 제어 요소를 검색합니다. “문서를 PDF로 저장”과 같은 작업의 경우 에이전트는 UIA를 사용하여 “파일” 버튼을 식별하고 “다른 이름으로 저장” 옵션을 찾은 다음 필요한 단계를 실행합니다. 데이터를 일관되게 구조화함으로써 시스템은 훈련부터 실제 적용까지 원활한 운영을 보장합니다.
도전을 극복하다
이는 흥미로운 발전이지만 행동 지향적인 AI를 만드는 데에는 어려움이 따른다. 확장성이 중요한 문제입니다. 다양한 작업에 걸쳐 이러한 모델을 교육하고 배포하려면 상당한 리소스가 필요합니다. 안전성과 신뢰성을 보장하는 것도 똑같이 중요합니다. 모델은 특히 민감한 환경에서 의도하지 않은 결과 없이 작업을 수행해야 합니다. 그리고 이러한 시스템이 개인 데이터와 상호 작용함에 따라 개인 정보 보호 및 보안에 대한 윤리적 표준을 유지하는 것도 중요합니다.
Microsoft의 로드맵은 효율성 향상, 사용 사례 확장 및 윤리 표준 유지에 중점을 두고 있습니다. 이러한 발전을 통해 LLM은 AI가 세상과 상호 작용하는 방식을 재정의하여 AI를 더욱 실용적이고 적응 가능하며 행동 지향적으로 만들 수 있습니다.
AI의 미래
LLM을 행동 지향 에이전트로 전환하면 게임 체인저가 될 수 있습니다. 이러한 시스템은 작업을 자동화하고, 워크플로를 단순화하며, 기술에 대한 접근성을 더 높일 수 있습니다. 행동 지향 AI 및 UFO 에이전트와 같은 도구에 대한 Microsoft의 작업은 시작에 불과합니다. AI가 계속해서 발전함에 따라 우리는 단지 우리와 상호작용하는 데 그치지 않고 작업을 완료하는 더 스마트하고 유능한 시스템을 기대할 수 있습니다.
게시물 의도에서 실행까지: Microsoft가 대규모 언어 모델을 작업 지향 AI로 전환하는 방법 처음 등장한 Unite.AI.