지난 몇 주 동안 Openai는 토대를 마련했습니다. 대부분의 사용자는 방금 탐색하기 시작했습니다 chatgpt 작업 – 사용자 일정과 작업을 유발할 수있는 새로운 기능 – 회사는 훨씬 더 중요한 것을 준비하고있었습니다.
어제의 출시 연산자 인공 지능이 어디로 향하고 있는지에 대한 또 다른 명확한 신호입니다. 단순히 정보를 처리하는 모델에서 우리와 함께 적극적으로 작동 할 수있는 에이전트에 이르기까지.
우리는 매일 웹 사이트 탐색, 양식 작성, 예약 서비스 및 디지털 작업 관리에 수많은 시간을 소비합니다. AI는 주로 부업을 지켜보고 조언이나 처리 텍스트를 제공하는 것으로 제한되었습니다. 운영자는 Anthropic ‘s와 같은 다른 최근 에이전트 발표와 함께 컴퓨터 사용 그리고 Google의 프로젝트 선원,이 역학을 완전히 변경하십시오.
여기서 기술적 인 성과는 중요합니다. OpenAi는 사람처럼 웹 인터페이스를보고 상호 작용할 수있는 AI를 만들었습니다. 스크린 샷을 캡처하고 시각적 레이아웃을 이해하며 클릭 위치, 입력 대상 및 탐색 방법에 대한 결정을 내립니다.
운영자 에이전트에 대해 알아야 할 사항은 다음과 같습니다. 많은 AI 도구가 본질적으로 API와 전문 통합 뒤에 갇혀 있지만 운영자는 웹에서 정확히 귀하가하는 것처럼 작동합니다. 화면을보고 컨텍스트를 이해하며 직접 조치를 취합니다.
운영자의 실제 성능을 자세히 살펴 봅니다
AI Company가 벤치 마크를 공개 할 때 숫자가 실제로 의미하는 바를주의 깊게 살펴 보는 것이 중요합니다. 운영자의 성능은 다른 테스트 환경에서 다른 이야기를 들려줍니다.
가장 인상적인 메트릭은 운영자의 87% 성공률입니다. WebVoyager 벤치 마크. WebVoyager는 실제 웹 사이트 (Amazon 및 Google지도와 같이 매일 사용하는 실제 플랫폼)를 테스트하기 때문에 중요합니다. 이것은 통제 된 실험실 테스트가 아닙니다. 그것은 야생의 공연입니다.
그러나 다른 벤치 마크를 보면 더 미묘한 사진이 있습니다.
- 웹 카코 벤치 마크: 58.1% 성공률. 쇼핑 및 컨텐츠 관리와 같은 작업에 대한 시뮬레이션 웹 사이트를 테스트합니다. 여기서 낮은 성능은 실제로 AI 에이전트가 구조화되지 않은 환경을 처리하는 방법에 대한 중요한 것을 보여줍니다.
- Osworld 벤치 마크: 38.1% 성공률. 이 테스트는 이메일에서 PDF를 결합하는 것과 같은 복잡한 다중 단계 작업을 테스트합니다. 성능이 크게 떨어지면 작업에 여러 컨텍스트 스위치가 필요한 경우 AI 에이전트의 현재 한계를 보여줍니다.
이 숫자에 관심이있는 것은 인간 학습 패턴을 반영하는 방법입니다. 우리는 일반적으로 인공 테스트 시나리오보다 친숙하고 실제 환경에서 더 잘 수행합니다. 운영자가 실제 웹 사이트에서 탁월하면서 시뮬레이션 된 웹 사이트와 어려움을 겪고 있다는 사실은 교육이 이론적 성능에 대한 실질적인 유용성을 우선시하는 것을 시사합니다.
이러한 벤치 마크는 브라우저 자동화에서 새로운 레코드를 설정했지만 다양한 테스트에서 다양한 성공률은 OpenAI의 전략에 중요한 내용을 알려줍니다.
자신의 웹 브라우징에 대해 생각해보십시오. 대부분의 작업은 간단합니다 : 양식 작성, 구매, 예약 약속. 이것은 운영자의 87% 성공률이 빛나는 곳입니다. 성능이 떨어지는 더 복잡한 작업은 일반적으로 인간의 감독이 어쨌든 가치있는 것입니다.
이 데이터는 OpenAI가 의도적으로 선택하고 있음을 시사합니다. 공통 작업을 먼저 완성한 다음 점차 복잡한 작업으로 확장합니다. 이론적 능력보다 즉각적인 유용성을 우선시하는 실용적인 접근법입니다.
![](https://www.unite.ai/wp-content/uploads/2025/01/openai_cua_benchmarks-300x80.png)
AI 에이전트 벤치 마크 (OpenAi)
Openai의 운영자의 전략
OpenAi의 운영자 접근 방식은 신중하게 조정 된 전략을 보여줍니다.
먼저 타이밍을 고려하십시오. Chatgpt 작업과 같은 최근 기능의 출시는 기능 추가에 관한 것이 아니라 자율 에이전트를위한 사용자를 준비하는 것이 었습니다.
그러나 여기에 정말 흥미로운 것이 있습니다. OpenAi는 API를 통해 CUA 모델을 노출시킬 계획입니다. 이는 개발자가 자신의 컴퓨터 사용 에이전트를 만들 수 있음을 의미합니다.
이것에 대한 의미는 중요합니다.
- 통합 잠재력
- 기존 워크 플로에 직접 통합
- 특정 비즈니스 요구에 맞는 맞춤형 에이전트
- 업계 별 자동화 솔루션
- 미래의 개발 경로
- 플러스, 팀 및 엔터프라이즈 사용자로의 확장
- 직접 chatgpt 통합
- 지리적 확장 (유럽은 더 오래 걸릴 것입니다 규제 요구 사항))
전략적 파트너십도 말하고 있습니다. Openai는 전체 생태계를 만들려고 노력하고 있습니다. 그들은 Doordash, Instacart 및 Opentable과 같은 회사뿐만 아니라 Stockton시와 같은 공공 부문 조직과도 협력하고 있습니다.
이것은 AI 에이전트가 조수 일뿐 만 아니라 디지털 시스템과 상호 작용하는 방식의 필수 부분 인 미래를 지적합니다.
이것이 실제로 당신에게 의미하는 바
우리는 AI가 질문에 대답하는 것이 아니라 디지털 생활에 적극적으로 참여하고있는 단계에 들어가고 있습니다.
매일 온라인 작업에 대해 생각해보십시오. 전문 지식이 필요한 복잡하고 전략적인 작업이 아니라 반복적 인 작업입니다. 여러 사이트에서 여행 옵션을 연구하고, 표준화 된 양식을 작성하고, 다양한 웹 소스의 데이터 수집 및 일상적인 예약 관리에 대해 이야기하고 있습니다. 이곳에서 운영자가 처음에는 디지털 바쁜 작업을 제거하는 곳입니다. 그러나 이것은 그것이 멈출 곳이 아닙니다. 시간이 지남에 따라 AI 에이전트는 점점 더 복잡한 워크 플로를 완료 할 수 있습니다.
초기 성능 데이터는 또한 우리에게 중요한 것을 알려줍니다. 운영자는 87%의 성공률로 일상적인 웹 작업에서 탁월합니다. 그것을 효과적으로 통합하는 법을 배우는 얼리 어답터는 상당한 생산성 이점을 가질 것입니다.
통합 타임 라인은 OpenAI의 신중한 접근 방식을 보여줍니다. 그들은 미국의 프로 사용자로 시작하여 Chatgpt에 직접 통합하기 전에 Plus, Team 및 Enterprise 사용자로 확장하고 있습니다.
우리는 AI 도구의 작동 방식에서 근본적인 변화를보고 있습니다. 당신이 스스로에게 물어봐야 할 진정한 질문은이 변화에 적응 해야하는지가 아니라 전략적으로 수행하는 방법입니다. 기술은 발전하지만 원칙은 여전히 남아 있습니다. AI는 질문에 대한 질문에서 행동으로 이동하고 있습니다. 이 변화를 일찍 이해하는 사람들은 이러한 도구가 워크 플로에 어떻게 통합되는지를 형성하는 데 큰 이점을 가지게됩니다.
게시물 OpenAi의 운영자에 대해 알아야 할 사항 먼저 나타났습니다 Unite.ai.