AI 에이전트가 컴퓨터를 사용할 준비가 되셨습니까?

eliza strickland

8개월 ago

생성 AI 붐이 실제로 Chatgpt의 출시로 시작된 지 2 년 후, 더 이상 웹 브라우저 나 전화에 매달려있는 놀라운 도움이되는 AI 조수가 질문을하기를 기다리는 것이 더 이상 흥미롭지 않은 것 같습니다. AI의 다음 큰 푸시는입니다 AI 요원 그것은 당신을 대신하여 조치를 취할 수 있습니다. 그러나 에이전트 AI는 이미 코더와 같은 권한 사용자를 위해 도착했지만, 매일 소비자는 아직 이런 종류의 AI 보조원이 없습니다.

곧 바뀔 것입니다. Anthropic, Google Deepmind 및 Openai는 최근에 사람들이하는 방식으로 컴퓨터를 사용할 수있는 실험 모델을 공개했습니다. 정보를 위해 웹을 검색하고, 양식을 작성하고, 버튼을 클릭하는 것입니다. 인간 사용자의 약간의 지침으로 주문 식료품과 같은 생각을하거나 Uber에게 전화하거나 제품에 가장 적합한 가격을 찾거나 다음 휴가를위한 비행기를 찾을 수 있습니다. 그리고 이러한 초기 모델은 제한된 능력을 가지고 있으며 아직 널리 사용할 수 없지만 AI가 진행되는 방향을 보여줍니다.

Openai CEO Sam Altman은“이것은 단지 AI 클릭을 클릭하는 것입니다. 데모 비디오 그는 운영자라는 Openai 요원이 Opentable로 이동하여 샌프란시스코 식당을 찾아 오후 7시에 2 개의 테이블을 확인하는 것을 보았습니다.

Zachary LiptonCarnegie Mellon University의 기계 학습 부교수는 AI 에이전트가 영업 사원, 의사 및 변호사와 같은 다양한 유형의 기업 고객을위한 전문 소프트웨어에 이미 포함되어 있다고 지적합니다. 그러나 지금까지 우리는“노트북에서 일상적인 일을 할 수있는 AI 요원을 보지 못했습니다. “여기서 흥미 진진한 점 I사람들이 열쇠를 넘겨주기 시작할 가능성.”

Anthropic, Google Deepmind 및 Openai의 AI 요원

이 새로운 기능을 최초로 공개 한 최초의 발표 10 월에 Claude Chatbot은 이제 “인간의 방식대로 컴퓨터를 사용할 수 있습니다”. 회사는 모델 에이 기능을 공개 베타 테스트그리고 Anthropic의 대형 언어 모델 위에 도구와 제품을 구축하는 개발자 만 사용할 수 있습니다. Claude는 사용자가 보는 것의 스크린 샷을보고 커서를 특정 지점으로 이동하는 데 필요한 픽셀을 계산하여 항해합니다. Anthropic의 대변인은 Claude가 모든 컴퓨터와 데스크탑 응용 프로그램 내 에서이 작업을 수행 할 수 있다고 말합니다.

다음은 Google Deepmind와 함께 프로젝트 선원Google의 Gemini 2 언어 모델 위에 구축되었습니다. 이 회사는 12 월에 마리너를 보여 주었지만이를“초기 연구 프로토 타입”이라고 불렀으며 현재“신뢰할 수있는 테스터”가이 도구를 이용할 수 있다고 말했다. 또 다른 예방 조치로서, Mariner는 현재 Chrome 브라우저 내에서만 작동하며 활성 탭 내에서만 작동하므로 다른 작업을 수행하는 동안 백그라운드에서 실행되지 않습니다. 이 요구 사항은 시간을 절약하는 AI 도우미를 갖는 목적을 다소 물리 치는 것처럼 보이지만,이 초기 개발 단계의 일시적인 조건 일 것입니다.

마지막으로 1 월에 OpenAi는 컴퓨터 사용 에이전트 (CUA)를 시작했습니다. 연산자. OpenAi는이를 “리서치 미리보기”라고 불렀으며 OpenAI의 프리미엄 서비스에 대해 월 200 달러를 지불하는 사용자에게만 사용할 수있게했지만 회사는 광범위한 릴리스를 위해 노력하고 있다고 밝혔다. 야쉬 쿠마르운영자 팀의 엔지니어는이 도구가 본질적으로 모든 웹 사이트에서 작동 할 수 있다고 말합니다. Kumar는“우리는 대부분의 작업이 발생하는 곳이기 때문에 브라우저로 시작합니다. 그러나 그는“CUA 모델도 컴퓨터를 사용하도록 훈련을 받았으므로 다른 데스크탑 앱과 함께 작동하도록 확장 할 수 있습니다.

다른 사람들과 마찬가지로 운영자는 의존합니다 지시를 받아들이고 완료 할 수있는 일련의 작업으로 분류 할 것으로 추론합니다. 예를 들어 빨간색 또는 노란 양파를 구매하는 것과 같은 작업을 완료하는 데 더 많은 정보가 필요한 경우 일시 중지하고 입력을 요청합니다. 또한 레스토랑 테이블 예약 또는 식료품 주문을하는 것과 같은 최종 단계를 수행하기 전에 확인을 요청합니다.

컴퓨터 사용 에이전트의 안전 문제

컴퓨터 사용 에이전트가 아직 할 수없는 것들은 다음과 같습니다. 사이트에 로그인하고 서비스 약관에 동의하고 보안 문자를 해결하고 신용 카드 또는 기타 결제 세부 정보를 입력하십시오. 이 장애물 중 하나에 대리인이 등장하면 스티어링 휠을 인간 사용자에게 다시 건네줍니다. OpenAi는 사용자가 로그인 또는 결제 정보를 입력하는 동안 운영자가 브라우저의 스크린 샷을 찍지 않는다고 지적합니다.

세 회사는 모두 AI를 컴퓨터를 담당하는 것이 안전 위험을 초래할 수 있다고 언급했습니다. 인류는 구체적으로 우려를 제기했다 신속한 주사 공격악의적 인 행위자가 모델이 예기치 않은 조치를 취하도록 사용자의 프롬프트에 무언가를 추가 할 수있는 방법. Anthropic은“Claude는 인터넷에 연결된 컴퓨터의 스크린 샷을 해석 할 수 있으므로 신속한 주입 공격이 포함 된 컨텐츠에 노출 될 수 있습니다. 블로그 게시물.

CMU의 Lipton은 회사가 컴퓨터 사용 에이전트와 작동 방식에 대한 많은 정보를 공개하지 않았으므로 위험을 평가하기가 어렵다고 말합니다. “누군가가 컴퓨터 운영자가 악의적 인 일을하도록하는 경우 이미 컴퓨터에 액세스 할 수 있다는 것을 의미합니까?” 그는 궁금해하고 그렇다면 왜 잘못된 사람이 직접 행동하지 않습니까?

그럼에도 불구하고 Lipton은 우리가 취하는 모든 행동과 온라인에서 구매하는 모든 행동으로“사용자를 피클로 떠날 행동을 상상할 수있는 상상력의 도약이 필요하지 않습니다.”라고 말합니다. 예를 들어, 그는 이렇게 말합니다. [agent] 나에게 차를 샀어? ‘”

컴퓨터 사용 에이전트의 미래

회사 중 어느 누구도 컴퓨터 사용 에이전트를 광범위하게 이용할 수 있도록 타임 라인을 공개하지 않았지만, 소비자는 올해 대규모 AI 회사 나 신생 기업을 통해 이들에게 액세스하기 시작할 것 같습니다. 저렴한 넉 오프.

Openai의 Kumar는 흥미 진진한 시간이며 운영자는 인간과 AI를위한보다 협력적인 미래를 향한 단계를 가졌다 고 말합니다. “그것은 우리의 길에 우리의 길에 디딤돌입니다.” 꿈/악몽 인공 일반 정보. “인간이 매일 상호 작용하는 동일한 인터페이스와 도구를 사용하는 기능은 AI의 유용성을 넓히므로 사람들은 일상 업무에 시간을 절약 할 수 있도록 도와줍니다.”

Prescient 2013 영화를 기억한다면 그녀의그것은 우리가 영화의 시작 부분에 존재했던 세상을 향한 것처럼 보인다. 모든 사람들이 지루하고 중립적 인 AI를 가지고 메시지를 읽고 응답하고 다른 평범한 작업을 처리하는 데 도움이되는 세상입니다. AI 회사가 그 목표를 견고하게 달성하면 사만다에서 일하기 시작할 것입니다.

Anthropic, Google Deepmind 및 Openai의 AI 요원

컴퓨터 사용 에이전트의 안전 문제

컴퓨터 사용 에이전트의 미래

관련된 글: