이 블로그 게시물은 6 부로 부는 블로그 시리즈 중 세 번째입니다. 에이전트 공장 이는 에이전트 AI 채택 및 구축을 안내하는 모범 사례, 디자인 패턴 및 도구를 공유합니다.
보는 것은 에이전트 관측 성의 힘을 알고 있습니다
에이전트 AI가 엔터프라이즈 워크 플로의 중심이되면서 신뢰성, 안전 및 성능을 보장하는 것이 중요합니다. 에이전트 관찰 가능성이 등장하는 곳입니다. 에이전트 관찰 가능성은 팀에게 다음을 수행 할 수 있습니다.
- 개발 초기에 문제를 감지하고 해결합니다.
- 에이전트가 품질, 안전 및 규정 준수 표준을 유지하는지 확인하십시오.
- 프로덕션에서 성능 및 사용자 경험을 최적화하십시오.
- AI 시스템에서 신뢰와 책임을 유지하십시오.
복잡하고 다중 에이전트 및 다중 모달 시스템이 증가함에 따라, 효과적 일뿐 만 아니라 투명하고 안전하며 조직적 가치와 일치하는 AI를 전달하는 데 관찰 가능성이 필수적입니다. 관찰 가능성은 에이전트가 라이프 사이클에서 실제 시나리오에 대응하는 방식에 대한 가시성을 제공함으로써 팀이 자신감과 확장으로 책임감있게 구축 할 수있게합니다.
에이전트 관찰 가능성은 무엇입니까?
에이전트 관찰 가능성은 개발 및 테스트에서 배포 및 지속적인 운영에 이르기까지 라이프 사이클 전체의 AI 에이전트의 내부 작업, 결정 및 결과에 대한 깊고 실행 가능한 가시성을 달성하는 관행입니다. 에이전트 관찰 가능성의 주요 측면에는 다음이 포함됩니다.
- 지속적인 모니터링 : 추적 에이전트 행동, 결정 및 상호 작용을 실시간으로하여 이상, 예기치 않은 행동 또는 성능 드리프트를 나타냅니다.
- 트레이싱: 에이전트가 작업을 통한 이유, 도구를 선택하고 다른 에이전트 또는 서비스와 협력하는 방법을 포함하여 상세한 실행 흐름을 캡처합니다. 이것은“무슨 일이 있었는지”뿐만 아니라“왜 그리고 어떻게 일어 났습니까?”라고 대답하는 데 도움이됩니다.
- 벌채 반출: 에이전트 AI 워크 플로의 디버깅 및 행동 분석을 지원하기 위해 에이전트 결정, 도구 통화 및 내부 상태 변경을 기록합니다.
- 평가: 품질, 안전, 규정 준수 및 사용자 의도와의 정렬에 대한 에이전트 출력을 체계적으로 평가합니다.
- 통치: 에이전트가 윤리적, 안전하고, 조직 및 규제 요구 사항에 따라 운영되도록 정책 및 표준을 시행합니다.
전통적인 관측 성과 제제 관찰 가능성
전통적인 관찰 가능성은 메트릭, 로그 및 흔적의 세 가지 기초 기둥에 의존합니다. 이들은 시스템 성능에 대한 가시성을 제공하고, 실패를 진단하고, 루트 원인 분석을 지원하는 데 도움이됩니다. 그들은 인프라 건강, 대기 시간 및 처리량에 중점을 둔 기존 소프트웨어 시스템에 적합합니다.
그러나 AI 에이전트는 비 결정적이며보다 진보 된 관찰 가능성 프레임 워크가 필요한 새로운 차원 (자율, 추론 및 동적 의사 결정)을 도입합니다. 에이전트 관찰 가능성은 전통적인 방법을 기반으로하며 평가 및 거버넌스의 두 가지 중요한 구성 요소를 추가합니다. 평가를 통해 팀은 에이전트가 사용자 의도를 해결하고 작업을 준수하며 도구를 효과적으로 사용하는 방법을 평가하는 데 도움이됩니다. 에이전트 거버넌스는 에이전트가 안전하고 윤리적이며 조직 표준을 준수하여 작동하도록 할 수 있습니다.
이 확장 된 접근 방식은 에이전트 행동에 대한 더 깊은 가시성을 가능하게합니다. 이 제품은 개발에서 생산에 이르기까지 에이전트 라이프 사이클의 지속적인 모니터링을 지원하며 규모에 따라 신뢰할 수있는 고성능 AI 시스템을 구축하는 데 필수적입니다.
Azure AI Foundry Observability는 엔드 투 엔드 에이전트 관측 성을 제공합니다
Azure AI Foundry Observability AI 시스템의 품질, 성능 및 안전성을 평가, 모니터링, 추적 및 관리하기위한 통합 솔루션입니다. Azure AI Foundry– AI 개발 루프에 모두 내장. Foundry Observabilities는 모델 선택에서 실시간 디버깅에 이르기까지 팀이 자신감과 속도로 생산 등급 AI를 제공 할 수 있습니다. 기업 AI 시대에 재구성 된 관찰 가능성입니다.
Agents Playground Evaluations, Azure AI Red Taming Agent 및 Azure 모니터 통합과 같은 내장 기능을 통해 Foundry Observability는 에이전트 라이프 사이클의 모든 단계에 평가 및 안전성을 제공합니다. 팀은 전체 실행 컨텍스트로 각 에이전트 흐름을 추적하고 적대적인 시나리오를 시뮬레이션하며 사용자 정의 가능한 대시 보드로 실시간 트래픽을 모니터링 할 수 있습니다. Seamless CI/CD 통합을 통해 Microsoft Purview, Credo AI 및 SaidOT 통합을 통한 모든 커밋 및 거버넌스 지원에 대한 지속적인 평가를 가능하게합니다.

에이전트 관찰 가능성을위한 5 가지 모범 사례
1. 벤치 마크 구동 리더 보드를 사용하여 올바른 모델을 선택하십시오
모든 에이전트에는 모델이 필요하며 올바른 모델을 선택하는 것은 에이전트 성공을위한 기본입니다. AI 에이전트를 계획하는 동안 안전, 품질 및 비용 측면에서 사용 사례에 가장 적합한 모델을 결정해야합니다.
자신의 데이터에서 모델을 평가하거나 Azure AI Foundry ‘s를 사용하여 최고의 모델을 선택할 수 있습니다. 모델 리더 보드 품질, 비용 및 성능으로 기초 모델을 비교하여 업계 벤치 마크에 의해 백업됩니다. 파운드리 모델 리더 보드를 사용하면 다양한 선택 기준 및 시나리오에서 모델 리더를 찾아 기준 (예 : 품질 대 비용 또는 안전성) 간의 트레이드 오프를 시각화하고 자세한 메트릭으로 뛰어 들어 자신감 있고 데이터 중심의 결정을 내릴 수 있습니다.

Azure AI Foundry의 모델 리더 보드는 실험에서 배포까지 클라이언트 솔루션을 확장 할 수있는 자신감을 제공했습니다. 모델을 나란히 비교하면 고객이 자신감을 갖는 성능, 안전 및 비용을 균형 잡는 최상의 적합성을 선택하는 데 도움이되었습니다.
-마크 Luquire, EY Global Microsoft Alliance 공동 인노베이션 리더, Ernst & Young, LLP의 전무 이사*
2. 개발 및 생산에서 지속적으로 에이전트를 평가합니다
에이전트는 강력한 생산성 조수입니다. 그들은 계획, 결정을 내리고 행동을 실행할 수 있습니다. 에이전트는 일반적으로 먼저 대화에서 사용자 의도를 통한 이유,,, 올바른 도구를 선택하십시오 사용자 요청을 호출하고 만족시키기 위해 다양한 작업을 완료하십시오 그들의 지시에 따라. 에이전트를 배포하기 전에 행동과 성능을 평가하는 것이 중요합니다.

Azure AI Foundry는 의도 해상도 (에이전트가 사용자 의도를 정확하게 식별하고 해결하는 방법), 작업 준수 (에이전트가 식별 된 작업에 대해 잘 따르는 방법), 도구 호출 도구 (에이전트가 얼마나 효과적으로 선택하고 사용하는지) (에이전트의 응답 완성도에 필요한지)를 포함하여 여러 에이전트 평가자를 지원하는 여러 에이전트 평가자를 사용하여 상담원 평가를보다 쉽게 수행 할 수 있도록합니다. Azure AI Foundry는 에이전트 평가자 외에도 AI 품질, 위험 및 안전에 대한 광범위한 평가를위한 포괄적 인 평가자 제품군을 제공합니다. 여기에는 다음과 같은 품질 차원이 포함됩니다 관련성,,, 통일그리고 유창포괄적 인 것과 함께 위험 및 안전 점검 코드 취약성, 폭력, 자해, 성적 내용, 증오, 불공평, 간접 공격 및 보호 자료 사용을 평가합니다. Azure AI Foundry Agents Playground는 이러한 평가 및 추적 도구를 한 곳에 함께 제공하여 에이전트 AI를 효율적으로 테스트, 디버그 및 향상시킬 수 있습니다.
Azure AI Foundry의 강력한 평가 도구는 개발자가 일관성, 유창성 및 근거에 대한 회의 표준을 포함하여 AI 모델의 성능과 정확성을 지속적으로 평가할 수 있도록 도와줍니다.
3. 평가를 CI/CD 파이프 라인에 통합하십시오
자동 평가는 CI/CD 파이프 라인의 일부 여야하므로 모든 코드 변경이 릴리스 전에 품질과 안전성을 테스트합니다. 이 접근법은 팀이 회귀를 조기에 포착하는 데 도움이되며 에이전트가 진화함에 따라 신뢰할 수 있도록 도와줍니다.
Azure AI Foundry는 CI/CD 워크 플로를 사용하여 통합합니다 Github 동작 그리고 Azure DevOps 확장모든 커밋에 대해 자동 평가 에이전트를 사용할 수 있고, 내장 품질, 성능 및 안전 지표를 사용하여 버전을 비교하고, 신뢰 구간 및 중요성 테스트를 활용하여 결정을 지원합니다.

Azure AI Foundry 평가를 GitHub Actions 워크 플로에 직접 통합 했으므로 AI 에이전트로의 모든 코드 변경이 배포되기 전에 자동으로 테스트됩니다. 이 설정은 모델과 기능을 반복 할 때 회귀를 신속하게 포착하고 고품질을 유지하는 데 도움이됩니다.
– Justin Layne Hofer, 수석 소프트웨어 엔지니어, Veeam
4. 제작 전 AI Red 팀으로 취약성 스캔
보안 및 안전은 협상 할 수 없습니다. 배치 전에 적대적 공격을 시뮬레이션하여 보안 및 안전 위험에 대해 사전 에이전트를 테스트하십시오. Red Teaming은 실제 시나리오에서 악용 될 수있는 취약점을 발견하여 에이전트 견고성을 강화하는 데 도움이됩니다.
Azure AI Foundry의 AI RED 팀링 에이전트 적대적 테스트를 자동화하고 위험 측정 및 준비 보고서 생성을 자동화합니다. 이를 통해 팀은 공격을 시뮬레이션하고 생산 준비를 위해 개별 에이전트 응답과 복잡한 워크 플로를 검증 할 수 있습니다.


Accenture는 이미 테스트 중입니다 Microsoft AI Red 팀링 에이전트적대적 프롬프트를 시뮬레이션하고 모델 및 응용 위험 자세를 적극적으로 감지합니다. 이 도구는 개별 에이전트 응답뿐만 아니라 계단식 로직이 단일 대적 사용자로부터 의도하지 않은 동작을 생성 할 수있는 완전한 다중 에이전트 워크 플로우를 검증하는 데 도움이됩니다. Red Teaming을 통해 최악의 시나리오가 제작을 시작하기 전에 시뮬레이션 할 수 있습니다. 게임이 바뀝니다.
5. 추적, 평가 및 경고로 생산 에이전트 모니터링
배포 후 지속적인 모니터링은 문제, 성능 드리프트 또는 실시간 회귀를 포착하는 데 필수적입니다. 평가, 추적 및 경고를 사용하면 라이프 사이클 전체의 에이전트 신뢰성 및 준수를 유지하는 데 도움이됩니다.
Azure AI Foundry Observability는 Azure Monitor Application Insights 및 Azure 통합 문서로 구동되는 통합 대시 보드를 통해 연속 에이전트 AI 모니터링을 가능하게합니다. 이 대시 보드는 성능, 품질, 안전 및 리소스 사용에 대한 실시간 가시성을 제공하므로 실시간 트래픽에 대한 지속적인 평가를 실행하고, 드리프트 또는 회귀를 감지하도록 경고를 설정하고, 전체 스택 관찰 가능성을 위해 모든 평가 결과를 추적 할 수 있습니다. Azure Monitor에 대한 원활한 탐색을 사용하면 대시 보드를 사용자 정의하고 고급 진단을 설정하고 사고에 신속하게 응답 할 수 있습니다. 오줌.

대규모 엔터프라이즈 고객에게 보안이 가장 중요하며 Microsoft와의 협력은 모든 문제를 해결합니다. Azure AI Foundry를 통해 우리는 인프라에 대한 원하는 관찰 가능성과 제어 기능을 갖추고 있으며 고객에게 매우 안전한 환경을 제공 할 수 있습니다.
엔드 투 엔드 에이전트 관찰 가능성을위한 Azure AI Foundry로 시작하십시오.
요약하면, 전통적인 관찰 가능성에는 지표, 로그 및 트레이스가 포함됩니다. 에이전트 관찰 가능성은 완전한 가시성을 위해 지표, 흔적, 로그, 평가 및 거버넌스가 필요합니다. Azure AI Foundry Observability는 AI 개발 수명주기에 내장 된 에이전트 거버넌스, 평가, 추적 및 모니터링을위한 통합 솔루션입니다. Agents Playground, Smooth CI/CD 및 거버넌스 통합과 같은 도구를 통해 Azure AI Foundry Observility는 팀이 AI 에이전트가 신뢰할 수 있고 안전하며 생산 준비를 할 수 있도록 힘을 실어줍니다. 자세히 알아보십시오 Azure AI Foundry Observability 그리고 오늘 에이전트에 대한 모든 가시성을 얻으십시오!
다음은 무엇입니까
4 부에서 에이전트 공장 시리즈개발자 도구와 빠른 에이전트 개발을 통해 프로토 타입에서 프로덕션으로 더 빠르게 이동하는 방법에 중점을 둡니다.
시리즈 에서이 게시물을 놓쳤습니까?
*이 간행물에 반영된 견해는 화자의 견해이며 반드시 글로벌 EY 조직 또는 회원 회사의 견해를 반영하지는 않습니다.
게시물 에이전트 공장 : 신뢰할 수있는 AI에 대한 상위 5 개 에이전트 관찰 가능성 모범 사례 먼저 나타났습니다 Microsoft AI 블로그.
