Hanna Wallach가 처음 머신 러닝 모델을 테스트하기 시작했을 때, 작업은 잘 정의되어 있었고 평가하기 쉬웠습니다. 모델이 이미지 속 고양이를 올바르게 식별했을까요? 다른 시청자가 영화에 준 평가를 정확하게 예측했을까요? 누군가가 방금 한 말을 정확히 기록했을까요?
하지만 모델의 성능을 평가하는 이 작업은 사람과 상호작용하는 대규모 언어 모델(LLM)과 같은 생성 AI의 생성으로 변형되었습니다. 따라서 Microsoft의 연구원으로서 Wallach의 초점은 정량화하기 어려운 잠재적 위험에 대한 AI 대응을 측정하는 것으로 바뀌었습니다. 그녀는 공정성이나 심리적 안전과 같은 “모호한 인간 개념”이라고 말합니다.
측정에 대한 이 새로운 접근 방식, 즉 AI의 위험을 정의하고 평가하고 솔루션이 효과적인지 확인하는 것은 생성 기술이 사람과 상호 작용하는 방식의 사회적 및 기술적 요소를 모두 살펴봅니다. 이는 훨씬 더 복잡하지만 모든 사람에게 AI를 안전하게 유지하는 데 도움이 되는 데 중요합니다.
이 게시물은 Microsoft의 Building AI Responsibly 시리즈의 일부로, AI 배포와 관련된 주요 우려 사항과 회사에서 책임 있는 AI 관행 및 도구를 통해 이러한 우려 사항을 해결하는 방법을 알아봅니다.
“저희 팀이 하는 일의 대부분은 사회 과학의 이러한 아이디어를 책임 있는 AI의 맥락에서 어떻게 사용할 수 있는지 알아내는 것입니다.” Wallach가 말했습니다. “사회적 측면을 이해하지 않고는 AI의 기술적 측면을 이해할 수 없으며 그 반대도 마찬가지입니다.”
Microsoft Research의 응용 과학자 팀은 고객 피드백, 연구원, Microsoft 제품 및 정책 팀, 회사의 위험 요소를 분석합니다. AI 레드팀 — AI 시스템을 건드리고 자극하여 어디에서 문제가 발생할 수 있는지 확인하는 기술자 및 기타 전문가 그룹입니다.
불공정함 등 잠재적인 문제가 발생할 경우(예: AI 시스템에서 주방에 여성만 보여주거나 CEO를 남성만 보여주는 경우) Wallach의 팀과 회사 내의 다른 구성원이 나서서 해당 위험의 맥락과 범위를 이해하고 정의하고, 시스템과의 다양한 상호 작용에서 이러한 위험이 나타날 수 있는 모든 방식을 정의합니다.
다른 팀이 사용자가 겪을 수 있는 위험에 대한 해결책을 개발하면, 그녀의 그룹은 시스템의 대응을 다시 측정하여 해당 조정이 효과적인지 확인합니다.
그녀와 그녀의 동료들은 AI가 특정 집단의 사람들을 고정관념화하거나 폄하하는 것이 무엇을 의미하는지와 같은 모호한 개념과 씨름합니다. 그들의 접근 방식은 언어학과 사회 과학의 프레임워크를 채택하여 논쟁의 여지가 있는 의미를 존중하면서 구체적인 정의를 확정합니다. 이 과정을 “체계화”라고 합니다. 위험을 정의하거나 체계화한 후, 시뮬레이션 및 실제 상호 작용에서 주석 기술 또는 시스템 응답에 레이블을 지정하는 데 사용되는 방법을 사용하여 위험을 측정하기 시작합니다. 그런 다음 이러한 응답에 점수를 매겨 AI 시스템이 허용 가능한 성능을 발휘하는지 여부를 확인합니다.
이 팀의 작업은 엔지니어링 결정에 도움이 되며, 완화책을 개발할 때 Microsoft 기술자에게 세부적인 정보를 제공합니다. 또한 회사의 내부 정책 결정을 지원하며, 측정을 통해 리더가 시스템을 배포할 준비가 되었는지 여부와 시기를 결정하는 데 도움이 됩니다.
생성적 AI 시스템은 사회와 우리 주변 세계를 나타내는 텍스트, 이미지 및 기타 모달리티를 다루기 때문에 Wallach의 팀은 고유한 전문성 조합으로 구성되었습니다. 그녀의 그룹에는 컴퓨터 과학 및 언어학 배경을 가진 응용 과학자가 포함되어 있으며, 이들은 다양한 유형의 위험이 어떻게 나타날 수 있는지 연구합니다. 그들은 연구자, 도메인 전문가, 정책 고문, 엔지니어 및 기타 사람들과 협력하여 가능한 한 많은 관점과 배경을 포함합니다.
AI 시스템이 보편화됨에 따라 소외 계층을 공정하게 대표하고 대하는 것이 점점 더 중요해지고 있습니다. 예를 들어 작년에 이 그룹은 Microsoft의 최고 접근성 책임자 팀과 협력하여 장애인에게 영향을 미치는 공정성 관련 위험을 파악했습니다. 그들은 장애인을 공정하게 대표한다는 것이 무엇을 의미하는지 깊이 파고들고 AI 시스템 응답이 어떻게 반영될 수 있는지 파악하는 것으로 시작했습니다. 능력주의. 이 그룹은 또한 지역 사회 지도자들과 협력하여 장애인들이 AI와 상호 작용할 때 겪는 경험에 대한 통찰력을 얻었습니다.
이러한 결과를 체계화된 개념으로 바꾸면 위험을 측정하고, 필요에 따라 시스템을 개정하고, 기술을 모니터링하여 장애인에게 더 나은 경험을 제공하는 방법을 개발하는 데 도움이 됩니다.
Wallach 팀이 개발하는 데 도움을 준 새로운 방법론적 도구 중 하나는 Azure AI Studio 안전성 평가Microsoft의 책임 있는 AI 담당 최고 제품 책임자인 사라 버드는 “생성적 AI 자체를 사용합니다. 이는 점점 더 복잡해지고 널리 퍼지는 시스템을 지속적으로 측정하고 모니터링할 수 있는 획기적인 기술입니다.”라고 말했습니다.
도구에 AI 시스템의 출력을 레이블하는 방법에 대한 올바른 입력과 교육이 제공되면, 예를 들어 부적절한 성적 콘텐츠를 유도하려는 사람으로 역할극을 합니다. 그런 다음 신중하게 체계화된 위험을 반영하는 지침에 따라 시스템의 응답을 평가합니다. 그런 다음 결과 점수는 위험의 범위를 평가하기 위한 지표를 사용하여 집계됩니다. Bird는 전문가 그룹이 정기적으로 테스트를 감사하여 정확하고 인간의 평가와 일치하는지 확인합니다.
“AI 시스템을 전문가처럼 행동하게 만드는 것은 많은 노력과 혁신이 필요한 일이며, Microsoft가 진화하는 평가 과학 분야에 투자함에 따라 개발하기가 정말 어렵고 재미있습니다.” 그녀는 말합니다.
Microsoft 고객도 해당 도구를 사용하여 채팅봇이나 기타 AI 시스템이 특정 안전 목표에 따라 어떻게 수행되는지 측정할 수 있습니다.
“평가는 AI 시스템이 규모에 따라 어떻게 작동하는지 이해하는 데 도움이 되는 강력한 것입니다.”라고 Bird는 말합니다. “측정하지 않으면 완화책과 솔루션이 효과적인지 어떻게 알 수 있을까요?
“이것이 지금 책임 있는 AI에서 가장 중요한 것입니다.”
이 시리즈의 첫 두 게시물을 읽어보세요. AI 환각 그리고 레드팀.
더 알아보기 Microsoft의 책임 있는 AI 작업.
Makeshift Studios / Rocio Galarza의 리드 일러스트레이션. 스토리는 2024년 9월 9일에 게시되었습니다.
게시물 측정은 AI가 올바른 방향으로 나아가는 데 도움이 되는 핵심입니다. 처음 등장 Microsoft AI 블로그.