Anand Kannappan은 공동 창립자이자 CEO입니다. 패트로누스 AI업계 최초의 자동화된 AI 평가 및 보안 플랫폼으로, 기업이 대규모로 LLM 실수를 포착하는 데 도움을 줍니다. 이전에 Anand는 Meta Reality Labs에서 ML 설명 가능성 및 고급 실험 활동을 주도했습니다.
처음에 컴퓨터 과학에 관심을 갖게 된 계기는 무엇입니까?
저는 어렸을 때 항상 기술과 그것이 어떻게 현실 세계의 문제를 해결하는 데 사용될 수 있는지에 매료되었습니다. 컴퓨터와 코드만 사용하여 처음부터 무언가를 만들 수 있다는 생각이 저를 사로잡았습니다. 컴퓨터 과학에 더 깊이 파고들면서 다양한 산업에서 혁신과 변혁을 위한 엄청난 잠재력을 깨달았습니다. 혁신하고 변화를 만들려는 이러한 열정이 제가 처음에 컴퓨터 과학에 끌린 이유입니다.
패트로누스 AI의 기원에 대한 이야기를 공유해 주시겠습니까?
Patronus AI의 기원은 매우 흥미로운 여정입니다. OpenAI가 ChatGPT를 출시했을 때, 그것은 가장 빠르게 성장하는 소비자 제품이 되었고, 단 두 달 만에 1억 명이 넘는 사용자를 모았습니다. 이 엄청난 채택은 생성적 AI의 잠재력을 강조했지만, 또한 기업들이 그렇게 빠른 속도로 AI를 배포하는 데 주저하는 것을 드러냈습니다. 많은 기업들이 대규모 언어 모델(LLM)의 잠재적인 실수와 예측할 수 없는 동작에 대해 우려했습니다.
레베카와 저는 시카고 대학교에서 컴퓨터 과학을 함께 공부하면서 수년간 서로 알고 지냈습니다. Meta에서 우리 둘 다 머신 러닝 출력을 평가하고 해석하는 데 어려움을 겪었습니다. 레베카는 연구 관점에서, 저는 응용 관점에서 어려움을 겪었습니다. ChatGPT가 발표되었을 때, 우리 둘 다 LLM의 변혁적 잠재력을 보았지만 기업이 행사하는 신중함도 이해했습니다.
전환점은 제 동생의 투자 은행인 파이퍼 샌들러가 OpenAI 접근을 내부적으로 금지하기로 결정했을 때였습니다. 이를 통해 AI가 상당히 발전했지만 신뢰성과 보안에 대한 우려로 인해 기업 채택에 여전히 격차가 있다는 것을 깨달았습니다. 우리는 LLM에 대한 평가 및 보안 계층을 제공하여 이러한 격차를 해소하고 생성 AI에 대한 기업의 신뢰를 높이기 위해 Patronus AI를 설립했습니다.
LLM 평가 및 확보를 위한 Patronus AI 플랫폼의 핵심 기능을 설명해 주시겠습니까?
당사의 사명은 생성적 AI에 대한 기업의 확신을 강화하는 것입니다. 당사는 LLM을 위해 업계 최초의 자동화된 평가 및 보안 플랫폼을 개발했습니다. 당사의 플랫폼은 기업이 LLM 출력의 실수를 대규모로 감지하여 안전하고 자신 있게 AI 제품을 배포할 수 있도록 지원합니다.
당사 플랫폼은 여러 가지 주요 프로세스를 자동화합니다.
- 득점: 우리는 환각과 안전과 같은 중요한 기준에 초점을 맞춰 실제 상황에서 모델 성능을 평가합니다.
- 테스트 생성: 모델 기능을 엄격하게 평가하기 위해 대규모로 적대적 테스트 모음을 자동으로 생성합니다.
- 벤치마킹: 고객이 자신의 특정 사용 사례에 가장 적합한 모델을 찾을 수 있도록 돕기 위해 다양한 모델을 비교합니다.
기업은 진화하는 모델, 데이터 및 사용자 요구 사항에 적응하기 위해 빈번한 평가를 선호합니다. 당사 플랫폼은 신뢰할 수 있는 제3자 평가자 역할을 하며 AI 분야의 Moody’s와 유사한 편견 없는 관점을 제공합니다. 당사의 초기 파트너에는 MongoDB, Databricks, Cohere, Nomic AI와 같은 선도적인 AI 회사가 포함되며, 당사는 플랫폼을 시범 운영하기 위해 기존 산업의 여러 유명 회사와 논의 중입니다.
Patronus AI의 Lynx 모델은 LLM 출력에서 어떤 유형의 실수 또는 “환각”을 감지하며, 이러한 문제를 기업에서 어떻게 해결합니까?
LLM은 실제로 강력한 도구이지만, 확률적 특성으로 인해 모델이 부정확하거나 관련성 없는 정보를 생성하는 “환각” 또는 오류가 발생하기 쉽습니다. 이러한 환각은 특히 정확성이 중요한 고위험 비즈니스 환경에서 문제가 됩니다.
전통적으로 기업은 LLM 출력을 평가하기 위해 수동 검사에 의존해 왔는데, 이 프로세스는 시간이 많이 걸릴 뿐만 아니라 확장성이 없습니다. 이를 간소화하기 위해 Patronus AI는 환각 탐지를 자동화하여 플랫폼의 기능을 향상시키는 특수 모델인 Lynx를 개발했습니다. 플랫폼에 통합된 Lynx는 포괄적인 테스트 범위와 강력한 성능 보장을 제공하며, 잘못된 재무 계산이나 법률 문서 검토 오류와 같이 비즈니스 운영에 큰 영향을 미칠 수 있는 중요한 오류를 식별하는 데 중점을 둡니다.
Lynx를 사용하면 자동화된 적대적 테스트를 통해 수동 평가의 한계를 완화하고 광범위한 잠재적 실패 시나리오를 탐색할 수 있습니다. 이를 통해 인간 평가자가 피할 수 있는 문제를 감지하여 기업에 향상된 신뢰성과 중요한 애플리케이션에 LLM을 배포할 수 있는 확신을 제공합니다.
FinanceBench는 금융 문제에 대한 LLM 성과를 평가하는 업계 최초의 벤치마크로 설명됩니다. 금융 부문의 어떤 과제가 FinanceBench 개발을 촉진했습니까?
파이낸스벤치 LLM을 도입하는 데 있어 금융 부문이 직면한 고유한 과제에 대응하여 개발되었습니다. 금융 애플리케이션에는 오류가 상당한 재정적 손실이나 규제 문제로 이어질 수 있으므로 높은 수준의 정확성과 신뢰성이 필요합니다. 대량의 금융 데이터를 처리하는 LLM의 약속에도 불구하고, 저희의 연구에 따르면 GPT-4 및 Llama 2와 같은 최첨단 모델은 금융 문제에 어려움을 겪었으며 종종 정확한 정보를 검색하지 못했습니다.
FinanceBench는 재무적 맥락에서 LLM 성과를 평가하기 위한 포괄적인 벤치마크로 만들어졌습니다. 여기에는 수치적 추론, 정보 검색, 논리적 추론 및 세계 지식과 같은 분야를 포괄하는 공개적으로 사용 가능한 재무 문서를 기반으로 한 10,000개의 질문과 답변 쌍이 포함됩니다. 이 벤치마크를 제공함으로써 우리는 기업이 현재 모델의 한계를 더 잘 이해하고 개선 영역을 식별하도록 돕는 것을 목표로 합니다.
우리의 초기 분석에 따르면 많은 LLM이 금융 지원에 필요한 높은 기준을 충족하지 못하여 추가적인 개선과 타깃 평가의 필요성이 강조되었습니다. FinanceBench를 통해 우리는 기업이 금융 부문에서 LLM의 성과를 평가하고 개선할 수 있는 귀중한 도구를 제공하고 있습니다.
귀하의 연구는 주요 AI 모델, 특히 OpenAI의 GPT-4가 인기 있는 책의 발췌문으로 요청했을 때 상당한 비율로 저작권이 있는 콘텐츠를 생성했다는 점을 강조했습니다. 이러한 발견이 AI 개발과 더 광범위한 기술 산업에 미치는 장기적 영향은 무엇이라고 생각하십니까? 특히 AI와 저작권법을 둘러싼 지속적인 논쟁을 고려할 때요?
저작권이 있는 콘텐츠를 생성하는 AI 모델 문제는 AI 산업에서 복잡하고 시급한 문제입니다. 저희 연구에 따르면 GPT-4와 같은 모델은 인기 있는 책의 발췌문으로 요청했을 때 종종 저작권이 있는 자료를 복제했습니다. 이는 지적 재산권과 AI가 생성한 콘텐츠를 사용하는 것의 법적 의미에 대한 중요한 의문을 제기합니다.
장기적으로 이러한 결과는 AI와 저작권에 대한 더 명확한 가이드라인과 규정의 필요성을 강조합니다. 업계는 지적 재산권을 존중하면서도 창의적인 역량을 유지하는 AI 모델을 개발하기 위해 노력해야 합니다. 여기에는 저작권이 있는 자료를 제외하기 위해 훈련 데이터 세트를 개선하거나 보호된 콘텐츠의 복제를 감지하고 방지하는 메커니즘을 구현하는 것이 포함될 수 있습니다.
더 광범위한 기술 산업은 혁신과 기존 법률에 대한 존중의 균형을 이루는 프레임워크를 확립하기 위해 법률 전문가, 정책 입안자 및 이해 관계자와 지속적인 논의에 참여해야 합니다. AI가 계속 진화함에 따라 책임감 있고 윤리적인 AI 개발을 보장하기 위해 이러한 과제를 사전에 해결하는 것이 중요합니다.
귀하의 연구에서 입증된 바와 같이 최첨단 LLM이 저작권이 있는 콘텐츠를 복제하는 놀라운 속도를 감안할 때, AI 개발자와 업계 전체가 이러한 우려 사항을 해결하기 위해 어떤 조치를 취해야 한다고 생각하십니까? 또한 Patronus AI는 이러한 결과에 비추어 보다 책임감 있고 합법적인 AI 모델을 만드는 데 어떻게 기여할 계획입니까?
저작권이 있는 콘텐츠를 재생산하는 AI 모델 문제를 해결하려면 다각적인 접근 방식이 필요합니다. AI 개발자와 업계 전체는 AI 모델 개발에서 투명성과 책임을 우선시해야 합니다. 여기에는 다음이 포함됩니다.
- 데이터 선택 개선: 적절한 라이선스를 취득하지 않는 한 저작권이 있는 자료를 사용하지 않도록 교육 데이터 세트를 신중하게 선별합니다.
- 탐지 메커니즘 개발: AI 모델이 저작권이 있는 잠재적 콘텐츠를 생성하는 경우를 식별하고 사용자에게 해당 콘텐츠를 수정하거나 삭제할 수 있는 옵션을 제공하는 시스템을 구현합니다.
- 산업 표준 수립: 법률 전문가 및 업계 이해 관계자와 협력하여 지적 재산권을 존중하는 AI 개발에 대한 가이드라인과 표준을 만듭니다.
Patronus AI에서는 평가와 규정 준수에 중점을 두어 책임 있는 AI 개발에 기여하고자 합니다. 당사 플랫폼에는 다음과 같은 제품이 포함됩니다. 엔터프라이즈PII기업이 AI 출력에서 잠재적인 개인 정보 보호 문제를 탐지하고 관리하는 데 도움이 됩니다. 이러한 솔루션을 제공함으로써, 우리는 기업이 법적 위험을 최소화하면서 책임감 있고 윤리적으로 AI를 사용할 수 있도록 지원하는 것을 목표로 합니다.
EnterprisePII와 FinanceBench와 같은 도구를 사용하면 기업이 AI를 배포하는 방식, 특히 금융이나 개인 데이터와 같은 민감한 분야에 어떤 변화가 있을 것으로 예상하십니까?
이러한 도구는 기업이 AI 결과를 보다 효과적으로 평가하고 관리할 수 있는 역량을 제공하며, 특히 금융이나 개인 데이터와 같은 민감한 분야에서 그 효과가 큽니다.
금융 부문에서 FinanceBench는 기업이 LLM 성과를 높은 정밀도로 평가하여 모델이 금융 애플리케이션의 엄격한 요구 사항을 충족하도록 할 수 있습니다. 이를 통해 기업은 데이터 분석 및 의사 결정과 같은 작업에 AI를 더 큰 확신과 신뢰성으로 활용할 수 있습니다.
마찬가지로 EnterprisePII와 같은 도구는 기업이 데이터 프라이버시의 복잡성을 탐색하는 데 도움이 됩니다. 잠재적 위험에 대한 통찰력을 제공하고 이를 완화하기 위한 솔루션을 제공함으로써 이러한 도구는 기업이 AI를 보다 안전하고 책임감 있게 배포할 수 있도록 합니다.
전반적으로 이러한 도구는 AI 도입에 대한 보다 정보에 입각하고 전략적인 접근 방식을 위한 길을 열어, 기업이 관련 위험을 최소화하면서 AI의 이점을 활용하는 데 도움이 됩니다.
Patronus AI는 기업과 협력하여 이러한 도구를 기존 LLM 배포 및 워크플로에 통합하는 데 어떻게 기여합니까?
Patronus AI에서는 AI 도입과 관련하여 원활한 통합의 중요성을 잘 알고 있습니다. 우리는 고객과 긴밀히 협력하여 당사 도구가 기존 LLM 배포 및 워크플로에 쉽게 통합되도록 합니다. 여기에는 고객에게 다음을 제공하는 것이 포함됩니다.
- 맞춤형 통합 계획: 우리는 각 고객과 협력하여 그들의 특정 요구 사항과 목표에 맞춰 맞춤형 통합 계획을 개발합니다.
- 종합 지원: 저희 팀은 통합 과정 전반에 걸쳐 지속적인 지원을 제공하고, 원활한 전환을 보장하기 위한 지침과 도움을 제공합니다.
- 훈련 및 교육: 고객이 당사의 도구를 완벽하게 이해하고 활용할 수 있도록 돕기 위해 교육 세션과 교육 리소스를 제공하며, 이를 통해 고객이 AI 투자를 최대한 활용할 수 있도록 지원합니다.
AI 결과물이 안전하고 정확하며 다양한 법률을 준수하도록 보장하는 일이 복잡하다는 점을 감안할 때, LLM 개발자와 이를 활용하려는 회사 모두에게 어떤 조언을 해주시겠습니까?
협력과 지원을 우선시함으로써, 통합 프로세스를 가능한 한 간단하고 효율적으로 만들어 기업이 AI 솔루션의 잠재력을 최대한 활용할 수 있도록 돕습니다.
AI 출력이 안전하고 정확하며 다양한 법률을 준수하도록 보장하는 복잡성은 상당한 과제를 안겨줍니다. 대규모 언어 모델(LLM) 개발자의 경우 핵심은 개발 프로세스 전반에 걸쳐 투명성과 책임을 우선시하는 것입니다.
기초적인 측면 중 하나는 데이터의 품질입니다. 개발자는 적절한 라이선스가 없는 한, 훈련 데이터 세트가 잘 정리되고 저작권이 있는 자료가 없는지 확인해야 합니다. 이는 잠재적인 법적 문제를 방지하는 데 도움이 될 뿐만 아니라 AI가 신뢰할 수 있는 출력을 생성하도록 보장합니다. 또한, 편견과 공정성을 해결하는 것이 중요합니다. l. 편향을 식별하고 완화하기 위해 적극적으로 노력하고 다양하고 대표적인 훈련 데이터를 개발함으로써 개발자는 편향을 줄이고 모든 사용자에게 공정한 결과를 보장할 수 있습니다.
견고한 평가 절차가 필수적입니다. 엄격한 테스트를 구현하고 FinanceBench와 같은 벤치마크를 활용하면 AI 모델의 성능과 안정성을 평가하여 특정 사용 사례의 요구 사항을 충족하는지 확인하는 데 도움이 될 수 있습니다. 게다가 윤리적 고려 사항이 최전선에 있어야 합니다. 윤리적 지침과 프레임워크를 준수하면 AI 시스템이 책임감 있게 개발되고 사회적 가치와 일치하도록 보장할 수 있습니다.
LLM을 활용하려는 기업의 경우 AI의 역량을 이해하는 것이 중요합니다. 현실적인 기대치를 설정하고 조직 내에서 AI가 효과적으로 사용되도록 하는 것이 중요합니다. 원활한 통합과 지원도 중요합니다. 신뢰할 수 있는 파트너와 협력함으로써 기업은 AI 솔루션을 기존 워크플로에 통합하고 팀이 AI를 효과적으로 활용하도록 교육하고 지원할 수 있습니다.
규정 준수와 보안을 우선시해야 하며, 관련 규정과 데이터 보호법을 준수하는 데 중점을 두어야 합니다. EnterprisePII와 같은 도구는 잠재적 위험을 모니터링하고 관리하는 데 도움이 될 수 있습니다. AI 성능에 대한 지속적인 모니터링과 정기적인 평가도 정확성과 신뢰성을 유지하고 필요에 따라 조정할 수 있도록 하는 데 필요합니다.
훌륭한 인터뷰에 감사드립니다. 더 자세히 알고 싶은 독자는 다음을 방문하세요. 패트로누스 AI.
게시물 Patronus AI의 CEO 겸 공동 창립자 Anand Kannappan – 인터뷰 시리즈 처음 등장 유나이트.AI.