Claude와 같은 대형 언어 모델 (LLM)은 기술 사용 방식을 바 꾸었습니다. 그들은 챗봇과 같은 전동 공구, 에세이를 작성하고시를 창출하는 데 도움이됩니다. 그러나 그들의 놀라운 능력에도 불구하고,이 모델들은 여전히 여러 가지면에서 여전히 미스터리입니다. 사람들은 종종 그들을“블랙 박스”라고 부릅니다. 이러한 이해 부족은 특히 실수 나 숨겨진 편견이 실질적인 피해를 유발할 수있는 의학이나 법과 같은 중요한 영역에서 문제를 일으 킵니다.
신뢰를 구축하는 데 LLMS의 작동 방식을 이해하는 것이 필수적입니다. 모델이 특정 답변을 한 이유를 설명 할 수 없다면, 특히 민감한 영역에서 결과를 신뢰하기가 어렵습니다. 해석 가능성은 또한 편견이나 오류를 식별하고 수정하여 모델이 안전하고 윤리적인지 확인하는 데 도움이됩니다. 예를 들어, 모델이 지속적으로 특정 관점을 선호하는 경우 개발자가 수정하는 데 도움이되는 이유를 아는 것입니다. 이러한 명확성에 대한 필요성은 이러한 모델을보다 투명하게 만드는 연구를 이끌어냅니다.
인류, 회사 뒤에 클로드,이 블랙 박스를 열기 위해 노력하고 있습니다. 그들은 LLMS의 생각을 알아내는 데 흥미 진진한 진전을 보였으며,이 기사는 Claude의 프로세스를 쉽게 이해할 수 있도록 획기적인 노력을 탐구합니다.
클로드의 생각을 매핑합니다
20124 년 중반, Anthropic의 팀은 흥미로 웠습니다 돌파구. 그들은 Claude가 정보를 처리하는 방법에 대한 기본 “맵”을 만들었습니다. 불리는 기술을 사용합니다 사전 학습그들은 Claude의“Brain”에서 수백만 패턴을 발견했습니다. 각 패턴 또는 “기능”은 특정 아이디어에 연결됩니다. 예를 들어, 일부 기능은 Claude Spot City, 유명한 사람들 또는 코딩 실수에 도움이됩니다. 다른 사람들은 성 편견이나 비밀과 같은 까다로운 주제와 관련이 있습니다.
연구원들은 이러한 아이디어가 개별 뉴런 내에서 분리되어 있지 않다는 것을 발견했습니다. 대신, 그들은 Claude 네트워크의 많은 뉴런에 퍼져 있으며 각 뉴런은 다양한 아이디어에 기여합니다. 그 겹침으로 인해 이러한 아이디어를 처음부터 알아 내기가 어려워졌습니다. 그러나 이러한 반복적 인 패턴을 발견함으로써 Anthropic의 연구원들은 Claude가 어떻게 생각을 조직하는지 해독하기 시작했습니다.
클로드의 추론 추적
다음으로 Anthropic은 Claude가 어떻게 그러한 생각을 사용하여 결정을 내리는 지 알고 싶었습니다. 그들은 최근에 불리는 도구를 만들었습니다 귀속 그래프Claude의 사고 과정에 대한 단계별 가이드처럼 작동합니다. 그래프의 각 지점은 Claude의 마음에 빛이 밝아지는 아이디어이며 화살은 한 아이디어가 다음에 어떻게 흐르는지 보여줍니다. 이 그래프를 통해 연구원들은 클로드가 질문을 답으로 바꾸는 방법을 추적 할 수 있습니다.
귀속 그래프의 작동을 더 잘 이해하려면이 예를 고려하십시오.“달라스와의 국가의 수도는 무엇입니까?”라고 물었을 때. 클로드는 달라스가 텍사스에 있다는 것을 깨달았으며 텍사스의 수도가 오스틴이라는 것을 기억해야합니다. 이 귀속 그래프는이 정확한 과정을 보여주었습니다. 클로드의 일부 부분은“텍사스”를 플래그했습니다. 팀은 심지어“텍사스”부분을 조정하여 테스트했으며, 충분히 답을 변경했습니다. 이것은 Claude가 단순히 추측하는 것이 아니라 문제를 해결하고 있으며 이제 우리는 그것이 일어나는 것을 볼 수 있습니다.
이것이 중요한 이유 : 생물학적 과학의 비유
이것이 중요한 이유를 확인하기 위해 생물학적 과학의 일부 주요 발전에 대해 생각하는 것이 편리합니다. 현미경의 발명으로 과학자들이 생명의 숨겨진 빌딩 블록 인 세포를 발견 할 수있게 된 것처럼, 이러한 해석 성 도구는 AI 연구자들이 모델 내부의 사고의 빌딩 블록을 발견 할 수있게 해줍니다. 그리고 뇌의 신경 회로를 매핑하거나 게놈이 의학의 획기적인 길을 열어주는 것처럼, 클로드의 내부 작업을 매핑하면보다 신뢰할 수 있고 제어 가능한 기계 지능을위한 길을 열 수 있습니다. 이러한 해석 성 도구는 중요한 역할을 수행하여 AI 모델의 사고 과정을 엿볼 수 있도록 도와줍니다.
도전
이 모든 진전에도 불구하고 우리는 여전히 Claude와 같은 LLM을 완전히 이해하지 못하고 있습니다. 현재, 귀속 그래프는 Claude의 결정 중 4 개 중 1 개만 설명 할 수 있습니다. 특징의지도는 인상적이지만 Claude의 뇌에서 일어나는 일의 일부만을 다룹니다. Claude 및 기타 LLM은 수십억 개의 매개 변수를 통해 모든 작업에 대해 수많은 계산을 수행합니다. 단일 사고 중에 인간 뇌에서 모든 뉴런 발사를 따르려고 노력하는 것과 같은 대답이 어떻게 형성되는지보기 위해 각각을 추적합니다.
또한“도전이 있습니다.환각.” 때때로, AI 모델은 그럴듯하게 들리지만 실제로는 잘못된 사실을 말합니다. 이는 모델이 세상에 대한 진정한 이해가 아니라 훈련 데이터의 패턴에 의존하여 내면의 작업에 대한 이해를 강조하기 때문에 발생합니다.
편견 또 다른 중요한 장애물입니다. AI 모델은 인터넷에서 긁힌 방대한 데이터 세트에서 배운다. Claude가 훈련에서 이러한 편견을 선택하면 답변에 반영 할 수 있습니다. 이러한 편견이 시작된 위치와 모델의 추론에 어떻게 영향을 미치는지 포장은 기술 솔루션과 데이터 및 윤리에 대한 신중한 고려가 필요한 복잡한 도전입니다.
결론
Claude와 같은 대형 언어 모델 (LLM)을 더 이해하기 쉬운 Anthropic의 작업은 AI 투명성에서 중요한 단계입니다. Claude가 정보를 처리하고 결정을 내리는 방법을 공개함으로써 AI 책임에 대한 주요 관심사를 해결하기 위해 전달하고 있습니다. 이러한 진보는 LLM을 의료 및 법률과 같은 중요한 부문으로 안전하게 통합하기위한 문을 열어줍니다. 여기서 신뢰와 윤리는 중요합니다.
해석 가능성을 향상시키는 방법이 발전함에 따라 AI 채택에주의를 기울인 산업은 이제 재고 할 수 있습니다. Claude와 같은 투명한 모델은 AI의 미래에 대한 명확한 길을 제공합니다. 즉, 인간 지능을 복제 할뿐만 아니라 그들의 추론을 설명하는 마치.
게시물 클로드는 어떻게 생각합니까? AI의 블랙 박스 잠금을 해제하려는 Anthropic의 탐구 먼저 나타났습니다 Unite.ai.