대부분의 AI 세계는 OpenAi와 같은 끊임없는 언어 모델을 구축하기 위해 경주하고 있습니다. GPT-5 그리고 Anthropic의 Claude Sonnet 4.5, 이스라엘 AI 스타트 업 AI21 다른 길을 가고 있습니다.
AI21이 방금 공개되었습니다 잠바 추론 3B3 억 파라미터 모델. 이 작고 오픈 소스 모델은 엄청난 것을 처리 할 수 있습니다 컨텍스트 Windows 250,000 개의 토큰 중 (일반적인 언어 모델보다 훨씬 더 많은 텍스트를 통해“기억할 수 있고 추론 할 수 있음을 의미 함) 소비자 장치에서도 고속으로 실행할 수 있습니다. 런칭은 증가하는 변화를 강조합니다. 더 작고 효율적인 모델은 AI의 미래를 원시 규모만큼이나 형성 할 수 있습니다.
“우리는 AI에 대한보다 분산 된 미래를 믿는다. 오리 고센AI21의 공동 CEO, 인터뷰에서 IEEE 스펙트럼. “대형 모델은 여전히 역할을 할 것이지만 장치에서 실행되는 작고 강력한 모델은 미래와 AI의 경제에 큰 영향을 미칠 것입니다. Jamba는 Edge-AI 애플리케이션 및 효율적으로 기기를 실행하는 전문 시스템을 만들고자하는 개발자를 위해 구축되었습니다.
AI21의 Jamba Opowing 3B는 랩톱 및 휴대 전화와 같은 일상적인 장치에서 인상적인 속도로 실행하면서 수학, 코딩 및 논리적 추론과 같은 긴 텍스트 시퀀스와 도전적인 작업을 처리하도록 설계되었습니다. Jamba Orady 3B는 하이브리드 설정에서도 작동 할 수 있습니다. 간단한 작업은 장치에서 로컬로 처리되며 더 큰 문제는 강력한 클라우드 서버로 전송됩니다. AI21에 따르면,이 더 똑똑한 라우팅은 특정 워크로드에 대한 AI 인프라 비용, 즉 무수한 순서로 크게 줄일 수 있습니다.
작지만 강력한 LLM
30 억 개의 매개 변수를 갖춘 Jamba Orading 3B는 오늘날의 AI 표준에 따라 작습니다. GPT-5 또는 Claude와 같은 모델은 1,000 억 개의 매개 변수를 지나서 잘 실행되며 Llama 3 (8b) 또는 Mistral (7b)과 같은 작은 모델은 AI21 모델의 두 배 이상입니다.
이 소형 크기는 AI21의 모델이 소비자 장치에서 250,000 개의 토큰의 컨텍스트 창을 처리 할 수 있다는 것이 더욱 두드러집니다. GPT-5와 같은 일부 독점 모델은 더 긴 컨텍스트 Windows를 제공하지만 Jamba는 오픈 소스 모델 중 새로운 고수 마크를 설정합니다. 이전 오픈 모델 128,000 개의 토큰 기록 에 의해 개최되었습니다 Meta ‘s Llama 3.2 (3B), Microsoft’s Phi-4 Mini 및 Deepseek R1그것은 모두 훨씬 더 큰 모델입니다. 잠바 추론 3B는 최대 용량으로 작업 할 때에도 초당 17 개 이상의 토큰을 처리 할 수 있습니다.– 즉 전체 250,000 톤 컨텍스트 창을 사용하는 매우 긴 입력. 입력 길이가 100,000 토큰을 초과하면 다른 많은 모델이 느려지거나 어려움을 겪습니다.
Goshen 은이 모델이라는 아키텍처에 구축되었다고 설명합니다. 잠바두 가지 유형의 신경망 설계를 결합한 다음과 같습니다. 변신 로봇 다른 큰 언어 모델에 익숙한 계층 맘바 더 메모리 효율적으로 설계된 레이어. 이 하이브리드 설계를 통해 모델은 랩톱이나 전화기에서 긴 문서, 대형 코드베이스 및 기타 광범위한 입력을 직접 처리 할 수 있습니다. Goshen 은이 모델은 기존 변압기보다 훨씬 빠르게 실행한다고 말합니다. KV 캐시입력이 길어지면서 처리 속도가 느려질 수 있습니다.
작은 LLM이 필요한 이유
이 모델의 하이브리드 아키텍처는 매우 긴 입력을 통해 속도와 메모리 효율 모두에서 이점을 제공하며 LLM 산업에서 일하는 소프트웨어 엔지니어를 확인합니다. 엔지니어는 다른 회사의 모델에 대해 의견을 제시 할 권한이 없기 때문에 익명 성을 요청했습니다. 더 많은 사용자가 랩톱에서 생성 AI를 로컬로 실행함에 따라 모델은 너무 많은 메모리를 소비하지 않고 긴 컨텍스트 길이를 빠르게 처리해야합니다. Jamba는 30 억 파라미터에서 이러한 요구 사항을 충족한다고 엔지니어는이를 사후에 사용하기에 최적화 된 모델이라고 말합니다.
잠바 추론 3B는 허용 하에서 오픈 소스입니다 Apache 2.0 라이센스 인기있는 플랫폼에서 제공됩니다 포옹 얼굴 그리고 LM 스튜디오. 릴리스에는 오픈 소스 강화 학습 플랫폼을 통해 모델을 미세 조정하기위한 지침도 제공됩니다 ( Verl), 개발자가 자신의 작업을 위해 모델을 조정할 수 있도록보다 쉽고 저렴하게 만듭니다.
Goshen은“Jamba 추론 3B는 작고 효율적인 추론 모델의 가족의 시작을 표시합니다. “스케일링은 탈 중앙화, 개인화 및 비용 효율성을 가능하게합니다. 데이터 센터에서 값 비싼 GPU에 의존하는 대신 개인 및 기업은 자신의 모델을 장치에서 실행할 수 있습니다. 이는 새로운 경제성과 광범위한 접근성을 해제합니다.”