새로운 연구에 따르면 AI 서비스가 토큰으로 청구하는 방식은 사용자의 실제 비용을 숨기는 것으로 나타났습니다. 제공 업체는 토큰 수를 퍼지거나 숨겨진 단계로 미끄러 져 조용히 팽창 할 수 있습니다. 일부 시스템은 출력에 영향을 미치지 않지만 여전히 청구서에 표시되는 추가 프로세스를 실행합니다. 감사 도구가 제안되었지만 실제로 감독하지 않으면 사용자는 알고있는 것보다 더 많은 비용을 지불하고 있습니다.
거의 모든 경우에 소비자로서 우리가 AI 기반 채팅 인터페이스에 대해 지불하는 것과 같은 chatgpt-4o현재 측정되었습니다 토큰: 사용 중에 눈에 띄지 않게하는 보이지 않는 텍스트 단위는 있지만 청구 목적으로 정확한 정밀도로 계산됩니다. 각 교환의 가격은 처리 된 토큰 수에 의해 가격이 책정되지만 사용자는 카운트를 확인할 직접적인 방법이 없습니다.
구매 한 ‘토큰’장치에 대한 우리가 얻는 것에 대한 불완전한 이해에도 불구하고, 토큰 기반 청구는 제공자의 표준 접근 방식이되어 신뢰에 대한 불안정한 가정이 될 수있는 것으로 입증되었습니다.
토큰 단어
토큰은 단어와 똑같지는 않지만 종종 비슷한 역할을 수행하며 대부분의 공급자는 ‘토큰’이라는 용어를 사용하여 단어, 구두점 마크 또는 단어 프레임과 같은 작은 텍스트를 설명합니다. 단어 ‘믿을 수 없는’예를 들어, 한 시스템에 의해 단일 토큰으로 계산 될 수 있지만 다른 시스템은 분할 할 수 있습니다. 그리고,,, 믿음 그리고 할 수 있는각 조각이 비용을 증가시킵니다.
이 시스템은 사용자가 입력하는 텍스트와 모델의 답변에 적용 되며이 단위의 총 수를 기준으로 가격으로 적용됩니다.
어려움은 사용자가 사실에 있습니다 이 과정을 보지 마십시오. 대화가 진행되는 동안 대부분의 인터페이스는 토큰 수를 나타내지 않으며, 토큰이 계산되는 방식은 재현하기 어렵습니다. 카운트가 표시 되더라도 ~ 후에 답장, 그것이 공정했는지 여부를 말하기에는 너무 늦었고, 사용자가 보는 것과 지불하는 것 사이에 불일치를 만듭니다.
최근의 연구는 더 깊은 문제를 지적합니다. 하나의 연구 공급자가 규칙을 어 기지 않고 범위를과 충전 할 수있는 방법을 보여줍니다. 또 다른 어떤 인터페이스 표시와 실제로 청구되는 것 사이의 불일치를 보여주고, 사용자는 없을 수있는 효율성의 환상을 남깁니다. 그리고 a 제삼 모델이 사용자에게 보여지지 않은 내부 추론 단계를 일상적으로 생성하는 방법을 노출시킵니다.
결과는 그 시스템을 묘사합니다 보인다 정확한, 정확한 숫자는 명확성을 암시하지만 근본적인 논리는 숨겨져 있습니다. 이것이 디자인에 의한 것이 든 구조적 결함이든 결과는 동일합니다. 사용자는 볼 수있는 것보다 더 많은 비용을 지불하고 종종 예상보다 많은 비용을 지불합니다.
수십 명이 더 저렴합니까?
에서 첫 번째 이 논문 중 제목은 IS 당신의 LLM 과충전? 토큰 화, 투명성 및 인센티브Max Planck Institute for Software Systems의 4 명의 연구원-저자는 토큰 기반 청구의 위험이 불투명도를 넘어 확장되어 공급자가 토큰 수를 팽창시키는 내장 인센티브를 지적한다고 주장합니다.
‘문제의 핵심은 문자열의 토큰 화이 독특하지 않다는 사실에 있습니다. 예를 들어, 사용자가 “다음 신경관은 어디에서 발생합니까?”라는 프롬프트를 제출한다고 생각하십시오. 공급자에게 제공자는이를 LLM으로 공급하고 모델은 출력 “| San | Diego |”를 생성합니다. 두 개의 토큰으로 구성됩니다.
‘사용자는 생성 프로세스에 대해 잊어 버리기 때문에 자체 서비스 제공 업체는 기본 문자열을 변경하지 않고도 사용자에게 출력의 토큰 화를 잘못보고 할 수 있습니다. 예를 들어, 제공자는 단순히 토큰 화를 공유 할 수 있습니다. 그리고 사용자를 2 대신 9 개의 토큰에 대해 과다 충전하십시오! ‘
이 논문은 가시 출력을 변경시키지 않고 전형적인 디코딩 설정에서 타당성을 위반하지 않고 이러한 종류의 불쾌한 계산을 수행 할 수있는 휴리스틱을 제시합니다. The 모델에서 테스트되었습니다 야마,,, 미스트랄 그리고 아체 실제 프롬프트를 사용하여 시리즈는 변칙적으로 나타나지 않고 측정 가능한 과충전을 달성합니다.

‘그럴듯한 잘못보고’를 사용한 토큰 팽창. 각 패널은 다양한 샘플링 매개 변수 (m 및 p) 하에서 400 개의 LMSYS 프롬프트로부터 알고리즘 1을 400 개의 LMSYS 프롬프트로부터 출력에 적용하는 공급자로부터 발생하는 과충전 된 토큰의 백분율을 보여줍니다. 모든 출력은 온도 1.3에서 생성되었으며, 90% 신뢰 구간을 계산하기 위해 설정 당 5 회 반복되었습니다. 출처 : https://arxiv.org/pdf/2505.21627
문제를 해결하기 위해 연구원들은 캐릭터 수 토큰 대신, 이것이 제공자에게 정직하게 사용을 신고 할 이유를 제공하는 유일한 접근법이라고 주장하고, 목표가 공정한 가격이라면, 숨겨진 프로세스가 아닌 가시적 인 캐릭터에 대한 비용을 묶는 것은 정밀한 조사를 방해하는 유일한 옵션이라고 주장합니다. 그들은 캐릭터 기반 가격 책정은 더 짧고 효율적인 출력에 보상하는 동시에 오해의 동기를 제거 할 것이라고 주장했다.
그러나 여기에는 여러 가지 추가 고려 사항이 있습니다 (대부분의 경우 저자가 인정 한 경우). 첫째, 제안 된 캐릭터 기반 체계는 소비자보다 공급 업체를 선호 할 수있는 추가 비즈니스 논리를 소개합니다.
‘[A] 절대보고하지 않는 제공자는 가능한 가장 짧은 출력 토큰 시퀀스를 생성하고 BPE와 같은 현재 토큰 화 알고리즘을 개선하여 출력 토큰 시퀀스를 가능한 한 많이 압축 할 수있는 명확한 인센티브가 있습니다. ‘
여기서 낙관적 주제는 공급 업체가 간결하고 의미 있고 가치있는 출력을 생산하도록 권장된다는 것입니다. 실제로, 제공자가 텍스트 계산을 줄이는 데 분명히 덜 덕이 있습니다.
둘째, 저자는 기업들이 비전 토큰 시스템에서 더 명확한 텍스트 기반 청구 방법으로 운송하기 위해 법안을 요구할 것이라고 가정하는 것이 합리적입니다. 반란군 스타트 업은 이러한 종류의 가격 책정 모델로 제품을 출시하여 제품을 구별하기로 결정할 수 있습니다. 그러나 진정으로 경쟁력있는 제품을 가진 사람 (그리고 더 낮은 규모로 EEE 카테고리)는이 작업을 수행하기 위해 혼란 스럽습니다.
마지막으로, 저자가 제안한 것과 같은 절도 알고리즘은 그들 자신의 계산 비용과 함께 제공 될 것이라고 제안했다. ‘uppharge’를 계산하는 비용이 잠재적 이익 혜택을 초과 한 경우,이 제도는 분명히 장점이 없을 것입니다. 그러나 연구자들은 제안 된 알고리즘이 효과적이고 경제적이라고 강조합니다.
저자는 자신의 이론에 대한 코드를 제공합니다 Github에서.
스위치
두 번째 종이 – 제목 보이지 않는 토큰, 가시 청구서 : 불투명 한 LLM 서비스에서 숨겨진 운영을 감사해야 할 긴급한 필요성메릴랜드 대학교와 버클리의 연구원들 – 상업용 언어 모델 API의 잘못 정렬 된 인센티브는 토큰 분할에만 국한되지 않지만 전체 수업 숨겨진 운영.
여기에는 내부 모델 통화, 투기 추론, 도구 사용 및 다중 에이전트 상호 작용이 포함됩니다.이 모든 상호 작용은 가시성이나 의지없이 사용자에게 청구 될 수 있습니다.

주요 제공 업체의 LLM API 추론의 가격 및 투명성. 모든 나열된 서비스는 숨겨진 내부 추론 토큰에 대해 사용자에게 요금을 부과하며, 런타임에 이러한 토큰을 볼 수 없습니다. OpenAI의 O1-Pro 모델은 동일한 불투명도에도 불구하고 Claude Opus 4 또는 Gemini 2.5 Pro보다 100 만 개의 토큰을 10 배 더 충전하면 비용이 크게 다릅니다. 출처 : https://www.arxiv.org/pdf/2505.18471
서비스의 수량 및 품질이 검증 가능한 기존 청구와 달리 저자는 오늘날의 LLM 플랫폼이 구조적 불투명성: 사용자는보고 된 토큰 및 API 사용에 따라 청구되지만 이러한 메트릭이 실제 또는 필요한 작업을 반영한다는 것을 확인할 수있는 방법은 없습니다.
이 논문은 두 가지 주요 형태의 조작을 식별합니다. 수량 인플레이션사용자 혜택없이 토큰 또는 통화 수가 증가하는 경우; 그리고 품질 다운 그레이드프리미엄 구성 요소 대신에 실적이 낮은 모델 또는 도구가 조용히 사용되는 경우 :
‘LLM API를 추론 할 때, 제공자는 종종 용량, 교육 데이터 또는 최적화 전략이 다른 동일한 모델 패밀리의 여러 변형을 유지합니다 (예 : ChatGpt O1, O3). Model Downgrade는 저비용 모델의 무음 대체를 말하며, 이는 예상과 실제 서비스 품질 사이의 오정렬을 도입 할 수 있습니다.
예를 들어, 프롬프트는 소규모 모델로 프롬프트를 처리 할 수 있지만 청구는 변경되지 않습니다. 최종 답변은 여전히 많은 작업에 대해 그럴듯 해 보일 수 있으므로이 관행은 사용자가 감지하기가 어렵습니다. ‘
이 논문은 청구 된 토큰의 90 % 이상이 사용자에게 보여지지 않은 사례를 문서화하며, 내부 추론은 토큰 사용을 20보다 큰 계수로 팽창시킵니다. 정당화되었는지 여부에 따라,이 단계의 불투명도는 사용자가 자신의 관련성 또는 정당성을 평가하기위한 근거를 거부합니다.
에이전트 시스템에서 AI 에이전트 간의 내부 교환이 최종 출력에 의미있게 영향을 미치지 않으면 서 각각 발생할 수 있기 때문에 불투명도가 증가합니다.
‘내부 추론을 넘어서, 에이전트는 프롬프트, 요약 및 계획 지침을 교환하여 의사 소통합니다. 각 에이전트는 모두 다른 사람의 입력을 해석하고 워크 플로를 안내하기 위해 출력을 생성합니다. 이러한 에이전트 간 메시지는 실질적인 토큰을 소비 할 수 있으며, 종종 최종 사용자에게는 직접 보이지 않습니다.
‘생성 된 프롬프트, 응답 및 도구 관련 지침을 포함하여 에이전트 조정 중에 소비되는 모든 토큰은 일반적으로 사용자에게 표면되지 않습니다. 에이전트 자체가 추론 모델을 사용하면 청구는 더욱 불투명 해집니다. ‘
이러한 문제에 직면하기 위해 저자는 내부 활동의 암호화 증거, 검증 가능한 모델 또는 도구 아이덴티티의 마커 및 독립적 인 감독과 관련된 계층화 된 감사 프레임 워크를 제안합니다. 그러나 근본적인 관심사는 구조적입니다. 현재 LLM 청구 체계는 지속적인 것에 달려 있습니다. 정보의 비대칭사용자를 확인하거나 무너질 수없는 비용에 노출됩니다.
보이지 않는 사람을 세는 것
메릴랜드 대학교 (University of Maryland)의 연구원들로부터의 마지막 논문은 청구 문제를 오용이나 잘못보고의 문제가 아니라 구조의 문제로 다시 프레임을 찍습니다. 그만큼 종이 – 제목 동전 : 상업용 불투명 한 LLM API의 보이지 않는 추론 토큰 계산그리고 메릴랜드 대학교의 10 명의 연구원들로부터 – 대부분의 상업용 LLM 서비스가 이제 중간 추론 이는 모델의 최종 답변에 기여합니다 그 토큰에 대해 여전히 청구합니다.
이 논문은 이것이 전체 서열을 제조, 주사 또는 감지없이 팽창 할 수있는 관찰 할 수없는 청구 표면을 생성한다고 주장한다.*:
‘[This] 보이지 않으면 공급자가 가능합니다 잘못보고 토큰 수 또는 인위적으로 팽창하여 토큰 수를 팽창시키는 저렴한 제조 된 추론 토큰을 주입. 우리는이 관행을라고합니다 토큰 수 인플레이션.
예를 들어, OpenAi의 O3 모델에서 실행하는 단일 고효율 아크 -agi는 1 억 1 천만 건의 토큰을 소비했습니다. 원가 계산 $ 66,772.3이 규모를 감안할 때, 작은 조작조차도 실질적인 재정적 영향을 초래할 수 있습니다.
‘이러한 정보 비대칭을 통해 AI 회사는 사용자의 이익을 상당히 과다 충전 할 수 있습니다.’
이 비대칭에 대응하기 위해 저자는 제안합니다 동전내용을 밝히지 않고 숨겨진 토큰을 확인하도록 설계된 타사 감사 시스템은 해시 지문과 의미 틱 점검을 사용하여 인플레이션의 징후를 발견합니다.

불투명 상업용 LLM에 대한 코인 감사 시스템의 개요. 패널 A는 토큰 내용을 밝히지 않고 토큰 수 검증을 위해 토큰 임베딩을 메르클 트리로 해시하는 방법을 보여줍니다. 패널 B는 경량 신경망이 추론 블록을 최종 답변과 비교하는 시맨틱 유효성 검사를 보여줍니다. 이러한 구성 요소는 함께 제 3 자 감사원이 독점 모델 행동의 기밀성을 유지하면서 숨겨진 토큰 인플레이션을 감지 할 수 있습니다.. 출처 : https://arxiv.org/pdf/2505.13778
하나의 구성 요소는 토큰 수를 암호적으로 사용하여 a를 사용합니다 메르클 트리; 다른 하나는 숨겨진 내용의 관련성을 답장 임베딩과 비교하여 평가합니다. 이를 통해 감사인은 패딩 또는 관련성을 감지 할 수 있습니다.
테스트에 배치 될 때 코인은 일부 형태의 인플레이션에 대해 거의 95%의 탐지 성공률을 달성했으며, 기본 데이터의 최소 노출. 시스템은 여전히 공급자의 자발적인 협력에 의존하고 있으며, 가장자리 사례에서는 해상도가 제한적이지만, 더 넓은 지점은 틀림 없습니다. 현재 LLM 청구의 아키텍처는 확인할 수없는 정직을 가정합니다.
결론
사용자로부터 사전 지불을 얻는 이점 외에도 a 서류-기반 통화 (예 : ‘버즈’시스템 Civitai) 지출하는 통화의 실제 가치 또는 구매하는 상품에서 사용자를 추상화하는 데 도움이됩니다. 마찬가지로, 공급 업체를 정의 할 수있는 공급 업체를 제공합니다 자체 측정 단위 또한 소비자는 실제 돈 측면에서 실제로 지출하는 것에 대해 소비자를 떠난다.
처럼 라스 베이거스의 시계 부족이런 종류의 조치는 종종 소비자에게 무모하거나 무관심한 비용을 지불하는 것을 목표로합니다.
거의 이해하지 못했습니다 토큰여러 가지 방법으로 소비되고 정의 될 수있는 것은 아마도 LLM 소비에 적합한 측정 단위가 아닐 수도 있습니다. 더 많은 토큰 비용이 더 많이 듭니다 LLM의 가난한 LLM을 계산하려면 영어 기반 세션에 비해 영어가 아닌 언어가 발생합니다.
그러나 Max Planck 연구자들이 제안한대로 캐릭터 기반 출력은 더 간결한 언어를 선호하고 불평을합니다. 자연스럽게 말한 언어. 감가 상각 토큰 카운터와 같은 시각적 표시는 아마도 우리의 LLM 세션에서 우리를 조금 더 지출 할 수 있기 때문에, 적어도 입법 조치없이 그러한 유용한 GUI 추가가 곧 올 것 같지는 않습니다.
* 저자의 강조. 저자의 인라인 인용을 하이퍼 링크로 전환합니다.
2025 년 5 월 29 일 목요일에 처음 출판되었습니다
게시물 새로운 연구 논문 질문 AI 채팅에 대한 ‘토큰’가격 먼저 나타났습니다 Unite.ai.