합성 데이터는 AI 환각에 어떤 영향을 미칩니 까?

Date:

합성 데이터는 강력한 도구이지만 특정 상황에서 인공 지능 환각 만 줄일 수 있습니다. 거의 모든 다른 경우에는이를 증폭시킵니다. 이게 왜? 이 현상은 투자 한 사람들에게 무엇을 의미합니까?

합성 데이터는 실제 데이터와 어떻게 다릅니 까?

합성 데이터는 AI에 의해 생성 된 정보입니다. 실제 사건이나 관찰에서 수집하는 대신 인위적으로 생산됩니다. 그러나 정확하고 관련된 출력을 생성하기에 충분한 원본과 비슷합니다. 어쨌든 그 아이디어입니다.

인공 데이터 세트를 만들려면 AI 엔지니어는 실제 관계형 데이터베이스에서 생성 알고리즘을 교육합니다. 프롬프트되면 첫 번째와 밀접하게 반영되는 두 번째 세트를 생성하지만 진정한 정보는 포함되지 않습니다. 일반적인 추세와 수학적 특성은 그대로 유지되지만 원래 관계를 가리기에 충분한 소음이 있습니다.

AI 생성 데이터 세트는 분야를 동등한 대안으로 바꾸는 대신 필드 간의 관계의 기본 논리를 복제하여 탈신을 넘어서고 있습니다. 식별 세부 사항이 포함되어 있지 않기 때문에 회사는 개인 정보 보호 및 저작권 규정을 치마에 사용할 수 있습니다. 더 중요한 것은 위반에 대한 두려움없이 자유롭게 공유하거나 배포 할 수 있다는 것입니다.

그러나 가짜 정보는 보충에 더 일반적으로 사용됩니다. 비즈니스는이를 사용하여 너무 작은 샘플 크기를 풍요롭게하거나 확장 할 수있어 AI 시스템을 효과적으로 훈련시킬만큼 충분히 커질 수 있습니다.

합성 데이터는 AI 환각을 최소화합니까?

때로는 알고리즘이 존재하지 않는 이벤트를 참조하거나 논리적으로 불가능한 제안을합니다. 이러한 환각은 종종 무의미하거나 오해의 소지가 있거나 잘못입니다. 예를 들어, 큰 언어 모델은 6 세의 나이에 라이온스를 길들이거나 의사가되는 방법에 관한 방법을 작성할 수 있습니다. 그러나이 극단이 모두가 아니기 때문에 그들을 도전 할 수 있습니다.

적절하게 선별되면 인공 데이터는 이러한 사건을 완화 할 수 있습니다. 관련성 있고 정통 교육 데이터베이스는 모든 모델의 기초이므로 다른 세부 사항이 많을수록 모델의 출력이 더 정확할 것입니다. 보충 데이터 세트는 공개 정보가 제한된 틈새 애플리케이션의 경우에도 확장 성을 가능하게합니다.

Debiasing은 합성 데이터베이스가 AI 환각을 최소화 할 수있는 또 다른 방법입니다. MIT Sloan School of Management에 따르면 IT 편견을 해결하는 데 도움이 될 수 있습니다 원래 샘플 크기에만 국한되지 않기 때문입니다. 전문가는 현실적인 세부 사항을 사용하여 선택된 하위 집단이 아래에 있거나 과도하게 표현되는 격차를 메울 수 있습니다.

인공 데이터가 환각을 악화시키는 방법

지능형 알고리즘 이후 정보를 추론하거나 맥락화 할 수 없습니다그들은 환각에 걸리기 쉽습니다. 특히 선행 된 대형 언어 모델 인 생성 모델은 특히 취약합니다. 어떤면에서 인공 사실은 문제를 해결합니다.

바이어스 증폭

인간처럼 AI는 편견을 배우고 재현 할 수 있습니다. 인공 데이터베이스가 일부 그룹을 과대 평가하면서 다른 그룹을 과대 평가하면 우연히 수행하기 쉬운 다른 그룹을 과소 평가하면 의사 결정 논리가 왜곡되어 출력 정확도에 악영향을 미칩니다.

회사가 가짜 데이터를 사용하여 실제 편견을 제거 할 때 비슷한 문제가 발생할 수 있습니다. 예를 들어, 그 이후로 유방암의 99% 이상 보충 정보를 사용하여 표현의 균형을 유지하면 진단이 왜곡 될 수 있습니다.

교차 환각

교차성은 연령, 성별, 인종, 직업 및 계급과 같은 인구 통계가 어떻게 교차 하는지를 설명하는 사회 학적 틀입니다. 그것은 그룹의 겹치는 사회적 정체성이 어떻게 독특한 차별과 특권의 조합을 초래하는지 분석합니다.

생성 모델이 훈련 된 내용에 따라 인공적인 세부 사항을 생성하도록 요청되면 원본에 존재하지 않았거나 논리적으로 불가능한 조합을 생성 할 수 있습니다.

Linköping University의 성별 및 사회 교수 인 Ericka Johnson은 머신 러닝 과학자와 함께이 현상을 시연했습니다. 그들은 생성 적대 네트워크를 사용했습니다 합성 버전을 만듭니다 1990 년의 미국 인구 조사 수치.

즉시 그들은 눈부신 문제를 발견했습니다. 인공 버전에는“아내와 독신”과“결혼하지 않은 남편”이라는 범주가 있었는데, 둘 다 교차 환각이었습니다.

적절한 큐 레이션없이, 복제 데이터베이스는 데이터 세트에서 항상 지배적 인 하위 집단을 과대화하면서 과소 표현 된 그룹을 과소 평가합니다. 가장자리 케이스와 특이 치는 지배적 인 트렌드에 전적으로 무시 될 수 있습니다.

모델 붕괴

인공 패턴과 트렌드에 대한 과도한 관계는 모델 붕괴로 이어집니다. 이는 알고리즘의 성능이 실제 관찰 및 이벤트에 적응력이 떨어짐에 따라 알고리즘의 성능이 크게 악화됩니다.

이 현상은 특히 차세대 생성 AI에서 분명합니다. 인공 버전을 반복적으로 사용하여 교육하면 자체 소비 된 루프가 발생합니다. 한 연구에 따르면 그 연구에서 발견했습니다 품질과 리콜이 쇠퇴합니다 각 세대의 최근의 실제 수치없이 점차 점차적으로.

지나치게 적합합니다

지나치게 적합합니다 교육 데이터에 대한 과도한 관계입니다. 알고리즘은 처음에는 잘 수행되지만 새로운 데이터 포인트가 표시되면 환각됩니다. 합성 정보는 현실을 정확하게 반영하지 않으면이 문제를 해결할 수 있습니다.

지속적인 합성 데이터 사용의 의미

합성 데이터 시장이 급성장하고 있습니다. 이 틈새 산업의 회사 약 3 억 3 천만 달러가 모금되었습니다 2022 년에 2020 년 5 천 5 백만 달러에서 증가하여 18 개월 만에 518% 증가했습니다. 이것은 전적으로 공개적으로 알려진 자금이라는 점에 주목할 가치가 있습니다. 즉, 실제 수치가 훨씬 높아질 수 있습니다. 기업 이이 솔루션에 엄청나게 투자하고 있다고 말하는 것은 안전합니다.

기업이 적절한 큐 레이션과 토론없이 인공 데이터베이스를 계속 사용하면 모델의 성능이 점차 감소하여 AI 투자가 발생합니다. 응용 프로그램에 따라 결과가 더 심할 수 있습니다. 예를 들어, 건강 관리에서 환각이 급증하면 오진 또는 부적절한 치료 계획이 발생하여 환자 결과가 나빠질 수 있습니다.

솔루션에는 실제 데이터로의 반환이 포함되지 않습니다

AI 시스템은 수십억이 아닌 수십억의 이미지, 텍스트 및 비디오를 훈련하기위한 수백만 달러가 필요하며, 그 중 상당수는 공개 웹 사이트에서 긁히고 거대한 개방형 데이터 세트로 컴파일됩니다. 불행히도 알고리즘은 인간이 생성 할 수있는 것 보다이 정보를 더 빨리 소비합니다. 그들이 모든 것을 배울 때 어떻게됩니까?

비즈니스 리더는 인터넷에 대한 모든 홍보가 소진 된 지점 인 데이터 월에 도달하는 것에 대해 우려하고 있습니다. 생각보다 빨리 다가올 수 있습니다.

평균 일반 크롤링 웹 페이지에 대한 일반 텍스트 양과 인터넷 사용자 수 모두에도 불구하고 2%에서 4% 증가하고 있습니다. 매년 알고리즘에는 고품질 데이터가 부족합니다. 성능을 손상시키지 않고 훈련에 10% ~ 40% 만 사용할 수 있습니다. 추세가 계속되면, 인간이 생성 한 홍보 주식은 2026 년까지 소진 될 수 있습니다.

모든 가능성에 따라 AI 섹터는 데이터 월에 더 빨리 도달 할 수 있습니다. 지난 몇 년간의 생성 AI 붐은 정보 소유권 및 저작권 침해에 대한 긴장이 증가했습니다. 더 많은 웹 사이트 소유자는 Robots Excentrusion 프로토콜 (robots.txt 파일을 사용하여 웹 크롤러를 차단하거나 사이트가 제한이 없음을 분명히하는 표준을 사용하고 있습니다.

MIT 주도 연구 그룹이 발표 한 2024 년 연구에 따르면 대규모 청소 공통 크롤링 (C4) 데이터 세트 (대규모 웹 크롤링 코퍼스)가 제한이 증가하고 있음이 밝혀졌습니다. 위에 가장 활발하고 중요한 소스의 28% C4에서는 완전히 제한되었습니다. 또한 C4의 45%가 이제 서비스 약관에 의해 제한 오프 리멘트로 지정되었습니다.

기업이 이러한 제한을 존중하면 실제 공개 사실의 신선도, 관련성 및 정확성이 감소하여 인공 데이터베이스에 의존해야합니다. 법원이 대안이 저작권 침해라고 판결하면 많은 선택이 없을 수도 있습니다.

합성 데이터 및 AI 환각의 미래

저작권법이 현대화되고 더 많은 웹 사이트 소유자가 웹 크롤러에서 컨텐츠를 숨기면서 인공 데이터 세트 생성이 점점 인기를 얻게 될 것입니다. 조직은 환각의 위협에 직면 할 준비를해야합니다.

게시물 합성 데이터는 AI 환각에 어떤 영향을 미칩니 까? 먼저 나타났습니다 Unite.ai.

Share post:

Subscribe

Popular

More like this
Related

3월 17일 정부지원사업 신규 공고 리스트 (94건) _ (파일 재가공/재배포 가능)

3월 17일 94건<3/17 지원사업 신규 공고 목록> *전 영업일인 3/14에...

메타 AI의 MILS : 제로 샷 멀티 모달 AI의 게임 체인저

몇 년 동안 인공 지능 (AI) 인상적인 발전을 이루었지만,...

4 Microsoft AI의 실제 비즈니스 혜택

AI 변환이 번개 속도로 움직이고 있다는 데는 의문의 여지가...

AI 기반 디지털 스레드로 제조의 미래를 잠금 해제합니다

대형 전자 제조업체의 품질 관리 관리자라고 상상해보십시오....