AI 쓰레기로 훈련된 AI가 AI 쓰레기를 뱉어낸다

Date:

AI 모델은 인터넷에서 방대한 양의 데이터를 학습하여 작동합니다. 하지만 AI가 점점 더 쓰레기 콘텐츠로 가득 찬 웹 페이지를 쏟아내는 데 사용되면서, 그 프로세스가 훼손될 위험이 있습니다.

새로운 연구 결과가 발표됨 자연 AI가 AI가 생성한 데이터로 학습할 때 모델 출력의 품질이 점차 저하되는 것을 보여줍니다. 후속 모델이 미래 모델의 학습 데이터로 사용되는 출력을 생성함에 따라 효과가 더 악화됩니다.

연구를 이끈 옥스퍼드 대학교의 컴퓨터 과학자 일리아 슈마일로프는 이 과정을 사진을 찍는 것에 비유합니다. 그는 “사진을 찍어 스캔한 다음 인화하고 이 과정을 시간이 지남에 따라 반복하면 기본적으로 노이즈가 전체 과정을 압도합니다.”라고 말합니다. “어두운 사각형만 남게 됩니다.” AI의 어두운 사각형과 동일한 것을 “모델 붕괴”라고 하며, 모델이 일관성 없는 쓰레기만 생성한다는 의미라고 그는 말합니다.

이 연구는 오늘날 가장 큰 AI 모델에 심각한 영향을 미칠 수 있습니다. 왜냐하면 이들은 인터넷을 데이터베이스로 사용하기 때문입니다. 예를 들어 GPT-3는 부분적으로 다음 데이터를 사용하여 훈련되었습니다. 일반 크롤30억 개가 넘는 웹 페이지의 온라인 저장소. 그리고 문제는 다음과 같이 더 악화될 가능성이 있습니다. AI가 생성한 정크 웹사이트의 수가 점점 늘어나고 있습니다. 어지럽히다 인터넷.

슈마일로프는 현재의 AI 모델이 그냥 붕괴되지는 않겠지만 여전히 상당한 영향이 있을 수 있다고 말한다. 즉, 개선 속도가 느려지고 성능이 저하될 수 있다.

성능에 미치는 잠재적 영향을 확인하기 위해 Shumailov와 그의 동료들은 Wikipedia의 데이터 집합에서 대규모 언어 모델(LLM)을 미세 조정한 다음 9세대에 걸쳐 자체 출력에서 ​​새 모델을 미세 조정했습니다. 팀은 AI 모델이 시퀀스의 다음 부분을 예측하는 능력에 대한 확신을 측정하는 “퍼플렉시티 점수”를 사용하여 출력이 얼마나 터무니없는지 측정했습니다. 점수가 높을수록 모델이 덜 정확합니다.

다른 모델의 출력으로 훈련된 모델은 더 높은 perplexity 점수를 받았습니다. 예를 들어, 각 세대에 대해 팀은 모델에 다음 입력 뒤에 다음 문장을 요청했습니다.

“일부는 1360년 이전에 시작되었으며, 일반적으로 마스터 석공과 순회 석공으로 구성된 소규모 팀이 수행했으며, Poyntz Wright에 따르면 지역 교구 노동자가 이를 보완했습니다. 하지만 다른 저자들은 이 모델을 거부하며, 대신 주요 건축가들이 초기 수직형 사례를 기반으로 교구 교회 탑을 설계했다고 제안합니다.”

9세대이자 마지막 세대에서 해당 모델은 다음과 같은 결과를 반환했습니다.

“건축. 세계에서 가장 많은 검은 @-@꼬리 토끼, 흰 @-@꼬리 토끼, 파란 @-@꼬리 토끼, 빨간 @-@꼬리 토끼, 노란 @-의 서식지일 뿐만 아니라.”

슈마일로프는 이 비유를 사용하여 자신이 생각하는 바를 설명합니다. 학교에서 가장 가능성이 낮은 학생의 이름을 찾으려고 한다고 상상해 보세요. 모든 학생 이름을 살펴볼 수도 있지만 시간이 너무 오래 걸립니다. 대신 1,000명의 학생 이름 중 100명을 살펴봅니다. 꽤 정확한 추정치를 얻을 수 있지만 정답은 아닐 가능성이 큽니다. 이제 다른 사람이 와서 100명의 이름을 기반으로 추정치를 내지만 50명만 선택한다고 상상해 보세요. 두 번째 사람의 추정치는 훨씬 더 틀릴 것입니다.

“기계 학습 모델에서도 같은 일이 일어날 수 있다고 상상할 수 있습니다.” 그는 말한다. “그러므로 첫 번째 모델이 인터넷의 절반을 보았다면 두 번째 모델은 인터넷의 절반을 요구하지 않고 실제로 최신 100,000개의 트윗을 스크래핑하여 그 위에 모델을 맞출 것입니다.”

또한 인터넷은 무제한의 데이터를 보유하지 않습니다. 더 많은 데이터에 대한 욕구를 충족시키기 위해 미래의 AI 모델은 다음을 훈련해야 할 수도 있습니다. 합성 데이터—또는 AI가 생성한 데이터.

MIT 미디어 랩에서 LLM의 교육 방식을 연구하고 이 연구에 참여하지 않은 Shayne Longpre는 “재단 모델은 실제로 데이터 규모에 의존하여 좋은 성과를 냅니다.”라고 말합니다. “그리고 그들은 큐레이팅되고 통제된 환경에서 합성 데이터를 해결책으로 보고 있습니다. 웹에서 더 많은 데이터를 계속 크롤링하면 수익이 감소할 것이기 때문입니다.”

스탠포드 대학의 AI 연구원인 Matthias Gerstgrasser는 다른 종이 모델 붕괴를 조사한 그는 실제 데이터를 대체하는 대신 합성 데이터를 추가하는 것은 큰 문제를 일으키지 않는다고 말합니다. 하지만 그는 “모든 모델 붕괴 문헌이 동의하는 결론 중 하나는 고품질의 다양한 훈련 데이터가 중요하다는 것입니다.”라고 덧붙입니다.

시간이 지남에 따라 이러한 저하가 나타나는 또 다른 효과는 소수 민족에 영향을 미치는 정보가 모델에서 심하게 왜곡된다는 것입니다. 이는 훈련 데이터에서 더 널리 퍼진 샘플에 지나치게 초점을 맞추는 경향이 있기 때문입니다.

MIT 미디어 랩에서 계산 법률을 연구하는 로버트 마하리(그는 이 연구에 참여하지 않았다)는 현재 모델에서는 더 많은 합성(AI가 생성한) 데이터 세트가 필요하기 때문에 표현이 부족한 언어에 영향을 미칠 수 있다고 말한다.

저하를 방지하는 데 도움이 될 수 있는 한 가지 아이디어는 모델이 원래 인간이 생성한 데이터에 더 많은 가중치를 부여하도록 하는 것입니다. 슈마일로프 연구의 또 다른 부분은 미래 세대가 원래 데이터 세트의 10%를 샘플링할 수 있도록 허용하여 일부 부정적인 효과를 완화했습니다.

이를 위해서는 원래 인간이 생성한 데이터부터 다음 세대까지의 흔적을 만드는 것이 필요한데, 이를 데이터 출처라고 합니다.

하지만 출처를 밝히려면 인터넷을 인간이 생성한 콘텐츠와 AI가 생성한 콘텐츠로 걸러낼 방법이 필요한데, 아직은 깨지지 않았습니다. 텍스트가 AI가 생성했는지 여부를 판별하는 것을 목표로 하는 도구가 현재 많이 있지만, 종종 부정확합니다.

“불행히도, 우리는 답보다 질문이 더 많습니다.” 슈마일로프가 말했습니다. “하지만 데이터가 어디에서 왔는지, 그리고 당신이 다루고 있는 데이터의 대표적 샘플을 포착하기 위해 얼마나 신뢰할 수 있는지 아는 것이 중요하다는 것은 분명합니다.”

Share post:

Subscribe

Popular

More like this
Related

12월23일 정부지원사업 신규 공고 리스트 (12건) _ (파일 재가공/재배포 가능)

12월 23일 12건<12/23지원사업 신규 공고 목록> *전 영업일인 12/20에 올라온...

Waste Robotics와 Greyparrot가 분류 로봇을 강화하는 방법

Waste Robotics는 FANUC 로봇 팔을 사용하여 안정적이고 정확한 피킹을...

2024년 상위 10가지 생물의학 이야기

2024년에는 생체 의학 기술이 실제로 우리 머리, 더 구체적으로...

Sora AI 리뷰: AI가 영상 제작자를 영원히 대체할 수 있을까요?

말로만 고품질 비디오를 만들고 싶었던 적이 있습니까?2024년 2월 OpenAI...