생성 AI가 제기 한 개인 정보 위험은 매우 현실적입니다. 감시 및 노출에서보다 효과적인 피싱 및 빙빙 캠페인에 대한 노출에서 그 어느 때보 다 생성 된 AI는 개인 정보 보호를 무차별 적으로 침식하면서 범죄, 국가 후원 또는 정부에 관계없이 나쁜 행위자에게 개인 및 그룹을 대상으로하는 데 필요한 도구를 제공합니다.
이 문제에 대한 가장 분명한 솔루션은 소비자와 사용자가 AI 과대 광고를 집합 적으로 돌리면서 소위 AI 기능을 개발하거나 구현하는 사람들의 투명성을 요구하고, 운영을 감독하는 정부 기관의 효과적인 규제를 포함합니다. 노력할 가치가 있지만, 이것은 곧 일어나지 않을 것입니다.
남아있는 것은 반드시 불완전하더라도 생성 AI 개인 정보 보호 위험을 완화하기위한 접근 방식입니다. 장기적이고 확실하지만 지루한 예측은 대중이 일반적으로 데이터 프라이버시에 대한 교육이 많을수록 생성 AI의 대량 채택으로 제기 된 개인 정보 위험이 줄어든다는 것입니다.
우리 모두 생성 AI의 개념을 얻습니까?
AI 주변의 과대 광고는 너무나 유비쿼터스이므로 생성 AI가 사람들이 의미하는 바에 대한 조사는 거의 필요하지 않습니다. 물론, 이러한 “AI”기능, 기능 및 제품 중 어느 것도 실제로 실제 인공 지능의 예를 나타내지 않습니다. 오히려, 그들은 대부분의 예입니다 기계 학습 (ML), 딥 러닝 (dl) 및 큰 언어 모델 (LLMS).
이름에서 알 수 있듯이 생성 AI는 텍스트 (프로그래밍 언어 포함), 오디오 (음악 및 인간과 같은 목소리 포함) 또는 비디오 (사운드, 대화, 컷 및 카메라 변경) 등 새로운 컨텐츠를 생성 할 수 있습니다. 이 모든 것은 LLM을 훈련하여 인간 생성 된 컨텐츠의 패턴을 식별, 일치 및 재현하도록 달성합니다.
Chatgpt를 예로 들어 봅시다. 많은 LLM과 마찬가지로 3 단계로 훈련되었습니다.
- 사전 훈련:이 단계에서 LLM은 인터넷, 서적, 학술 저널 및 잠재적으로 관련성이 있거나 유용한 텍스트를 포함하는 다른 모든 것의 텍스트 자료를 “공급”합니다.
- 감독 지시 미세 조정: 모델은 일반적으로 인간으로부터 공급되는 고품질의 교육 응답 쌍을 사용하여 지시에 더 일관되게 응답하도록 훈련됩니다.
- 인간 피드백으로부터의 강화 학습 (RLHF): Chatgpt와 같은 LLM은 종종이 추가 교육 단계를 거 며,이 기간 동안 인간 사용자와의 상호 작용은 일반적인 사용 사례와 모델의 정렬을 개선하는 데 사용됩니다.
교육 프로세스의 세 단계는 모두 사전 수집 된 데이터 (예 : 사전 훈련에 사용 된 것과 같은)의 대규모 스토어 또는 거의 실시간으로 수집 및 처리 된 데이터 (RLHF에 사용 된 것과 같은) 데이터를 포함합니다. 개인 정보 보호에 대한 사자의 비중을 차지하는 데이터는 생성 AI에서 비롯된 것입니다.
생성 AI가 제기 한 개인 정보 위험은 무엇입니까?
개인 정보는 개인 (데이터 주제)에 관한 개인 정보가 데이터 주제의 동의없이 다른 개인 또는 단체가 제공 할 때 손상됩니다. LLM은 개인 데이터를 포함 할 수 있고 종종 포함하는 매우 광범위한 데이터에 대해 미리 훈련되고 미세 조정됩니다. 이 데이터는 일반적으로 공개적으로 이용 가능한 소스에서 긁히지 만 항상 그런 것은 아닙니다.
해당 데이터가 공개적으로 이용 가능한 소스에서 가져온 경우에도 LLM에 의해 집계되고 처리 된 후 LLM의 인터페이스를 통해 본질적으로 검색 할 수있게하는 것은 개인 정보를 추가로 위반할 수 있다고 주장 할 수 있습니다.
그만큼 인간의 피드백으로부터의 강화 학습 (RLHF) 단계는 사물을 복잡하게 만듭니다. 이 교육 단계에서 인간 사용자와의 실제 상호 작용은 LLM의 응답을 반복적으로 수정하고 개선하는 데 사용됩니다. 이것은 LLM과의 사용자와의 상호 작용이 교육 데이터.
대부분의 경우 대부분의 LLM 개발자가 LLM과 상호 작용하기 전에 사용자가 동의 해야하는 개인 정보 보호 정책 및 서비스 약관이 포함되어 있기 때문에 개인 정보 위반이 아닙니다. 여기서 개인 정보 보호 위험은 많은 사용자가 그러한 데이터 수집 및 사용에 동의했다는 사실을 알지 못한다는 사실에 있습니다. 이러한 사용자는 이러한 시스템과의 상호 작용 중에 개인적이고 민감한 정보를 공개 할 가능성이 있으며, 이러한 상호 작용은 기밀이 없거나 개인적이지 않다는 것을 깨닫지 못합니다.
이런 식으로, 우리는 생성 AI가 프라이버시 위험을 초래하는 세 가지 주요 방법에 도달합니다.
- 잠재적으로 개인 정보를 포함하는 사전 훈련 데이터의 대규모 저장소는 타협 및 추방에 취약합니다.
- 사전 훈련 데이터에 포함 된 개인 정보는 쿼리 및 지침에 대한 응답을 통해 동일한 LLM의 다른 사용자에게 유출 될 수 있습니다.
- LLMS와의 상호 작용 중에 제공되는 개인 및 기밀 정보는 LLMS 직원 및 타사 계약자가 보거나 유출 될 수있는 곳에서 끝납니다.
이것들은 모두 사용자의 개인 정보 보호에 대한 위험이지만, 개인 식별 정보 (PII)가 잘못된 손으로 끝날 가능성은 여전히 상당히 낮아 보입니다. 즉, 데이터 브로커가 사진에 들어갈 때까지 적어도. 이 회사들은 PII를 스니핑하고 완전히 방송되지 않으면 수집, 집계 및 전파를 전문으로합니다.
PII 및 기타 개인 데이터가 상품의 무언가가되었고 데이터 브로커 산업이 이로 인해 이익을 얻기 위해 생겨나면서“밖으로 나가는”개인 데이터는 데이터 중개인에 의해 퍼져서 멀리 퍼져 나갈 가능성이 높습니다.
맥락에서 생성 AI의 개인 정보 보호 위험
특정 제품, 서비스 및 기업 파트너십의 맥락에서 생성 AI가 사용자의 개인 정보 보호에 대한 위험을 살펴보기 전에 물러서서 생성 AI 위험의 전체 팔레트를보다 체계적으로 살펴 보겠습니다. IAPP에 대한 글쓰기, Moraes와 Previtali는 Solove의 2006 년“개인 정보 분류”를 정제하는 데 데이터 중심의 접근 방식을 취하여 여기에 설명 된 16 개의 개인 정보 보호 위험을 12 개의 AI 특정 개인 정보 보호 위험으로 줄였습니다.
이것은 Moraes와 Previtali의 12 가지 개인 정보 보호 위험입니다. 개정 분류:
- 감시: AI는 개인 데이터 수집의 규모와 편재성을 증가시켜 감시 위험을 악화시킵니다.
- 신분증: AI 기술을 통해 다양한 데이터 소스에서 자동화 된 신원 연결을 통해 개인 신원 노출과 관련된 위험이 증가합니다.
- 집합: AI는 개인에 대한 다양한 데이터를 결합하여 추론을하여 개인 정보 침략의 위험을 야기합니다.
- Phrenology 및 Physiognomy : AI는 Solove의 분류가 아닌 새로운 위험 범주 인 물리적 특성으로부터 성격 또는 사회적 속성을 유추합니다.
- 보조 사용 : AI는 원래의 의도가 아닌 다른 목적으로 개인 데이터의 사용을 악화시킵니다.
- 제외: AI는 불투명 데이터 관행을 통해 데이터가 어떻게 사용되는지에 대해 사용자에게 정보를 제공하거나 제어하지 못하게합니다.
- 불안정: AI의 데이터 요구 사항 및 스토리지 관행 데이터 유출 위험 및 부적절한 액세스 위험.
- 노출: AI는 생성 AI 기술을 통한 민감한 정보를 공개 할 수 있습니다.
- 왜곡: 현실적이지만 가짜 콘텐츠를 생성하는 AI의 능력은 허위 또는 오해의 소지가있는 정보의 확산을 높입니다.
- 폭로: AI는 원시 데이터의 추가 민감한 정보를 유추 할 때 데이터를 부적절하게 공유 할 수 있습니다.
- 접근성 증가 : AI는 의도 한 것보다 더 많은 청중에게 민감한 정보를 더 많이 액세스 할 수 있도록합니다.
- 강요: AI Technologies는 종종 감시 조치를 통해 개인 공간이나 고독을 침범합니다.
이것은 상당히 놀라운 독서를 만듭니다. 이 분류는 그 신용에 대한 생성 AI의 경향을 고려한다는 점에 유의하는 것이 중요합니다. 환각 – 사실상 부정확 한 정보를 생성하고 자신있게 제시합니다. 이 현상은 실제 정보를 거의 드러내지 않더라도 개인 정보 보호 위험이기도합니다. 허위 및 오해의 소지가있는 정보의 보급은 정확한 정보의 경우보다 미묘한 방식으로 피험자의 프라이버시에 영향을 미치지 만 그럼에도 불구하고 영향을 미칩니다.
실제 AI 제품의 맥락에서 이러한 개인 정보 위험이 어떻게 발생하는지에 대한 구체적인 예를 들어 드리겠습니다.
텍스트 기반 생성 AI 시스템과의 직접적인 상호 작용
가장 간단한 사례는 Chatgpt, Midjourney 또는 Gemini와 같은 생성 AI 시스템과 직접 상호 작용하는 사용자와 관련된 사례입니다. 이러한 많은 제품과의 사용자와의 상호 작용은 RLHF (인간 피드백으로부터의 강화 학습), 감독 된 교육용 미세 조정 및 심지어 다른 LLM의 사전 훈련에 사용됩니다.
이와 같은 많은 서비스의 개인 정보 보호 정책에 대한 분석은 마케팅 및 데이터 중개와 같은 매우 다른 목적으로 뒷받침되는 다른 데이터 공유 활동도 보여줍니다. 이것은 생성 AI가 제기 한 다른 유형의 개인 정보 보호 위험입니다. 이러한 시스템은 거대한 데이터 깔때기로 특징 지어 질 수 있으며, 사용자가 제공하는 데이터를 수집하고 기본 LLM과의 상호 작용을 통해 생성되는 데이터를 수집합니다.
임베디드 생성 AI 시스템과의 상호 작용
일부 사용자는 표면적으로 사용하는 제품에 내장 된 생성 AI 인터페이스와 상호 작용할 수 있습니다. 사용자는 “AI”기능을 사용하고 있음을 알 수 있지만 데이터 개인 정보 보호 위험 측면에서 수반되는 내용을 알지 못할 가능성이 적습니다. 임베디드 시스템과 함께 앞으로 나오는 것은 LLM과 공유 된 개인 데이터가 개발자 및 데이터 중개인의 손에 달려있을 수 있다는 사실에 대한 인식이 부족하다는 것입니다.
여기에는 인식 부족이 두 가지가 있습니다. 일부 사용자는 생성 AI 제품과 상호 작용하고 있음을 알고 있습니다. 그리고 일부는 생성 AI가 내장 또는 액세스하는 제품을 사용하고 있다고 생각합니다. 두 경우 모두 사용자는 임베디드 시스템과의 상호 작용과 관련된 이용 약관에 기술적으로 동의 할 수 있습니다.
사용자를 생성 AI 시스템에 노출시키는 다른 파트너십
일부 회사는 소프트웨어에 생성 AI 인터페이스를 포함 시키거나 덜 명백한 방식으로 포함 시키거나 포함하여 사용자가 실현하지 않고 3 자와 상호 작용하고 정보를 공유하게합니다. 운 좋게도“AI”는 효과적인 판매 지점이되어 회사가 그러한 구현을 비밀로 유지하지는 않을 것입니다.
이러한 맥락에서 또 다른 현상은 OpenAI와 같은 생성 AI 회사와 사용자 또는 고객 데이터를 공유하려고 시도한 후 그러한 회사가 경험 한 반발입니다. 예를 들어, 데이터 제거 회사 오리피아는 최근에 결정을 철회했습니다 OpenAI와 OpenAI와 사용자 데이터를 공유하려면 사용자가 기본적으로 프로그램에 등록되었음을 의미합니다.
고객은 빠른 것뿐만 아니라 그들의 실망을 표명하십시오그러나 회사의 데이터 제거 서비스는 개인 정보 보호 가이드의 권장 데이터 제거 서비스 목록에서 즉시 상장되었습니다. Optery의 신용을 위해, 그것은 결정을 빠르고 투명하게 철회했지만, 여기에서 중요한 것은 일반적인 반발입니다. 사람들은 “AI”회사와 데이터를 공유 할 위험에 감사하기 시작했습니다.
오리 오피스 사례는 소위 AI 구현을 둘러싼 회의론의 선봉에있는 사용자가 어떤 의미에서, 사용자가 어떤 의미에서 좋은 예를 제시합니다. 데이터 제거 서비스를 선택하는 사람들의 종류는 일반적으로 서비스 및 개인 정보 보호 정책 측면에서 변화에주의를 기울일 사람들입니다.
생성 AI 데이터 사용에 대한 급격한 반발의 증거
개인 정보 보호 의식 소비자는 생성 AI 시스템 및 관련 데이터 개인 정보 보호 위험에 대한 우려를 제기하는 유일한 사람은 아닙니다. 입법 수준에서 EU 인공 지능 법 대부분의 경우 데이터 프라이버시가 명시 적 또는 암시 적으로 명시된 기준으로, 심각도에 따라 위험을 분류합니다. 이 법은 또한 앞에서 논의한 사전 동의 문제를 다루고 있습니다.
미국, 노토 포괄적 인 연방 데이터 프라이버시 법률을 채택하는 데 속도가 느리게 행정 명령 14110. 다시, 데이터 개인 정보 보호 문제는 순서에 대한 목적의 최전선에 있습니다.“무책임한 사용 [of AI technologies] 사기, 차별, 편견 및 정보와 같은 사회적 피해를 악화시킬 수 있습니다.” – 모두 개인 데이터의 가용성 및 보급과 관련이 있습니다.
소비자 수준으로 돌아가는 것은 개인 정보 비 침습적 생성 AI 구현에 실린 프라이버시 의식 소비자가 아닙니다. Windows 11 운영 체제로 향하는 Microsoft의 현재 유능한 “AI 구동”리콜 기능이 대표적인 예입니다. 개인 정보 및 보안 위험의 정도가 공개되면 백래시 기술 거인이 백 페달로 만들기에 충분했습니다. 불행히도 Microsoft가 보입니다 아이디어를 포기하지 않아야합니다그러나 초기 대중의 반응은 그럼에도 불구하고 마음이 있습니다.
Microsoft와 함께 머무르면서 Copilot 프로그램은 널리 비난을 받았습니다. 데이터 개인 정보 및 데이터 보안 문제. Colecilot이 Github 데이터 (주로 소스 코드)에 대해 교육을 받았을 때 Microsoft의 프로그래머 및 개발자 소프트웨어 라이센스 계약 위반에 대한 논란도 발생했습니다. 이와 같은 경우 데이터 프라이버시와 지적 재산권 사이의 경계가 흐려지기 시작하여 전자에게 금전적 가치를 부여합니다.
아마도 AI가 소비자의 눈에 적기가되고 있다는 가장 큰 징후는 Apple이 OpenAI와의 데이터 공유 계약과 관련하여 Apple이 초기 AI 출시에 대한 명백히 조심스럽지 않다면 미지근한 일 것입니다.
단편적인 솔루션
의회 의원, 개발자 및 회사는 생성 AI가 제기 한 위험을 개선하기 위해 취할 수 있습니다. 이것들은 중요한 문제의 특정 측면에 대한 전문 솔루션이며, 이러한 솔루션 중 어느 누구도 충분하지 않을 것으로 예상되지 않지만 모두 함께 일하면서 실질적인 차이를 만들 수 있습니다.
- 데이터 최소화. 수집 및 저장된 데이터의 양을 최소화하는 것은 합리적인 목표이지만, 교육 데이터에 대한 생성 AI 개발자의 욕구와 직접적으로 반대합니다.
- 투명도. ML에서 현재의 최신 상태를 고려할 때, 이것은 많은 경우 기술적으로 실현 가능하지 않을 수 있습니다. 처리 된 데이터와 주어진 출력을 생성 할 때의 방법에 대한 통찰력은 생성 AI 상호 작용에서 개인 정보를 보장하는 한 가지 방법입니다.
- 익명화. 교육 데이터 (데이터 최소화를 통해)에서 제외 할 수없는 PII는 익명화되어야합니다. 문제는 많은 인기있는 익명화 및 가명 기술이 쉽게 패배한다는 것입니다.
- 사용자 동의. 사용자가 데이터 수집 및 공유에 동의하도록 요구하는 것은 필수적이지만 남용하기에는 너무 개방적이며 소비자 자격이 효과적이기 쉽습니다. 여기에 필요한 동의에 대한 사전 동의와 적절하게 정보를받은 대부분의 소비자는 그러한 데이터 공유에 동의하지 않으므로 인센티브가 잘못 정렬됩니다.
- 운송 및 휴식 중에 데이터를 보호합니다. 암호화 및 기타 수단을 통한 데이터를 보호하는 데이터 개인 정보 보호 및 데이터 보안의 또 다른 토대는 항상보다 효과적 일 수 있습니다. 그러나 생성 AI 시스템은 인터페이스를 통해 데이터가 누출되는 경향이있어 솔루션의 일부만 만듭니다.
- 저작권 및 IP 법 집행 소위 AI의 맥락에서. ML은 “블랙 박스”에서 작동 할 수 있으므로 저작권이있는 자료와 IP가 생성 된 AI 출력을 추적하기가 불가능하지는 않지만 어렵습니다.
- 감사. LLM의 블랙 박스 특성과 그들이 지원하는 생성 AI 시스템에 의해 방해가 된 또 다른 중요한 가드 레일 측정. 이러한 고유 한 한계를 복합화하는 것은 대부분의 생성 AI 제품의 폐쇄 소스 특성이며, 이는 개발자의 편의에서 수행 된 것만으로 만 감사를 제한합니다.
문제에 대한 이러한 모든 접근 방식은 유효하고 필요하지만 충분하지는 않습니다. 그들은 모두 의미있는 효과를 내기 위해 입법 지원이 필요합니다. 즉,이 역동적 인 필드가 계속 발전함에 따라 시대의 뒤를이어야한다는 것을 의미합니다.
명확한 솔루션
생성 AI가 제기 한 개인 정보 보호 위험에 대한 해결책은 혁명적이거나 흥미롭지는 않지만 논리적 결론에 이르렀을 때 결과는 둘 다일 수 있습니다. 명확한 솔루션은 일상적인 소비자가 회사에 대한 데이터의 가치와 데이터 개인 정보 보호의 귀중한 점을 인식하는 것을 포함합니다.
소비자는 현대 감시 경제라고 불리는 개인 정보의 소스와 엔진입니다. 많은 소비자가 개인 데이터의 흐름을 공공 영역으로 만들기 시작하고 개인 데이터를 다루는 회사의 책임을 요구하기 시작하면 시스템은 자체 수정해야합니다.
생성 AI에 대한 고무적인 것은 현재 광고 및 마케팅 모델과 달리 어떤 단계에서도 개인 정보를 포함 할 필요가 없다는 것입니다. 사전 훈련 및 미세 조정 데이터에는 PII 또는 기타 개인 데이터가 포함될 필요가 없으며 사용자는 생성 AI 시스템과의 상호 작용 중에 동일하게 노출 될 필요가 없습니다.
교육 데이터에서 개인 정보를 제거하기 위해 사람들은 출처로 바로 이동하여 공개 기록을 집계하는 다양한 데이터 브로커 (사람 검색 사이트 포함)에서 프로필을 제거하여 공개 시장에서 유통을 일으킬 수 있습니다. 개인 데이터 제거 서비스 프로세스를 자동화하여 빠르고 쉽게 만듭니다. 물론,이 회사의 데이터베이스에서 개인 데이터를 제거하면 다른 많은 이점이 있으며 단점이 없습니다.
사람들은 생성 AI를 포함하여 소프트웨어와 상호 작용할 때 개인 데이터를 생성합니다. 이 데이터의 흐름을 막기 위해 사용자는 상호 작용을 기록, 검토, 분석 및 공유한다는 것을 더 염두에 두어야합니다. 이를 피하기위한 그들의 옵션은 온라인 시스템에 공개 된 내용을 제한하고 가능한 한 오픈 소스 LLM을 사용하는 것으로 나타납니다. 전체적으로 사람들은 이미 공개적으로 논의하는 것을 조절하는 데 좋은 일을하고 있습니다. 우리는 이러한 본능을 생성 AI 영역으로 확장하면됩니다.
게시물 생성 AI가 제기 한 개인 정보 위험에 대한 명확한 솔루션이 있습니까? 먼저 나타났습니다 Unite.ai.