Apple은 USC와 공동으로 번역 시 iOS18 운영 체제 사용자에게 성별에 대한 더 많은 선택권을 제공하기 위해 사용되는 기계 학습 방법을 탐구하는 논문을 발표했습니다.
(Apple이 발표한 작업에서 다루어진 문제는 여기) 성별 정의를 둘러싼 현재의 주제적 논쟁에 어느 정도 관여하고 있으며 훨씬 오래된 문제에 중점을 두고 있습니다. 즉, 세계에 알려진 229개의 언어 중 84개가 성별 기반 성별 시스템을 사용합니다..
놀랍게도 영어는 성별에 따른 분류에 속합니다.남성 또는 여성 단수 대명사를 할당하기 때문입니다.
대조적으로, 모든 로맨스 언어 (이상 포함 5억 스페인어 사용자) 및 러시아어와 같은 기타 여러 인기 언어에서는 번역 시스템이 언어의 성 할당을 처리하도록 강제하는 방식으로 성별 동의가 필요합니다.
새로운 논문은 문장의 가능한 모든 스페인어 번역을 관찰함으로써 이를 설명합니다. 비서는 상사에게 화를 냈다.:
순진한 번역은 처음부터 성별을 정할 수 있는 긴 텍스트의 경우 충분하지 않습니다(‘그’, ‘그녀’등) 이후에는 성별을 다시 언급하지 않습니다. 그럼에도 불구하고 번역은 참가자의 지정된 성별을 기억해야 합니다. 본문 전반에 걸쳐.
이는 개별 청크의 번역을 처리하는 토큰 기반 접근 방식의 경우 어려울 수 있으며 콘텐츠 기간 동안 할당된 성별 컨텍스트를 잃을 위험이 있습니다.
더 나쁜 것은 편향된 성별 지정에 대한 대체 번역을 제공하는 시스템이 이를 무차별적으로 수행할 수 없다는 것입니다. 즉, 단순히 성별 명사를 대체하는 것만으로는 충분하지 않으며, 언어의 다른 모든 부분이 변경된 성별 명사와 일치하는지 확인해야 합니다.
Apple/USC 논문의 이 예에서 우리는 다음을 볼 수 있습니다. 비서 남성 성별, 단수 과거가 지정되었습니다. ~였다 여성형으로 남겨두었습니다(~였다):
번역 시스템은 성별과 관련하여 특정 언어의 기이함에도 대처해야 합니다. 논문에서 지적했듯이 대명사는 나 성별에 대한 흔하지 않은 단서를 제공하는 힌디어로 성별이 지정됩니다.
성별 문제
에서 새 종이제목 기계 번역에서 성별 대안 생성Apple과 USC 연구원은 다음을 제안합니다. 반 감독 성별이 모호한 개체를 개체 수준 대안의 배열로 변환하는 방법입니다.
iOS18의 Apple Translate 앱에서 번역을 알리는 데 사용된 시스템은 LLM(대형 언어 모델)을 사용하여 언어 스키마를 구성합니다. 미세 조정 사전 훈련된 오픈 소스 기계 번역 모델.
이러한 시스템의 번역 결과는 다음을 포함하는 아키텍처로 훈련되었습니다. 성별 구조 – 동일한 엔터티를 나타내는 다양한 성별 명사의 다양한 형태를 포함하는 구문 그룹입니다.
논문에는 다음과 같이 명시되어 있습니다*:
‘기차 데이터에 존재하는 성별 편견은 자연어 처리(NLP) 시스템에 유입되어 확산되고 잠재적인 증폭 그 편견 중. 이러한 편견은 종종 오류의 근본 원인이기도 합니다.
‘예를 들어 기계 번역(MT) 시스템은 다음과 같습니다. 의사를 스페인어 용어인 메디코(médico)로 번역하세요. medica(여성) 대신에 (남성), “의사가 간호사에게 수술을 도와달라고 요청했습니다”라는 입력이 주어졌습니다.
‘잘못된 성별 할당을 처방하는 것을 피하기 위해 MT 시스템은 맥락을 통해 성별을 명확하게 해야 합니다. 문맥을 통해 올바른 성별을 결정할 수 없는 경우 모든 유효한 성별 선택을 포괄하는 다양한 번역 대안을 제공하는 것이 합리적인 접근 방식입니다.’
연구원들이 도달한 접근 방식은 단일 토큰에서 사용자 제어 배열로 변환을 효과적으로 전환합니다.
(논문에서는 이에 대해 언급하지 않지만 이는 Apple Translate 또는 번역 서비스를 제공하는 유사한 포털에서 사용자 선택이 이후 모델 반복에 피드백될 수 있는 가능성을 열어줍니다.)
Apple과 USC가 개발한 모델은 다음과 같은 평가를 받았습니다. 문 그리고 MT-GenEval 테스트 세트. GATE에는 최대 3개의 성별이 모호한 개체가 포함된 소스 문장이 포함되어 있는 반면, MT-GenEval에는 성별을 추론할 수 없는 자료가 포함되어 있어 대체 성별 옵션을 사용자에게 제공해서는 안 되는 경우를 이해하는 데 도움이 된다고 저자는 말합니다.
두 경우 모두 프로젝트 목표에 맞게 테스트 세트에 다시 주석을 달아야 했습니다.
시스템을 훈련시키기 위해 연구원들은 새로운 자동 기술에 의존했습니다. 데이터 증대 사람이 주석을 추가한 앞서 언급한 테스트 세트와는 대조적입니다.
Apple 큐레이션에 기여하는 데이터 세트는 다음과 같습니다. 유로팔; 위키제목; 그리고 위키매트릭스. 말뭉치는 다음과 같이 나누어졌다. G데이 (12,000개의 문장 포함), 다음과 같은 문장을 포함합니다. 머리말 성별이 모호한 주석과 함께 모든 개체에 대해 그리고 G-트랜스 (50,000개 문장 포함), 성별이 모호한 항목과 성별 정렬이 포함되어 있습니다.
저자는 다음과 같이 주장합니다.
‘우리가 아는 한, 이것은 성별 모호함과 그것이 번역에서 성별 형태에 어떻게 영향을 미치는지를 포함하는 최초의 대규모 자료입니다.’
프로젝트에 대한 데이터 세트 및 다양한 데이터가 GitHub에서 사용 가능. 이 데이터에는 영어와 러시아어, 독일어, 프랑스어, 포르투갈어, 스페인어 등 5개 언어 쌍이 포함되어 있습니다.
저자는 활용 사전 접근 방식 2019년부터 모델에 성별 정렬을 출력할 수 있는 기능을 부여하고 교차 엔트로피 손실 그리고 추가 정렬 손실.
데이터 증대 루틴의 경우 저자는 전통적인 방식을 피했습니다. 규칙 기반 방법데이터 중심 접근 방식을 선호합니다. 버트 G-Tag 데이터 세트에 대해 사전 훈련된 언어 모델입니다.
더블 테이크
모호한 성별 개체가 감지되는 경우 Apple과 USC는 사전 훈련된 언어 모델의 미세 조정과 LLM 사용이라는 두 가지 방법을 모색했습니다.
첫 번째 방법과 관련하여 논문에서는 다음과 같이 설명합니다.
‘우리는 G-Trans 데이터세트에서 추출한 비트텍스트에 대해 사전 훈련된 MT 모델 M을 미세 조정합니다. 이 이중 텍스트의 원본 문장에는 다음을 사용하여 남성 또는 여성으로 태그가 지정된 모호한 개체가 포함되어 있습니다. <남>/<여> 태그가 있고 대상 번역에는 성별 태그가 주어지면 올바른 성별 굴절이 있습니다.’
위 이미지에서 중간 하단 열에는 미세 조정된 텍스트가 있고 오른쪽 열에는 원하는 출력이 있으며 위에 설명된 기본 근거가 있습니다.
이 접근 방식을 위해 저자는 다음을 사용했습니다. 격자 재채점 의 방법 2020년 초 작업. 대상 도메인(성별)만 처리되었는지 확인하려면 구속빔 검색 필터로 사용되었습니다.
LLM 접근 방식의 경우, 저자는 성별 할당을 제공하기 위해 제공된 번역을 다시 작성하여 LLM을 편집자로 사용하는 전략을 고안했습니다.
두 접근 방식의 결과를 연결한 후 모델은 소스 토큰을 다음과 같이 분류하도록 미세 조정되었습니다. 정렬됨 (아래 스키마에서 ‘1’로 표시됨) 또는 정렬되지 않은 (아래 ‘2’로 표시).
데이터 및 테스트
그만큼 모호한 실체 프로젝트에 사용된 탐지기는 Facebook AI를 미세 조정하여 개발되었습니다. xlm-로버타-대형 모델, 사용 변압기. 이를 위해 결합된 G-Tag가 5개 언어 쌍 모두에 사용되었습니다.
앞서 언급한 두 가지 접근법 중 첫 번째는 M2M 1.2B 모델은 훈련을 받았습니다 페어시크G-Trans 데이터세트의 이중 텍스트 데이터와 Wiktionary에서 제공한 성별 변화를 함께 사용합니다.
LLM 방법의 경우 저자는 다음을 사용했습니다. GPT-3.5-터보. 성별 구조 정렬을 위해 xlm-roberta-large가 다시 사용되었으며 이번에는 G-Trans에서 추출된 성별 정렬이 사용되었습니다.
대안, 구조 평가를 위한 측정항목( 정도 그리고 상기하다), 그리고 정렬 정확도.
처음 두 가지는 자명하지만 정렬 정확도는 알려진 올바른 소스 신원을 준수하는 출력 성별 구조의 비율을 측정하고 δ-BLEU 방법MT-GenEval의 방법론에 따라.
다음은 데이터 증대 파이프라인의 결과입니다.
저자는 다음과 같이 논평합니다*:
‘M2M과 GPT는 모두 영어-러시아어를 제외하고 대부분 동등한 성능을 발휘합니다. 여기서 GPT는 훨씬 낮은 대안 회상(89.3에 비해 58.7)을 달성합니다. 생성된 성별 구조의 품질은 구조 측정항목에서 볼 수 있듯이 영어-독일어 및 영어-포르투갈어의 GPT에서 더 좋고, 영어-스페인어 및 영어-러시아어의 M2M에서는 더 좋습니다.
‘영어-이탈리아어에 대한 G-Trans 데이터가 없으므로 M2M 모델의 결과와 영어-이탈리아어의 정렬 정확도는 순전히 제로샷 일반화에 따른 것입니다. M2M 및 XLM 모드 ㅋㅋㅋ.’
연구원들은 또한 M2M을 통한 데이터 증강 시스템의 성능을 GATE가 명시한 용어에 따라 GATE의 문장 수준 성별 재작성기와 비교했습니다.
여기 논문에는 다음과 같이 명시되어 있습니다.
‘우리는 정밀도가 상대적으로 약간 저하되는 대신 재현율이 크게 향상되는 것을 확인했습니다(영어-이탈리아어 제외). 우리 시스템은 3개 언어 쌍 모두에서 제안된 F.5 지표에서 GATE보다 뛰어난 성능을 발휘할 수 있습니다.’
마지막으로 저자는 다양한 ‘바닐라’ 다국어 모델을 훈련시켰습니다. 바닐라 바이텍스트. 기여 데이터 세트는 WikiMatrix, 위키제목, 많은, 뉴스해설그리고 틸데.
두 개의 추가 바닐라 모델이 훈련되었으며, 그 중 하나는 접두사가 붙은 태그가 있는 G-Trans 데이터 세트를 통합했습니다. <성별>이는 감독 기준선으로 사용되었습니다. 세 번째는 성별 구조와 정렬을 통합하는 것입니다(소규모 로컬 모델에서는 GPT의 API 기반 서비스를 사용하는 것이 이 목적을 위해 매우 비용이 많이 들기 때문입니다).
모델은 2022년에 대해 테스트되었습니다. 플로레스 데이터 세트.
이 논문은 다음 결과를 요약합니다.
‘바닐라 모델은 대안을 생성할 수 없으며 남성형 생성에 대한 큰 편견을 보여줍니다(δ-BLEU 범위는 5.3~12.5포인트).
‘이 편견은 감독된 기준선에 의해 크게 감소됩니다. 증강 데이터에 대해 훈련된 모델은 편향을 더욱 줄이고 대체 측정항목, 정렬 정확도 및 δ-BLEU 측면에서 최고의 성능을 얻습니다.
‘이는 데이터 증강 파이프라인의 효율성을 보여줍니다. 또한 증강 데이터를 사용하면 감독 데이터가 부족한 영어-이탈리아어에 대한 경쟁 시스템을 훈련할 수 있습니다.’
저자는 번역 방법에서 성별 할당을 합리화하려는 NLP의 투쟁이라는 더 넓은 맥락에서 모델의 성공을 고려해야 한다는 점을 지적하며 결론을 내립니다. 그리고 그들은 이것이 여전히 열려 있는 문제라고 지적합니다.
연구자들은 얻은 결과가 개체 수준의 성 중립적 번역 및/또는 성별에 관한 명확화 생성의 목표를 완전히 달성하지 못한다고 생각하지만, 이 작업이 미래 탐구를 위한 ‘강력한 도구’라고 믿습니다. 기계 번역의 가장 어려운 영역.
* 저자의 인라인 인용을 하이퍼링크로 전환
2024년 10월 8일 화요일 첫 게시
게시물 성별에 따른 언어 번역을 위한 Apple의 솔루션 처음 등장한 Unite.AI.