Home 칼럼/연재 전문가 칼럼 트랜스포머 임팩트: 기계 번역 문제는 해결되었을까?

트랜스포머 임팩트: 기계 번역 문제는 해결되었을까?

By

irina barskaya phd head data scientist at yandex

-

7월 31, 2024

294

트랜스포머 임팩트: 기계 번역 문제는 해결되었을까?

Google은 최근 2022년에 출시되는 1000개 언어 이니셔티브의 일환으로 Google Translate에 110개의 새로운 언어를 출시한다고 발표했습니다. 2022년 시작 시 24개 언어 추가. 최신 110개가 더 추가되어 이제 243개 언어가 되었습니다. 이러한 빠른 확장은 다음 덕분에 가능했습니다. 제로샷 머신 번역머신 러닝 모델이 사전 사례 없이 다른 언어로 번역하는 법을 배우는 기술입니다. 하지만 미래에는 이 발전이 머신 번역의 과제에 대한 궁극적인 해결책이 될 수 있는지 함께 지켜보고, 그동안 그것이 일어날 수 있는 방법을 탐구할 것입니다. 하지만 먼저 그 이야기를 살펴보겠습니다.

예전에는 어땠어요?

통계적 기계 번역(SMT)

이것이 Google Translate가 사용한 원래의 방법이었습니다. 통계적 모델에 의존했습니다. 그들은 가장 가능성 있는 번역을 결정하기 위해 정렬된 문장 번역의 모음인 대규모 병렬 코퍼스를 분석했습니다. 먼저 시스템은 대상 언어로 변환하기 전에 중간 단계로 텍스트를 영어로 번역했으며, 유엔과 유럽 의회 필사본의 광범위한 데이터 세트와 문구를 교차 참조해야 했습니다. 철저한 문법 규칙을 컴파일해야 하는 기존 방식과는 다릅니다. 그리고 통계적 방식을 통해 완전히 불필요해질 수 있는 정적 언어 프레임워크에 의존하지 않고도 데이터에서 적응하고 학습할 수 있었습니다.

하지만 이 접근 방식에도 몇 가지 단점이 있습니다. 처음에 Google Translate는 시스템이 문장을 구문으로 나누어 개별적으로 번역하는 구문 기반 번역을 사용했습니다. 이는 단어 대 단어 번역보다 개선되었지만 여전히 어색한 구문과 맥락 오류와 같은 한계가 있었습니다. 그저 우리처럼 뉘앙스를 완전히 이해하지 못했습니다. 또한 SMT는 병렬 코퍼스에 크게 의존하며, 비교적 희귀한 언어는 충분한 병렬 데이터가 없기 때문에 번역하기 어려울 것입니다.

신경망 기계 번역(NMT)

2016년에 Google은 Neural Machine Translation으로 전환했습니다. 딥 러닝 모델을 사용하여 전체 문장을 한꺼번에 번역하여 더 유창하고 정확한 번역을 제공합니다. NMT는 컴퓨터 내에 정교한 다국어 지원 도우미가 있는 것과 비슷하게 작동합니다. 시퀀스-투-시퀀스(seq2seq) 아키텍처를 사용하여 NMT는 한 언어로 된 문장을 처리하여 의미를 이해합니다. 그런 다음 다른 언어로 해당 문장을 생성합니다. 이 방법은 방대한 병렬 코퍼스를 분석하여 가장 가능성 있는 번역을 결정하는 통계적 기계 번역과는 달리 방대한 데이터 세트를 사용하여 학습합니다. 구문 기반 번역에 집중하고 언어 규칙과 사전을 개발하고 유지하기 위해 많은 수동 작업이 필요한 SMT와 달리 NMT는 단어의 전체 시퀀스를 처리하는 기능을 통해 언어의 미묘한 맥락을 더 효과적으로 포착할 수 있습니다. 따라서 다양한 언어 쌍에서 번역 품질을 개선하여 종종 인간 번역가와 비슷한 수준의 유창함과 정확성에 도달했습니다.

사실, 기존 NMT 모델은 새로운 입력(단어나 토큰)이 처리될 때마다 진화하는 숨겨진 상태를 유지하여 순차적 데이터를 처리하도록 설계되었기 때문에 순환 신경망(RNN)을 핵심 아키텍처로 사용했습니다. 이 숨겨진 상태는 이전 입력의 맥락을 포착하는 일종의 메모리 역할을 하여 모델이 시간이 지남에 따라 종속성을 학습할 수 있도록 합니다. 하지만 RNN은 계산 비용이 많이 들고 효과적으로 병렬화하기 어려워서 확장성이 제한되었습니다.

변압기 소개

2017년 Google Research에서는 다음 제목의 논문을 발표했습니다. “당신에게 필요한 것은 주의뿐입니다.” 세상에 변압기를 선보이고 신경망 아키텍처에서 RNN으로부터 벗어나는 중요한 전환을 보여줍니다.

트랜스포머는 주의 메커니즘인 자기 주의에만 의존하는데, 이를 통해 신경 기계 번역 모델은 입력 시퀀스의 가장 중요한 부분에 선택적으로 집중할 수 있습니다. 문장 내의 시퀀스에서 단어를 처리하는 RNN과 달리 자기 주의는 전체 텍스트에서 각 토큰을 평가하여 컨텍스트를 이해하는 데 중요한 다른 토큰을 결정합니다. 모든 단어의 이러한 동시 계산을 통해 트랜스포머는 순환 연결이나 합성 필터에 의존하지 않고도 단기 및 장거리 종속성을 효과적으로 포착할 수 있습니다.

따라서 재발을 제거함으로써 변압기는 다음과 같은 몇 가지 주요 이점을 제공합니다.

병렬화 가능성: 주의 메커니즘은 시퀀스의 여러 세그먼트에서 병렬로 계산할 수 있어 GPU와 같은 최신 하드웨어에서 학습을 가속화합니다.
훈련 효율성: 또한 기존 RNN 기반이나 CNN 기반 모델에 비해 학습 시간이 상당히 짧아 기계 번역과 같은 작업에서 더 뛰어난 성능을 제공합니다.

제로샷 머신 번역 및 PaLM 2

2022년에 Google은 Zero-Shot Machine Translation을 사용하여 24개의 새로운 언어에 대한 지원을 출시하여 기계 번역 기술에서 중요한 이정표를 세웠습니다. 또한 세계에서 가장 많이 사용되는 1,000개 언어를 지원하는 것을 목표로 하는 1,000개 언어 이니셔티브를 발표했습니다. 이제 출시되었습니다. 110개 이상의 언어. 제로샷 머신 번역은 소스 언어와 타겟 언어 간에 병렬 데이터 없이 번역을 가능하게 하므로 각 언어 쌍에 대한 교육 데이터를 생성할 필요가 없습니다. 이전에는 비용이 많이 들고 시간이 많이 걸렸으며 일부 쌍 언어의 경우에도 불가능했습니다.

이러한 발전은 변압기의 구조와 자기 주의 메커니즘으로 인해 가능해졌습니다.변압기 모델의 성능 여러 언어를 동시에 처리할 수 있는 확장성과 결합된 언어 간 문맥적 관계를 학습하여 보다 효율적이고 효과적인 다국어 번역 시스템을 개발할 수 있었습니다. 그러나 제로샷 모델은 일반적으로 병렬 데이터에서 훈련된 모델보다 품질이 낮습니다.

그런 다음 변압기의 발전을 바탕으로 Google은 다음을 도입했습니다. 팔름2 2023년에 110개의 새로운 언어가 출시될 수 있는 길을 열었습니다. PaLM 2는 아와디어와 마르와디어(힌디어와 관련됨) 및 세이셸 크리올어와 모리셔스 크리올어와 같은 프랑스어 크리올어와 같은 밀접하게 관련된 언어를 학습하는 Translate의 능력을 크게 향상시켰습니다. PaLM 2의 개선 사항(예: 컴퓨팅 최적화 스케일링, 향상된 데이터 세트, 세련된 디자인)은 보다 효율적인 언어 학습을 가능하게 했으며, 언어 지원을 더 좋고 더 크게 만들고 다양한 언어적 뉘앙스를 수용하려는 Google의 지속적인 노력을 지원했습니다.

기계 번역의 과제가 변압기를 통해 완전히 해결되었다고 주장할 수 있을까?

우리가 이야기하는 진화는 Google이 SMT를 채택한 후 최근 Zero-Shot Machine Translation을 사용하여 110개의 추가 언어를 사용할 때까지 18년이 걸렸습니다. 이는 광범위한 병렬 코퍼스 수집의 필요성을 잠재적으로 줄일 수 있는 엄청난 도약을 나타냅니다. 이는 업계가 20년 이상 추구해 온 역사적으로 매우 노동 집약적인 작업입니다. 그러나 기계 번역이 완전히 해결되었다고 주장하는 것은 기술적, 윤리적 고려 사항을 고려할 때 시기상조일 것입니다.

현재 모델은 여전히 맥락과 일관성에 어려움을 겪고 있으며 텍스트에 의도한 의미를 바꿀 수 있는 미묘한 실수를 합니다. 이러한 문제는 논리적 흐름을 유지하고 뉘앙스를 이해하는 것이 결과에 필요한 더 길고 복잡한 문장에서 매우 많이 나타납니다. 또한 문화적 뉘앙스와 관용 표현은 너무 자주 사라지거나 의미를 잃어 문법적으로는 정확하지만 의도한 효과가 없거나 자연스럽지 않게 들리는 번역을 초래합니다.

사전 훈련을 위한 데이터: PaLM 2와 유사한 모델은 다양한 다국어 텍스트 코퍼스에서 사전 학습되어 이전 모델인 PaLM을 능가합니다. 이러한 향상을 통해 PaLM 2는 다국어 작업에서 탁월한 성과를 낼 수 있으며, 번역 품질을 개선하기 위한 기존 데이터 세트의 지속적인 중요성을 강조합니다.

도메인 특정 언어 또는 희귀 언어: 법률, 의학 또는 기술 분야와 같은 전문 분야에서 병렬 코퍼스는 모델이 특정 용어와 언어적 뉘앙스를 접하도록 보장합니다. 고급 모델은 도메인별 전문 용어나 진화하는 언어 추세에 어려움을 겪을 수 있으며, 이는 Zero-Shot Machine Translation에 과제를 안겨줍니다. 또한 리소스가 부족한 언어는 정확한 모델을 학습하는 데 필요한 데이터가 없기 때문에 여전히 제대로 번역되지 않습니다.

벤치마킹: 병렬 코퍼스는 번역 모델 성능을 평가하고 벤치마킹하는 데 필수적이며, 특히 충분한 병렬 코퍼스 데이터가 부족한 언어의 경우 어렵습니다. BLEU, BLERT, METEOR와 같은 자동화된 메트릭은 문법 외에도 번역 품질의 뉘앙스를 평가하는 데 한계가 있습니다. 하지만 우리 인간은 편견에 의해 방해를 받습니다. 또한 자격을 갖춘 평가자가 많지 않으며 미묘한 오류를 포착하기 위해 각 언어 쌍에 대한 완벽한 이중 언어 평가자를 찾는 것도 어렵습니다.

자원 강도: LLM을 교육하고 배치하는 데는 많은 리소스가 필요하기 때문에 일부 애플리케이션이나 조직의 접근성이 제한됩니다.

문화 보존 윤리적 차원은 심오합니다. Google Translate 연구 과학자인 Isaac Caswell이 Zero-Shot Machine Translation을 설명했듯이 “많은 언어를 아는 폴리글롯이라고 생각할 수 있습니다. 하지만 추가로 번역되지 않은 1,000개 이상의 언어로 된 텍스트를 볼 수 있습니다. 당신이 대단한 폴리글롯이라면, 다른 언어로 된 소설을 읽기 시작하면, 언어에 대한 일반적인 지식을 바탕으로 그것이 무슨 의미일 수 있는지 조각해낼 수 있습니다.” 그러나 병렬 코퍼스가 없는 소수 언어에 미치는 장기적인 영향을 고려하는 것이 중요하며, 언어 자체에 대한 의존성이 벗어나면 문화적 보존에 영향을 미칠 수 있습니다.

게시물 트랜스포머 임팩트: 기계 번역 문제는 해결되었을까? 처음 등장 유나이트.AI.

LEAVE A REPLY Cancel reply