Tech News

제목페이스북, 영어 의존없이 100개 언어를 번역가능한 모델 오픈소스로 공개2020-10-26 09:39
작성자 Level 10

https://about.fb.com/news/2020/10/first-multilingual-machine-translation-model/ 


M2M-100 은 MMT(Multilingual Machine Translation) 모델로,

최초로 영어 데이터에 의존하지 않고 100개의 언어 쌍을 상호 번역가능.


대부분의 번역이 트레이닝 데이터가 많은 영어를 거쳐서 가지만, 이 모델은 직접 번역하여 의미를 더 잘 보존하게됨

BLEU(Bilingual Evaluation Understudy) 점수에서 10% 이상 나은 결과를 보여줌.


총 2200개의 언어 방향으로 트레이닝 되었으며, 예전 최고수준의 영어중심 다국어 모델보다 10배 더 많은 것.

M2M-100 을 이용하면 자료가 부족한 언어를 사용하는 사람들의 번역품질이 향상됨.


이 글에선 MMT 교육 데이터 세트 및 모델 구축방법에 대한 세부정보를 공유하고,

다른 연구자들이 더 나은 다국어 모델을 재현하고 발전할수 있도록 모델, 교육 및 평가 방법등도 공유.


120억개의 파라미터로 트레인된 모델 파일을 다운로드 가능 (136GB)

G
M
T
음성 기능은 200자로 제한됨
댓글
자동등록방지
(자동등록방지 숫자를 입력해 주세요)