시작하며
카카오엔터프라이즈 AI Lab(류성원, 손보경, 양기창, 배재경)이 쓴 논문 ‘Revisiting modularized multilingual NMT to meet industrial demands’가 EMNLP 2020에 게재됐습니다. 자연어처리에서 경험적 방법론을 다루는 이 학회는 ACL(Association for Computational Linguistics), NAACL(NORTH American Chapter of the ACL)과 함께 전산언어학 분야에서는 인지도가 높습니다. 올해에는 총 3,677편의 논문 중 754편이 통과됐습니다.
이번 논문에서 AI Lab은 M2NMT(Modularized Multilingual Neural Machine Translation Model)의 가치를 재발견한 내용을 담았습니다. 여러 번역 조건에서 성능 저하를 보이는 1-1 MNMT 1와는 달리, M2NMT에서는 성능이 유지됐습니다. 새로 추가된 언어를 포함한 태스크에서 NMT 2보다 좋은 성능을 보일 수 있음을 확인하였습니다. 또한, 제로샷(zero-shot) 3에서 피벗 방식(pivot translation) 4보다 더 좋은 성능을 달성했습니다. AI Lab은 다국어 학습으로 인한 시너지(data-diversification, and regularization effect)가 주된 요인이라 분석했습니다. 5
AI Lab은 향후 이 모델이 생성한 '언어에 독립적인 특징 공간(interlingual space)'의 여러 효용을 검증하는 연구를 진행할 계획입니다. 논문에 대한 자세한 소개는 블로그를 통해 전해드리겠습니다.
Abstract
The complete sharing of parameters for multilingual translation (1-1) has been the mainstream approach in current research. However, degraded performance due to the capacity bot- tleneck and low maintainability hinders its extensive adoption in industries. In this study, we revisit the multilingual neural machine translation model that only shares modules among the same languages (M2) as a practical alternative to 1-1 to satisfy industrial requirements. Through comprehensive experiments, we identify the benefits of multi-way training and demonstrate that the M2 can enjoy these benefits without suffering from the capacity bottleneck. Furthermore, the interlingual space of the M2 allows convenient modification of the model. By leveraging trained modules, we find that incrementally added modules exhibit better performance than singly trained models. The zero-shot performance of the added modules is even comparable to supervised models. Our findings suggest that the M2 can be a competent candidate for multilingual translation in industries.
Experiments
By extensively comparing the single models, 1-1 model, and M2 in varying conditions, we find that the M2 can benefit from multi-way training through data-diversification and regularization while suffering less from capacity bottlenecks.
댓글0