NMT4
-
Sparse and Decorrelated Representations for Stable Zero-shot NMT
시작하며 카카오엔터프라이즈 AI Lab(손보경, 류성원)이 쓴 논문 ‘Sparse and Decorrelated Representations for Stable Zero-shot NMT’가 EMNLP 2020의 Findings of ACL에 게재됐습니다. 자연어처리에서 경험적 방법론을 다루는 이 학회는 ACL(Association for Computational Linguistics), NAACL(NORTH American Chapter of the ACL)과 함께 전산언어학 분야에서는 인지도가 높습니다. 올해에는 총 3,677개 중 754개의 논문이 통과됐습니다. AI Lab은 훈련 조건의 변화에도 강건한 제로샷 모델을 만들고자 SLNI(Sparse coding through Local Neural I..
AI Research 2020. 11. 24. -
Revisiting Modularized Multilingual NMT to Meet Industrial Demands
시작하며 카카오엔터프라이즈 AI Lab(류성원, 손보경, 양기창, 배재경)이 쓴 논문 ‘Revisiting modularized multilingual NMT to meet industrial demands’가 EMNLP 2020에 게재됐습니다. 자연어처리에서 경험적 방법론을 다루는 이 학회는 ACL(Association for Computational Linguistics), NAACL(NORTH American Chapter of the ACL)과 함께 전산언어학 분야에서는 인지도가 높습니다. 올해에는 총 3,677편의 논문 중 754편이 통과됐습니다. 이번 논문에서 AI Lab은 M2NMT(Modularized Multilingual Neural Machine Translation Model)의 가..
AI Research 2020. 11. 11. -
신경망 번역 모델의 진화 과정
이 글은 2017년 카카오 AI 브런치에 게재된 포스팅을 가져온 것으로, 본문에서 설명하고 있는 모델 성능, 번역 결과 등은 모두 2017년 당시 자료를 바탕으로 합니다. 2017년까지의 신경망 기반 기계번역(Neural Machine Translation, NMT)의 히스토리를 정리했고, 현재는 대세가 된 NMT 모델 Transformer에 대한 전망 또한 담겨 있습니다. 이를 통해 기계번역의 발전 흐름을 이해하고 향후 발전 방향성에 대해서도 생각해볼 수 있는 시간을 가질 수 있을 것이라 생각합니다. 시작하며 End-to-End 방식의 신경망 기반 기계번역(Neural Machine Translation, 이하 NMT)이 통계 기반 기계 번역(Statistical Machine Translation, ..
Tech Log 2020. 4. 24. -
Kakao i 번역이 양질의 대규모 학습 데이터를 확보하는 방법
시작하며 꾸준한 성능 개선과 기능 추가 등으로 현재는 19개 언어간 번역 서비스를 제공하고 있는 카카오 i 번역 서비스는 2017년 10월, 처음 출시되었습니다. 여기에는 신경망 번역 기술이 적용되었고, 당시 내부 블라인드 테스트에 따르면 '경쟁력이 높다'라는 결과가 나왔습니다. 이처럼 우수한 성능을 위해서는 좋은 모델이 전제되어야 하지만, 학습 데이터 역시 매우 중요하다고 할 수 있습니다. 이 글에서는 카카오 i 번역 서비스가 양질의 대규모 학습 데이터(병렬 말뭉치)를 확보하기 위하여 사용한 기술 중 Ableualign 툴을 소개해 보려고 합니다. 데이터 확보와 BLEU 본론에 앞서 우선 Ableualign 툴의 이름에 포함되어 있는 BLEU가 어떤 의미인지 이해할 필요가 있습니다. 이는 원문에 대한 ..
Tech Log 2020. 4. 14.