Tech Log37
-
카카오 i 번역 성능 향상 실험 : 대규모 말뭉치를 활용한 사전학습
시작하며 사전학습(pretraining)은 데이터양이 절대적으로 적은 상황에서 적용하는 기법입니다. 문제(본 훈련)에서 제시되는 것과 유사한 형태의 데이터로 모델을 사전학습시키면 본 훈련에 효과적인 매개변수(parameter) 초기값 확보에 크게 도움이 되어서죠. 오늘날 대규모 말뭉치(corpus)를 사전학습한 언어 모델(language model)이 자연어처리(NLP)에서 주류로 자리하게 된 것은 바로 이런 효과 덕분입니다. 하지만 대용량 데이터를 사전학습해 성능을 크게 끌어올린 최신 언어 모델이 모든 NLP 태스크를 잘 풀지는 못합니다. 단적인 예로, 하나의 언어로 구성된 문장에서 특징(feature)을 추출하는 데 주안을 둔 언어 모델은 여러 언어에서의 특징 추출이 중요한 번역 태스크에는 적합하지 ..
Tech Log 2020. 5. 7. -
카카오 i 번역 서비스에 적용된 학습 원리와 성능 개선기
시작하며 카카오엔터프라이즈의 5개 AI 엔진 중 하나인, 번역 엔진은 그 기술과 카카오가 축적한 노하우로 일반 대중에게 카카오 i 번역 서비스를 제공하고 있습니다. 2018년 오픈 당시, 처음 6개 언어로 시작한 번역 서비스는 현재 총 19개 (한국어, 영어, 일본어, 중국어, 베트남어, 인도네시아어, 프랑스어, 독일어, 스페인어, 포르투갈어, 러시아어, 이탈리아어, 네덜란드어, 터키어, 태국어, 말레이시아어, 아랍어, 힌디어, 벵골어)에 이르는 언어 간 번역을 지원합니다. 본 글에서는 카카오 i 번역 서비스의 근간을 이루는 기술 개발의 원리를 공유하고자 합니다. 19개 언어간 번역 학습 원리 학습해야 하는 모델 관점에서 본다면, 지원 언어의 개수를 늘리고 모든 언어 쌍 간의 번역 기능을 제공하는 것은 ..
Tech Log 2020. 4. 24. -
카카오미니의 명령어 분류 방법
"헤이 카카오!" 아마 모두 한 번쯤은 들어봤을 친근한 말이죠. 카카오의 스마트 스피커, 카카오미니를 소환하는 말인데요. 카카오미니는 어떻게 사람들의 요청사항을 이해하고 기능을 수행할까요? 사용자가 카카오미니에게 명령을 내렸을 때, 다음과 같은 단계를 거치게 됩니다. (1) 음성인식, (2) 봇 분류, (3) 인텐트 분류, (4) 슬롯 추출, (5) 요청 동작 수행 아래 “SBS 라디오 틀어줘"라는 예시로 자세히 살펴보겠습니다. 변환 단계 설명 1단계. 음성 인식 텍스트 형태인 “SBS 라디오 틀어 줘”로 변환 2단계. 봇 분류 라디오와 관련된 기능 요청임을 인지 3단계. 인텐트 분류 라디오를 틀어달라는 요청인지를 파악. 라디오를 멈추거나, 가능한 라디오 채널 목록을 알려주거나, 지금 듣고 있는 라디오 ..
Tech Log 2020. 4. 24. -
"헤이, 카카오!"를 불러야 하는 이유
시작하며 카카오미니를 켜면, “이제 ‘헤이, 카카오!’라고 불러주세요”라는 말을 합니다. 여느 음성 인식 스피커와 마찬가지로, 카카오미니에게 원하는 명령을 하려면 일단은 스피커를 불러야 카카오미니가 귀를 기울이고 사용자의 명령을 들을 준비를 합니다. "헤이, 카카오!"와 같이 스마트 스피커를 부르는 단어를 호출 명령어(Wake-up Word) 또는 호출어라고 합니다. 그냥 “야, 노래 좀 틀어봐”라고 하면 편하겠지만, 그러면 스피커는 사용자가 자신을 부르는지 인식하지 못합니다. 그래서 조금 귀찮더라도 정해진 호출 명령어를 불러줘야 합니다. 각 제품마다 여러 가지 호출 명령어가 있으며, 사용자는 이들 중 하나를 선택해서 사용하게 됩니다. 본 글에서는 호출 명령어가 어떻게 정해지는지와 카카오미니가 어떻게 호..
Tech Log 2020. 4. 24. -
사진에서 사람을 읽다
시작하며 카카오를 비롯한 지도(map) 서비스를 제공하는 기업들은 전국 각지의 도로, 거리 등을 촬영합니다. 하지만 기업이 촬영한 화면을 그대로 서비스에 활용할 수는 없습니다. 촬영된 화면 안에 사람의 얼굴이나 자동차 번호판이 노출되는 것은 사생활 침해가 될 수 있고, 이런 이유로 카카오맵 서비스는 프라이버시 보호를 위해 사람의 얼굴과 차량의 번호판 식별이 어렵도록 흐릿하게 처리(Blurring)를 합니다. [그림 1]에도 사람의 얼굴과 차량의 번호판이 흐릿하게 처리된 모습을 확인할 수 있는데, 여기서 큰 문제가 발생합니다. 전국 곳곳에서 찍은 수많은 양의 사진을 사람이 일일이 확인하고, 흐릿하게 처리하는 것은 엄청난 비용과 시간이 소요되는 작업이라는 것입니다. 카카오엔터프라이즈는 이와 같은 문제를 해결..
Tech Log 2020. 4. 24. -
신경망 번역 모델의 진화 과정
이 글은 2017년 카카오 AI 브런치에 게재된 포스팅을 가져온 것으로, 본문에서 설명하고 있는 모델 성능, 번역 결과 등은 모두 2017년 당시 자료를 바탕으로 합니다. 2017년까지의 신경망 기반 기계번역(Neural Machine Translation, NMT)의 히스토리를 정리했고, 현재는 대세가 된 NMT 모델 Transformer에 대한 전망 또한 담겨 있습니다. 이를 통해 기계번역의 발전 흐름을 이해하고 향후 발전 방향성에 대해서도 생각해볼 수 있는 시간을 가질 수 있을 것이라 생각합니다. 시작하며 End-to-End 방식의 신경망 기반 기계번역(Neural Machine Translation, 이하 NMT)이 통계 기반 기계 번역(Statistical Machine Translation, ..
Tech Log 2020. 4. 24.