Tech Log21
-
사진에서 사람을 읽다
시작하며 카카오를 비롯한 지도(map) 서비스를 제공하는 기업들은 전국 각지의 도로, 거리 등을 촬영합니다. 하지만 기업이 촬영한 화면을 그대로 서비스에 활용할 수는 없습니다. 촬영된 화면 안에 사람의 얼굴이나 자동차 번호판이 노출되는 것은 사생활 침해가 될 수 있고, 이런 이유로 카카오맵 서비스는 프라이버시 보호를 위해 사람의 얼굴과 차량의 번호판 식별이 어렵도록 흐릿하게 처리(Blurring)를 합니다. [그림 1]에도 사람의 얼굴과 차량의 번호판이 흐릿하게 처리된 모습을 확인할 수 있는데, 여기서 큰 문제가 발생합니다. 전국 곳곳에서 찍은 수많은 양의 사진을 사람이 일일이 확인하고, 흐릿하게 처리하는 것은 엄청난 비용과 시간이 소요되는 작업이라는 것입니다. 카카오엔터프라이즈는 이와 같은 문제를 해결..
Tech Log 2020. 4. 24. -
신경망 번역 모델의 진화 과정
이 글은 2017년 카카오 AI 브런치에 게재된 포스팅을 가져온 것으로, 본문에서 설명하고 있는 모델 성능, 번역 결과 등은 모두 2017년 당시 자료를 바탕으로 합니다. 2017년까지의 신경망 기반 기계번역(Neural Machine Translation, NMT)의 히스토리를 정리했고, 현재는 대세가 된 NMT 모델 Transformer에 대한 전망 또한 담겨 있습니다. 이를 통해 기계번역의 발전 흐름을 이해하고 향후 발전 방향성에 대해서도 생각해볼 수 있는 시간을 가질 수 있을 것이라 생각합니다. 시작하며 End-to-End 방식의 신경망 기반 기계번역(Neural Machine Translation, 이하 NMT)이 통계 기반 기계 번역(Statistical Machine Translation, ..
Tech Log 2020. 4. 24. -
Kakao i 번역이 양질의 대규모 학습 데이터를 확보하는 방법
시작하며 꾸준한 성능 개선과 기능 추가 등으로 현재는 19개 언어간 번역 서비스를 제공하고 있는 카카오 i 번역 서비스는 2017년 10월, 처음 출시되었습니다. 여기에는 신경망 번역 기술이 적용되었고, 당시 내부 블라인드 테스트에 따르면 '경쟁력이 높다'라는 결과가 나왔습니다. 이처럼 우수한 성능을 위해서는 좋은 모델이 전제되어야 하지만, 학습 데이터 역시 매우 중요하다고 할 수 있습니다. 이 글에서는 카카오 i 번역 서비스가 양질의 대규모 학습 데이터(병렬 말뭉치)를 확보하기 위하여 사용한 기술 중 Ableualign 툴을 소개해 보려고 합니다. 데이터 확보와 BLEU 본론에 앞서 우선 Ableualign 툴의 이름에 포함되어 있는 BLEU가 어떤 의미인지 이해할 필요가 있습니다. 이는 원문에 대한 ..
Tech Log 2020. 4. 14.