NLP6
-
대화 속에 드러나는 감정을 분석해드립니다!
시작하며 안녕하세요, 카카오엔터프라이즈에서 오픈 도메인 대화 모델을 기획하고 있는 프링과 쌔미입니다. 오늘은 저희가 다른 곳과는 차별화된 감정 분석 모델을 개발한 이야기를 소개하려고 하는데요. 도대체 어떤 모델이기에 이렇게 자신 있게 ‘차별화'되었다고 하는지 지금부터 시작해 볼게요.😉 챗봇이 눈치껏👀 대화할 수 있도록! 저희는 대화 모델을 기반으로 한 다양한 서비스를 기획하고 있어요. 그중에는 업무용 메신저인 카카오워크에 내재되어있는 AI 어시스턴트 '캐스퍼'도 있고요, 카카오톡에서 일상 대화를 나눌 수 있는 '외개인아가'라는 오픈 도메인 챗봇도 있답니다. 대화 인터렉션을 기반으로 여러 다양한 서비스를 기획하다 보니 저희는 챗봇이 사용자와 조금 더 눈치껏 대화를 나누면서 사용자의 요청을 수행해주는 것이 ..
Tech Log 2022. 9. 28. -
NAACL 2022 참관기
시작하며 안녕하세요. 카카오엔터프라이즈 자연어서비스팀의 Rung(이주성)입니다. 이번 포스팅에서는 제가 올해 직접 발표하고 참관한 NAACL 학회 현장을 소개해드리고자 합니다. NAACL은 North American Chapter of the Association for Computational Linguistics의 약자로, 북미 전산 언어 협회입니다. 이는 자연어처리 분야에서 ACL(컴퓨터 언어학회), EMNLP(자연어 처리의 경험적 방법론을 다루는 학회)와 함께 인지도가 가장 높은 학회 중 하나로, NAACL 2022은 시애틀에서 7월 10부터 15일까지 6일 간 진행되었습니다. 지난 2년 간 코로나로 인해 많은 학회가 비대면으로 개최되던 것과 달리 올해부터 점점 오프라인과 온라인을 적절히 섞은 하..
Krew Insight 2022. 9. 22. -
한국어 자연어 처리 기술과 AI, 어디까지 왔니?
당신은 10년 후, AI의 미래를 어떻게 그리고 있나요? 안녕하세요 🙌 저희는 카카오엔터프라이즈에서 AI 대화 모델과 서비스를 기획하고 있는 프링과 쌔미입니다. 갑자기 ‘AI의 미래’라니 너무 거창하죠? 당장 오늘 점심 뭐 먹을지도 모르는데 말이에요. (머쓱) 😇 어쩐지 이 질문은 어렸을 때 그렸던 (추억의...) 과학 상상화 느낌을 주기도 하는데요. 아직은 뭐도 안 되고, 뭐도 안 되는데… 를 생각하다 보면 우리는 과연 어떤 기술과 서비스를 만들 수 있는 걸까? 라는 생각에 다다르기 때문에 약간 초라해지기도 합니다. AI 대화 서비스를 담당하다 보면 SF 콘텐츠를 시청하면서 SF의 단골인 AI 어시스턴트들을 그냥 넘기지 못하고, 서비스 분석을 하고 있는 직업병 아닌 직업병이 생기기도 하더라고요. ‘우리..
Tech Log 2021. 10. 7. -
사오정 API - 음악 재생 발화는 내게 맡겨주세요. [기술편]
어렸을 적 즐겨보던 만화 중 ‘날아라 슈퍼보드'라는 만화가 있었습니다. 그 만화에는 무슨 말을 해도 잘 알아듣지 못하는 ‘사오정'이라는 캐릭터가 등장하는데요. 사오정은 가는 귀를 먹어 귀의 주름을 걷고 이야기를 듣지 않으면 이야기를 엉뚱하게 알아들어 많은 해프닝을 만들어 내기도 했습니다. 이렇게 만화 속 사오정처럼 카카오 i도 가끔 명령을 완벽히 알아듣지 못하는 경우가 있죠. 저희는 카카오 i가 무슨 말을 해도 잘 알아들을 수 있도록 “사오정 프로젝트”를 진행했습니다. 만화 속 사오정은 말귀를 못 알아듣는 캐릭터로 등장하지만, 사오정 프로젝트에서의 사오정은 카카오 i 발화의 대부분을 차지하는 음악 재생 발화의 오류를 획기적으로 줄여주는 고마운 캐릭터임을 밝히며 글을 시작하도록 하겠습니다. #사오정 프로젝..
Tech Log 2021. 5. 3. -
정답 유형을 분류하는 딥러닝 기술
시작하며 현대인은 자신이 원하는 정보를 찾는 데 점차 많은 어려움을 느끼고 있습니다. 언제 어디서나 경제적인 부담없이 편리하게 정보를 습득할 수 있는 인터넷이 가진 장점과는 별개로, 유용한 정보에 접근하는 데에는 물리적인 한계가 존재하기 때문입니다. 모르거나 모를 수밖에 없는 정보량이 압도적으로 많이 생산되고 있어 특정 상황과 조건에 따른 답을 파악하기가 쉽지 않죠. 이런 이유로 부정확하거나 잘못된 정보를 습득할 가능성도 이전보다 더 높아짐은 물론, 검색 정보를 이해하고 활용하는 수준이 낮아서 발생하는 새로운 형태의 불평등도 야기되고 있습니다. 카카오엔터프라이즈 AI Lab(이하 AI Lab)이 자사 인공지능 기술을 집약한 플랫폼인 '카카오 i'의 대화 엔진 을 고도화하는 이유는 사용자에게 도움이 될만한..
Tech Log 2020. 7. 24. -
카카오 i 번역 성능 향상 실험 : 대규모 말뭉치를 활용한 사전학습
시작하며 사전학습(pretraining)은 데이터양이 절대적으로 적은 상황에서 적용하는 기법입니다. 문제(본 훈련)에서 제시되는 것과 유사한 형태의 데이터로 모델을 사전학습시키면 본 훈련에 효과적인 매개변수(parameter) 초기값 확보에 크게 도움이 되어서죠. 오늘날 대규모 말뭉치(corpus)를 사전학습한 언어 모델(language model)이 자연어처리(NLP)에서 주류로 자리하게 된 것은 바로 이런 효과 덕분입니다. 하지만 대용량 데이터를 사전학습해 성능을 크게 끌어올린 최신 언어 모델이 모든 NLP 태스크를 잘 풀지는 못합니다. 단적인 예로, 하나의 언어로 구성된 문장에서 특징(feature)을 추출하는 데 주안을 둔 언어 모델은 여러 언어에서의 특징 추출이 중요한 번역 태스크에는 적합하지 ..
Tech Log 2020. 5. 7.