NLP11
-
Reference and Document Aware Semantic Evaluation Methods for Korean Language Summarization
시작하며 카카오(이동엽)와 카카오엔터프라이즈 AI Lab(신명철, 조승우, 고병일, 이다니엘, 김응균), 고려대학교(황태선), 한신대학교(조재춘)가 공동으로 연구한 성과를 정리한 논문 'Reference and Document Aware Semantic Evaluation Methods for Korean Language Summarization(이하 RDASS)'이 국제전산언어학술대회(이하 COLING)에 게재 승인됐습니다. COLING은 자연어처리(NLP) 및 언어학을 대표하는 국제 학회로, 올해 제출된 2,319편의 논문 중 644개의 논문이 통과됐습니다. RDASS는 공동 연구팀이 텍스트 요약 모델의 성능을 측정하기 위해 고안한 새로운 평가 척도입니다. 기존의 평가 척도인 ROUGE와 비교 실험을..
AI Research 2020. 12. 3. -
한국어 질의응답에서의 화제성을 고려한 딥러닝 기반 정답 유형 분류기
시작하며 카카오엔터프라이즈 AI Lab(조승우, 최동현, 김응균)이 쓴 논문 ‘한국어 질의응답에서의 화제성을 고려한 딥러닝 기반 정답 유형 분류기’가 제31회 한글 및 한국어정보처리 학술대회에 실렸습니다. 한글날을 맞이해 매년 10월마다 열리는 한글 및 한국어정보처리 학술대회는 전산언어학과 언어학, 인공지능과 관련된 다양한 주제의 연구 논문을 다루고 있습니다. 이번 논문에서 AI Lab은 한국어 질의응답 시스템의 입력 질의 문장을 단답형/서술형으로 분류하는 모델을 제안했습니다. 모델의 분류 성능을 높이고자 육하원칙 정보와 포털 서비스 쿼리에서 추출한 화제성을 가진 주제어와 속성 표현도 함께 입력하는 방식으로 모델의 분류 성능을 높였습니다. 실험 결과, AI Lab이 제안한 추가 정보를 모두 적용한 모델의..
AI Research 2020. 10. 21. -
기계 독해를 이용한 웹 기반 오픈 도메인 한국어 질의응답
시작하며 카카오엔터프라이즈 AI Lab(최동현, 김응균)이 성균관대학교(신동렬)와 함께 쓴 논문 ‘기계 독해를 이용한 웹 기반 오픈 도메인 한국어 질의응답’이 제31회 한글 및 한국어정보처리 학술대회에 실렸습니다. 한글날을 맞이해 매년 10월마다 열리는 한글 및 한국어정보처리 학술대회는 전산언어학과 언어학, 인공지능과 관련된 다양한 주제의 연구 논문을 다루고 있습니다. AI Lab은 기계 독해를 이용한 웹 기반 오픈 도메인 한국어 질의응답 시스템을 제안했습니다. 시스템에 사용자 질의가 입력되면, 기존의 검색 엔진으로 최대 1,500개의 문서를 기계 독해 방식으로 실시간으로 분석합니다. 그런 뒤, 각 문서에서 찾은 답을 종합해 최종 답변을 도출합니다. 실험 결과, 제안된 시스템의 평균 실행 시간은 2초 이..
AI Research 2020. 9. 3. -
정답 유형을 분류하는 딥러닝 기술
시작하며 현대인은 자신이 원하는 정보를 찾는 데 점차 많은 어려움을 느끼고 있습니다. 언제 어디서나 경제적인 부담없이 편리하게 정보를 습득할 수 있는 인터넷이 가진 장점과는 별개로, 유용한 정보에 접근하는 데에는 물리적인 한계가 존재하기 때문입니다. 모르거나 모를 수밖에 없는 정보량이 압도적으로 많이 생산되고 있어 특정 상황과 조건에 따른 답을 파악하기가 쉽지 않죠. 이런 이유로 부정확하거나 잘못된 정보를 습득할 가능성도 이전보다 더 높아짐은 물론, 검색 정보를 이해하고 활용하는 수준이 낮아서 발생하는 새로운 형태의 불평등도 야기되고 있습니다. 카카오엔터프라이즈 AI Lab(이하 AI Lab)이 자사 인공지능 기술을 집약한 플랫폼인 '카카오 i'의 대화 엔진 을 고도화하는 이유는 사용자에게 도움이 될만한..
Our Story 2020. 7. 24. -
카카오 i 번역 성능 향상 실험 : 대규모 말뭉치를 활용한 사전학습
시작하며 사전학습(pretraining)은 데이터양이 절대적으로 적은 상황에서 적용하는 기법입니다. 문제(본 훈련)에서 제시되는 것과 유사한 형태의 데이터로 모델을 사전학습시키면 본 훈련에 효과적인 매개변수(parameter) 초기값 확보에 크게 도움이 되어서죠. 오늘날 대규모 말뭉치(corpus)를 사전학습한 언어 모델(language model)이 자연어처리(NLP)에서 주류로 자리하게 된 것은 바로 이런 효과 덕분입니다. 하지만 대용량 데이터를 사전학습해 성능을 크게 끌어올린 최신 언어 모델이 모든 NLP 태스크를 잘 풀지는 못합니다. 단적인 예로, 하나의 언어로 구성된 문장에서 특징(feature)을 추출하는 데 주안을 둔 언어 모델은 여러 언어에서의 특징 추출이 중요한 번역 태스크에는 적합하지 ..
Tech Log 2020. 5. 7.