안녕하세요. 브랜드 & 마케팅팀 Camila와 Juno입니다. 저희 팀은 카카오엔터프라이즈의 우수한 AI 기술역량을 ‘널리, 그리고 제대로’ 알리자는 미션 하에, AI Lab 연구·개발 크루들과 함께 INSIDE THE LAB 영상 캠페인을 진행했습니다.
“지능을 연구하는 지능들의 이야기"를 부제로 공개된 이번 영상은 크게 4개의 에피소드로 구성되어 있으며, 각 에피소드는 크루들의 실제 업무공간에서 이루어진 솔직담백 인터뷰, 그리고 각자의 연구·개발기를 자세히 소개하는 테크 프레젠테이션으로 이루어져있습니다. 음성합성부터 음성처리, 강화학습, 커머스를 위한 비전 기술까지 카카오엔터프라이즈 AI Lab의 최신 성과를 확인할 수 있는데요.
오늘 포스팅에서는 INSIDE THE LAB에서 소개된 크루들과 크루들이 연구하고 있는 기술에 대해 좀 더 자세한 내용을 소개해 드리려고 합니다.
EP01. 거인의 어깨 위에서
첫 번째 영상의 주인공은 컨텍스트팀의 Jay(김재현)입니다. 지난 해 Jay는 발화를 병렬적으로 합성하는 모델 대신 입력된 텍스트 순서에 따라 발화를 차례대로 정렬(monotonic alignment)하는 새로운 TTS 모델 Glow-TTS를 연구한 논문으로 신경정보처리시스템학회(NeurIPS)에서 Oral 세션을 진행했습니다. 또한 음성의 주기적 신호를 구별해 더욱 고품질의 오디오를 빠르게 합성하는 HiFi-GAN 연구에 참여한 데 이어, 최근에는 두 단계의 구조를 갖는 기존 모델의 한계를 극복한 end-to-end TTS 모델 VITS를 국제머신러닝학회(ICML)에서 공개했습니다. 영상 속 프레젠테이션을 통해 Jay는 VITS의 개요와 자세한 학습 및 생성 방법 그리고 실험 결과를 소개합니다.
모두가 논문을 통해서 연결되어있거든요. 그렇게 외로운 작업이라는 생각이 들지 않고, 오히려 풍요로운 인간관계를 거치는 작업이라고 생각해요.
앞선 인터뷰에서 Jay는 연구를 하는 것이 다른 사람이 보기에는 외로운 싸움 같아 보일 수 있지만, 이전에 누군가 쌓아둔 지식의 산물에 살을 하나 더 붙이는 작업이기에 ‘거인의 어깨 위에 올라서는 것’과 같다고 이야기합니다. 기존의 AI 연구 혹은 연구자에 대한 고정관념에서 벗어나 새로운 연구자의 모습을 개척하고 있는 Jay의 소신과 열정 가득한 인터뷰도 함께 확인해보세요.
EP02. 책장 밖의 기술
두 번째 영상에서 만나볼 크루는 비전팀의 Michael(이주영)입니다. Michael은 ‘커머스를 위한 AI’, 그 중에서도 유사 이미지, 유사 상품, 어울리는 옷 찾기 등 쇼핑 이미지 관련 기술을 연구·개발하는 파트를 이끌고 있습니다. 이미지 검색 성능을 끌어올릴 수 있도록 멀티태그를 지속적으로 고도화하는 한편, 추천성능 향상의 정확도를 향상시키기 위해 다양한 노력을 기울이고 있는데요. 이번 영상에서 Michael은 수천만에서 수십억 건의 대용량 데이터를 학습하는 발전된 학습 모델과 적용 사례를 소개합니다.
책장 밖으로 나와서 많은 사람들이 같이 읽고 그걸 같이 해석하고, 그런 기술이 좋은 기술이라고 생각해요.
인터뷰에서 Michael은 ‘좋은 기술’이란 사람들의 삶을 편하게 해주는 기술, 연구에만 머무르기 보다는 서비스로 개발되고 공유되는 과정을 통해 세상을 변화시키는 기술이라고 말합니다. 이 외에도 데이터와 인프라, 환경과 동료 등 카카오엔터프라이즈에서 개발 프로젝트를 진행할 때의 이점 혹은 즐거움에 대해서도 이야기합니다. 회사를 비롯해 자신을 둘러싼 모든 환경을 조화롭게 누리며 ‘더 잘 쓰이는 기술'을 연구하고 있는 Michael의 이야기를 들어보세요.
EP03. if (JORLDY)
세 번째 영상의 주인공은 선행기술팀 Leonard(민규식), Ramanuzan(이현호), Royce(최진원)입니다. 세 사람은 다양한 딥러닝 기술 중에서도 강화학습 분야를 중점적으로 연구·개발하고 있습니다. 강화학습의 경우 공식적으로 공개된 최신 알고리즘이 아직 많지 않고, 알고리즘과 환경이 유기적으로 연결된 프레임워크 또한 드문데요. 이에 세 사람은 Pytorch를 기반으로 22개의 알고리즘과 GYM, Atari, NES, Procgen, ML-Agents 등 다양한 환경을 쉽게 연결할 수 있는 오픈소스 강화학습 프레임워크 JORLDY(Join Our Reinforcement Learning framework for Developing Yours)를 개발해 오픈소스로 공개했습니다. 영상을 통해 JORLDY의 개요와 구조, 사용법, 기대효과와 향후 계획 등 더 자세한 내용을 들어볼 수 있습니다.
‘우리는 무엇을 하겠다’가 정해져 있는 게 아니라, ‘이걸 하면 세상을 바꿀 수 있을 것 같아’ 생각이 든다면, 거기서 바로 그 일을 시작하면 되는 겁니다.
앞선 인터뷰에서 세 사람은 앞으로 AI가 세상의 실질적인 문제를 풀어줄 것이며, 더 나아가 우리의 일과 일상에 자연스럽게 녹아드는 기술로 발전할 것이라고 말합니다. 또한 무엇을 개발하든 정해진 틀을 벗어나 ‘이것이 세상을 바꿀 수 있겠다’는 생각이 들면 주저없이 도전해보는 것이 진정한 ‘카카오스러움'이라고 이야기합니다. 강화학습과 AI, 그리고 디지털 혁신에 대한 Leonard, Ramanuzan, Royce의 진솔한 이야기를 만나보세요.
EP04. Wake Up!
마지막 영상에서 만나볼 크루는 음성처리팀의 Carlos(박종세)와 Denzel(정대성)입니다. Carlos와 Denzel은 올해 헤이카카오에서 호출명령어(wake-up word)를 사용자가 원하는대로 설정해 부를 수 있는 ‘내 호출명령어' 기능을 개발했습니다. ‘내 호출명령어'는 전세계 여느 인공지능 스피커에서는 찾아볼 수 없는 기능으로, 사용자가 등록한 호출명령어의 발음열을 연결해 키워드 모델을 생성, 이를 핵심어 검출 엔진이 인식하는 방식으로 동작합니다. 영상 속 프레젠테이션을 통해 핵심어 검출 기반 음성인식 기술의 원리, 그리고 ‘내 호출명령어' 기능을 개발하며 맞닥뜨렸던 난제와 해결 과정을 보다 자세히 알아볼 수 있습니다.
각자 낸 의견들이 다 장단점이 있어요. 내가 몰랐던 것들을 다른 사람들이 얘기하니까 알게 되고, 그런게 참 좋은 것 같습니다.
인터뷰에서 두 사람은 형식에 얽매이지 않는 ‘열린 소통’을 카카오엔터프라이즈의 대표적인 개발 문화로 꼽았습니다. 누구나 의견을 제시하거나 반박할 수 있고, 자유롭게 대화를 나누는 과정에서 서비스를 더 좋은 모습으로 선보일 수 있었던 경험을 공유합니다. 다양한 문화와 환경을 경험한 두 AI 개발자의 소통과 기술에 관한 이야기를 만나보세요.
지금 이 순간에도 카카오엔터프라이즈 AI Lab은 개발과 연구를 사이를 치열하게 오가며 우리의 일과 일상에 생생하게 체감될 수 있는 기술을 고민하고 있습니다. 이번 INSIDE THE LAB 영상 캠페인을 통해 더 많은 분이 카카오엔터프라이즈의 우수한 AI 기술 역량을 알게 되고, 나아가 크루들의 철학, 신념, 열정이 얼마나 밀도 있게 연구와 개발에 반영되고 있는지도 확인하는 기회가 되면 좋겠습니다. 마지막으로, AI Lab에서는 영상 속의 크루들처럼 기술과 기술을 연결하고(Connect) 문제를 해결하고(Solve) AI의 미래를 만들어가고(Create) 싶은 인재 여러분을 기다리고 있습니다. 많은 관심과 공유 부탁드립니다.
댓글