TTS3
-
HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis
시작하며 카카오엔터프라이즈 AI Lab(공정일, 김재현, 배재경)이 쓴 논문 ‘HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis’이 신경정보처리시스템학회(NeurIPS)에 게재 승인됐습니다. 올해 학회에는 총 9,467편 중 1,900편이 통과됐습니다. 최근 음성합성 연구에서는 GAN(generative adversarial networks) 구조를 활용해 보코더(vocoder)의 음성 합성 속도와 메모리 효율을 높이는 시도가 있었습니다. 하지만 이런 방식의 보코더가 합성한 음성의 품질은 Autoregressive 모델이나 플로우 기반의 생성 모델(flow-based generative mod..
AI Research 2020. 12. 10. -
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search
시작하며 카카오엔터프라이즈 AI Lab(김재현, 공정일)이 서울대학교(김성원, 윤성로)와 함께 쓴 논문 ‘Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search’이 신경정보처리시스템학회(NeurIPS Oral)에 게재 승인됐습니다. 올해 학회에 제출된 총 9,467편 중 1,900편이 통과됐으며, 이 중에서 또 150편만 구두 발표(oral presentation)로 올라갑니다. FastSpeech와 ParaNet 같은 최신 음성합성(TTS) 모델은 발화를 병렬적으로 합성(non-Autoregressive)해 그 속도를 높인 새로운 보코더(vocoder)를 제안했습니다. 하지만 이런 병렬 모델이 텍스트를 구성하는 음소 순..
AI Research 2020. 12. 8. -
JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment
시작하며 카카오(임단)와 카카오엔터프라이즈 AI Lab(장원, 오경환, 박혜영, 김봉완, 윤재삼)이 함께 쓴 논문 ‘JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment(이하 JDI-T)’가 Interspeech에 게재 승인됐습니다. Interspeech는 음성 처리 과학기술 분야의 논문을 발표하는 세계 최대 규모의 학술 대회입니다. FastSpeech와 DurIAN과 같은 최신의 음성 합성 모델은 오류가 없는 고품질의 멜-스펙트로그램(Mel-spectrogram) 생성에 탁월합니다. 하지만 훈련에 필요한 음소(phoneme)의 길이 정보를 확보하기 위해서는 합성 모델과는 별도로, ..
AI Research 2020. 10. 8.