음성처리파트1 JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment 시작하며 카카오(임단)와 카카오엔터프라이즈 AI Lab(장원, 오경환, 박혜영, 김봉완, 윤재삼)이 함께 쓴 논문 ‘JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment(이하 JDI-T)’가 Interspeech에 게재 승인됐습니다. Interspeech는 음성 처리 과학기술 분야의 논문을 발표하는 세계 최대 규모의 학술 대회입니다. FastSpeech와 DurIAN과 같은 최신의 음성 합성 모델은 오류가 없는 고품질의 멜-스펙트로그램(Mel-spectrogram) 생성에 탁월합니다. 하지만 훈련에 필요한 음소(phoneme)의 길이 정보를 확보하기 위해서는 합성 모델과는 별도로, .. AI Research 2020. 10. 8. 이전 1 다음