200705

stri.destride 2020. 7. 6. 11:05

Disentangling Speech and Non-Speech Components for Building Robust Acoustic Models from Found Data

application: TTS

method: multi-modal VAE (z가 여러개)를 통해 source separation을 하고, RPCA에서 모티브를 얻은 softmax-like mask function을 이용하여 후처리를 함

contribution: clean data를 많이 얻기 어렵기때문에 noisy혹은 mixed data에서 music이나 noise를 제거하여 TTS 데이터로 활용하였고 이를 통해 TTS 생성 음성의 질이 올라갔다

실제로 저자 깃에서 샘플을 들어봤을땐...분리된 sample자체의 퀄리티는 썩 좋지는 않은데 TTS 퀄리티는 확실히 좋아지는 편이다. 아마 시작은 source separation이었는데 separation이 잘 안되니까 TTS로 바꾼거 아닐까 싶을 정도로..

주로 독서록 가끔 명령어랑 논문 종종 혼잣말

LGBT, 2013퀴어퍼레이드, 퀴어퍼레이드, 2013 퀴어퍼레이드, 차별금지법, 퀴어문화축제, 양성애, 레즈비언, 바이섹슈얼, 함민복, 오르한 파묵, 게이, 성소수자, 두리반, 트랜스젠더, 퀴어, 태그를 입력해 주세요., 동성애, 대만뉴웨이브, 자긍심,

stri.destride