ML

200705

stri.destride 2020. 7. 6. 11:05

Disentangling Speech and Non-Speech Components for Building Robust Acoustic Models from Found Data

application: TTS

method: multi-modal VAE (z가 여러개)를 통해 source separation을 하고, RPCA에서 모티브를 얻은 softmax-like mask function을 이용하여 후처리를 함 

contribution: clean data를 많이 얻기 어렵기때문에 noisy혹은 mixed data에서 music이나 noise를 제거하여 TTS 데이터로 활용하였고 이를 통해 TTS 생성 음성의 질이 올라갔다

실제로 저자 깃에서 샘플을 들어봤을땐...분리된 sample자체의 퀄리티는 썩 좋지는 않은데 TTS 퀄리티는 확실히 좋아지는 편이다. 아마 시작은 source separation이었는데 separation이 잘 안되니까 TTS로 바꾼거 아닐까 싶을 정도로..

'ML' 카테고리의 다른 글

200711  (0) 2020.07.13
200703  (0) 2020.07.06
200701  (0) 2020.07.01
200701  (0) 2020.07.01
200630  (0) 2020.06.30