Disentangling Speech and Non-Speech Components for Building Robust Acoustic Models from Found Data
application: TTS
method: multi-modal VAE (z가 여러개)를 통해 source separation을 하고, RPCA에서 모티브를 얻은 softmax-like mask function을 이용하여 후처리를 함
contribution: clean data를 많이 얻기 어렵기때문에 noisy혹은 mixed data에서 music이나 noise를 제거하여 TTS 데이터로 활용하였고 이를 통해 TTS 생성 음성의 질이 올라갔다
실제로 저자 깃에서 샘플을 들어봤을땐...분리된 sample자체의 퀄리티는 썩 좋지는 않은데 TTS 퀄리티는 확실히 좋아지는 편이다. 아마 시작은 source separation이었는데 separation이 잘 안되니까 TTS로 바꾼거 아닐까 싶을 정도로..