200628
Effective Emotion Transplantation in an End-to-End Text-to-Speech System
application: emotional text-to-speech
scenario: emotional source total 11 hours, neutral target total 1 hour
training method
1) emo/src data로 TTS training
2-a) neu/tgt data로 M_emo는 freeze시켜놓고 M_TTS만 training
2-b) emo/src data로 true emotional embedding e를 생성, 이 e와 tgt text를 이용하여 emo/tgt spectrogram을 생성하고 이 생성한 spectrogram으로 e_hat을 생성, e와 e_hat의 L1 loss를 이용하여 TTS모델만 업로드함
One-shot voice conversion by separating speaker and content representations with instance normalization
application: voice conversion
contribution: 기본 가정은 content랑 spk 정보가 disentangle가능하다. content encoder에는 instance normalization을 적용하고, spk enc에는 IN을 넣지 않았음. spk representation은 adaIN기법을 써서 decoder에 집어넣었음.
experiment: IN의 효과를 입증하기 위해서 Ec out latent zc를 이용해서 classification을 시도했다는데 애초에 input으로 쓰이는 zc자체가 reasonable한 내용이라고 확신할 수 있는지를 ? 모르겠음. spectrum의 global variance를 사용하여 conversion도 수행했음.
discussion: 저 classification 실험 자체의 reasoning이랑...IN이 왜 disentanglement에 좋은지가 나와있지 않음. VAE architecture를 가져온 것 같은데 adaIN등과 잘 이어지지가 않음..