ML

200701

stri.destride 2020. 7. 1. 18:09

Disentangling style factors from speaker representations

1. abstract and contribution: separate speaking style w/ i-vector or x-vector, latent space를 two subspace로 disentangling 했고 classifier를 붙였음 

contribution

1) i/x-vector에는 말하는 스타일이나 감정에 대한 정보가 들어가있다는걸 증명함

2) classification accuracy로 disentanglement를 입증함 

3) style과 residual information이 reconstruction 하는데에 필수적이란걸 입증함 

assumption

: i-vector등의 임베딩에는 감정/스피킹 스타일 요소가 들어가있다 

 

2. method

: extract i/x vector with KALDI, pre-trained model on VoxCeleb 

1) baseline: Vanilla autoencoder, by reducing dimension of z from 500 to 10

2) prop: autoencoder w/ dual encoders. 첫번째 인코더는 스타일 모델링을 위해 스타일 클래시파이어를 붙이고 CE loss 사용. 두 번째 인코더는 residual latent space로 스타일 관련 요소가 최대한 없기를 바라기 때문에 다양한 loss를 사용하는데 여기다가도 classifier를 붙임,, 

- batch mean, maximizing CE loss, degrading z2 space and re-training the decoder 

3. experiment 

DB: IViE와 IEMOCAP사용

evaluate

1) reconstruction loss (mean absolute error), reconstruction에는 z1, z2모두 필요하고 이것은 disentangle이 있단 소리 

2) classification result: z1, z2가 가장 잘 분리된건 ae3 (max loss, no corruption, 2 encoders), 이 시스템의 confusion matrix도 삽입함 (Fig4), 

4. related works:

1) speaking style: TOBI, GMM supervectors 등의 예전 논문들에서 연관성을 찾았다고설명함@.@ 

2) expressive speech synthesis

5. applications:여기엔 딱히 없어보이고..s2s translation, TTS, SV/SI등에 쓰일 수 있다고 디스커션에서 설명함 

https://github.com/rhoposit/style_factors

 

rhoposit/style_factors

Contribute to rhoposit/style_factors development by creating an account on GitHub.

github.com

 

AE2, AE3 시스템에 대한 설명좀 잘 해주지..다흐흑 

AE1: 2 encoders

AE2: 2 encoders, mu batch corruption

AE3: 2 encoders, max loss

AEC: 2 encoders, ful corruption, max loss, re-training decoder 

코드를 보아하니

1) AE1: mse, categorical CE*2

2) AE2: mse, cateogrical CE*2

3) AE3: mse, catCE, min cat CE = max loss , weight

4) AEC: mse, catCE, min cat CE, weight, decoder MSE loss, merge decoder2가 enc1, enc2 여기는 디코거다 하나 더 있음....이게 바로 full curroption인가 

차이가 뭔지 다시 좀 봐야할듯,, 케라스 코드 너무 안 익숙하다 ㅡㅡ 

'ML' 카테고리의 다른 글

200703  (0) 2020.07.06
200705  (0) 2020.07.06
200701  (0) 2020.07.01
200630  (0) 2020.06.30
200628  (0) 2020.06.29