ML 20

음성합성 DB

이름 크기(길이/화자수) 용도 링크 SF (kHz) 비고 LJSpeech 24h, 1 Eng Female TTS 공식 / TF 22.05 LibriSpeech 1000h, 25min/spk, 2000 spks, Eng ASR 공식 / 구글 24 duration에 따라 subset이 나뉘어져 있음 LibriTTS 585h, 2456 spk, Eng TTS 공식 / 구글 24 VCTK 400 utt, 110 spks, Eng ASR 공식 / 구글 48 accented Artic 1150 utt, 10 spks, Eng TTS festvox 16 accented TF 제공 DB 카탈로그: https://www.tensorflow.org/datasets/catalog/overview OpenSLR: http:/..

ML 2021.05.11

200722

Disentangled Speech Embeddings Using Cross-Modal Self-Supervision abstract disentangling과 identity/content or clasisfication/disentangling loss과 트렁크 스트럭처를 이용한 트레이닝을 통해 적은 양의 unseen speaker에도 robust함을 보였음 content task: N-way classification (N: 한 face트랙 안에 있는 샘플 수) identity task: B-way classification (B: 한 mini-batch 안에 있는 face track의 수) -> 몇번째 face track인지 제안하는 내용 1) time-scale이 다를 때 스피치 표현을 배우는 ..

ML 2020.07.23

200722

Closed-Form Factorization of Latent Semantics in GANs abstract latent sementic을 위해 annotation과 supervised classifier가 필요했음 unsupervised manner로 variation factor를 찾아보겠다 (이전에는 sampling, labeling, boundary searching으로 이루어져있었음) - 이전의 알고리즘들이 3d label 없어도 포즈를 바꿀 수 있었듯이 introduction? representation의 목표: 사람이 이해할 수 있는 특정 같은 의미있는 subspace를 찾기 (눈 위치 같은거...) supervised 기반의 방법들은 code에서 sampling한 뒤에 이미지를 합성하고..

ML 2020.07.22

200717

우분투 한글 인코딩 관련... 0x0C? C 어쩌고 나오는건 인코딩이 ISO-8859-1 인데 이걸로 읽어들이면 읽어지긴 하는데 한글이 깨진다. 그래서 EUC-KR로 읽어야됨....그러면 write했을때도 잘 나오는 것을 확인할 수 있다. ** encoding 바꾸는 shell script : iconv -f 원래인코딩 -t 타겟인코딩 입력파일명 --output 출력파일명 ** encoding 확인하는 shell script: file -bi 파일명 이미지 픽셀와이즈 로스가 스펙트로그램의 차이를 반영할까?

ML 2020.07.17

200715

StarGAN v2: Diverse Image Synthesis for Multiple Domains abstract generate diverse images (여러개의 target domain으로 매핑 가능) scalable over multiple domains 이 논문에서 domain은 특정 사람의 얼굴, 성별과 같은 내용이고 source image에 대응하고, style은 헤어/메이크업/수염과 같은 것들을 가리키며 reference image에 대응한다 contribution domain label -> domain specific style code mapping network: Gaussian noise z -> style code s, style encoder: reference image..

ML 2020.07.15

200714

Unsupervised learning of disentangled representations from video (2017) abstract 시간에 따라 변하는 시퀀스(pose)랑 안변하는 시퀀스(content)를 adversarial loss를 통해 효과적으로 분리해냈다 application 비디오 관련한 태스크라면 여러가지 가능. predicting future video frames.. labeling을 통한 self-labeling classification... motivation and contribution method / architecture 1) loss: joint learning - reconstruction loss: per-pixel l2 loss L(D(.), x_(t+k)..

ML 2020.07.14

200711

Improving Style-Content Disentanglement in Image-to-Image Translation goal: image-to-image translation에서 style disentangle을 잘 하자 related works: domain , content, style로 이미지를 정의할 때 style과 content를 잘 분리하는 방법을 찾기. 여기서 domain은 해당 이미지의 class (개, 고양이..) content는 domain invariant한 feature들 (동물의 포즈 등), style은 그 외의 것들. cycleGAN과 MUNIT이 conventional이라고 볼 수 있음 class-supervised disentanglement motivation: 기..

ML 2020.07.13

200703

PriorGAN: Real Data Prior for Generative Adversarial Nets contibution and method 1) low-quality problem: D의 그라디언트 방향이 정확하지 않아서 트레이닝이 제대로 안 될 때가 있다 -> priorGAN을 통해 확률을 추정함으로써 확률이 높아야 고퀄리티 이미지 생성한것으로 간주 가능, quality loss 도입 2) missing mode problem: 데이터 분포를 추정할 때 실제 데이터 분포에서 몇 부분이 빠지는 것-> GMM을 도입, resampling stratage 도입 motivation Lipschitz criterion이 문제1)의 해결책인 논문들도 있었지만 impractical함... method 1) b..

ML 2020.07.06

200705

Disentangling Speech and Non-Speech Components for Building Robust Acoustic Models from Found Data application: TTS method: multi-modal VAE (z가 여러개)를 통해 source separation을 하고, RPCA에서 모티브를 얻은 softmax-like mask function을 이용하여 후처리를 함 contribution: clean data를 많이 얻기 어렵기때문에 noisy혹은 mixed data에서 music이나 noise를 제거하여 TTS 데이터로 활용하였고 이를 통해 TTS 생성 음성의 질이 올라갔다 실제로 저자 깃에서 샘플을 들어봤을땐...분리된 sample자체의 퀄리티는 썩 좋지는..

ML 2020.07.06