Style transfer network
: 컨텐츠는 보존하면서 스타일은
1) 초창기?방법
2) domain adaptation과의 연계
3) GAN과의 연계: cycleGAN이다....그다음엔 starGAN...
참고한 곳: https://blog.lunit.io/2017/04/27/style-transfer/
Style Transfer
Introduction Style transfer란, 두 영상(content image & style image)이 주어졌을 때 그 이미지의 주된 형태는 content image와 유사하게 유지하면서 스타일만 우리가 원하는 style image와 유사하게 바꾸는 것을 말합
blog.lunit.io
Joint Speaker Counting, Speech Recognition, and Speaker Identification for Overlapped Speech of Any Number of Speakers
serialized output training w/ seq3seq + spk inventory as speaker labels
ASRencoder + ASRdecoder 을 이용해서 attention을 구하고 이 attention weight는 spkencoder output과도 곱해서 attention-weighted vector of speaker embeddings (p)를 구함
ASR은 SOT트레이닝을 하는뎅.. SOT 트레이닝이 뭐냐면.. N. Kanda, Y. Gaur, X. Wang, Z. Meng, and T. Yoshioka, “Seri- alized output training for end-to-end overlapped speech recogni- tion,” arXiv preprint arXiv:2003.12687, 2020 참조...
inventory attention에서 얻는 attention weight로 classification을 하는데,, 이 attention의 query와 key는 q(p의 rnnout)랑 d임
question: SA-MMI는 무엇일까? 이 트레이닝 criterion을 쓰면 한 텀은 ASR로 한텀은 SV로 바뀜 (Eq 13-16)