ML

200714

stri.destride 2020. 7. 14. 15:47

Unsupervised learning of disentangled representations from video (2017)

abstract

시간에 따라 변하는 시퀀스(pose)랑 안변하는 시퀀스(content)를 adversarial loss를 통해 효과적으로 분리해냈다 

 

application

비디오 관련한 태스크라면 여러가지 가능. predicting future video frames.. labeling을 통한 self-labeling classification...

 

motivation and contribution

 

method / architecture 

1) loss: joint learning

- reconstruction loss: per-pixel l2 loss L(D(.), x_(t+k))

- similarity loss: content encoder가 time-invariant한 내용을 찾도록하는 MSE loss 

- adversarial loss: pose encoder는 discriminator C가 같은/다른 video clip인지 구분하도록, pose encoder의 discriminator가 같은 비디오클립의 같은/다른 프레임인지 구분할 수 없도록 

2) modules:

- 2 encoders (pose, content),

- 같은 pose feature가 다른 video에서 왔는지 아닌지 감별하는 discriminator C

- 시간에따라 변하지않는 content feature x^c_t와 매 시간따라 달라지는 pose feature x^p_(t+k)를 이용하여 다음 frame x_(t+k)를 예측하는 decoder D

3) training method

: C, (encoders, decoder) 페어로 나눠서 업데이트 

** 참고로 semi-supervised learning이란 supervised data와 unsupervised data를 함께 이용하여 학습 성능을 높이자는 것. 

'ML' 카테고리의 다른 글

200717  (0) 2020.07.17
200715  (0) 2020.07.15
200711  (0) 2020.07.13
200703  (0) 2020.07.06
200705  (0) 2020.07.06