안녕하세요, 좋은 영상 감사합니다. 임커밋님의 영상으로 VQ-VAE를 처음 공부했을 때, reconstruction, embedding, commitment loss를 보며 quantization한 각 latent space는 embedding loss에 의해 본래 인코더의 출력과 가까워지고, reconstruction loss에 의해 reconstruction도 점차 잘할텐데 commitment는 왜 필요하지 라는 생각을 했었습니다. 알고 보니 commitment loss가 없으면 reconstruction loss에 의해 각 latent space는 서로 멀어지려 할 것이고, 이때 embedding loss도 무한히 커질 수 있는 문제 때문에 commitment loss가 필요하다고 하더군요. 임커밋님 영상 덕분에 도움이 많이 되었습니다. 감사합니다.
형님 혹시 vision language model은 관심 없으신가요? llava같은거... 혹시 한번 리뷰해주시면 감사하겠습니다 ㅜ.ㅜ 한달째 연구 진전이 없네요 모델이 잘 동작하지 않아서... 왜 그런지 정확한 이유를 모르겠습니다. projection layer만 따로 학습 시키는 이유도 모르겠구요.. 부탁드립니다! ㅜㅜ