CFG가 Stable Diffusion에서 쓰인다고 하셨는데 T인코더 중 Clip의 TextEncoder는 Classifier로 쓰여 Classfier Guidance가 되야하는 것이 아닌가요? 왜 Classifier Free Guidance 인가요? 분류기가 없고 학습할 필요가 없어야 Classifier Free Guidance라고 생각하고 있는데 이 부분에서 막혀서 질문드립니다!
1. conv2d도 linear와 다르게 weight가 다른 이미지 영역에 반복적으로 적용될 뿐이지, weight와 변수들간 관계는 linear하기 때문에 꼭 nn.linear를 쓸 필요는 없습니다. 2. transformer 설계에서 수학적으로 key, query는 서로 dot product만 가능하면 (i.e. same dimension) tensor 선택에 제약은 없습니다. 3. 그럼 왜 nn.Linear를 안 쓰고 conv2d를 쓰는가? - 아무래도 이미지라서 translation invariance를 위해서 conv2d가 유리할 듯 합니다.
디퓨젼 모델에 대한 개념이 잘 안들어오고 용어 때문에 혼통이 와서 질문을 하는데, 혹시 보시면 답글 부탁합니다. 우선 reverse 과정에서 nenoising 한다는 표현을 쓰는데, noise로 명명된 값을 빼어서 다음 단계로 넘어가니 그렇게 표현하는게 맞다고는 생각하나. 개념적으론 noise 라고 하기 보다는 이전 t 단계의 통계 분포에서 부터 좀 더 이미지 분포에 가까운 t-1 통계분포로 이동해 간다고 보는게 직관적인 설명 아닐까 싶은데요. 제가 이해한 게 맞는지 알고 싶네요.