Official RU-vid Channel for Machine Intelligence and Pattern Analysis Lab, Seoul National University. Visit our lab homepage to find out more about our research, projects and recruiting information.
영상에 나온 질문과 유사한 질문인데요. NeRF 가 여러 View Point 에서 나온 이미지쌍들로 새로운 View Synthesis 를 위해 MLP 를 학습하는 구조라면 Random Camera P 에 대한 rendering 결과를 DiffusionModel 을 통과했을 때 잘 생성해야 할것 같은데 그게 Front View/Side View/Overhead View 같은 몇 가지 View Point 로 한정된다고 하면, 다양한 각도의 rendering 이미지에 대해서 denoising 된 \hat{x} 를 잘 생성해 낼 수 있나요? 잘 생성되는데 다만 조금 제한을 주기 위한 용도로 prompt 에 view 방향에 대한 가이드만 주는 것이라고 이해하면 될까요?
안녕하세요, 답변이 늦었습니다. 우선 말씀해주신 것처럼, NeRF 모델에서 Rendering을 진행할 때에는 Random Camera P를 샘플링하여 Random한 방향에서 바라본 이미지를 rendering하게 됩니다. 이후 Rendered Image를 Diffusion Model에 넣을 때, 샘플링 된 Camera P의 방향에 따라 Text Condition에 Overhead View/Front View/Side View/Back View of ~ 와 같은 수식어를 넣어주어 Diffusion Model이 좀 더 Reconstruction을 잘 할 수 있도록 하여 학습이 더 잘 되도록 하고 있습니다. Rendered Image에 Noise를 추가하더라도 전반적인 Structure는 남아있을 것이라 예상되어 위와 같은 수식어 없이도 Reconstruction이 어느정도는 잘 될 것으로 생각되는데요, 다만 학습 초기 단계와 같은 경우 Rendered Image의 Quality가 좋지 않을 것 같아 위와 같은 수식어가 Diffusion Model이 Image Reconstruction을 수행할 때 보다 올바른 방향으로 이미지를 생성할 수 있도록 가이드할 수 있어 모델 학습에 도움이 될 것이라 생각됩니다. 제한을 주기보다는 학습을 더욱 효과적으로 하기 위한 방법이라고 생각해 주시면 될 것 같습니다.
중간에 나오는 sigma_cls와 sigma_det의 차이가 무엇인지에 대한 질문의 추가 설명입니다. sigma_cls의 경우 class dimension을 따라 softmax를 하고, sigma_det는 region dimension을 따라 softmax를 해서, sigma_cls는 각 클래스에 대한 확률을, sigma_det는 각 region의 contribution을 나타내도록 구성했다고 합니다.