MIPAL-SNU

MIPAL-SNU

56
22 672

Подписаться

Official RU-vid Channel for Machine Intelligence and Pattern Analysis Lab, Seoul National University.
Visit our lab homepage to find out more about our research, projects and recruiting information.

SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix

45:06

SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix

14 дней назад

Inversion Free Image Editing with Natural Language

51:45

Inversion Free Image Editing with Natural Language

Месяц назад

[ICCV 2023]Preventing Zero-shot Transfer Degradation in Continual Learning of Vision-Language Models

41:29

[ICCV 2023]Preventing Zero-shot Transfer Degradation in Continual Learning of Vision-Language Models

Месяц назад

Multimodal Prompting with Missing Modalities for Visual Recognition

34:32

Multimodal Prompting with Missing Modalities for Visual Recognition

Месяц назад

Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How

35:44

Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How

2 месяца назад

SODA: Bottleneck Diffusion Models for Representation Learning

58:45

SODA: Bottleneck Diffusion Models for Representation Learning

2 месяца назад

EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models

24:21

EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models

3 месяца назад

Vision Transformers Need Registers

32:31

Vision Transformers Need Registers

3 месяца назад

DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION

1:08:37

DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION

3 месяца назад

Is synthetic data from generative models ready for image recognition? (ICLR 2023, spotlight)

34:38

Is synthetic data from generative models ready for image recognition? (ICLR 2023, spotlight)

4 месяца назад

Neural Field Classifiers via Target Encoding and Classification Loss (ICLR 2024)

39:38

Neural Field Classifiers via Target Encoding and Classification Loss (ICLR 2024)

4 месяца назад

MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation

55:55

MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation

4 месяца назад

How hard are computer vision datasets? Calibrating dataset difficulty to viewing time

43:38

How hard are computer vision datasets? Calibrating dataset difficulty to viewing time

5 месяцев назад

TokenFlow: Consistent Diffusion Features for Consistent Video Editing

24:39

TokenFlow: Consistent Diffusion Features for Consistent Video Editing

6 месяцев назад

On the Robustness of Open-World Test-Time Training: Self-Training with Dynamic Prototype Expansion

24:19

On the Robustness of Open-World Test-Time Training: Self-Training with Dynamic Prototype Expansion

6 месяцев назад

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

54:31

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

7 месяцев назад

I-JEPA: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

37:03

I-JEPA: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

7 месяцев назад

Large Language Models Post Training Quantization(smoothQuant, RPTQ)

35:07

Large Language Models Post Training Quantization(smoothQuant, RPTQ)

7 месяцев назад

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

39:10

Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models

7 месяцев назад

Improving Zero-shot Generalization and Robustness of Multi-modal Models

34:02

Improving Zero-shot Generalization and Robustness of Multi-modal Models

8 месяцев назад

3D Gaussian Splatting for Real-Time Radiance Field Rendering

46:34

3D Gaussian Splatting for Real-Time Radiance Field Rendering

8 месяцев назад

QLoRA: Efficient Finetuning of Quantized LLMs

32:24

QLoRA: Efficient Finetuning of Quantized LLMs

8 месяцев назад

CRAFT: Concept Recursive Activation FacTorization for Explainability

23:30

CRAFT: Concept Recursive Activation FacTorization for Explainability

9 месяцев назад

VIME: Extending the Success of Self- and Semi-supervised Learning to Tabular Domain (2023. 10. 19)

35:53

VIME: Extending the Success of Self- and Semi-supervised Learning to Tabular Domain (2023. 10. 19)

9 месяцев назад

Key-Locked Rank One Editing for Text-to-Image Personalization

50:31

Key-Locked Rank One Editing for Text-to-Image Personalization

9 месяцев назад

Hausdorff Dimension, Heavy Tails, and Generalization in Neural Networks

14:30

Hausdorff Dimension, Heavy Tails, and Generalization in Neural Networks

10 месяцев назад

Diffusion Models already have a Semantic Latent Space(ICLR2023)

41:59

Diffusion Models already have a Semantic Latent Space(ICLR2023)

10 месяцев назад

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (CVPR 2023)

37:22

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation (CVPR 2023)

10 месяцев назад

Structure and Content-Guided Video Synthesis with Diffusion Models

40:47

Structure and Content-Guided Video Synthesis with Diffusion Models

Год назад

Комментарии

@dayol2026 18 дней назад

잘 듣고 갑니다~!

@AlgoNudger Месяц назад

Thanks.

@saisritejakuppa9856 2 месяца назад

I seriously wish there are official english subs to this video.

@user-ln1or3js9m 2 месяца назад

영상에 나온 질문과 유사한 질문인데요. NeRF 가 여러 View Point 에서 나온 이미지쌍들로 새로운 View Synthesis 를 위해 MLP 를 학습하는 구조라면 Random Camera P 에 대한 rendering 결과를 DiffusionModel 을 통과했을 때 잘 생성해야 할것 같은데 그게 Front View/Side View/Overhead View 같은 몇 가지 View Point 로 한정된다고 하면, 다양한 각도의 rendering 이미지에 대해서 denoising 된 \hat{x} 를 잘 생성해 낼 수 있나요? 잘 생성되는데 다만 조금 제한을 주기 위한 용도로 prompt 에 view 방향에 대한 가이드만 주는 것이라고 이해하면 될까요?

@user-my3ng9ns6q 2 месяца назад

안녕하세요, 답변이 늦었습니다. 우선 말씀해주신 것처럼, NeRF 모델에서 Rendering을 진행할 때에는 Random Camera P를 샘플링하여 Random한 방향에서 바라본 이미지를 rendering하게 됩니다. 이후 Rendered Image를 Diffusion Model에 넣을 때, 샘플링 된 Camera P의 방향에 따라 Text Condition에 Overhead View/Front View/Side View/Back View of ~ 와 같은 수식어를 넣어주어 Diffusion Model이 좀 더 Reconstruction을 잘 할 수 있도록 하여 학습이 더 잘 되도록 하고 있습니다. Rendered Image에 Noise를 추가하더라도 전반적인 Structure는 남아있을 것이라 예상되어 위와 같은 수식어 없이도 Reconstruction이 어느정도는 잘 될 것으로 생각되는데요, 다만 학습 초기 단계와 같은 경우 Rendered Image의 Quality가 좋지 않을 것 같아 위와 같은 수식어가 Diffusion Model이 Image Reconstruction을 수행할 때 보다 올바른 방향으로 이미지를 생성할 수 있도록 가이드할 수 있어 모델 학습에 도움이 될 것이라 생각됩니다. 제한을 주기보다는 학습을 더욱 효과적으로 하기 위한 방법이라고 생각해 주시면 될 것 같습니다.

@user-ln1or3js9m 2 месяца назад

@@user-my3ng9ns6q 아 자세한 답변 감사드립니다.

@davidshavin1998 4 месяца назад

If the video is not in English don't give it a title in English

@user-gx3nh4oo5i 4 месяца назад

혹시 Co DTER에서 auxiliary head의 구조는 어떻게 되나요?

@Arwin_Unbeatable 6 месяцев назад

please do it english, it would be easier for non korean speakers like me to understand

@simonson6498 6 месяцев назад

20:16 _no_weight_decay=True 는 self.A_log 의 그래디언트 러닝에 영향을 주지만 업데이트에서 배제하진 않는 것 같습니다. 업데이트 되는 것 같아 보이네요...

@simonson6498 7 месяцев назад

분명 많은 것들을 이해하고 다루려고 하시는 것 같아 감사하게 들었습니다만... 좋은 설명을 하기 위해서 좀 더 노력해보시는것도 좋을 것 같습니다. 많은 게 함축되어있는 것 같네요. 감사하게 들었습니다.

@jackybanh8105 8 месяцев назад

could i have a link to the slides please?

@ylab3891 8 месяцев назад

오 감사합니다.

@chaerinkong5303 8 месяцев назад

발표 잘들었습니다!

@MyungHoJu 8 месяцев назад

많은 논문에 대해 정리가 잘되어 있네요. 감사합니다.

@YATENDRA3192 9 месяцев назад

Great work 🎉 this is a much needed direction on making real world use cases out of image generation. Any demo page where we can check it out?

@thesahil301290 Год назад

Why not in English?

@mipal-snu8300 Год назад

중간에 나오는 sigma_cls와 sigma_det의 차이가 무엇인지에 대한 질문의 추가 설명입니다. sigma_cls의 경우 class dimension을 따라 softmax를 하고, sigma_det는 region dimension을 따라 softmax를 해서, sigma_cls는 각 클래스에 대한 확률을, sigma_det는 각 region의 contribution을 나타내도록 구성했다고 합니다.

@user-hh7eu2gx5b Год назад

2:02

@user-hh7eu2gx5b Год назад

0:02

@user-lm8lj4xf7n Год назад

잘 보고 갑니다.

@lhj8835 Год назад

시간 관계상 뒤쪽은 제가 설명을 간소화 했습니다. 양해 바랍니다. 혹시 틀린 내용들이 있다면 댓글로 알려주시면 감사하겠습니다.