Тёмный

[Paper Review] REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Knowledge Memory 

서울대학교 산업공학과 DSBA 연구실
Подписаться 17 тыс.
Просмотров 498
50% 1

발표자: 고려대학교 DSBA 연구실 석사과정 마민정(minjeong_ma@korea.ac.kr)
1. 논문 제목 : REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory (CVPR 2023 Highlight)
2. 원문 링크 : arxiv.org/abs/...
3. 요약
- 본 논문에서는 대규모 메모리에 World Knowledge를 인코딩하고, 이를 검색하여 Knowledge-intensive Query에 답변하는 End-to-End Retrieval-Augmented Visual Language Model(REVEAL)을 제안
- REVEAL은 Memory, Encoder, Retriever, Generator 네 가지 주요 구성 요소로 이루어짐
- 본 접근 방식의 주요 Novelty은 Memory, Encoder, Retriever, Generator가 모두 대규모 데이터로 사전 학습된다는 점
- 또한, 다양한 멀티모달 Knowledge Source를 사용할 수 있어 상당한 성능 향상을 보여줌
- REVEAL은 Visual Question Answering, Image Captioning에서 SOTA 달성
4. Keyword : #REVEAL, #VisionLanguage, #VQA, #ImageCaptioning, #KnowledgeMemory
5. 발표자료: dsba.korea.ac.k...

Опубликовано:

 

10 сен 2024

Поделиться:

Ссылка:

Скачать:

Готовим ссылку...

Добавить в:

Мой плейлист
Посмотреть позже
Комментарии    
Далее
Самый БОЛЬШОЙ iPhone в МИРЕ!
00:52
Просмотров 905 тыс.
What is RAG? (Retrieval Augmented Generation)
11:37
Просмотров 138 тыс.
Mamba complete guide on colab
6:43
Просмотров 2 тыс.
GraphRAG: LLM-Derived Knowledge Graphs for RAG
15:40
Просмотров 110 тыс.
독학으로 코딩 테스트를 준비한다면
8:01