[Paper Review] LayoutLM from V1 to V3 (LayoutLM, LayoutLMv2, LayoutLMv3)

Подписаться 17 тыс.

Просмотров 1,6 тыс.

50% 1

- 발표자 : 고려대학교 DSBA 연구실 석사과정 오수지 (suzie_oh@korea.ac.kr)
1. Topic : LayoutLM from V1 to V3
- LayoutLM: Pre-training of Text and Layout for Document Image Understanding (KDD 2020)
- LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding (ACL 2021)
- LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking (Proceedings of the 30th ACM International Conference on Multimedia 2022)
2. Overview
[ LayoutLM ]
- 사전학습 과정에서 텍스트 뿐만 아니라 문서가 가지는 레이아웃 정보도 반영한 첫 번째 모델
- 각 단어의 bounding box 위치/크기 정보를 이용해 모델의 입력 임베딩에 레이아웃 정보를 추가
[ LayoutLMv2 ]
- 사전학습 과정에서 텍스트 정보와 레이아웃 정보, 시각 정보까지 함께 학습
- 텍스트와 이미지를 함께 입력으로 받으므로 텍스트와 이미지 간에 alignment를 학습할 수 있는 2가지 사전 학습을 추가 (Text-Image Alignment, Text-Image Matching)
[ LayoutLMv3 ]
- 이미지에 대한 임베딩을 구하기 위해 Pre-trained CNN이나 Faster-RCNN을 사용하지 않은 첫 멀티모달 모델
- Patch-projection Feature Extractor 방법론 중 하나인 ViT를 이용해 이미지 패치 단위로 임베딩을 구함
- 텍스트 부분은 MLM, 이미지 부분에 대해선 각기 다른 사전학습 방식을 사용했던 이전 연구들과 달리 텍스트 부분에 대해서도(MLM), 이미지 부분에 대해서도(MIM) 마스킹 사전학습 방식으로 학습 진행
- text-centric Document AI 데이터셋뿐만 아니라 image-centric Document AI 데이터셋에 대해서도 좋은 성능을 보임
3. 발표자료
dsba.korea.ac.k...
4. 키워드
- Document AI, LayoutLM, LayoutLMv2, LayoutLMv3, Document Understanding 논문 리뷰