이 시리즈는 NLP 분야의 핵심 논문들을 정리하고 리뷰하는 글입니다.
논문의 주요 기여와 핵심 개념을 개인적으로 이해한 관점에서 풀어내며
실제 프로젝트나 연구에 어떻게 적용할 수 있을지에 대한 생각도 함께 담았습니다.
📌 논문 정보
- 논문 제목: Unified Language Model Pre-training for Natural Language Understanding and Generation
- 저자/소속: Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou,Hsiao‑Wuen Hon / Microsoft Research
- 출판 연도 / 학회: 2019년 / NeurIPS 2019
- 링크: arXiv:1905.03197
✍🏻 TL;DR – 한 줄 요약
UniLM은 하나의 Transformer 모델에 다양한 attention mask를 적용함으로써 자연어 이해(NLU)와 생성(NLG)를 모두 처리할 수 있는 통합 언어 모델을 제안했습니다.
🫣 연구 배경 & 문제점
BERT는 문장의 양방향 이해에는 탁월하지만, 문장을 생성하는 데에는 부적합합니다. 반면 GPT는 자연스러운 문장 생성을 잘하지만 양방향 문맥을 활용하지 못해 이해 작업에는 한계가 있습니다. 이처럼 두 모델은 각각의 강점과 한계를 지니고 있어 별도로 관리해야 했고, 이는 실용적인 활용에서 비효율적이었습니다. 이 논문은 "하나의 모델로 양쪽 모두를 아우를 수는 없을까?"라는 문제의식에서 출발했습니다.
💎 핵심 용어 & 배경 지식
- UniLM: Unified Language Model. BERT와 GPT를 하나의 Transformer 모델로 통합하려는 시도입니다.
- Attention Mask: self-attention 구조에서 토큰 간 관계를 제한하는 방식으로, 학습 중 어떤 정보를 볼 수 있는지를 조절합니다.
- Multi-objective Pre-training: 여러 학습 목표를 동시에 만족하도록 모델을 사전 학습하는 접근입니다.
⛓️ 핵심 접근 방법 및 수식
UniLM은 기본적으로 하나의 Transformer 인코더를 사용하지만, attention mask를 조정함으로써 다양한 방식의 언어 모델링을 동시에 수행할 수 있도록 구성됩니다.
1) 세 가지 방향성 기반 LM 학습
- Left-to-right (GPT처럼 순방향 생성)
- Right-to-left (역방향 LM)
- Cloze LM (BERT 방식의 마스킹 기반 복원)
2) Sequence-to-sequence 학습 (NLG 작업 포함)
- 마스킹을 조절하여 encoder-decoder 구조처럼 작동할 수 있도록 설계함
- 학습 시 네 가지 objective를 동시에 최적화하여, 단일 모델이 모든 방향의 문맥을 포괄할 수 있도록 함
💡 주요 결과 & 인사이트
실험은 크게 NLU와 NLG로 나뉘며, 두 분야 모두에서 강력한 성능을 보였습니다.
자연어 이해(NLU)
- GLUE, SQuAD 2.0, CoQA 등 다양한 벤치마크에서 기존 BERT보다 뛰어난 성능을 기록했습니다.
자연어 생성(NLG)
- 요약
- CNN/DailyMail: ROUGE-L 40.51 (+2.04)
- Gigaword: ROUGE-L 35.75 (+0.86)
- 질문 생성 / 생성형 QA
- CoQA: F1 82.5 (+37.1)
- SQuAD 질문 생성: BLEU-4 22.12 (+3.75)
- 대화 응답 생성
- DSTC7: NIST-4 2.67 (사람 수준 2.65에 근접)
🪄 시사점 & 앞으로의 방향
UniLM은 Transformer의 attention 구조만 조정하여 매우 유연한 방식으로 NLU와 NLG 모두를 수행할 수 있음을 보여주었습니다. 특히 양방향 이해와 단방향 생성을 하나의 모델로 처리, 학습 목표 간 통합을 통한 범용성 확보, 향후 등장하는 T5, BART, UniLMv2 등 다양한 통합 모델의 기반 마련의 관점에서 큰 의미를 가집니다. 이 접근은 이후 prompt 기반 모델링이나 pretrain-decoder 혼합 구조에서도 응용되고 있으며, 챗봇, 생성형 QA, 문서 요약 등 다양한 작업에 확장될 수 있습니다.