이 시리즈는 NLP 분야의 핵심 논문들을 정리하고 리뷰하는 글입니다.
논문의 주요 기여와 핵심 개념을 개인적으로 이해한 관점에서 풀어내며
실제 프로젝트나 연구에 어떻게 적용할 수 있을지에 대한 생각도 함께 담았습니다.
📌 논문 정보
- 논문 제목: Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
- 저자 / 소속: Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni 외 / Facebook AI Research 등
- 출판 연도 / 학회: 2020년 arXiv
- 링크: arXiv:2005.11401
✍🏻 TL;DR – 한 줄 요약
RAG는 외부 문서 검색 모듈과 생성 모델을 결합한 프레임워크로, 다양한 지식 집약형 태스크에서 뛰어난 성능을 보였습니다.
🫣 연구 배경 & 문제점
기존의 GPT‑3, T5 같은 초대형 언어모델은 모든 지식을 내부 파라미터에 저장하는 구조입니다. 하지만 이 방식은 최신 정보 반영이 어렵고, 긴밀하거나 도메인 특화된 정보에 대해 부정확한 응답을 생성할 수 있다는 한계가 있습니다. 이러한 문제를 해결하기 위해, 외부 문서 검색을 생성 모델에 통합하는 방식이 제안되었습니다.
💎 핵심 용어 & 배경 지식
- Open-Domain QA: 모든 주제에 대해 문서를 검색하고 답변을 생성하는 질의응답 방식
- Retriever: 질문과 유사한 문서를 검색하는 모듈
- Generator: 검색된 문서를 바탕으로 자연어 응답을 생성하는 모델
- Dense Passage Retrieval (DPR): 질문과 문서를 각각 벡터로 임베딩하고 유사도 기반으로 검색하는 밀집 임베딩 기반 검색 구조
- RAG‑Token vs RAG‑Sequence: 생성 확률을 token 단위로 합치는 방식 vs 문단 단위로 처리하는 방식
⛓️ 핵심 접근 방법 및 수식
RAG는 retriever와 generator의 결합 구조로 이루어집니다.
- Retriever는 Dense Passage Retrieval(DPR)을 기반으로 하며, 질문과 문단을 각각 BERT 기반 인코더로 변환합니다.
- Generator는 BART나 T5와 같은 seq2seq 모델을 사용하며, 검색된 문서를 기반으로 직접 답변을 생성합니다.
두 가지 변형 모델이 존재합니다.
- RAG-Token: 각 문단별 생성 토큰 확률을 혼합하여 최종 확률을 계산합니다.
- RAG-Sequence: 각 문단에 대해 독립적으로 시퀀스를 생성하고 그 중 확률이 가장 높은 문장을 선택합니다.
수식으로 표현하면, 최종 생성 확률은 다음과 같이 계산됩니다:
- P(y|x) = Σᵢ P(y|x, dᵢ)·P(dᵢ|x)
- 여기서 dᵢ는 검색된 문서 중 i번째 문단, y는 생성할 응답입니다.
retriever는 모든 문서를 인코딩 후 FAISS 또는 HNSW 기반의 MIPS를 통해 빠르게 유사 문서를 찾습니다. generator는 top-k 문서에 대해 순차적으로 답변을 생성하고, 이를 통합합니다.
💡 주요 결과 & 인사이트
- Open-Domain QA 성능: Natural Questions, TriviaQA, WebQuestions 등에서 기존 DPR 대비 3~8%p 향상된 성능을 기록했습니다.
- 사실 검증(FEVER): evidence supervision 없이도 높은 정확도를 달성했습니다.
- 요약(MS-MARCO): BLEU-1과 ROUGE-L 모두에서 BART 대비 성능이 향상되었습니다.
- 질문 생성(Jeopardy): BLEU-1 기준 기존 BART보다 우수, 응답의 사실성에서도 긍정적 평가를 받았습니다.
특히 정답이 포함되지 않은 문서만으로도 약 11.8%의 정확도를 달성한 점은 인상적입니다.
🪄 시사점 & 앞으로의 방향
RAG는 생성형 모델에 retrieval 기능을 통합함으로써, 사전학습 모델의 고질적 한계였던 정보 갱신 불가능 문제를 실용적으로 해결한 첫 사례 중 하나입니다. 이후 FiD, Atlas, RAG-LER 등의 다양한 후속 연구가 이어졌으며, 프롬프트 엔지니어링과 병행하여 retrieval 기반 LLM 아키텍처의 실용 가능성을 크게 높였습니다. 또한, 도메인 특화 지식이 요구되는 산업군에서도 retriever 인덱스만 교체하여 손쉽게 활용될 수 있다는 점에서 큰 응용 가능성을 보여줍니다.