이 시리즈는 NLP 분야의 핵심 논문들을 정리하고 리뷰하는 글입니다.
논문의 주요 기여와 핵심 개념을 개인적으로 이해한 관점에서 풀어내며
실제 프로젝트나 연구에 어떻게 적용할 수 있을지에 대한 생각도 함께 담았습니다.
📌 논문 정보
- 논문 제목: Language Models are Few-Shot Learners
- 저자/소속: Tom B. Brown 외 30명 / OpenAI
- 출판 연도 / 학회: 2020년 / NeurIPS 2020
- 링크: arXiv:2005.14165
✍🏻 TL;DR – 한 줄 요약
GPT-3는 파인튜닝 없이도 프롬프트만으로 다양한 NLP 태스크를 수행할 수 있으며, 특히 few-shot 세팅에서는 전통적인 fine-tuned 모델과 비슷한 수준의 성능을 보여주었습니다.
🫣 연구 배경 & 문제점
기존의 NLP 접근법은 사전 학습(pretraining) 후 다운스트림 태스크마다 별도로 파인튜닝하는 방식이 일반적이었습니다. 하지만 이 접근법은 많은 레이블링된 데이터를 필요로 하며, 사람처럼 새로운 작업을 즉시 수행하는 능력이 부족하다는 한계가 있었습니다. 이에 따라 모델의 파라미터를 변경하지 않고도 다양한 태스크를 수행할 수 있는 "few-shot learning"의 가능성에 대한 탐색이 시작되었습니다.
💎 핵심 용어 & 배경 지식
- Few-shot Learning: 소수의 예시를 프롬프트로 주고 문제를 해결하는 방식
- In-context Learning: 학습된 모델의 파라미터를 업데이트하지 않고, 입력 컨텍스트에 예시를 포함시켜 바로 태스크를 수행하는 능력
- Zero-shot / One-shot: 예시 없이 문제를 푸는 방식 / 예시 하나만 주는 방식
⛓️ 핵심 접근 방법 및 수식
GPT-3는 1,750억 개의 파라미터를 갖는 대형 언어 모델로, 웹 기반의 대규모 코퍼스를 활용해 autoregressive 방식으로 학습되었습니다.
이후 파인튜닝 없이 다양한 태스크를 해결하기 위해 세 가지 설정을 테스트했습니다.
- Zero-shot: 프롬프트에 예시 없이 문제만 제시
- One-shot: 예시 1개와 함께 문제 제시
- Few-shot: 10~100개 사이의 예시와 함께 문제 제시
모델은 문제 해결 과정에서 프롬프트에 제공된 예시만을 활용해 즉석에서 정답을 생성합니다. 모델 파라미터는 변경되지 않으며, 전적으로 입력된 프롬프트에 의존합니다.
💡 주요 결과 & 인사이트
GPT-3는 다양한 태스크에서 높은 성능을 기록하며, prompt 기반 학습의 가능성을 입증했습니다.
- SuperGLUE: few-shot 설정에서 BERT-Large fine-tuned 모델 수준에 근접
- CoQA 질의응답
- Zero-shot: F1 81.5
- Few-shot: F1 85.0 (fine-tuned 수준에 근접)
- TriviaQA (closed-book QA)
- Few-shot: 정확도 71.2 (fine-tuned T5-11B와 유사)
- 기계 번역
- Few-shot 대비 Zero-shot 성능 차이 +11 BLEU
- 일부 언어쌍에서 SOTA 수준 도달
- 기타 추론/문장 생성/요약 등
- 프롬프트만으로 고품질 출력 가능
모델 크기와 성능 간의 로그-선형 관계도 확인되었으며, 이는 대형 모델일수록 in-context 학습 능력이 향상된다는 중요한 실험적 근거가 되었습니다.
🪄 시사점 & 앞으로의 방향
GPT-3는 LLM을 활용한 in-context learning이라는 새로운 패러다임을 제시했습니다. 이후 등장한 GPT-4, PaLM 등도 이 흐름을 따라 더 큰 규모로 확장되었으며, prompt engineering이라는 독립된 연구 분야가 형성되는 계기가 되었습니다.
특히 학습 데이터가 부족한 환경에서도 좋은 성능을 낼 수 있는 전략으로 few-shot prompting은 실용적 가치가 매우 높습니다.