이 시리즈는 NLP 분야의 핵심 논문들을 정리하고 리뷰하는 글입니다.
논문의 주요 기여와 핵심 개념을 개인적으로 이해한 관점에서 풀어내며
실제 프로젝트나 연구에 어떻게 적용할 수 있을지에 대한 생각도 함께 담았습니다.
📌 논문 정보
- 논문 제목: Training language models to follow instructions with human feedback
- 저자 / 소속: Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida 외 / OpenAI
- 출판 연도 / 학회: 2022년 arXiv 게재, NeurIPS 워크숍 발표
- 링크: arXiv:2203.02155
✍🏻 TL;DR – 한 줄 요약
Supervised 학습과 RLHF(Reinforcement Learning from Human Feedback)를 결합해 튜닝된 InstructGPT는 파라미터 수가 훨씬 적어도 GPT-3보다 사용자 의도에 더 잘 맞고, 사실성을 높이며, 독성 발화를 줄였습니다.
🫣 연구 배경 & 문제점
GPT-3처럼 거대한 언어모델은 강력한 생성 능력을 보여주지만 잘못된 정보, 독성 표현, 무관한 답변을 자주 생성해 실제 서비스 적용에 제약이 있었습니다. 단순히 파라미터를 늘리는 방식으로는 이러한 문제를 해결하기 어렵기 때문에, 인간 피드백을 활용해 모델의 응답을 원하는 방향으로 정렬(alignment)시키는 새로운 학습 절차가 필요했습니다.
💎 핵심 용어 & 배경 지식
- Supervised Fine-Tuning(SFT): 사람이 작성한 프롬프트·답변 쌍으로 모델을 추가 학습하는 단계
- RLHF: 사람이 모델 응답을 순위화해 보상 신호를 만들고, 이를 이용해 RL(PPO)로 정책을 개선하는 과정
- Preference Ranking Model(PRM): 여러 후보 응답의 선호도를 예측하기 위해 학습된 보상 모델
- Alignment: 모델의 출력이 인간 의도·가치에 부합하도록 조정하는 작업
- Toxicity: 공격적·혐오적·불쾌감을 주는 발화를 나타내는 지표
⛓️ 핵심 접근 방법 및 수식
InstructGPT는 SFT와 RLHF를 단계적으로 결합하여 작은 크기의 GPT-3 모델을 사용자 지향형 모델로 전환합니다.
- Supervised Fine-Tuning
- 라벨러가 작성한 프롬프트·정답 예시를 사용해 초기 GPT-3(1.3B 파라미터)를 지도학습
- Preference 데이터 구축
- SFT 모델이 생성한 여러 후보 응답에 대해 라벨러가 선호도 순위를 매겨 ranking 데이터를 수집
- 보상 모델 학습
- 순위 데이터를 이용해 PRM을 학습, 응답 품질에 대한 보상 함수를 정의
- PPO 기반 정책 최적화
- SFT 모델을 초기 정책으로 삼고, PRM이 주는 보상을 최대화하도록 RL(PPO) 수행
- 안전성 및 정성 평가
- 반복적으로 인간 검토·독성 필터링을 적용해 유해 발화와 사실 오류를 줄이고 품질을 검증
단계별 학습을 통해 작은 모델이더라도 인간 선호도, 사실성, 안전성 측면에서 대형 GPT-3를 능가하는 결과를 얻었습니다.
💡 주요 결과 & 인사이트
- 인간 선호도: 1.3B 파라미터 InstructGPT가 175B GPT-3보다 더 자주 선호되는 응답을 생성했습니다.
- 사실성·독성 감소: 사실 오류가 줄고, 독성 지수도 눈에 띄게 낮아졌습니다.
- 작은 모델의 경쟁력: 파라미터 효율적인 방법만으로 대형 모델을 능가하는 예시를 제시했습니다.
- 벤치마크 성능 유지: 일반 NLP 태스크 성능은 기존 GPT-3 대비 크게 떨어지지 않았습니다.
🪄 시사점 & 앞으로의 방향
RLHF는 거대 언어모델의 한계를 해결할 실질적 방법으로 자리 잡았습니다. 작은 모델에 적용해도 효과가 뛰어나 서비스 비용을 크게 절감할 수 있으며, 도메인 특화 시나리오에서도 인간 피드백을 반영해 사용자 맞춤형 성능을 확보할 수 있습니다. 다만 라벨링 비용과 RL 파이프라인 구축 부담이 크다는 점, 그리고 인간 평가 편향을 완전히 제거하기 어렵다는 한계가 남아 있습니다. 향후에는 자동화된 피드백 수집, 비용 효율적 보상 모델 학습, 다양한 문화·언어권을 반영한 공정한 평가 체계가 중요 과제로 떠오를 전망입니다.