SK Networks Family AI bootcamp 강의노트
53일차 [ RLHF(강화학습)/ DPO/PPO ]
HyunJung_Jo
2025. 4. 2. 17:15
RLHF에서 자주 쓰이는 DPO vs PPO 쉽게 이해하기
AI 모델을 사람이 직접 평가해서 더 똑똑하게 만드는 기술, 바로 RLHF(Reinforcement Learning from Human Feedback)!
이 과정에서 자주 쓰이는 두 가지 대표적인 방법이 PPO와 DPO인데, 헷갈리기 쉬우니 아래에 비유와 함께 쉽게 정리해봤어요.
🎯 비유 상황: AI는 운동선수, 당신은 코치!
- AI는 어떤 행동(답변)을 하고,
- 사람은 "이게 좋아", "이건 별로야"라고 피드백을 줍니다.
- 당신은 그 피드백을 바탕으로 AI를 더 잘 훈련시켜야 합니다.
🥊 PPO (Proximal Policy Optimization)
📌 비유
AI가 운동을 하고 점수를 받으면, 당신은 이렇게 말해요:
"이번엔 괜찮았어! 근데 다음에는 너무 다르게 하지 말고, 조금씩만 개선해줘~"
- 기존 정책에서 너무 벗어나지 않도록 조심스럽게 업데이트
- 보상 모델을 먼저 학습시켜서 그걸 기반으로 강화학습 진행
- 설정할 것도 많고 훈련이 복잡하지만 정밀하게 조정 가능
🎯 DPO (Direct Preference Optimization)
📌 비유
AI가 두 가지 운동을 했고, 사람은 "나는 이게 더 좋아!"라고 선택합니다. 그러자 당신은:
"좋아! 그럼 앞으로 이 스타일을 따라 해!"
- 보상 모델 없이, 사람의 선호만 보고 직접 학습
- A vs B 중 A를 선택했다면, A를 더 잘 따라하게끔 모델을 업데이트
- 구현이 간단하고 학습도 안정적인 편
🔁 비교 요약
항목PPODPO
방식 | 보상 모델 만들고, 그것으로 RL 수행 | 선호 데이터만 보고 직접 최적화 |
보상 모델 필요? | ✅ 필요 | ❌ 불필요 |
학습 방식 | 강화학습 기반 | 지도학습 스타일에 가까움 |
비유 | “조심스럽게 더 나은 방향으로!” | “사람이 좋아한 걸 바로 따라 해!” |
복잡도 | 비교적 복잡 | 비교적 단순 |
📚 참고 Colab 노트북
유튜브 채널 영상 크롤링 & RAG
- requirements.txt
yt-dlp
pytube
pandas
jupyter