SK Networks Family AI bootcamp 강의노트

53일차 [ RLHF(강화학습)/ DPO/PPO ]

HyunJung_Jo 2025. 4. 2. 17:15

RLHF에서 자주 쓰이는 DPO vs PPO 쉽게 이해하기

AI 모델을 사람이 직접 평가해서 더 똑똑하게 만드는 기술, 바로 RLHF(Reinforcement Learning from Human Feedback)!

이 과정에서 자주 쓰이는 두 가지 대표적인 방법이 PPODPO인데, 헷갈리기 쉬우니 아래에 비유와 함께 쉽게 정리해봤어요.


🎯 비유 상황: AI는 운동선수, 당신은 코치!

  • AI는 어떤 행동(답변)을 하고,
  • 사람은 "이게 좋아", "이건 별로야"라고 피드백을 줍니다.
  • 당신은 그 피드백을 바탕으로 AI를 더 잘 훈련시켜야 합니다.

🥊 PPO (Proximal Policy Optimization)

📌 비유

AI가 운동을 하고 점수를 받으면, 당신은 이렇게 말해요:

"이번엔 괜찮았어! 근데 다음에는 너무 다르게 하지 말고, 조금씩만 개선해줘~"

  • 기존 정책에서 너무 벗어나지 않도록 조심스럽게 업데이트
  • 보상 모델을 먼저 학습시켜서 그걸 기반으로 강화학습 진행
  • 설정할 것도 많고 훈련이 복잡하지만 정밀하게 조정 가능

🎯 DPO (Direct Preference Optimization)

📌 비유

AI가 두 가지 운동을 했고, 사람은 "나는 이게 더 좋아!"라고 선택합니다. 그러자 당신은:

"좋아! 그럼 앞으로 이 스타일을 따라 해!"

  • 보상 모델 없이, 사람의 선호만 보고 직접 학습
  • A vs B 중 A를 선택했다면, A를 더 잘 따라하게끔 모델을 업데이트
  • 구현이 간단하고 학습도 안정적인 편

🔁 비교 요약

항목PPODPO
방식 보상 모델 만들고, 그것으로 RL 수행 선호 데이터만 보고 직접 최적화
보상 모델 필요? ✅ 필요 ❌ 불필요
학습 방식 강화학습 기반 지도학습 스타일에 가까움
비유 “조심스럽게 더 나은 방향으로!” “사람이 좋아한 걸 바로 따라 해!”
복잡도 비교적 복잡 비교적 단순

📚 참고 Colab 노트북


유튜브 채널 영상 크롤링 & RAG

  • requirements.txt
yt-dlp
pytube
pandas
jupyter