SK Networks Family AI bootcamp 강의노트

53일차 [ RLHF(강화학습)/ DPO/PPO ]

HyunJung_Jo 2025. 4. 2. 17:15

RLHF에서 자주 쓰이는 DPO vs PPO 쉽게 이해하기

AI 모델을 사람이 직접 평가해서 더 똑똑하게 만드는 기술, 바로 RLHF(Reinforcement Learning from Human Feedback)!

이 과정에서 자주 쓰이는 두 가지 대표적인 방법이 PPO와 DPO인데, 헷갈리기 쉬우니 아래에 비유와 함께 쉽게 정리해봤어요.

🎯 비유 상황: AI는 운동선수, 당신은 코치!

AI는 어떤 행동(답변)을 하고,
사람은 "이게 좋아", "이건 별로야"라고 피드백을 줍니다.
당신은 그 피드백을 바탕으로 AI를 더 잘 훈련시켜야 합니다.

🥊 PPO (Proximal Policy Optimization)

📌 비유

AI가 운동을 하고 점수를 받으면, 당신은 이렇게 말해요:

"이번엔 괜찮았어! 근데 다음에는 너무 다르게 하지 말고, 조금씩만 개선해줘~"

기존 정책에서 너무 벗어나지 않도록 조심스럽게 업데이트
보상 모델을 먼저 학습시켜서 그걸 기반으로 강화학습 진행
설정할 것도 많고 훈련이 복잡하지만 정밀하게 조정 가능

🎯 DPO (Direct Preference Optimization)

📌 비유

AI가 두 가지 운동을 했고, 사람은 "나는 이게 더 좋아!"라고 선택합니다. 그러자 당신은:

"좋아! 그럼 앞으로 이 스타일을 따라 해!"

보상 모델 없이, 사람의 선호만 보고 직접 학습
A vs B 중 A를 선택했다면, A를 더 잘 따라하게끔 모델을 업데이트
구현이 간단하고 학습도 안정적인 편

🔁 비교 요약

항목PPODPO

방식	보상 모델 만들고, 그것으로 RL 수행	선호 데이터만 보고 직접 최적화
보상 모델 필요?	✅ 필요	❌ 불필요
학습 방식	강화학습 기반	지도학습 스타일에 가까움
비유	“조심스럽게 더 나은 방향으로!”	“사람이 좋아한 걸 바로 따라 해!”
복잡도	비교적 복잡	비교적 단순

📚 참고 Colab 노트북

유튜브 채널 영상 크롤링 & RAG

requirements.txt

yt-dlp
pytube
pandas
jupyter

유튜브 영상 수집
https://github.com/Jenny-Jo/llm_study_jenny/tree/feature/etl-development