RLHF에서 자주 쓰이는 DPO vs PPO 쉽게 이해하기AI 모델을 사람이 직접 평가해서 더 똑똑하게 만드는 기술, 바로 RLHF(Reinforcement Learning from Human Feedback)!이 과정에서 자주 쓰이는 두 가지 대표적인 방법이 PPO와 DPO인데, 헷갈리기 쉬우니 아래에 비유와 함께 쉽게 정리해봤어요.🎯 비유 상황: AI는 운동선수, 당신은 코치!AI는 어떤 행동(답변)을 하고,사람은 "이게 좋아", "이건 별로야"라고 피드백을 줍니다.당신은 그 피드백을 바탕으로 AI를 더 잘 훈련시켜야 합니다.🥊 PPO (Proximal Policy Optimization)📌 비유AI가 운동을 하고 점수를 받으면, 당신은 이렇게 말해요:"이번엔 괜찮았어! 근데 다음에는 너무 다르..