'2025/04/02 글 목록

53일차 [ RLHF(강화학습)/ DPO/PPO ]

RLHF에서 자주 쓰이는 DPO vs PPO 쉽게 이해하기AI 모델을 사람이 직접 평가해서 더 똑똑하게 만드는 기술, 바로 RLHF(Reinforcement Learning from Human Feedback)!이 과정에서 자주 쓰이는 두 가지 대표적인 방법이 PPO와 DPO인데, 헷갈리기 쉬우니 아래에 비유와 함께 쉽게 정리해봤어요.🎯 비유 상황: AI는 운동선수, 당신은 코치!AI는 어떤 행동(답변)을 하고,사람은 "이게 좋아", "이건 별로야"라고 피드백을 줍니다.당신은 그 피드백을 바탕으로 AI를 더 잘 훈련시켜야 합니다.🥊 PPO (Proximal Policy Optimization)📌 비유AI가 운동을 하고 점수를 받으면, 당신은 이렇게 말해요:"이번엔 괜찮았어! 근데 다음에는 너무 다르..

SK Networks Family AI bootcamp 강의노트 2025.04.02

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

끄적끄적 인생기

2025/04/02 1

티스토리툴바