54일차 [ LLM 평가지표/Langchain Prompt/ Fine-Tuning 실습 ]

SK Networks Family AI bootcamp 강의노트

54일차 [ LLM 평가지표/Langchain Prompt/ Fine-Tuning 실습 ]

HyunJung_Jo 2025. 4. 3. 18:38

LLM 평가지표

https://colab.research.google.com/drive/18ncb5Q_2Hp7cxVzMjRLMRxsE8xEZya9j

Google Colab Notebook

Run, share, and edit Python notebooks

colab.research.google.com

semscore, bertscore 정도가 낫다.
bleu, rouge 점수는 사람이 매긴 점수와 유사성/상관관계가 없다 .
현실적으로는 semscore, bertscore + 사람이 직접 평가
요즘 트렌드는 각자의 모델에 맞는 평가지표 만들어서 쓴다.
아직은 llm이 미완성 단계라고 보고 지속적으로 평가지수에 대해 알아

Langchain prompt

https://colab.research.google.com/drive/18VEFd6NlgtQpc6IfG4VXXn5wyAzO_qyU

Google Colab Notebook

Run, share, and edit Python notebooks

colab.research.google.com

https://colab.research.google.com/drive/1tlhWw7IDQ5Io1XZKHQzRJ8cpiHLZgLWY#scrollTo=beARkQjPboM3
ChatPrompt Template : role, message 정의
tuple형태의 메시지도 가능함.

Google Colab Notebook

Run, share, and edit Python notebooks

colab.research.google.com

youtube 영상 캡션 따서 데이터셋 만들고 finetuning하기

프롬프트 + 캡션 + eos 토큰 으로 다시 구성해서 데이터 셋 만들기
finetuning
- sftt (supervised fine-tuning trainer)
- runpod에서 RTX A5000, 50 GB Disk, 50 GB Pod Volume 생성
- hf_token, hf repo_id , 모델명 등을 수정

https://drive.google.com/file/d/1jLmTfdgOautwlPq_TGnSorACmMFDGTyI/view?usp=drive_link