LLM 평가지표https://colab.research.google.com/drive/18ncb5Q_2Hp7cxVzMjRLMRxsE8xEZya9j Google Colab NotebookRun, share, and edit Python notebookscolab.research.google.com semscore, bertscore 정도가 낫다.bleu, rouge 점수는 사람이 매긴 점수와 유사성/상관관계가 없다 .현실적으로는 semscore, bertscore + 사람이 직접 평가요즘 트렌드는 각자의 모델에 맞는 평가지표 만들어서 쓴다. 아직은 llm이 미완성 단계라고 보고 지속적으로 평가지수에 대해 알아Langchain prompthttps://colab.research.google.com/drive..