DeepEval - การทดสอบยูนิตสำหรับ LLM
(github.com/mr-gpt)- ปรัชญาพื้นฐานคือ "Pytest for LLM"
- เพื่อใช้งานจริงในโปรดักชัน มอบวิธีการแบบ Pythonic สำหรับรันการประเมินแบบออฟไลน์กับไปป์ไลน์ LLM
- สามารถเขียนการทดสอบสำหรับแอปพลิเคชัน LLM (เช่น RAG) ได้เหมือนกับการเขียน Python unit test
- ประเมินคำตอบด้วยเมตริกอย่าง entailment / exact / bertscore ผ่าน
assert_llm_output - สามารถกำหนดเมตริกแบบกำหนดเองและแก้ไขเมตริกที่มีอยู่ได้
ยังไม่มีความคิดเห็น