- ทำให้การปรับจูนแบบละเอียดของเอเจนต์ที่อิงกับ LLM ผ่านการเรียนรู้แบบเสริมกำลัง (RL) เป็นเรื่องง่ายขึ้น
- ขณะนี้ LlamaGym มีคลาสนามธรรม
Agent เพียงคลาสเดียว ที่ช่วยให้สามารถทำซ้ำและทดลองพรอมป์ต์ของเอเจนต์และไฮเปอร์พารามิเตอร์ในสภาพแวดล้อม Gym ได้อย่างรวดเร็ว
- ผู้ใช้สามารถนิยามเอเจนต์ที่อิงกับ LLM ของตนเองได้ โดยติดตั้งเมธอดนามธรรม 3 รายการในคลาส
Agent
วิธีใช้งาน
- หลังจากติดตั้ง LlamaGym แล้ว ให้สร้างเอเจนต์ผู้เล่นแบล็กแจ็กโดยติดตั้งเมธอดนามธรรม 3 รายการในคลาส
Agent
- กำหนด LLM พื้นฐานและสร้างอินสแตนซ์ของเอเจนต์ จากนั้นเขียนลูป RL เพื่อให้เอเจนต์ลงมือทำ รับรางวัล และจบเอพิโสด
- การเรียนรู้ออนไลน์ผ่านการเรียนรู้แบบเสริมกำลังเป็นส่วนที่ยาก จึงต้องมีการปรับไฮเปอร์พารามิเตอร์ และขั้นตอนการปรับจูนแบบมีผู้สอนอาจช่วยได้
ยังไม่มีความคิดเห็น