• ทำให้การปรับจูนแบบละเอียดของเอเจนต์ที่อิงกับ LLM ผ่านการเรียนรู้แบบเสริมกำลัง (RL) เป็นเรื่องง่ายขึ้น
  • ขณะนี้ LlamaGym มีคลาสนามธรรม Agent เพียงคลาสเดียว ที่ช่วยให้สามารถทำซ้ำและทดลองพรอมป์ต์ของเอเจนต์และไฮเปอร์พารามิเตอร์ในสภาพแวดล้อม Gym ได้อย่างรวดเร็ว
  • ผู้ใช้สามารถนิยามเอเจนต์ที่อิงกับ LLM ของตนเองได้ โดยติดตั้งเมธอดนามธรรม 3 รายการในคลาส Agent

วิธีใช้งาน

  • หลังจากติดตั้ง LlamaGym แล้ว ให้สร้างเอเจนต์ผู้เล่นแบล็กแจ็กโดยติดตั้งเมธอดนามธรรม 3 รายการในคลาส Agent
  • กำหนด LLM พื้นฐานและสร้างอินสแตนซ์ของเอเจนต์ จากนั้นเขียนลูป RL เพื่อให้เอเจนต์ลงมือทำ รับรางวัล และจบเอพิโสด
  • การเรียนรู้ออนไลน์ผ่านการเรียนรู้แบบเสริมกำลังเป็นส่วนที่ยาก จึงต้องมีการปรับไฮเปอร์พารามิเตอร์ และขั้นตอนการปรับจูนแบบมีผู้สอนอาจช่วยได้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น