TL;DR
- สรุปประเด็นหลัก: โมเดลที่ผ่านการ fine-tune มีความแม่นยำสูงกว่าโมเดลของ OpenAI แต่การทำระบบประเมินผลนั้นทำได้ยาก
- รายละเอียดสำคัญ: ในกระบวนการ fine-tune มีโค้ดจำนวนมากที่ซ่อนอยู่และความเร็วในการรันค่อนข้างช้า หากไม่มีระบบรองรับ ความซับซ้อนในการบำรุงรักษาจะเพิ่มขึ้น
การโหลดชุดข้อมูล
- ชุดข้อมูล: ใช้ชุดข้อมูลทดสอบจากรีโพสาธารณะบน Hugging Face Hub
- โครงสร้างชุดข้อมูล: มีฟิลด์ เช่น 'name', 'eventrefnumber', 'text', 'StartDate', 'eventtype', 'province', 'citydistrict', 'village', 'targetgroup', 'commander', 'position', 'minkilled', 'mincaptured', 'capturedcharacterisation', 'killedcharacterisation', 'killq', 'captureq', 'killcaptureraid', 'airstrike', 'noshotsfired', 'dataprocessed', 'flagged', 'glossarymeta', 'minleaderskilled', 'minfacilitatorskilled', 'minleaderscaptured', 'minfacilitatorscaptured', 'leaderq' เป็นต้น
การเพิ่มผลทำนาย
- การเพิ่มผลทำนาย: เพิ่มผลการทำนายลงในแต่ละแถวของชุดข้อมูล และทำซ้ำในลักษณะวนรอบเพื่อหลีกเลี่ยงขั้นตอนที่ใช้การคำนวณสูง
- การใช้วัตถุ Pydantic: จัดโครงสร้างข้อมูลด้วยวัตถุ Pydantic เพื่อรองรับการตรวจสอบข้อมูลและการควบคุมคุณภาพ
การทดสอบความถูกต้องของ JSON
- ผลการทำนาย: ตั้งค่าให้โมเดลส่งออกเป็นสตริง JSON
- การใช้โมเดล GPT: ใช้โมเดล GPT-4o และ GPT-4 Turbo เพื่อทำการทำนาย
- ปัญหา: เปรียบเทียบได้ยากอย่างแม่นยำ เพราะโมเดล GPT ไม่ได้ถูกฝึกด้วยพรอมป์ต์เดียวกัน
การทำนายแบบอะซิงโครนัส
- การประมวลผลแบบอะซิงโครนัส: ทำการทำนายแบบอะซิงโครนัสเพื่อรองรับการประมวลผลเหตุการณ์จำนวนมาก
- ตรรกะการลองใหม่: เพิ่มตรรกะ retry โดยคำนึงถึงข้อจำกัดด้านอัตราการใช้งานของโมเดล GPT-3.5-turbo
การแปลงและพุชชุดข้อมูล
- การแปลงชุดข้อมูล: เพิ่มผลการทำนายลงในชุดข้อมูลแล้ว push ขึ้น Hugging Face Hub
- การใช้ฟังก์ชัน: ใช้ฟังก์ชันเพื่อทำกระบวนการแปลงและ push ซ้ำได้อย่างต่อเนื่อง
การเพิ่มผลทำนายจากโมเดลที่ผ่านการ fine-tune
- โมเดลภายในเครื่อง: เพิ่มผลการทำนายจากโมเดลที่ฝึกในเครื่อง
- โมเดล OpenAI: เพิ่มผลการทำนายจากโมเดลที่ฝึกด้วยบริการ fine-tune แบบคลิกเดียวของ OpenAI
- โมเดลหลากหลาย: เพิ่มผลการทำนายจากโมเดลหลายแบบ เช่น Mistral, Llama3, Solar LLM
การประเมินผลขั้นสุดท้าย
- ตัวชี้วัดการประเมิน: ใช้ตัวชี้วัดหลายแบบ เช่น การทดสอบความถูกต้องของ JSON, ความแม่นยำของวันที่เริ่มต้น, ความแม่นยำรายสัปดาห์, ความแม่นยำของกลุ่มเป้าหมาย, ความแม่นยำของประเภทเหตุการณ์ เป็นต้น
- ผลลัพธ์สุดท้าย: โมเดลที่ผ่านการ fine-tune มีความแม่นยำสูงกว่าโมเดลของ OpenAI
ความเห็นของ GN⁺
- ความสำคัญของการ fine-tune: การที่โมเดลที่ผ่านการ fine-tune มีความแม่นยำสูงกว่าโมเดลพื้นฐานของ OpenAI ชี้ให้เห็นถึงความสำคัญของโมเดลที่ปรับให้เหมาะกับงานเฉพาะทาง
- ความซับซ้อนของการประเมินผล: การทำระบบประเมินผลที่ยาก แสดงให้เห็นถึงความจำเป็นของการมีแนวทางเชิงระบบ
- การใช้โมเดลที่หลากหลาย: การนำโมเดลหลายแบบมาใช้ในการประเมินเปรียบเทียบเป็นเรื่องน่าสนใจ เพราะช่วยให้เห็นจุดแข็งและจุดอ่อนของแต่ละโมเดลได้ชัดเจน
- การใช้โอเพนซอร์ส: การใช้แพลตฟอร์มโอเพนซอร์สอย่าง Hugging Face Hub เพื่อจัดการและแชร์ชุดข้อมูลเป็นแนวทางที่มีประโยชน์
- ความจำเป็นของการประมวลผลแบบอะซิงโครนัส: แสดงให้เห็นว่าแนวทางแบบอะซิงโครนัสมีประสิทธิภาพเมื่อจัดการข้อมูลจำนวนมาก
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News