1 คะแนน โดย GN⁺ 2024-07-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

TL;DR

  • สรุปประเด็นหลัก: โมเดลที่ผ่านการ fine-tune มีความแม่นยำสูงกว่าโมเดลของ OpenAI แต่การทำระบบประเมินผลนั้นทำได้ยาก
  • รายละเอียดสำคัญ: ในกระบวนการ fine-tune มีโค้ดจำนวนมากที่ซ่อนอยู่และความเร็วในการรันค่อนข้างช้า หากไม่มีระบบรองรับ ความซับซ้อนในการบำรุงรักษาจะเพิ่มขึ้น

การโหลดชุดข้อมูล

  • ชุดข้อมูล: ใช้ชุดข้อมูลทดสอบจากรีโพสาธารณะบน Hugging Face Hub
  • โครงสร้างชุดข้อมูล: มีฟิลด์ เช่น 'name', 'eventrefnumber', 'text', 'StartDate', 'eventtype', 'province', 'citydistrict', 'village', 'targetgroup', 'commander', 'position', 'minkilled', 'mincaptured', 'capturedcharacterisation', 'killedcharacterisation', 'killq', 'captureq', 'killcaptureraid', 'airstrike', 'noshotsfired', 'dataprocessed', 'flagged', 'glossarymeta', 'minleaderskilled', 'minfacilitatorskilled', 'minleaderscaptured', 'minfacilitatorscaptured', 'leaderq' เป็นต้น

การเพิ่มผลทำนาย

  • การเพิ่มผลทำนาย: เพิ่มผลการทำนายลงในแต่ละแถวของชุดข้อมูล และทำซ้ำในลักษณะวนรอบเพื่อหลีกเลี่ยงขั้นตอนที่ใช้การคำนวณสูง
  • การใช้วัตถุ Pydantic: จัดโครงสร้างข้อมูลด้วยวัตถุ Pydantic เพื่อรองรับการตรวจสอบข้อมูลและการควบคุมคุณภาพ

การทดสอบความถูกต้องของ JSON

  • ผลการทำนาย: ตั้งค่าให้โมเดลส่งออกเป็นสตริง JSON
  • การใช้โมเดล GPT: ใช้โมเดล GPT-4o และ GPT-4 Turbo เพื่อทำการทำนาย
  • ปัญหา: เปรียบเทียบได้ยากอย่างแม่นยำ เพราะโมเดล GPT ไม่ได้ถูกฝึกด้วยพรอมป์ต์เดียวกัน

การทำนายแบบอะซิงโครนัส

  • การประมวลผลแบบอะซิงโครนัส: ทำการทำนายแบบอะซิงโครนัสเพื่อรองรับการประมวลผลเหตุการณ์จำนวนมาก
  • ตรรกะการลองใหม่: เพิ่มตรรกะ retry โดยคำนึงถึงข้อจำกัดด้านอัตราการใช้งานของโมเดล GPT-3.5-turbo

การแปลงและพุชชุดข้อมูล

  • การแปลงชุดข้อมูล: เพิ่มผลการทำนายลงในชุดข้อมูลแล้ว push ขึ้น Hugging Face Hub
  • การใช้ฟังก์ชัน: ใช้ฟังก์ชันเพื่อทำกระบวนการแปลงและ push ซ้ำได้อย่างต่อเนื่อง

การเพิ่มผลทำนายจากโมเดลที่ผ่านการ fine-tune

  • โมเดลภายในเครื่อง: เพิ่มผลการทำนายจากโมเดลที่ฝึกในเครื่อง
  • โมเดล OpenAI: เพิ่มผลการทำนายจากโมเดลที่ฝึกด้วยบริการ fine-tune แบบคลิกเดียวของ OpenAI
  • โมเดลหลากหลาย: เพิ่มผลการทำนายจากโมเดลหลายแบบ เช่น Mistral, Llama3, Solar LLM

การประเมินผลขั้นสุดท้าย

  • ตัวชี้วัดการประเมิน: ใช้ตัวชี้วัดหลายแบบ เช่น การทดสอบความถูกต้องของ JSON, ความแม่นยำของวันที่เริ่มต้น, ความแม่นยำรายสัปดาห์, ความแม่นยำของกลุ่มเป้าหมาย, ความแม่นยำของประเภทเหตุการณ์ เป็นต้น
  • ผลลัพธ์สุดท้าย: โมเดลที่ผ่านการ fine-tune มีความแม่นยำสูงกว่าโมเดลของ OpenAI

ความเห็นของ GN⁺

  1. ความสำคัญของการ fine-tune: การที่โมเดลที่ผ่านการ fine-tune มีความแม่นยำสูงกว่าโมเดลพื้นฐานของ OpenAI ชี้ให้เห็นถึงความสำคัญของโมเดลที่ปรับให้เหมาะกับงานเฉพาะทาง
  2. ความซับซ้อนของการประเมินผล: การทำระบบประเมินผลที่ยาก แสดงให้เห็นถึงความจำเป็นของการมีแนวทางเชิงระบบ
  3. การใช้โมเดลที่หลากหลาย: การนำโมเดลหลายแบบมาใช้ในการประเมินเปรียบเทียบเป็นเรื่องน่าสนใจ เพราะช่วยให้เห็นจุดแข็งและจุดอ่อนของแต่ละโมเดลได้ชัดเจน
  4. การใช้โอเพนซอร์ส: การใช้แพลตฟอร์มโอเพนซอร์สอย่าง Hugging Face Hub เพื่อจัดการและแชร์ชุดข้อมูลเป็นแนวทางที่มีประโยชน์
  5. ความจำเป็นของการประมวลผลแบบอะซิงโครนัส: แสดงให้เห็นว่าแนวทางแบบอะซิงโครนัสมีประสิทธิภาพเมื่อจัดการข้อมูลจำนวนมาก

1 ความคิดเห็น

 
GN⁺ 2024-07-02
ความคิดเห็นจาก Hacker News
  • ผู้ก่อตั้ง OpenPipe: การดึงข้อมูลเป็นด้านที่โมเดลที่ผ่านการ fine-tune ทำได้ดีมาก ตามงานวิจัยของ OpenPipe โมเดล Llama 3 8B เหนือกว่า GPT-4 ในหลายงาน ประเด็นสำคัญคือวิธีสร้างข้อมูลฝึกคุณภาพสูง
  • โมเดลเฉพาะทางขนาดเล็กให้ประสิทธิภาพดีกว่าในการดึงข้อมูลและการจัดประเภทข้อความ อยากเห็นงานวิจัยที่รวมประสิทธิภาพของโมเดลขนาดเล็กด้วย
  • สมการของระบบที่ไม่ได้กำหนดแน่ชัดมีคำตอบได้ไม่จำกัด สามารถใช้โมเดล AI โอเพนซอร์สเพื่อเอาชนะ benchmark ระดับ SOTA ได้ ด้วยเทคโนโลยีปัจจุบันยังไม่สามารถสร้างระบบอัจฉริยะได้ และจำเป็นต้องมีการค้นพบครั้งใหม่
  • การดึงและจัดโครงสร้างข้อมูลเป็นการประยุกต์ใช้ LLM อย่างจริงจังเพียงอย่างเดียวที่มีประโยชน์ในงานจริง โมเดลขนาดเล็กเร็วกว่า ถูกกว่า และเหมาะกับงานออฟไลน์ สามารถทดลองและทำ fine-tune แบบเฉพาะทางได้มากกว่า
  • นี่คือจุดประสงค์ของโมเดลที่ผ่านการ fine-tune อยู่แล้ว ยินดีที่ได้เห็นกระบวนการ fine-tune ที่ผสมผสานทั้งตัวเลือกแบบโฮสต์และแบบโลคัล
  • อยากเห็นตัวอย่างที่ GPT-4 ให้ข้อมูลไม่ถูกต้อง และตัวอย่างที่โมเดลที่ดีที่สุดให้คำตอบถูกต้อง การลองใหม่ด้วยอุณหภูมิ 0 ก็น่าจะดีด้วย อุณหภูมิ 0 อาจสร้างความแตกต่างอย่างมากในการดึงข้อมูลแบบมีโครงสร้าง
  • เคยเขียนบทความวิชาการเกี่ยวกับหัวข้อคล้ายกัน: ลิงก์บทความ
  • ได้ทำการทดลอง fine-tune มากกว่า 700 ครั้งบน Predibase และเปรียบเทียบกับ GPT-4 พบว่าใน 85% ของกรณีสามารถทำได้ดีกว่า GPT-4 ดูผลลัพธ์ได้ที่นี่
  • ควรทำให้ทุกโมเดลเป็นโอเพนซอร์สให้มากที่สุดเท่าที่เป็นไปได้ เพื่ออิสรภาพและคุณภาพแล้ว โอเพนซอร์สมักดีกว่าโดยทั่วไป
  • เนื้อหาที่อาจก่อให้เกิดข้อถกเถียงในข่าวต้นทางอาจส่งผลต่อความสามารถในการสรุปของ ChatGPT