3 คะแนน โดย GN⁺ 2023-09-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ใน HN ความสนใจต่อการปรับแต่งอย่างละเอียดของโอเพนซอร์ส LLM เพิ่มขึ้นอย่างมาก (เช่น โพสต์ของ Anyscale)
  • แชร์ประสบการณ์หลายปีเกี่ยวกับการปรับแต่งโมเดล ข้อสังเกตเชิงลึก และโค้ดที่นำไปใช้ได้จริง
  • มีชุดโน้ตบุ๊กที่ครอบคลุมการติดป้ายกำกับข้อมูล การปรับแต่งอย่างละเอียด การรัน inference อย่างมีประสิทธิภาพ และการประเมินต้นทุน/ประสิทธิภาพ
  • ฝึกโมเดล 7B ที่ให้ฉลากตรงกับ GPT-4 ได้ 95% บนชุดทดสอบ
  • การปรับแต่งอย่างละเอียดคืออะไร? เป็นรูปแบบของการ prompting ที่ทรงพลังกว่าการเขียนคำสั่งเป็นข้อความ
  • ฝึกโมเดลเดิมด้วยคู่ตัวอย่างอินพุต/เอาต์พุตเพื่อให้เรียนรู้สำหรับโมเดลที่ผ่านการปรับแต่งอย่างละเอียด
  • ข้อดีและข้อเสียของ prompting และการปรับแต่งอย่างละเอียด
  • ข้อได้เปรียบสำคัญของการปรับแต่งอย่างละเอียด: มีประสิทธิภาพมากกว่ามากในการกำหนดพฤติกรรมของโมเดล จึงทำงานได้เพียงพอแม้ใช้โมเดลที่เล็กกว่ามาก
  • โมเดล Llama 7B ที่ผ่านการปรับแต่งอย่างละเอียดมีต้นทุนต่อโทเคนถูกกว่า GPT-3.5 ถึง 50 เท่า และให้ผลลัพธ์เทียบเท่าหรือดีกว่าในหลายกรณีการใช้งาน
  • ตัวอย่าง: การจัดหมวดหมู่สูตรอาหาร 2M รายการด้วย GPT-4 มีค่าใช้จ่าย $23k แต่โมเดลที่เราปรับแต่งอย่างละเอียดให้ประสิทธิภาพใกล้เคียง GPT-4 และใช้เงินเพียง $19 ในการรันทั้งชุดข้อมูล
  • กำลังพัฒนาผลิตภัณฑ์โอเพนซอร์สชื่อ OpenPipe
  • ผลิตภัณฑ์ OpenPipe ช่วยให้วิศวกรนำการปรับแต่งอย่างละเอียดไปใช้ได้ง่ายที่สุดเท่าที่จะเป็นไปได้
  • โพสต์นี้จัดทำขึ้นเพื่อแบ่งปันสิ่งที่ได้เรียนรู้เกี่ยวกับการปรับแต่งอย่างละเอียด

1 ความคิดเห็น

 
GN⁺ 2023-09-13
ความคิดเห็นบน Hacker News
  • บทความเกี่ยวกับการใช้การปรับจูนละเอียดโมเดล Llama 2 ในฐานะทางเลือกแทน GPT-3.5/4
  • ผู้ใช้บางรายพบว่าสำหรับงานแปล GPT-3.5 ถูกกว่า Llama 2 ถึง 100 เท่า โดย Llama 7B ให้ผลการแปลที่แย่
  • มีการคาดเดาเกี่ยวกับกลยุทธ์ด้านราคาที่ดุดันของ OpenAI สำหรับ GPT-3.5 ว่าเป็นความพยายามกระตุ้นให้ผู้อื่นพึ่งพาโมเดลของพวกเขามากกว่าผู้ให้บริการรายอื่น
  • มีการพูดคุยถึงความเป็นไปได้ในการนำเอาผลลัพธ์จาก GPT และ LLM อื่น ๆ มาใช้ฝึกโมเดลทดแทนภายในองค์กร ซึ่งอาจเป็นทางออกที่คุ้มค่าด้านต้นทุนสำหรับผู้ที่ใช้งาน API มาตรฐานในระดับการผลิต
  • มีการตั้งข้อสงสัยต่อคำกล่าวอ้างว่าโมเดล Llama 7B ที่ผ่านการปรับจูนละเอียดมีต้นทุนถูกกว่า GPT-3.5 ถึง 50 เท่า โดยผู้ใช้บางรายเสนอว่าสิ่งนี้จะทำได้ก็ต่อเมื่อโฮสต์เองเท่านั้น
  • มีการตั้งคำถามถึงประสิทธิผลของการปรับจูนละเอียดเมื่อเทียบกับ low-rank adaptation
  • ผู้ใช้บางรายมองว่าการเปรียบเทียบระหว่างโมเดล Llama ที่ผ่านการปรับจูนละเอียดกับ GPT-3.5 ชวนให้เข้าใจผิด โดยอ้างถึงปัญหาเรื่องการทำเวลาแฝงในการอนุมานให้เหมาะสมและการขยายระบบ
  • คุณภาพของโมเดล Llama 2 ที่ผ่านการปรับจูนละเอียดไม่ได้เหนือกว่า ChatGPT เสมอไป และการปรับจูนละเอียดยังต้องการชุดข้อมูลคุณภาพสูงซึ่งสร้างได้ไม่ง่าย
  • มีการตั้งคำถามถึงความสม่ำเสมอและอัตราความผิดพลาดของ GPT function calling
  • ผู้ใช้สงสัยว่าโอเพนซอร์ส LLM ตัวใดดีที่สุดสำหรับการปรับจูนโมเดลของตนเอง
  • มีการขอความชัดเจนว่าชุดข้อมูลสำหรับการปรับจูนละเอียดควรเป็นคู่ข้อมูลอินพุต/เอาต์พุต หรือสามารถเป็นแบบ autoregressive ได้
  • ผู้ใช้สนใจแหล่งข้อมูลสำหรับเรียนรู้วิธีปรับจูนโมเดลเหล่านี้ โดยเฉพาะสำหรับผู้เริ่มต้น
  • บทความนี้ถูกมองว่าเป็นแหล่งข้อมูลที่มีคุณค่าสำหรับผู้ที่เริ่มต้นในสาย ML/LLM