แทนที่ GPT-3.5/4 ด้วย Llama 2 ที่ไฟน์จูนเอง
(news.ycombinator.com)- เมื่อไฟน์จูน Llama 2 7B ในตัวอย่างการจัดหมวดหมู่สูตรอาหาร ผลลัพธ์บนชุดทดสอบ ตรงกับป้ายกำกับของ GPT-4 ถึง 95%
- การไฟน์จูนคือการสอนวิธีทำงานที่ต้องการให้กับ ค่าน้ำหนักของโมเดล ผ่านตัวอย่างอินพุต/เอาต์พุต แม้ใช้ตัวอย่างเพียง 50 รายการก็ทำได้ แต่โดยทั่วไปควรตั้งเป้าไว้ที่ 1,000 รายการขึ้นไป
- พรอมป์เหมาะกับการปรับปรุงซ้ำอย่างรวดเร็วและการดูแลโมเดลขนาดใหญ่ตัวเดียว แต่การไฟน์จูนสามารถปรับให้แม้แต่โมเดลขนาดเล็กก็เก่งกับงานเฉพาะได้
- Llama 7B ที่ไฟน์จูนแล้วมีต้นทุนต่อโทเคน ถูกกว่า GPT-3.5 ถึง 50 เท่า ดังนั้นในงานที่มีขอบเขตแคบพอ ประสิทธิภาพต่อค่าใช้จ่ายอาจดีขึ้นมาก
- ค่าใช้จ่ายในการจัดหมวดหมู่สูตรอาหาร 2 ล้านรายการคือ 23,000 ดอลลาร์สำหรับ GPT-4 และมากกว่า 1,000 ดอลลาร์สำหรับ GPT-3.5 ขณะที่โมเดลที่ไฟน์จูนนี้ประมวลผลชุดข้อมูลทั้งหมดได้ในราคา 19 ดอลลาร์
จุดที่การไฟน์จูนต่างจากพรอมป์
- ท่ามกลางความสนใจที่เพิ่มขึ้นบน Hacker News ต่อการไฟน์จูน LLM แบบเปิด ได้มีการเผยแพร่ชุดโน้ตบุ๊กสำหรับตัวอย่างการจัดหมวดหมู่สูตรอาหาร
- โน้ตบุ๊กอยู่ที่ ตัวอย่าง OpenPipe ครอบคลุม การติดป้ายกำกับข้อมูล, การไฟน์จูน, การรัน inference อย่างมีประสิทธิภาพ และการประเมินต้นทุน/ประสิทธิภาพ
- การไฟน์จูนสามารถมองได้ว่าเป็นรูปแบบการสั่งงานที่เข้มข้นกว่าการใช้พรอมป์
- แทนที่จะใส่คำสั่งเป็นข้อความในพรอมป์ทุกครั้ง จะสอนวิธีทำงานให้กับ ตัวโมเดลเอง ด้วยคู่ตัวอย่างอินพุต/เอาต์พุต
- แม้ใช้ตัวอย่างเพียง 50 รายการก็อาจทำงานได้ แต่หากเป็นไปได้จะนิยมเตรียมไว้ 1,000 รายการขึ้นไป
- พรอมป์ยังคงมีข้อดีมากในการใช้งานจริงและการทดลอง
- สามารถปรับปรุงคำสั่งซ้ำได้ง่ายและรวดเร็วกว่าการติดป้ายกำกับและฝึกใหม่
- ในเชิงปฏิบัติ การดีพลอยโมเดลขนาดใหญ่ตัวเดียวแล้วปรับเพียงพฤติกรรม มักง่ายกว่าการดีพลอยโมเดลขนาดเล็กที่ไฟน์จูนหลายตัว
- โมเดลขนาดเล็กที่ไฟน์จูนแต่ละตัวอาจมีอัตราการใช้งานต่ำ
ตัวอย่างต้นทุน·ประสิทธิภาพและ OpenPipe
- ข้อได้เปรียบที่ใหญ่ที่สุดของการไฟน์จูนคือสามารถชี้นำพฤติกรรมของโมเดลได้มีประสิทธิภาพกว่า จึงใช้ โมเดลขนาดเล็ก ได้
- โมเดลขนาดเล็กช่วยเพิ่มความเร็วในการตอบสนองและลดต้นทุน inference ได้
- โมเดล Llama 7B ที่ไฟน์จูนแล้วมีต้นทุนต่อโทเคน ถูกกว่า GPT-3.5 ถึง 50 เท่า
- ตัวอย่างการจัดหมวดหมู่สูตรอาหารเปรียบเทียบต้นทุนกับสูตรอาหาร 2 ล้านรายการใน ชุดข้อมูล all-recipes
- หากจัดหมวดหมู่ด้วย GPT-4 จะมีค่าใช้จ่าย 23,000 ดอลลาร์
- แม้ใช้ GPT-3.5 ก็มีค่าใช้จ่าย มากกว่า 1,000 ดอลลาร์
- โมเดลที่ไฟน์จูนแล้วให้ประสิทธิภาพใกล้เคียง GPT-4 และมีค่าใช้จ่ายในการรันกับชุดข้อมูลทั้งหมดเพียง 19 ดอลลาร์
- บนชุดทดสอบ โมเดล 7B ที่ฝึกแล้ว ตรงกับป้ายกำกับของ GPT-4 ถึง 95%
- กรณีที่ไม่ตรงกัน 5% มักเป็นกรณีที่คำตอบจริง ๆ แล้วกำกวม
- OpenPipe เป็น ผลิตภัณฑ์โอเพนซอร์ส ที่ช่วยให้นักพัฒนานำการไฟน์จูนมาใช้ได้ง่ายขึ้น
- โปรเจกต์เปิดเผยอยู่ใน ที่เก็บ OpenPipe บน GitHub
- ข้อมูลเกี่ยวกับการไฟน์จูนที่ให้ไว้นี้ไม่ได้ขึ้นอยู่กับผลิตภัณฑ์ OpenPipe
1 ความคิดเห็น
ความคิดเห็นบน Hacker News