แทนที่ GPT-3.5/4 ด้วย Llama 2 ที่ไฟน์จูนเอง

(news.ycombinator.com)

3 คะแนน โดย GN⁺ 2023-09-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อไฟน์จูน Llama 2 7B ในตัวอย่างการจัดหมวดหมู่สูตรอาหาร ผลลัพธ์บนชุดทดสอบ ตรงกับป้ายกำกับของ GPT-4 ถึง 95%
การไฟน์จูนคือการสอนวิธีทำงานที่ต้องการให้กับ ค่าน้ำหนักของโมเดล ผ่านตัวอย่างอินพุต/เอาต์พุต แม้ใช้ตัวอย่างเพียง 50 รายการก็ทำได้ แต่โดยทั่วไปควรตั้งเป้าไว้ที่ 1,000 รายการขึ้นไป
พรอมป์เหมาะกับการปรับปรุงซ้ำอย่างรวดเร็วและการดูแลโมเดลขนาดใหญ่ตัวเดียว แต่การไฟน์จูนสามารถปรับให้แม้แต่โมเดลขนาดเล็กก็เก่งกับงานเฉพาะได้
Llama 7B ที่ไฟน์จูนแล้วมีต้นทุนต่อโทเคน ถูกกว่า GPT-3.5 ถึง 50 เท่า ดังนั้นในงานที่มีขอบเขตแคบพอ ประสิทธิภาพต่อค่าใช้จ่ายอาจดีขึ้นมาก
ค่าใช้จ่ายในการจัดหมวดหมู่สูตรอาหาร 2 ล้านรายการคือ 23,000 ดอลลาร์สำหรับ GPT-4 และมากกว่า 1,000 ดอลลาร์สำหรับ GPT-3.5 ขณะที่โมเดลที่ไฟน์จูนนี้ประมวลผลชุดข้อมูลทั้งหมดได้ในราคา 19 ดอลลาร์

จุดที่การไฟน์จูนต่างจากพรอมป์

ท่ามกลางความสนใจที่เพิ่มขึ้นบน Hacker News ต่อการไฟน์จูน LLM แบบเปิด ได้มีการเผยแพร่ชุดโน้ตบุ๊กสำหรับตัวอย่างการจัดหมวดหมู่สูตรอาหาร
- โน้ตบุ๊กอยู่ที่ ตัวอย่าง OpenPipe ครอบคลุม การติดป้ายกำกับข้อมูล, การไฟน์จูน, การรัน inference อย่างมีประสิทธิภาพ และการประเมินต้นทุน/ประสิทธิภาพ
การไฟน์จูนสามารถมองได้ว่าเป็นรูปแบบการสั่งงานที่เข้มข้นกว่าการใช้พรอมป์
- แทนที่จะใส่คำสั่งเป็นข้อความในพรอมป์ทุกครั้ง จะสอนวิธีทำงานให้กับ ตัวโมเดลเอง ด้วยคู่ตัวอย่างอินพุต/เอาต์พุต
- แม้ใช้ตัวอย่างเพียง 50 รายการก็อาจทำงานได้ แต่หากเป็นไปได้จะนิยมเตรียมไว้ 1,000 รายการขึ้นไป
พรอมป์ยังคงมีข้อดีมากในการใช้งานจริงและการทดลอง
- สามารถปรับปรุงคำสั่งซ้ำได้ง่ายและรวดเร็วกว่าการติดป้ายกำกับและฝึกใหม่
- ในเชิงปฏิบัติ การดีพลอยโมเดลขนาดใหญ่ตัวเดียวแล้วปรับเพียงพฤติกรรม มักง่ายกว่าการดีพลอยโมเดลขนาดเล็กที่ไฟน์จูนหลายตัว
- โมเดลขนาดเล็กที่ไฟน์จูนแต่ละตัวอาจมีอัตราการใช้งานต่ำ

ตัวอย่างต้นทุน·ประสิทธิภาพและ OpenPipe

ข้อได้เปรียบที่ใหญ่ที่สุดของการไฟน์จูนคือสามารถชี้นำพฤติกรรมของโมเดลได้มีประสิทธิภาพกว่า จึงใช้ โมเดลขนาดเล็ก ได้
- โมเดลขนาดเล็กช่วยเพิ่มความเร็วในการตอบสนองและลดต้นทุน inference ได้
- โมเดล Llama 7B ที่ไฟน์จูนแล้วมีต้นทุนต่อโทเคน ถูกกว่า GPT-3.5 ถึง 50 เท่า
ตัวอย่างการจัดหมวดหมู่สูตรอาหารเปรียบเทียบต้นทุนกับสูตรอาหาร 2 ล้านรายการใน ชุดข้อมูล all-recipes
- หากจัดหมวดหมู่ด้วย GPT-4 จะมีค่าใช้จ่าย 23,000 ดอลลาร์
- แม้ใช้ GPT-3.5 ก็มีค่าใช้จ่าย มากกว่า 1,000 ดอลลาร์
- โมเดลที่ไฟน์จูนแล้วให้ประสิทธิภาพใกล้เคียง GPT-4 และมีค่าใช้จ่ายในการรันกับชุดข้อมูลทั้งหมดเพียง 19 ดอลลาร์
บนชุดทดสอบ โมเดล 7B ที่ฝึกแล้ว ตรงกับป้ายกำกับของ GPT-4 ถึง 95%
- กรณีที่ไม่ตรงกัน 5% มักเป็นกรณีที่คำตอบจริง ๆ แล้วกำกวม
OpenPipe เป็น ผลิตภัณฑ์โอเพนซอร์ส ที่ช่วยให้นักพัฒนานำการไฟน์จูนมาใช้ได้ง่ายขึ้น
- โปรเจกต์เปิดเผยอยู่ใน ที่เก็บ OpenPipe บน GitHub
- ข้อมูลเกี่ยวกับการไฟน์จูนที่ให้ไว้นี้ไม่ได้ขึ้นอยู่กับผลิตภัณฑ์ OpenPipe

1 ความคิดเห็น

GN⁺ 2023-09-13

ความคิดเห็นบน Hacker News

บทความเกี่ยวกับการใช้การปรับจูนละเอียดโมเดล Llama 2 ในฐานะทางเลือกแทน GPT-3.5/4
ผู้ใช้บางรายพบว่าสำหรับงานแปล GPT-3.5 ถูกกว่า Llama 2 ถึง 100 เท่า โดย Llama 7B ให้ผลการแปลที่แย่
มีการคาดเดาเกี่ยวกับกลยุทธ์ด้านราคาที่ดุดันของ OpenAI สำหรับ GPT-3.5 ว่าเป็นความพยายามกระตุ้นให้ผู้อื่นพึ่งพาโมเดลของพวกเขามากกว่าผู้ให้บริการรายอื่น
มีการพูดคุยถึงความเป็นไปได้ในการนำเอาผลลัพธ์จาก GPT และ LLM อื่น ๆ มาใช้ฝึกโมเดลทดแทนภายในองค์กร ซึ่งอาจเป็นทางออกที่คุ้มค่าด้านต้นทุนสำหรับผู้ที่ใช้งาน API มาตรฐานในระดับการผลิต
มีการตั้งข้อสงสัยต่อคำกล่าวอ้างว่าโมเดล Llama 7B ที่ผ่านการปรับจูนละเอียดมีต้นทุนถูกกว่า GPT-3.5 ถึง 50 เท่า โดยผู้ใช้บางรายเสนอว่าสิ่งนี้จะทำได้ก็ต่อเมื่อโฮสต์เองเท่านั้น
มีการตั้งคำถามถึงประสิทธิผลของการปรับจูนละเอียดเมื่อเทียบกับ low-rank adaptation
ผู้ใช้บางรายมองว่าการเปรียบเทียบระหว่างโมเดล Llama ที่ผ่านการปรับจูนละเอียดกับ GPT-3.5 ชวนให้เข้าใจผิด โดยอ้างถึงปัญหาเรื่องการทำเวลาแฝงในการอนุมานให้เหมาะสมและการขยายระบบ
คุณภาพของโมเดล Llama 2 ที่ผ่านการปรับจูนละเอียดไม่ได้เหนือกว่า ChatGPT เสมอไป และการปรับจูนละเอียดยังต้องการชุดข้อมูลคุณภาพสูงซึ่งสร้างได้ไม่ง่าย
มีการตั้งคำถามถึงความสม่ำเสมอและอัตราความผิดพลาดของ GPT function calling
ผู้ใช้สงสัยว่าโอเพนซอร์ส LLM ตัวใดดีที่สุดสำหรับการปรับจูนโมเดลของตนเอง
มีการขอความชัดเจนว่าชุดข้อมูลสำหรับการปรับจูนละเอียดควรเป็นคู่ข้อมูลอินพุต/เอาต์พุต หรือสามารถเป็นแบบ autoregressive ได้
ผู้ใช้สนใจแหล่งข้อมูลสำหรับเรียนรู้วิธีปรับจูนโมเดลเหล่านี้ โดยเฉพาะสำหรับผู้เริ่มต้น
บทความนี้ถูกมองว่าเป็นแหล่งข้อมูลที่มีคุณค่าสำหรับผู้ที่เริ่มต้นในสาย ML/LLM

แทนที่ GPT-3.5/4 ด้วย Llama 2 ที่ไฟน์จูนเอง

จุดที่การไฟน์จูนต่างจากพรอมป์

ตัวอย่างต้นทุน·ประสิทธิภาพและ OpenPipe

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News