Alpaca และการเร่งการพัฒนา LLM แบบ on-device

xguru · 2023-03-15T11:19:23+09:00

ความเปลี่ยนแปลงในช่วง 3 วันหลังจากบทความ "ยุคของ SD Moment กำลังมา" รันบน Raspberry Pi 4GB ได้ด้วย llama.cpp ใช้เวลา 10 วินาทีต่อโทเคน สามารถรันได้ง่ายขึ้นด้วย Dalai หลังจากทำให้รันบน Pixel 6 ได้ที่ 26 วินาทีต่อโทเคนด้วย llama.cpp ก็ปรับปรุงจนเหลือ 1 วินาทีต่อโทเคนบน Pixel 5 Stanford ปล่อย Alpaca ที่ fine-tune จาก LLaMA 7B ออกมา Stanford's Alpaca จุดอ่อนใหญ่ของโมเดล LLaMA คือยังขาด "instruction tuning" สำหรับงานถาม-ตอบ หนึ่งในนวัตกรรมสำคัญของ OpenAI คือการเพิ่ม instruction tuning ให้กับ GPT-3 Stanford ทำต่อจากจุดนี้ โดยให้ชุดตัวอย่างฝึก 52,000 รายการ และทำให้ฝึกได้ด้วยค่าใช้จ่ายเพียง $100 โมเดล 7B ที่เล็กที่สุดตอนนี้สามารถรันได้แม้บน Raspberry Pi/โทรศัพท์มือถือ และให้ผลลัพธ์ที่น่าประทับใจมาก แต่ยังไม่ใช่สำหรับการใช้งานเชิงพาณิชย์ (ทำไม่ได้ด้วย 3 เหตุผล: ไลเซนส์ของ LLaMA / ข้อมูลชุดคำสั่งถูกสร้างจากโมเดลของ OpenAI / ไม่มีการออกแบบมาตรการความปลอดภัย) สิ่งนี้หมายความว่าอะไร? โมเดลไลเซนส์ของ LLaMA ไม่ค่อยเกี่ยวข้องกับผมเท่าไร LLaMA แสดงให้เห็นว่าสามารถฝึก language model ระดับ GPT-3 class ได้ด้วยทรัพยากรที่เข้าถึงได้ทั่วไป llama.cpp แสดงให้เห็นว่าสามารถรัน LLM ได้บนฮาร์ดแวร์ผู้บริโภคระดับ 4GB Alpaca แสดงให้เห็นว่า แม้มีตัวอย่างเพียง 52K และค่าใช้จ่าย $100 ก็สามารถ fine-tune โมเดล 7B (ที่ลดเหลือ 4GB ด้วยการ quantize แบบ 4bit) ได้ และให้ผลลัพธ์ใกล้เคียงกับ text-davinci-003 รุ่นล่าสุด สิ่งที่ใช้ในการเปรียบเทียบคือโมเดลเต็ม 7B (13.48GB, 16bit floating point) ไม่ใช่โมเดล 4GB ที่ลดด้วย 4bit แต่ก็ยังไม่เห็นข้อมูลที่เปรียบเทียบความต่างด้านคุณภาพระหว่างสองแบบได้ชัดเจน

(simonwillison.net)

11 คะแนน โดย xguru 2023-03-15 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ความเปลี่ยนแปลงในช่วง 3 วันหลังจากบทความ "ยุคของ SD Moment กำลังมา"
- รันบน Raspberry Pi 4GB ได้ด้วย llama.cpp ใช้เวลา 10 วินาทีต่อโทเคน
- สามารถรันได้ง่ายขึ้นด้วย Dalai
- หลังจากทำให้รันบน Pixel 6 ได้ที่ 26 วินาทีต่อโทเคนด้วย llama.cpp ก็ปรับปรุงจนเหลือ 1 วินาทีต่อโทเคนบน Pixel 5
- Stanford ปล่อย Alpaca ที่ fine-tune จาก LLaMA 7B ออกมา

Stanford's Alpaca

จุดอ่อนใหญ่ของโมเดล LLaMA คือยังขาด "instruction tuning" สำหรับงานถาม-ตอบ
หนึ่งในนวัตกรรมสำคัญของ OpenAI คือการเพิ่ม instruction tuning ให้กับ GPT-3
Stanford ทำต่อจากจุดนี้ โดยให้ชุดตัวอย่างฝึก 52,000 รายการ และทำให้ฝึกได้ด้วยค่าใช้จ่ายเพียง $100
โมเดล 7B ที่เล็กที่สุดตอนนี้สามารถรันได้แม้บน Raspberry Pi/โทรศัพท์มือถือ และให้ผลลัพธ์ที่น่าประทับใจมาก
แต่ยังไม่ใช่สำหรับการใช้งานเชิงพาณิชย์ (ทำไม่ได้ด้วย 3 เหตุผล: ไลเซนส์ของ LLaMA / ข้อมูลชุดคำสั่งถูกสร้างจากโมเดลของ OpenAI / ไม่มีการออกแบบมาตรการความปลอดภัย)

สิ่งนี้หมายความว่าอะไร?

โมเดลไลเซนส์ของ LLaMA ไม่ค่อยเกี่ยวข้องกับผมเท่าไร
LLaMA แสดงให้เห็นว่าสามารถฝึก language model ระดับ GPT-3 class ได้ด้วยทรัพยากรที่เข้าถึงได้ทั่วไป
llama.cpp แสดงให้เห็นว่าสามารถรัน LLM ได้บนฮาร์ดแวร์ผู้บริโภคระดับ 4GB
Alpaca แสดงให้เห็นว่า แม้มีตัวอย่างเพียง 52K และค่าใช้จ่าย $100 ก็สามารถ fine-tune โมเดล 7B (ที่ลดเหลือ 4GB ด้วยการ quantize แบบ 4bit) ได้ และให้ผลลัพธ์ใกล้เคียงกับ text-davinci-003 รุ่นล่าสุด
- สิ่งที่ใช้ในการเปรียบเทียบคือโมเดลเต็ม 7B (13.48GB, 16bit floating point) ไม่ใช่โมเดล 4GB ที่ลดด้วย 4bit แต่ก็ยังไม่เห็นข้อมูลที่เปรียบเทียบความต่างด้านคุณภาพระหว่างสองแบบได้ชัดเจน

Alpaca และการเร่งการพัฒนา LLM แบบ on-device

Stanford's Alpaca

สิ่งนี้หมายความว่าอะไร?

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น