Llama 3 8B แสดงประสิทธิภาพทัดเทียมกับ Wizard 2 8x22B

(huggingface.co)

3 คะแนน โดย GN⁺ 2024-04-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ประสิทธิภาพของ Meta-Llama-3-8B-Instruct

แม้จะเป็นโมเดล 8B แต่ก็ให้ประสิทธิภาพแทบจะสูสีกับ Wizard 22B
แสดงความสามารถด้านการให้เหตุผลที่เหนือกว่าโมเดล 70B รุ่นก่อนหน้า
ทำผลงานได้ยอดเยี่ยมมากในหลากหลายด้าน เช่น การแก้ปัญหาและการเขียนโค้ด

จุดเด่นของ Meta-Llama-3-8B-Instruct

เป็นผลลัพธ์จากการที่ Meta ทุ่มทรัพยากรอย่างมหาศาลเพื่อฝึกด้วยข้อมูลจำนวนมากเป็นเวลานาน
ประสิทธิภาพมีความแตกต่างกันตามผู้พัฒนาและฮาร์ดแวร์ อีกทั้งผลลัพธ์ยังเปลี่ยนไปตามพารามิเตอร์การอนุมาน
ในเวอร์ชัน FP16 ให้ประสิทธิภาพแทบไม่ต่างจาก Q8_0 หากระดับ 8B ทำได้ขนาดนี้ก็ถือว่าอยู่ในระดับสูงสุดสำหรับโมเดลที่ผ่านการควอนไทซ์
เนื้อหาที่สร้างขึ้นมีความคมและมีไหวพริบอยู่บ้าง เข้าใจเจตนาของประโยคและตอบสนองได้อย่างเหมาะสม

ความเห็นของ GN⁺

สำหรับคำถามเดี่ยวสามารถให้คำตอบที่น่าเชื่อถือได้ แต่ในการสนทนาแบบหลายเทิร์นยังคงมีข้อจำกัด จึงควรปรับปรุงผ่านการเพิ่มประสิทธิภาพ prompt template หรือการจูนไฮเปอร์พารามิเตอร์
เมื่อเทียบกับโมเดล 3B แล้ว โมเดล 8B มีประสิทธิภาพโดดเด่นมาก จึงดูมีอนาคตในการนำโมเดลระดับ 8B ไป fine-tune ในหลายรูปแบบเพื่อสร้างโมเดลเฉพาะทาง
ด้วยความสามารถด้านความเข้าใจภาษาและการให้เหตุผลที่ยอดเยี่ยม จึงมีโอกาสนำไปใช้สูงในสาขาที่ใช้ความรู้เข้มข้นหรือโดเมนเฉพาะทาง และอาจพัฒนาต่อเป็นโมเดลเฉพาะด้าน เช่น การแพทย์ กฎหมาย และการเงิน
การที่ Meta ใช้ทรัพยากรและศักยภาพทางเทคโนโลยียกระดับโมเดล 8B ไปได้ถึงขนาดนี้ถือเป็นความสำเร็จที่น่าทึ่ง และมีแนวโน้มว่าในอนาคตจะสามารถรันโมเดล AI ประสิทธิภาพสูงบนพีซีส่วนบุคคลได้
น่าเสียดายที่ยังไม่มีการเผยแพร่โมเดลขนาดกลางระหว่าง 8B กับ 70B หากมีโมเดลขนาดราว 32B ออกมา ก็น่าจะให้สมดุลที่เหมาะสมที่สุดทั้งด้านประสิทธิภาพและความคุ้มค่า

1 ความคิดเห็น

GN⁺ 2024-04-22

ความคิดเห็นจาก Hacker News

โมเดล Llama 3 8B ตอบคำถามได้ว่าหากฝึกโมเดลขนาดเล็กเป็นเวลานานมากจะได้ผลลัพธ์แบบไหน นี่เป็นแนวโน้มที่เริ่มจากโมเดล Mistral และยิ่งชัดเจนขึ้นใน Llama 3 การใช้โทเคน 15T กับโมเดลพารามิเตอร์ 8B เป็นระดับที่ไม่เคยเห็นมาก่อน
เป็นรีลีสที่ช่วยเพิ่มความคาดหวังต่อการยกระดับคุณภาพของโมเดลขนาดเล็ก
Llama 3 ดูค่อนข้างพูดมาก และเหมือนจะตั้งสมมติฐานผิดอยู่บ้าง เช่น มันใช้จินตนาการว่าถ้าเงยหน้ามองท้องฟ้าแล้วถ่มน้ำลายขึ้นไปอาจโดนก้อนเมฆได้ ก่อนจะกลับมาแก้ตัวเองว่าความเป็นจริงไม่เป็นเช่นนั้น
น่าสงสัยว่าผลลัพธ์แบบนี้เกิดจากการฝึกที่มากขึ้นและความสามารถที่ดีขึ้นตามมา หรือเป็นเพราะปริศนาทำนองนี้เป็นที่รู้จักกันดีแล้วจนถูกสะท้อนอยู่ในข้อมูลฝึกอย่างชัดเจน
จุดพิเศษของ Llama 3 คือทุ่มแรงเพิ่มทั้งในการลบข้อมูลฝึกที่ซ้ำกันออก (คุณภาพ) และเพิ่มปริมาณข้อมูลฝึก (ปริมาณ) รวมถึงใช้โค้ดในข้อมูลฝึกมากขึ้น 4 เท่า (ซึ่งดีต่อการให้เหตุผล)
หากทุ่มเทกับการคัดสรรและสร้างข้อมูลฝึกมากขึ้น ก็อาจคาดหวังการยกระดับประสิทธิภาพอย่างมหาศาลได้แม้ในโมเดลขนาดเล็กแบบนี้
Llama 3 ก็ยังไม่ใช้ Mixture of Experts(MoE) ซึ่งชวนให้คิดว่าการสร้างโมเดล MoE ขนาดมหึมาอาจเป็นความสิ้นเปลือง
Meta กำลังใช้เงินหลายพันล้านดอลลาร์ไปกับชิป AI ของ Nvidia ภายใน 5 ปีข้างหน้า ดูเป็นไปได้ว่าเราจะรันโมเดล 8B ระดับ GPT-4 บนโทรศัพท์และโน้ตบุ๊กได้
ประทับใจมากกับความสามารถด้านตรรกะของโมเดล 8b-instruct อนาคตของโมเดลขนาดเล็กน่าตื่นเต้น
ปัญหาใหญ่ที่สุดของ local LLM คือผู้คนอาจได้ความประทับใจที่ต่างกันไปตามวิธีใช้งาน
บริษัทส่วนใหญ่ยังคงฝึกโมเดลต่อเนื่อง และไม่มีจุดที่เรียกว่าฝึกเสร็จจริง ๆ ซึ่งอธิบายได้ว่าทำไมค่าใช้จ่ายด้าน GPU จึงมหาศาล
ถ้าอยากรันโมเดลนี้บนโทรศัพท์ตั้งแต่วันนี้ ก็ต้องเริ่มจากรัน llama.cpp บน Termux แล้วโหลดไฟล์โมเดลอย่าง ggml เป็นต้น
น่าแปลกใจที่โมเดล 8B ตอบผิดคำถามว่า "เหล็ก 1 กก. กับขนนก 2 กก. อะไรหนักกว่ากัน?" แม้ GPT-3.5 ก็เคยตอบผิด แต่โมเดล 70B และ GPT-4 ตอบถูก

Llama 3 8B แสดงประสิทธิภาพทัดเทียมกับ Wizard 2 8x22B

ประสิทธิภาพของ Meta-Llama-3-8B-Instruct

จุดเด่นของ Meta-Llama-3-8B-Instruct

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News