- เปิดตัว Llama 3 สองรุ่นแรก (รุ่น 8B และ 70B ที่ผ่านการ pretrain และ instruction fine-tuning)
- แสดงประสิทธิภาพระดับล้ำสมัยในเบนช์มาร์กอุตสาหกรรมอย่างกว้างขวาง พร้อมความสามารถใหม่ เช่น การให้เหตุผลที่ดีขึ้น
- ตั้งเป้าสร้างโอเพนโมเดลชั้นนำที่ทัดเทียมกับโมเดลปิดที่ดีที่สุดในปัจจุบัน โดยจะสะท้อนฟีดแบ็กจากนักพัฒนา และมุ่งปล่อยออกรุ่นอย่างรวดเร็วและสม่ำเสมอ
- เปิดตัวเครื่องมือด้านความน่าเชื่อถือและความปลอดภัยใหม่ เช่น Llama Guard 2, Code Shield และ CyberSec Eval 2
- ในอีกไม่กี่เดือนข้างหน้า มีแผนเพิ่มความสามารถใหม่ หน้าต่างคอนเท็กซ์ที่ยาวขึ้น ขนาดโมเดลเพิ่มเติม และประสิทธิภาพที่ดีขึ้น รวมถึงจะเผยแพร่งานวิจัยของ Llama 3
- เร็ว ๆ นี้จะพร้อมใช้งานบน AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake และจะรองรับบนแพลตฟอร์มฮาร์ดแวร์จาก AMD, AWS, Dell, Intel, NVIDIA และ Qualcomm
- Meta AI ที่สร้างบนเทคโนโลยี Llama 3 ตอนนี้เป็นหนึ่งในผู้ช่วย AI ระดับแนวหน้าของโลก ที่ช่วยเพิ่มศักยภาพทางปัญญาและลดภาระของผู้ใช้ได้
ประสิทธิภาพของ Llama 3
- โมเดล Llama 3 ขนาด 8B และ 70B พารามิเตอร์ ก้าวกระโดดอย่างมากเมื่อเทียบกับ Llama 2 และสร้างมาตรฐานใหม่ของโมเดล LLM ในขนาดดังกล่าว
- ด้วยการปรับปรุงทั้ง pre-training และ post-training ทำให้ทั้งโมเดลที่ผ่าน pretrain และ instruction fine-tuning เป็นโมเดลที่ดีที่สุดในปัจจุบันที่ขนาด 8B และ 70B พารามิเตอร์
- การปรับปรุงกระบวนการ post-training ช่วยลดอัตราการปฏิเสธผิดพลาดลงอย่างมาก ปรับปรุงการจัดแนว และเพิ่มความหลากหลายของคำตอบจากโมเดล
- นอกจากนี้ ความสามารถด้านการให้เหตุผล การสร้างโค้ด และการทำตามคำสั่งยังดีขึ้นอย่างมาก ทำให้ Llama 3 ควบคุมทิศทางได้มากขึ้น (Steerable)
- ระหว่างการพัฒนา Llama 3 ได้ตรวจสอบประสิทธิภาพของโมเดลบนเบนช์มาร์กมาตรฐาน และยังมุ่งเพิ่มประสิทธิภาพสำหรับสถานการณ์ใช้งานจริงด้วย
- เพื่อการนี้ จึงได้พัฒนาชุดประเมินโดยมนุษย์คุณภาพสูงชุดใหม่ที่มี 1,800 พรอมป์ต ครอบคลุมกรณีใช้งานหลัก 12 ประเภท
- ชุดประเมินนี้แสดงให้เห็นว่าโมเดล instruction-following ขนาด 70B มีประสิทธิภาพแข็งแกร่งกว่าโมเดลคู่แข่งขนาดใกล้เคียงกันในสถานการณ์จริง
- โมเดลที่ผ่าน pretrain ก็ทำสถิติใหม่ระดับ state-of-the-art ในขนาดดังกล่าวเช่นกัน
- เชื่อว่าการพัฒนา language model ที่ยอดเยี่ยมต้องอาศัยนวัตกรรม การขยายสเกล และการเพิ่มประสิทธิภาพด้านความเรียบง่าย
- ตลอดโครงการ Llama 3 ได้ยึดแนวคิดการออกแบบนี้โดยมุ่งเน้น 4 องค์ประกอบหลัก ได้แก่ สถาปัตยกรรมโมเดล ข้อมูล pre-training การขยายสเกล pre-training และ instruction fine-tuning
สถาปัตยกรรมโมเดล
- Llama 3 เลือกใช้สถาปัตยกรรม transformer แบบ decoder-only ที่ค่อนข้างเป็นมาตรฐาน
- เมื่อเทียบกับ Llama 2 มีการปรับปรุงสำคัญหลายประการ
- Llama 3 ใช้ tokenizer ที่มีคลังคำขนาด 128K โทเค็น ซึ่งเข้ารหัสภาษาได้มีประสิทธิภาพมากขึ้นอย่างมาก และช่วยยกระดับประสิทธิภาพของโมเดลอย่างชัดเจน
- เพื่อเพิ่มประสิทธิภาพในการอนุมานของโมเดล Llama 3 ได้นำ grouped query attention (GQA) มาใช้ทั้งในขนาด 8B และ 70B
- ฝึกโมเดลด้วยลำดับโทเค็น 8,192 โทเค็น โดยใช้ mask เพื่อไม่ให้ self-attention ข้ามขอบเขตของเอกสาร
ข้อมูลการฝึก
- การคัดสรรชุดข้อมูลฝึกขนาดใหญ่ที่มีคุณภาพสูงเป็นปัจจัยสำคัญที่สุดในการฝึก language model ชั้นยอด
- Llama 3 ผ่านการ pretrain ด้วยโทเค็นมากกว่า 15T จากแหล่งข้อมูลสาธารณะที่เข้าถึงได้
- ชุดข้อมูลฝึกมีขนาดใหญ่กว่าที่ใช้กับ Llama 2 ถึง 7 เท่า และมีโค้ดมากกว่า 4 เท่า
- เพื่อเตรียมพร้อมสำหรับกรณีใช้งานหลายภาษาในอนาคต มากกว่า 5% ของชุดข้อมูล pre-training ของ Llama 3 เป็นข้อมูลคุณภาพสูงที่ไม่ใช่ภาษาอังกฤษ ครอบคลุมมากกว่า 30 ภาษา
การขยายสเกล pre-training
- ได้ทุ่มเทความพยายามอย่างมากในการขยายสเกล pre-training เพื่อใช้ประโยชน์จากข้อมูล pre-training ในโมเดล Llama 3 อย่างมีประสิทธิภาพ
- โดยเฉพาะอย่างยิ่ง ได้พัฒนาชุดกฎ scaling อย่างละเอียดสำหรับการประเมินเบนช์มาร์กปลายน้ำ
- กฎ scaling เหล่านี้ช่วยให้ตัดสินใจอย่างมีข้อมูลเกี่ยวกับการเลือก data mix ที่เหมาะสมที่สุด และวิธีใช้ทรัพยากรคอมพิวต์สำหรับการฝึกให้เกิดประโยชน์สูงสุด
Instruction fine-tuning
- เพื่อปลดล็อกศักยภาพของโมเดลที่ผ่าน pretrain อย่างเต็มที่สำหรับกรณีใช้งานแบบแชต จึงได้สร้างนวัตกรรมในแนวทาง instruction tuning ด้วย
- แนวทาง post-training เป็นการผสมผสานระหว่าง supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) และ direct policy optimization (DPO)
- คุณภาพของพรอมป์ตที่ใช้ใน SFT และลำดับความชอบที่ใช้ใน PPO และ DPO มีผลอย่างมากเกินควรต่อประสิทธิภาพของโมเดลที่ผ่านการจัดแนว
การสร้างด้วย Llama 3
- วิสัยทัศน์ของ Meta คือให้นักพัฒนาปรับแต่ง Llama 3 เพื่อรองรับกรณีใช้งานที่เกี่ยวข้อง นำแนวปฏิบัติที่ดีที่สุดไปใช้ได้ง่าย และยกระดับโอเพนเอโคซิสเต็ม
- ในการเปิดตัวครั้งนี้ ยังได้แนะนำเครื่องมือใหม่ด้านความน่าเชื่อถือและความปลอดภัย ซึ่งรวมถึงคอมโพเนนต์ที่อัปเดตร่วมกับ Llama Guard 2 และ Cybersec Eval 2 รวมถึง Code Shield ซึ่งเป็น guardrail ระหว่างการอนุมานสำหรับกรองโค้ดที่ไม่ปลอดภัยซึ่งสร้างโดย LLM
- นอกจากนี้ยังพัฒนา Llama 3 ควบคู่กับ torchtune ไลบรารีใหม่แบบ PyTorch-native ที่ช่วยให้เขียน ปรับจูน และทดลองกับ LLM ได้ง่าย
แนวทางระดับระบบเพื่อการพัฒนาและการปรับใช้ที่มีความรับผิดชอบ
- โมเดล Llama 3 ถูกออกแบบมาให้มีประโยชน์สูงสุด พร้อมทั้งรับประกันแนวทางการปรับใช้ที่มีความรับผิดชอบในระดับชั้นนำของอุตสาหกรรม
- เพื่อสิ่งนี้ จึงได้นำแนวทางระดับระบบแบบใหม่มาใช้สำหรับการพัฒนาและการปรับใช้ Llama อย่างมีความรับผิดชอบ
- มองโมเดล Llama ว่าเป็นองค์ประกอบพื้นฐานของระบบที่นักพัฒนาจะออกแบบโดยคำนึงถึงเป้าหมายปลายทางเฉพาะของตน
- Instruction fine-tuning มีบทบาทสำคัญในการรับประกันความปลอดภัยของโมเดล
- โมเดลที่ผ่าน instruction fine-tuning จะผ่านการ red team ด้านความปลอดภัยผ่านความพยายามทั้งภายในและภายนอก
- ความพยายามเหล่านี้เป็นกระบวนการแบบวนซ้ำ และใช้สำหรับการปรับแต่งความปลอดภัยของโมเดลที่ปล่อยออกมา
- โมเดล Llama Guard เป็นรากฐานของความปลอดภัยของพรอมป์ตและการตอบกลับ และสามารถสร้างการจัดประเภทใหม่ได้ง่ายตามความต้องการของแอปพลิเคชัน
- Llama Guard 2 รุ่นใหม่ใช้ taxonomy ของ MLCommons ที่เพิ่งประกาศเพื่อรองรับมาตรฐานอุตสาหกรรม
- CyberSecEval 2 ขยายจากเวอร์ชันก่อนหน้า โดยเพิ่มการวัดแนวโน้มที่ LLM จะถูกใช้ประโยชน์ผ่าน code interpreter ความสามารถด้านไซเบอร์ซีเคียวริตี้เชิงรุก และความเปราะบางต่อการโจมตีแบบ prompt injection
- Code Shield รองรับการกรองระหว่างการอนุมานสำหรับโค้ดที่ไม่ปลอดภัยซึ่งสร้างโดย LLM เพื่อลดความเสี่ยงที่เกี่ยวข้องกับข้อเสนอแนะโค้ดที่ไม่ปลอดภัย การป้องกันการใช้ประโยชน์ผ่าน code interpreter และการรันคำสั่งด้านความปลอดภัย
การปรับใช้ Llama 3 ในวงกว้าง
- Llama 3 จะพร้อมใช้งานในเร็ว ๆ นี้บนแพลตฟอร์มหลักต่าง ๆ เช่น ผู้ให้บริการคลาวด์และผู้ให้บริการ Model API
- ตามผลเบนช์มาร์ก tokenizer สามารถสร้างโทเค็นน้อยลงได้สูงสุด 15% เมื่อเทียบกับ Llama 2 ทำให้มีประสิทธิภาพด้านโทเค็นดีขึ้น
- นอกจากนี้ grouped query attention (GQA) ยังถูกเพิ่มเข้ามาใน Llama 3 8B ด้วย
แผนในอนาคตของ Llama 3
- โมเดล Llama 3 8B และ 70B เป็นเพียงจุดเริ่มต้นของแผนเปิดตัว Llama 3
- ในอีกไม่กี่เดือนข้างหน้า มีแผนเปิดตัวหลายโมเดลที่มาพร้อมความสามารถใหม่ เช่น มัลติโหมด ความสามารถสนทนาหลายภาษา หน้าต่างบริบทที่ยาวขึ้นมาก และความสามารถที่แข็งแกร่งขึ้นโดยรวม
- เมื่อการฝึก Llama 3 เสร็จสมบูรณ์ ก็จะเผยแพร่งานวิจัยอย่างละเอียดด้วย
2 ความคิดเห็น
ผมยังไม่รู้เรื่องคลาวด์อื่น แต่ใน Azure AI Studio ตอนนี้มี Llma-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) ขึ้นมาแล้วพร้อมกับ Mixtral 8x22B ครับ