Meta เปิดตัว Llama 3

xguru · 2024-04-19T08:26:25+09:00

เปิดตัว Llama 3 สองรุ่นแรก (รุ่น 8B และ 70B ที่ผ่านการ pretrain และ instruction fine-tuning) แสดงประสิทธิภาพระดับล้ำสมัยในเบนช์มาร์กอุตสาหกรรมอย่างกว้างขวาง พร้อมความสามารถใหม่ เช่น การให้เหตุผลที่ดีขึ้น ตั้งเป้าสร้างโอเพนโมเดลชั้นนำที่ทัดเทียมกับโมเดลปิดที่ดีที่สุดในปัจจุบัน โดยจะสะท้อนฟีดแบ็กจากนักพัฒนา และมุ่งปล่อยออกรุ่นอย่างรวดเร็วและสม่ำเสมอ เปิดตัวเครื่องมือด้านความน่าเชื่อถือและความปลอดภัยใหม่ เช่น Llama Guard 2, Code Shield และ CyberSec Eval 2 ในอีกไม่กี่เดือนข้างหน้า มีแผนเพิ่มความสามารถใหม่ หน้าต่างคอนเท็กซ์ที่ยาวขึ้น ขนาดโมเดลเพิ่มเติม และประสิทธิภาพที่ดีขึ้น รวมถึงจะเผยแพร่งานวิจัยของ Llama 3 เร็ว ๆ นี้จะพร้อมใช้งานบน AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake และจะรองรับบนแพลตฟอร์มฮาร์ดแวร์จาก AMD, AWS, Dell, Intel, NVIDIA และ Qualcomm Meta AI ที่สร้างบนเทคโนโลยี Llama 3 ตอนนี้เป็นหนึ่งในผู้ช่วย AI ระดับแนวหน้าของโลก ที่ช่วยเพิ่มศักยภาพทางปัญญาและลดภาระของผู้ใช้ได้ ประสิทธิภาพของ Llama 3 โมเดล Llama 3 ขนาด 8B และ 70B พารามิเตอร์ ก้าวกระโดดอย่างมากเมื่อเทียบกับ Llama 2 และสร้างมาตรฐานใหม่ของโมเดล LLM ในขนาดดังกล่าว ด้วยการปรับปรุงทั้ง pre-training และ post-training ทำให้ทั้งโมเดลที่ผ่าน pretrain และ instruction fine-tuning เป็นโมเดลที่ดีที่สุดในปัจจุบันที่ขนาด 8B และ 70B พารามิเตอร์ การปรับปรุงกระบวนการ post-training ช่วยลดอัตราการปฏิเสธผิดพลาดลงอย่างมาก ปรับปรุงการจัดแนว และเพิ่มความหลากหลายของคำตอบจากโมเดล นอกจากนี้ ความสามารถด้านการให้เหตุผล การสร้างโค้ด และการทำตามคำสั่งยังดีขึ้นอย่างมาก ทำให้ Llama 3 ควบคุมทิศทางได้มากขึ้น (Steerable) ระหว่างการพัฒนา Llama 3 ได้ตรวจสอบประสิทธิภาพของโมเดลบนเบนช์มาร์กมาตรฐาน และยังมุ่งเพิ่มประสิทธิภาพสำหรับสถานการณ์ใช้งานจริงด้วย เพื่อการนี้ จึงได้พัฒนาชุดประเมินโดยมนุษย์คุณภาพสูงชุดใหม่ที่มี 1,800 พรอมป์ต ครอบคลุมกรณีใช้งานหลัก 12 ประเภท ชุดประเมินนี้แสดงให้เห็นว่าโมเดล instruction-following ขนาด 70B มีประสิทธิภาพแข็งแกร่งกว่าโมเดลคู่แข่งขนาดใกล้เคียงกันในสถานการณ์จริง โมเดลที่ผ่าน pretrain ก็ทำสถิติใหม่ระดับ state-of-the-art ในขนาดดังกล่าวเช่นกัน เชื่อว่าการพัฒนา language model ที่ยอดเยี่ยมต้องอาศัยนวัตกรรม การขยายสเกล และการเพิ่มประสิทธิภาพด้านความเรียบง่าย ตลอดโครงการ Llama 3 ได้ยึดแนวคิดการออกแบบนี้โดยมุ่งเน้น 4 องค์ประกอบหลัก ได้แก่ สถาปัตยกรรมโมเดล ข้อมูล pre-training การขยายสเกล pre-training และ instruction fine-tuning สถาปัตยกรรมโมเดล Llama 3 เลือกใช้สถาปัตยกรรม transformer แบบ decoder-only ที่ค่อนข้างเป็นมาตรฐาน เมื่อเทียบกับ Llama 2 มีการปรับปรุงสำคัญหลายประการ Llama 3 ใช้ tokenizer ที่มีคลังคำขนาด 128K โทเค็น ซึ่งเข้ารหัสภาษาได้มีประสิทธิภาพมากขึ้นอย่างมาก และช่วยยกระดับประสิทธิภาพของโมเดลอย่างชัดเจน เพื่อเพิ่มประสิทธิภาพในการอนุมานของโมเดล Llama 3 ได้นำ grouped query attention (GQA) มาใช้ทั้งในขนาด 8B และ 70B ฝึกโมเดลด้วยลำดับโทเค็น 8,192 โทเค็น โดยใช้ mask เพื่อไม่ให้ self-attention ข้ามขอบเขตของเอกสาร ข้อมูลการฝึก การคัดสรรชุดข้อมูลฝึกขนาดใหญ่ที่มีคุณภาพสูงเป็นปัจจัยสำคัญที่สุดในการฝึก language model ชั้นยอด Llama 3 ผ่านการ pretrain ด้วยโทเค็นมากกว่า 15T จากแหล่งข้อมูลสาธารณะที่เข้าถึงได้ ชุดข้อมูลฝึกมีขนาดใหญ่กว่าที่ใช้กับ Llama 2 ถึง 7 เท่า และมีโค้ดมากกว่า 4 เท่า เพื่อเตรียมพร้อมสำหรับกรณีใช้งานหลายภาษาในอนาคต มากกว่า 5% ของชุดข้อมูล pre-training ของ Llama 3 เป็นข้อมูลคุณภาพสูงที่ไม่ใช่ภาษาอังกฤษ ครอบคลุมมากกว่า 30 ภาษา การขยายสเกล pre-training ได้ทุ่มเทความพยายามอย่างมากในการขยายสเกล pre-training เพื่อใช้ประโยชน์จากข้อมูล pre-training ในโมเดล Llama 3 อย่างมีประสิทธิภาพ โดยเฉพาะอย่างยิ่ง ได้พัฒนาชุดกฎ scaling อย่างละเอียดสำหรับการประเมินเบนช์มาร์กปลายน้ำ กฎ scaling เหล่านี้ช่วยให้ตัดสินใจอย่างมีข้อมูลเกี่ยวกับการเลือก data mix ที่เหมาะสมที่สุด และวิธีใช้ทรัพยากรคอมพิวต์สำหรับการฝึกให้เกิดประโยชน์สูงสุด Instruction fine-tuning เพื่อปลดล็อกศักยภาพของโมเดลที่ผ่าน pretrain อย่างเต็มที่สำหรับกรณีใช้งานแบบแชต จึงได้สร้างนวัตกรรมในแนวทาง instruction tuning ด้วย แนวทาง post-training เป็นการผสมผสานระหว่าง supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) และ direct policy optimization (DPO) คุณภาพของพรอมป์ตที่ใช้ใน SFT และลำดับความชอบที่ใช้ใน PPO และ DPO มีผลอย่างมากเกินควรต่อประสิทธิภาพของโมเดลที่ผ่านการจัดแนว การสร้างด้วย Llama 3 วิสัยทัศน์ของ Meta คือให้นักพัฒนาปรับแต่ง Llama 3 เพื่อรองรับกรณีใช้งานที่เกี่ยวข้อง นำแนวปฏิบัติที่ดีที่สุดไปใช้ได้ง่าย และยกระดับโอเพนเอโคซิสเต็ม ในการเปิดตัวครั้งนี้ ยังได้แนะนำเครื่องมือใหม่ด้านความน่าเชื่อถือและความปลอดภัย ซึ่งรวมถึงคอมโพเนนต์ที่อัปเดตร่วมกับ Llama Guard 2 และ Cybersec Eval 2 รวมถึง Code Shield ซึ่งเป็น guardrail ระหว่างการอนุมานสำหรับกรองโค้ดที่ไม่ปลอดภัยซึ่งสร้างโดย LLM นอกจากนี้ยังพัฒนา Llama 3 ควบคู่กับ torchtune ไลบรารีใหม่แบบ PyTorch-native ที่ช่วยให้เขียน ปรับจูน และทดลองกับ LLM ได้ง่าย แนวทางระดับระบบเพื่อการพัฒนาและการปรับใช้ที่มีความรับผิดชอบ โมเดล Llama 3 ถูกออกแบบมาให้มีประโยชน์สูงสุด พร้อมทั้งรับประกันแนวทางการปรับใช้ที่มีความรับผิดชอบในระดับชั้นนำของอุตสาหกรรม เพื่อสิ่งนี้ จึงได้นำแนวทางระดับระบบแบบใหม่มาใช้สำหรับการพัฒนาและการปรับใช้ Llama อย่างมีความรับผิดชอบ มองโมเดล Llama ว่าเป็นองค์ประกอบพื้นฐานของระบบที่นักพัฒนาจะออกแบบโดยคำนึงถึงเป้าหมายปลายทางเฉพาะของตน Instruction fine-tuning มีบทบาทสำคัญในการรับประกันความปลอดภัยของโมเดล โมเดลที่ผ่าน instruction fine-tuning จะผ่านการ red team ด้านความปลอดภัยผ่านความพยายามทั้งภายในและภายนอก ความพยายามเหล่านี้เป็นกระบวนการแบบวนซ้ำ และใช้สำหรับการปรับแต่งความปลอดภัยของโมเดลที่ปล่อยออกมา โมเดล Llama Guard เป็นรากฐานของความปลอดภัยของพรอมป์ตและการตอบกลับ และสามารถสร้างการจัดประเภทใหม่ได้ง่ายตามความต้องการของแอปพลิเคชัน Llama Guard 2 รุ่นใหม่ใช้ taxonomy ของ MLCommons ที่เพิ่งประกาศเพื่อรองรับมาตรฐานอุตสาหกรรม CyberSecEval 2 ขยายจากเวอร์ชันก่อนหน้า โดยเพิ่มการวัดแนวโน้มที่ LLM จะถูกใช้ประโยชน์ผ่าน code interpreter ความสามารถด้านไซเบอร์ซีเคียวริตี้เชิงรุก และความเปราะบางต่อการโจมตีแบบ prompt injection Code Shield รองรับการกรองระหว่างการอนุมานสำหรับโค้ดที่ไม่ปลอดภัยซึ่งสร้างโดย LLM เพื่อลดความเสี่ยงที่เกี่ยวข้องกับข้อเสนอแนะโค้ดที่ไม่ปลอดภัย การป้องกันการใช้ประโยชน์ผ่าน code interpreter และการรันคำสั่งด้านความปลอดภัย การปรับใช้ Llama 3 ในวงกว้าง Llama 3 จะพร้อมใช้งานในเร็ว ๆ นี้บนแพลตฟอร์มหลักต่าง ๆ เช่น ผู้ให้บริการคลาวด์และผู้ให้บริการ Model API ตามผลเบนช์มาร์ก tokenizer สามารถสร้างโทเค็นน้อยลงได้สูงสุด 15% เมื่อเทียบกับ Llama 2 ทำให้มีประสิทธิภาพด้านโทเค็นดีขึ้น นอกจากนี้ grouped query attention (GQA) ยังถูกเพิ่มเข้ามาใน Llama 3 8B ด้วย แผนในอนาคตของ Llama 3 โมเดล Llama 3 8B และ 70B เป็นเพียงจุดเริ่มต้นของแผนเปิดตัว Llama 3 ในอีกไม่กี่เดือนข้างหน้า มีแผนเปิดตัวหลายโมเดลที่มาพร้อมความสามารถใหม่ เช่น มัลติโหมด ความสามารถสนทนาหลายภาษา หน้าต่างบริบทที่ยาวขึ้นมาก และความสามารถที่แข็งแกร่งขึ้นโดยรวม เมื่อการฝึก Llama 3 เสร็จสมบูรณ์ ก็จะเผยแพร่งานวิจัยอย่างละเอียดด้วย

(ai.meta.com)

22 คะแนน โดย xguru 2024-04-19 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

เปิดตัว Llama 3 สองรุ่นแรก (รุ่น 8B และ 70B ที่ผ่านการ pretrain และ instruction fine-tuning)
แสดงประสิทธิภาพระดับล้ำสมัยในเบนช์มาร์กอุตสาหกรรมอย่างกว้างขวาง พร้อมความสามารถใหม่ เช่น การให้เหตุผลที่ดีขึ้น
ตั้งเป้าสร้างโอเพนโมเดลชั้นนำที่ทัดเทียมกับโมเดลปิดที่ดีที่สุดในปัจจุบัน โดยจะสะท้อนฟีดแบ็กจากนักพัฒนา และมุ่งปล่อยออกรุ่นอย่างรวดเร็วและสม่ำเสมอ
เปิดตัวเครื่องมือด้านความน่าเชื่อถือและความปลอดภัยใหม่ เช่น Llama Guard 2, Code Shield และ CyberSec Eval 2
ในอีกไม่กี่เดือนข้างหน้า มีแผนเพิ่มความสามารถใหม่ หน้าต่างคอนเท็กซ์ที่ยาวขึ้น ขนาดโมเดลเพิ่มเติม และประสิทธิภาพที่ดีขึ้น รวมถึงจะเผยแพร่งานวิจัยของ Llama 3
เร็ว ๆ นี้จะพร้อมใช้งานบน AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake และจะรองรับบนแพลตฟอร์มฮาร์ดแวร์จาก AMD, AWS, Dell, Intel, NVIDIA และ Qualcomm
Meta AI ที่สร้างบนเทคโนโลยี Llama 3 ตอนนี้เป็นหนึ่งในผู้ช่วย AI ระดับแนวหน้าของโลก ที่ช่วยเพิ่มศักยภาพทางปัญญาและลดภาระของผู้ใช้ได้

ประสิทธิภาพของ Llama 3

โมเดล Llama 3 ขนาด 8B และ 70B พารามิเตอร์ ก้าวกระโดดอย่างมากเมื่อเทียบกับ Llama 2 และสร้างมาตรฐานใหม่ของโมเดล LLM ในขนาดดังกล่าว
ด้วยการปรับปรุงทั้ง pre-training และ post-training ทำให้ทั้งโมเดลที่ผ่าน pretrain และ instruction fine-tuning เป็นโมเดลที่ดีที่สุดในปัจจุบันที่ขนาด 8B และ 70B พารามิเตอร์
การปรับปรุงกระบวนการ post-training ช่วยลดอัตราการปฏิเสธผิดพลาดลงอย่างมาก ปรับปรุงการจัดแนว และเพิ่มความหลากหลายของคำตอบจากโมเดล
นอกจากนี้ ความสามารถด้านการให้เหตุผล การสร้างโค้ด และการทำตามคำสั่งยังดีขึ้นอย่างมาก ทำให้ Llama 3 ควบคุมทิศทางได้มากขึ้น (Steerable)
ระหว่างการพัฒนา Llama 3 ได้ตรวจสอบประสิทธิภาพของโมเดลบนเบนช์มาร์กมาตรฐาน และยังมุ่งเพิ่มประสิทธิภาพสำหรับสถานการณ์ใช้งานจริงด้วย
เพื่อการนี้ จึงได้พัฒนาชุดประเมินโดยมนุษย์คุณภาพสูงชุดใหม่ที่มี 1,800 พรอมป์ต ครอบคลุมกรณีใช้งานหลัก 12 ประเภท
ชุดประเมินนี้แสดงให้เห็นว่าโมเดล instruction-following ขนาด 70B มีประสิทธิภาพแข็งแกร่งกว่าโมเดลคู่แข่งขนาดใกล้เคียงกันในสถานการณ์จริง
โมเดลที่ผ่าน pretrain ก็ทำสถิติใหม่ระดับ state-of-the-art ในขนาดดังกล่าวเช่นกัน
เชื่อว่าการพัฒนา language model ที่ยอดเยี่ยมต้องอาศัยนวัตกรรม การขยายสเกล และการเพิ่มประสิทธิภาพด้านความเรียบง่าย
ตลอดโครงการ Llama 3 ได้ยึดแนวคิดการออกแบบนี้โดยมุ่งเน้น 4 องค์ประกอบหลัก ได้แก่ สถาปัตยกรรมโมเดล ข้อมูล pre-training การขยายสเกล pre-training และ instruction fine-tuning

สถาปัตยกรรมโมเดล

Llama 3 เลือกใช้สถาปัตยกรรม transformer แบบ decoder-only ที่ค่อนข้างเป็นมาตรฐาน
เมื่อเทียบกับ Llama 2 มีการปรับปรุงสำคัญหลายประการ
- Llama 3 ใช้ tokenizer ที่มีคลังคำขนาด 128K โทเค็น ซึ่งเข้ารหัสภาษาได้มีประสิทธิภาพมากขึ้นอย่างมาก และช่วยยกระดับประสิทธิภาพของโมเดลอย่างชัดเจน
- เพื่อเพิ่มประสิทธิภาพในการอนุมานของโมเดล Llama 3 ได้นำ grouped query attention (GQA) มาใช้ทั้งในขนาด 8B และ 70B
- ฝึกโมเดลด้วยลำดับโทเค็น 8,192 โทเค็น โดยใช้ mask เพื่อไม่ให้ self-attention ข้ามขอบเขตของเอกสาร

ข้อมูลการฝึก

การคัดสรรชุดข้อมูลฝึกขนาดใหญ่ที่มีคุณภาพสูงเป็นปัจจัยสำคัญที่สุดในการฝึก language model ชั้นยอด
Llama 3 ผ่านการ pretrain ด้วยโทเค็นมากกว่า 15T จากแหล่งข้อมูลสาธารณะที่เข้าถึงได้
ชุดข้อมูลฝึกมีขนาดใหญ่กว่าที่ใช้กับ Llama 2 ถึง 7 เท่า และมีโค้ดมากกว่า 4 เท่า
เพื่อเตรียมพร้อมสำหรับกรณีใช้งานหลายภาษาในอนาคต มากกว่า 5% ของชุดข้อมูล pre-training ของ Llama 3 เป็นข้อมูลคุณภาพสูงที่ไม่ใช่ภาษาอังกฤษ ครอบคลุมมากกว่า 30 ภาษา

การขยายสเกล pre-training

ได้ทุ่มเทความพยายามอย่างมากในการขยายสเกล pre-training เพื่อใช้ประโยชน์จากข้อมูล pre-training ในโมเดล Llama 3 อย่างมีประสิทธิภาพ
โดยเฉพาะอย่างยิ่ง ได้พัฒนาชุดกฎ scaling อย่างละเอียดสำหรับการประเมินเบนช์มาร์กปลายน้ำ
กฎ scaling เหล่านี้ช่วยให้ตัดสินใจอย่างมีข้อมูลเกี่ยวกับการเลือก data mix ที่เหมาะสมที่สุด และวิธีใช้ทรัพยากรคอมพิวต์สำหรับการฝึกให้เกิดประโยชน์สูงสุด

Instruction fine-tuning

เพื่อปลดล็อกศักยภาพของโมเดลที่ผ่าน pretrain อย่างเต็มที่สำหรับกรณีใช้งานแบบแชต จึงได้สร้างนวัตกรรมในแนวทาง instruction tuning ด้วย
แนวทาง post-training เป็นการผสมผสานระหว่าง supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) และ direct policy optimization (DPO)
คุณภาพของพรอมป์ตที่ใช้ใน SFT และลำดับความชอบที่ใช้ใน PPO และ DPO มีผลอย่างมากเกินควรต่อประสิทธิภาพของโมเดลที่ผ่านการจัดแนว

การสร้างด้วย Llama 3

วิสัยทัศน์ของ Meta คือให้นักพัฒนาปรับแต่ง Llama 3 เพื่อรองรับกรณีใช้งานที่เกี่ยวข้อง นำแนวปฏิบัติที่ดีที่สุดไปใช้ได้ง่าย และยกระดับโอเพนเอโคซิสเต็ม
ในการเปิดตัวครั้งนี้ ยังได้แนะนำเครื่องมือใหม่ด้านความน่าเชื่อถือและความปลอดภัย ซึ่งรวมถึงคอมโพเนนต์ที่อัปเดตร่วมกับ Llama Guard 2 และ Cybersec Eval 2 รวมถึง Code Shield ซึ่งเป็น guardrail ระหว่างการอนุมานสำหรับกรองโค้ดที่ไม่ปลอดภัยซึ่งสร้างโดย LLM
นอกจากนี้ยังพัฒนา Llama 3 ควบคู่กับ torchtune ไลบรารีใหม่แบบ PyTorch-native ที่ช่วยให้เขียน ปรับจูน และทดลองกับ LLM ได้ง่าย

แนวทางระดับระบบเพื่อการพัฒนาและการปรับใช้ที่มีความรับผิดชอบ

โมเดล Llama 3 ถูกออกแบบมาให้มีประโยชน์สูงสุด พร้อมทั้งรับประกันแนวทางการปรับใช้ที่มีความรับผิดชอบในระดับชั้นนำของอุตสาหกรรม
เพื่อสิ่งนี้ จึงได้นำแนวทางระดับระบบแบบใหม่มาใช้สำหรับการพัฒนาและการปรับใช้ Llama อย่างมีความรับผิดชอบ
มองโมเดล Llama ว่าเป็นองค์ประกอบพื้นฐานของระบบที่นักพัฒนาจะออกแบบโดยคำนึงถึงเป้าหมายปลายทางเฉพาะของตน
Instruction fine-tuning มีบทบาทสำคัญในการรับประกันความปลอดภัยของโมเดล
โมเดลที่ผ่าน instruction fine-tuning จะผ่านการ red team ด้านความปลอดภัยผ่านความพยายามทั้งภายในและภายนอก
ความพยายามเหล่านี้เป็นกระบวนการแบบวนซ้ำ และใช้สำหรับการปรับแต่งความปลอดภัยของโมเดลที่ปล่อยออกมา
โมเดล Llama Guard เป็นรากฐานของความปลอดภัยของพรอมป์ตและการตอบกลับ และสามารถสร้างการจัดประเภทใหม่ได้ง่ายตามความต้องการของแอปพลิเคชัน
Llama Guard 2 รุ่นใหม่ใช้ taxonomy ของ MLCommons ที่เพิ่งประกาศเพื่อรองรับมาตรฐานอุตสาหกรรม
CyberSecEval 2 ขยายจากเวอร์ชันก่อนหน้า โดยเพิ่มการวัดแนวโน้มที่ LLM จะถูกใช้ประโยชน์ผ่าน code interpreter ความสามารถด้านไซเบอร์ซีเคียวริตี้เชิงรุก และความเปราะบางต่อการโจมตีแบบ prompt injection
Code Shield รองรับการกรองระหว่างการอนุมานสำหรับโค้ดที่ไม่ปลอดภัยซึ่งสร้างโดย LLM เพื่อลดความเสี่ยงที่เกี่ยวข้องกับข้อเสนอแนะโค้ดที่ไม่ปลอดภัย การป้องกันการใช้ประโยชน์ผ่าน code interpreter และการรันคำสั่งด้านความปลอดภัย

การปรับใช้ Llama 3 ในวงกว้าง

Llama 3 จะพร้อมใช้งานในเร็ว ๆ นี้บนแพลตฟอร์มหลักต่าง ๆ เช่น ผู้ให้บริการคลาวด์และผู้ให้บริการ Model API
ตามผลเบนช์มาร์ก tokenizer สามารถสร้างโทเค็นน้อยลงได้สูงสุด 15% เมื่อเทียบกับ Llama 2 ทำให้มีประสิทธิภาพด้านโทเค็นดีขึ้น
นอกจากนี้ grouped query attention (GQA) ยังถูกเพิ่มเข้ามาใน Llama 3 8B ด้วย

แผนในอนาคตของ Llama 3

โมเดล Llama 3 8B และ 70B เป็นเพียงจุดเริ่มต้นของแผนเปิดตัว Llama 3
ในอีกไม่กี่เดือนข้างหน้า มีแผนเปิดตัวหลายโมเดลที่มาพร้อมความสามารถใหม่ เช่น มัลติโหมด ความสามารถสนทนาหลายภาษา หน้าต่างบริบทที่ยาวขึ้นมาก และความสามารถที่แข็งแกร่งขึ้นโดยรวม
เมื่อการฝึก Llama 3 เสร็จสมบูรณ์ ก็จะเผยแพร่งานวิจัยอย่างละเอียดด้วย

2 ความคิดเห็น

dormis 2024-04-19

ผมยังไม่รู้เรื่องคลาวด์อื่น แต่ใน Azure AI Studio ตอนนี้มี Llma-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) ขึ้นมาแล้วพร้อมกับ Mixtral 8x22B ครับ

xguru 2024-04-19

เว็บไซต์ทางการ: https://llama.meta.com/llama3/
การประเมิน Meta Llama 3 โดย Andrej Karpathy