22 คะแนน โดย xguru 2024-04-19 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • เปิดตัว Llama 3 สองรุ่นแรก (รุ่น 8B และ 70B ที่ผ่านการ pretrain และ instruction fine-tuning)
  • แสดงประสิทธิภาพระดับล้ำสมัยในเบนช์มาร์กอุตสาหกรรมอย่างกว้างขวาง พร้อมความสามารถใหม่ เช่น การให้เหตุผลที่ดีขึ้น
  • ตั้งเป้าสร้างโอเพนโมเดลชั้นนำที่ทัดเทียมกับโมเดลปิดที่ดีที่สุดในปัจจุบัน โดยจะสะท้อนฟีดแบ็กจากนักพัฒนา และมุ่งปล่อยออกรุ่นอย่างรวดเร็วและสม่ำเสมอ
  • เปิดตัวเครื่องมือด้านความน่าเชื่อถือและความปลอดภัยใหม่ เช่น Llama Guard 2, Code Shield และ CyberSec Eval 2
  • ในอีกไม่กี่เดือนข้างหน้า มีแผนเพิ่มความสามารถใหม่ หน้าต่างคอนเท็กซ์ที่ยาวขึ้น ขนาดโมเดลเพิ่มเติม และประสิทธิภาพที่ดีขึ้น รวมถึงจะเผยแพร่งานวิจัยของ Llama 3
  • เร็ว ๆ นี้จะพร้อมใช้งานบน AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, Snowflake และจะรองรับบนแพลตฟอร์มฮาร์ดแวร์จาก AMD, AWS, Dell, Intel, NVIDIA และ Qualcomm
  • Meta AI ที่สร้างบนเทคโนโลยี Llama 3 ตอนนี้เป็นหนึ่งในผู้ช่วย AI ระดับแนวหน้าของโลก ที่ช่วยเพิ่มศักยภาพทางปัญญาและลดภาระของผู้ใช้ได้

ประสิทธิภาพของ Llama 3

  • โมเดล Llama 3 ขนาด 8B และ 70B พารามิเตอร์ ก้าวกระโดดอย่างมากเมื่อเทียบกับ Llama 2 และสร้างมาตรฐานใหม่ของโมเดล LLM ในขนาดดังกล่าว
  • ด้วยการปรับปรุงทั้ง pre-training และ post-training ทำให้ทั้งโมเดลที่ผ่าน pretrain และ instruction fine-tuning เป็นโมเดลที่ดีที่สุดในปัจจุบันที่ขนาด 8B และ 70B พารามิเตอร์
  • การปรับปรุงกระบวนการ post-training ช่วยลดอัตราการปฏิเสธผิดพลาดลงอย่างมาก ปรับปรุงการจัดแนว และเพิ่มความหลากหลายของคำตอบจากโมเดล
  • นอกจากนี้ ความสามารถด้านการให้เหตุผล การสร้างโค้ด และการทำตามคำสั่งยังดีขึ้นอย่างมาก ทำให้ Llama 3 ควบคุมทิศทางได้มากขึ้น (Steerable)
  • ระหว่างการพัฒนา Llama 3 ได้ตรวจสอบประสิทธิภาพของโมเดลบนเบนช์มาร์กมาตรฐาน และยังมุ่งเพิ่มประสิทธิภาพสำหรับสถานการณ์ใช้งานจริงด้วย
  • เพื่อการนี้ จึงได้พัฒนาชุดประเมินโดยมนุษย์คุณภาพสูงชุดใหม่ที่มี 1,800 พรอมป์ต ครอบคลุมกรณีใช้งานหลัก 12 ประเภท
  • ชุดประเมินนี้แสดงให้เห็นว่าโมเดล instruction-following ขนาด 70B มีประสิทธิภาพแข็งแกร่งกว่าโมเดลคู่แข่งขนาดใกล้เคียงกันในสถานการณ์จริง
  • โมเดลที่ผ่าน pretrain ก็ทำสถิติใหม่ระดับ state-of-the-art ในขนาดดังกล่าวเช่นกัน
  • เชื่อว่าการพัฒนา language model ที่ยอดเยี่ยมต้องอาศัยนวัตกรรม การขยายสเกล และการเพิ่มประสิทธิภาพด้านความเรียบง่าย
  • ตลอดโครงการ Llama 3 ได้ยึดแนวคิดการออกแบบนี้โดยมุ่งเน้น 4 องค์ประกอบหลัก ได้แก่ สถาปัตยกรรมโมเดล ข้อมูล pre-training การขยายสเกล pre-training และ instruction fine-tuning

สถาปัตยกรรมโมเดล

  • Llama 3 เลือกใช้สถาปัตยกรรม transformer แบบ decoder-only ที่ค่อนข้างเป็นมาตรฐาน
  • เมื่อเทียบกับ Llama 2 มีการปรับปรุงสำคัญหลายประการ
    • Llama 3 ใช้ tokenizer ที่มีคลังคำขนาด 128K โทเค็น ซึ่งเข้ารหัสภาษาได้มีประสิทธิภาพมากขึ้นอย่างมาก และช่วยยกระดับประสิทธิภาพของโมเดลอย่างชัดเจน
    • เพื่อเพิ่มประสิทธิภาพในการอนุมานของโมเดล Llama 3 ได้นำ grouped query attention (GQA) มาใช้ทั้งในขนาด 8B และ 70B
    • ฝึกโมเดลด้วยลำดับโทเค็น 8,192 โทเค็น โดยใช้ mask เพื่อไม่ให้ self-attention ข้ามขอบเขตของเอกสาร

ข้อมูลการฝึก

  • การคัดสรรชุดข้อมูลฝึกขนาดใหญ่ที่มีคุณภาพสูงเป็นปัจจัยสำคัญที่สุดในการฝึก language model ชั้นยอด
  • Llama 3 ผ่านการ pretrain ด้วยโทเค็นมากกว่า 15T จากแหล่งข้อมูลสาธารณะที่เข้าถึงได้
  • ชุดข้อมูลฝึกมีขนาดใหญ่กว่าที่ใช้กับ Llama 2 ถึง 7 เท่า และมีโค้ดมากกว่า 4 เท่า
  • เพื่อเตรียมพร้อมสำหรับกรณีใช้งานหลายภาษาในอนาคต มากกว่า 5% ของชุดข้อมูล pre-training ของ Llama 3 เป็นข้อมูลคุณภาพสูงที่ไม่ใช่ภาษาอังกฤษ ครอบคลุมมากกว่า 30 ภาษา

การขยายสเกล pre-training

  • ได้ทุ่มเทความพยายามอย่างมากในการขยายสเกล pre-training เพื่อใช้ประโยชน์จากข้อมูล pre-training ในโมเดล Llama 3 อย่างมีประสิทธิภาพ
  • โดยเฉพาะอย่างยิ่ง ได้พัฒนาชุดกฎ scaling อย่างละเอียดสำหรับการประเมินเบนช์มาร์กปลายน้ำ
  • กฎ scaling เหล่านี้ช่วยให้ตัดสินใจอย่างมีข้อมูลเกี่ยวกับการเลือก data mix ที่เหมาะสมที่สุด และวิธีใช้ทรัพยากรคอมพิวต์สำหรับการฝึกให้เกิดประโยชน์สูงสุด

Instruction fine-tuning

  • เพื่อปลดล็อกศักยภาพของโมเดลที่ผ่าน pretrain อย่างเต็มที่สำหรับกรณีใช้งานแบบแชต จึงได้สร้างนวัตกรรมในแนวทาง instruction tuning ด้วย
  • แนวทาง post-training เป็นการผสมผสานระหว่าง supervised fine-tuning (SFT), rejection sampling, proximal policy optimization (PPO) และ direct policy optimization (DPO)
  • คุณภาพของพรอมป์ตที่ใช้ใน SFT และลำดับความชอบที่ใช้ใน PPO และ DPO มีผลอย่างมากเกินควรต่อประสิทธิภาพของโมเดลที่ผ่านการจัดแนว

การสร้างด้วย Llama 3

  • วิสัยทัศน์ของ Meta คือให้นักพัฒนาปรับแต่ง Llama 3 เพื่อรองรับกรณีใช้งานที่เกี่ยวข้อง นำแนวปฏิบัติที่ดีที่สุดไปใช้ได้ง่าย และยกระดับโอเพนเอโคซิสเต็ม
  • ในการเปิดตัวครั้งนี้ ยังได้แนะนำเครื่องมือใหม่ด้านความน่าเชื่อถือและความปลอดภัย ซึ่งรวมถึงคอมโพเนนต์ที่อัปเดตร่วมกับ Llama Guard 2 และ Cybersec Eval 2 รวมถึง Code Shield ซึ่งเป็น guardrail ระหว่างการอนุมานสำหรับกรองโค้ดที่ไม่ปลอดภัยซึ่งสร้างโดย LLM
  • นอกจากนี้ยังพัฒนา Llama 3 ควบคู่กับ torchtune ไลบรารีใหม่แบบ PyTorch-native ที่ช่วยให้เขียน ปรับจูน และทดลองกับ LLM ได้ง่าย

แนวทางระดับระบบเพื่อการพัฒนาและการปรับใช้ที่มีความรับผิดชอบ

  • โมเดล Llama 3 ถูกออกแบบมาให้มีประโยชน์สูงสุด พร้อมทั้งรับประกันแนวทางการปรับใช้ที่มีความรับผิดชอบในระดับชั้นนำของอุตสาหกรรม
  • เพื่อสิ่งนี้ จึงได้นำแนวทางระดับระบบแบบใหม่มาใช้สำหรับการพัฒนาและการปรับใช้ Llama อย่างมีความรับผิดชอบ
  • มองโมเดล Llama ว่าเป็นองค์ประกอบพื้นฐานของระบบที่นักพัฒนาจะออกแบบโดยคำนึงถึงเป้าหมายปลายทางเฉพาะของตน
  • Instruction fine-tuning มีบทบาทสำคัญในการรับประกันความปลอดภัยของโมเดล
  • โมเดลที่ผ่าน instruction fine-tuning จะผ่านการ red team ด้านความปลอดภัยผ่านความพยายามทั้งภายในและภายนอก
  • ความพยายามเหล่านี้เป็นกระบวนการแบบวนซ้ำ และใช้สำหรับการปรับแต่งความปลอดภัยของโมเดลที่ปล่อยออกมา
  • โมเดล Llama Guard เป็นรากฐานของความปลอดภัยของพรอมป์ตและการตอบกลับ และสามารถสร้างการจัดประเภทใหม่ได้ง่ายตามความต้องการของแอปพลิเคชัน
  • Llama Guard 2 รุ่นใหม่ใช้ taxonomy ของ MLCommons ที่เพิ่งประกาศเพื่อรองรับมาตรฐานอุตสาหกรรม
  • CyberSecEval 2 ขยายจากเวอร์ชันก่อนหน้า โดยเพิ่มการวัดแนวโน้มที่ LLM จะถูกใช้ประโยชน์ผ่าน code interpreter ความสามารถด้านไซเบอร์ซีเคียวริตี้เชิงรุก และความเปราะบางต่อการโจมตีแบบ prompt injection
  • Code Shield รองรับการกรองระหว่างการอนุมานสำหรับโค้ดที่ไม่ปลอดภัยซึ่งสร้างโดย LLM เพื่อลดความเสี่ยงที่เกี่ยวข้องกับข้อเสนอแนะโค้ดที่ไม่ปลอดภัย การป้องกันการใช้ประโยชน์ผ่าน code interpreter และการรันคำสั่งด้านความปลอดภัย

การปรับใช้ Llama 3 ในวงกว้าง

  • Llama 3 จะพร้อมใช้งานในเร็ว ๆ นี้บนแพลตฟอร์มหลักต่าง ๆ เช่น ผู้ให้บริการคลาวด์และผู้ให้บริการ Model API
  • ตามผลเบนช์มาร์ก tokenizer สามารถสร้างโทเค็นน้อยลงได้สูงสุด 15% เมื่อเทียบกับ Llama 2 ทำให้มีประสิทธิภาพด้านโทเค็นดีขึ้น
  • นอกจากนี้ grouped query attention (GQA) ยังถูกเพิ่มเข้ามาใน Llama 3 8B ด้วย

แผนในอนาคตของ Llama 3

  • โมเดล Llama 3 8B และ 70B เป็นเพียงจุดเริ่มต้นของแผนเปิดตัว Llama 3
  • ในอีกไม่กี่เดือนข้างหน้า มีแผนเปิดตัวหลายโมเดลที่มาพร้อมความสามารถใหม่ เช่น มัลติโหมด ความสามารถสนทนาหลายภาษา หน้าต่างบริบทที่ยาวขึ้นมาก และความสามารถที่แข็งแกร่งขึ้นโดยรวม
  • เมื่อการฝึก Llama 3 เสร็จสมบูรณ์ ก็จะเผยแพร่งานวิจัยอย่างละเอียดด้วย

2 ความคิดเห็น

 
dormis 2024-04-19

ผมยังไม่รู้เรื่องคลาวด์อื่น แต่ใน Azure AI Studio ตอนนี้มี Llma-3 (Meta-Llama-3-8B, Meta-Llama-3-70B, Meta-Llama-3-70B-Instruct, Meta-Llama-3-8B-Instruct) ขึ้นมาแล้วพร้อมกับ Mixtral 8x22B ครับ