Meta เปิดตัวโมเดลภาษา Llama 3
(llama.meta.com)- หน้า Llama ของ Meta แนะนำ ตระกูลโมเดล Llama ในฐานะ AI โอเพนซอร์สที่มุ่งเน้นการติดตั้งใช้งานง่าย ความคุ้มค่าด้านต้นทุน ประสิทธิภาพ และการขยายสเกลขนาดใหญ่ โดยครอบคลุมทั้งตระกูล Llama 4 และ Llama 3
- Llama 4 Maverick และ Llama 4 Scout เป็นโมเดลมัลติโมดัลแบบเนทีฟบนพื้นฐาน early fusion ที่พรีเทรนข้อความและโทเคนภาพร่วมกัน โดยทั้งคู่ชูจุดเด่นคอนเท็กซ์ 10M โทเคน
- ตระกูล Llama 3 แบ่งเป็น 3.1, 3.2 และ 3.3 โดยมีตัวเลือกตามขนาดและการใช้งานด้านข้อความ, edge และมัลติโมดัล เช่น 8B, 70B, 405B, 1B, 3B, 11B, 90B และ 70B
- การเปรียบเทียบประสิทธิภาพครอบคลุม MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi, MTOB เป็นต้น โดย Llama 4 Maverick ทำคะแนน MMLU Pro 80.5 และ Scout ทำได้ 74.3
- กรณีของ Stoque และ Shopify แสดงผลลัพธ์จากการนำไปใช้ เช่น คำถามซ้ำในฝ่ายสนับสนุนทางเทคนิคลดลง 50%, ความพึงพอใจภายในเพิ่มขึ้น 11%, ปริมาณประมวลผลโทเคนเพิ่มขึ้น 76% และลดต้นทุนคอมพิวต์ 33% จากเอาต์พุต JSON
ตระกูลโมเดล Llama และตัวเลือกตามเวอร์ชัน
- Llama เป็นตระกูลโมเดลที่สามารถ สร้างให้เหมาะกับเงื่อนไขของตนเอง โดยมุ่งเน้นการติดตั้งใช้งานง่าย ความคุ้มค่าด้านต้นทุน ประสิทธิภาพ และการขยายสเกลไปถึงระดับผู้ใช้นับพันล้านคน
- แกนหลักของโมเดล Llama รุ่นล่าสุดคือมัลติโมดัลแบบเนทีฟ การให้เหตุผลขั้นสูง และหน้าต่างคอนเท็กซ์ยาว
- สามารถดู model card และรูปแบบพรอมป์ได้ที่ Model overview
-
Llama 4: มัลติโมดัลแบบเนทีฟและคอนเท็กซ์ 10M
- Llama 4 เป็นตระกูลโมเดลมัลติโมดัลแบบเนทีฟที่ใช้ early fusion เพื่อพรีเทรนข้อมูลข้อความและภาพที่ไม่มีป้ายกำกับร่วมกัน
- Llama 4 Maverick รองรับความเข้าใจภาพและข้อความ และจัดการงานรูปแบบยาวด้วยคอนเท็กซ์ 10M โทเคน
- การใช้งานหลักคือหน่วยความจำ การปรับให้เหมาะกับแต่ละบุคคล และแอปพลิเคชันมัลติโมดัล
- Llama 4 Scout เป็นโมเดลที่ให้ความสามารถด้านข้อความและปัญญาเชิงภาพ โดยชูประสิทธิภาพบน GPU H100 เพียงตัวเดียวและหน้าต่างคอนเท็กซ์ 10M
- การวิเคราะห์เอกสารยาวถูกนำเสนอเป็นการใช้งานหลักของ Scout
- รายละเอียดมีให้ใน เอกสารโมเดล Llama 4
-
Llama 3: ตระกูลโมเดลตามขนาดและการใช้งาน
- Llama 3 เป็นตระกูลโมเดล AI โอเพนซอร์สที่สามารถ ไฟน์จูน ทำ distillation และติดตั้งใช้งานได้ทุกที่
- Llama 3.3 เป็นโมเดลภาษาโอเพนซอร์สขนาดใหญ่แบบพหุภาษาที่มีขนาด 70B โดยระบุว่าสามารถให้ประสบการณ์ด้านประสิทธิภาพและคุณภาพระดับ 405B ด้วยต้นทุนที่ต่ำกว่า
- เหมาะกับการใช้งานด้านข้อความ เช่น การสร้างข้อมูลสังเคราะห์ และดูรายละเอียดได้ใน เอกสารโมเดล Llama 3.3
- Llama 3.2 เป็นตระกูลโมเดลที่ยืดหยุ่นและคุ้มค่าด้านต้นทุนสำหรับการใช้งานบน edge
- 1B และ 3B มีน้ำหนักเบาและคุ้มค่าด้านต้นทุน จึงสามารถรันได้ทุกที่
- 11B และ 90B เป็นโมเดลมัลติโมดัลที่สามารถให้เหตุผลกับภาพความละเอียดสูงและส่งออกข้อความได้
- รายละเอียดมีให้ใน เอกสารโมเดล Llama 3.2
- Llama 3.1 เป็นโมเดล foundation แบบเปิดเพื่อความยืดหยุ่นและการควบคุม มีให้เลือกในขนาด 8B, 70B และ 405B
- ครอบคลุมความรู้ทั่วไป ความสามารถในการปรับแต่ง คณิตศาสตร์ การใช้เครื่องมือ และความสามารถด้านการแปลหลายภาษา ใช้กับงานสรุปข้อความ เอเจนต์หลายภาษา และงานเขียนโค้ด
- รายละเอียดดูได้ใน เอกสารโมเดล Llama 3.1
ตัวชี้วัดประสิทธิภาพและผลลัพธ์จากการใช้งานจริง
-
เบนช์มาร์ก Llama 4 และเงื่อนไขการประเมิน
- ความสามารถของ Llama 4 สรุปได้เป็น มัลติโมดัลแบบเนทีฟ คอนเท็กซ์ยาว และ image grounding
- โมเดล Llama 4 ทั้งหมดใช้ early fusion เพื่อพรีเทรนข้อความและโทเคนภาพที่ไม่มีป้ายกำกับปริมาณมากร่วมกัน
- เบนช์มาร์กเปรียบเทียบ Llama 4 Maverick กับ Llama 4 Scout
- การให้เหตุผล: MMLU Pro คือ Maverick 80.5, Scout 74.3 และ GPQA Diamond คือ Maverick 69.8, Scout 57.2
- การเขียนโค้ด: LiveCodeBench คือ Maverick 43.4, Scout 32.8
- ภาพมัลติโมดัล: MMMU คือ Maverick 73.4, Scout 69.4, ChartQA คือ Maverick 90.0, Scout 88.8 และ DocVQA คือ 94.4 ทั้งคู่
- พหุภาษา: MMLU Multi คือ Maverick 84.6, Scout 74.3
- คอนเท็กซ์ยาว: MTOB Half Book คือ Maverick 54.0 / 46.4, Scout 42.2 / 36.6 และ MTOB Full Book คือ Maverick 50.8 / 46.7, Scout 39.7 / 36.3
- ประสิทธิภาพด้านต้นทุน: ค่าใช้จ่ายต่อ 1M โทเคนระบุว่าอยู่ที่ $0.19–$0.49 สำหรับทั้งคู่
- ตามวิธีวิจัยและหมายเหตุ ผลลัพธ์ของ Llama เป็น การประเมินแบบ 0-shot ที่ temperature 0 และไม่ได้ใช้ majority voting หรือคอมพิวต์เวลาเทสต์แบบขนาน
- สำหรับเบนช์มาร์กที่มีความแปรปรวนสูง เช่น GPQA Diamond และ LiveCodeBench มีการเฉลี่ยผลลัพธ์จากการสร้างหลายครั้งเพื่อลดความไม่แน่นอน
- การประเมินเฉพาะทางด้านคอนเท็กซ์ยาวตามธรรมเนียมแล้วไม่ได้ถูกรายงานในโมเดลทั่วไป จึงแชร์ผลลัพธ์จากการรันภายใน
- ต้นทุน $0.19/Mtok ของ Llama 4 Maverick เป็นค่าประมาณแบบ blended 3:1 ภายใต้สมมติฐานการอนุมานแบบกระจาย และคาดว่าสามารถให้บริการได้ที่ $0.30–$0.49/Mtok บนโฮสต์เดียว
-
กรณีการใช้งานของ Stoque และ Shopify
- Stoque ใช้ Llama เปลี่ยนระบบ intelligence ภายใน ทำให้ทีมค้นหาอินไซต์ได้เร็วขึ้น ลดแรงเสียดทาน และทำงานได้มีประสิทธิภาพมากขึ้นในสเกลใหญ่
- คำถามซ้ำในฝ่ายสนับสนุนทางเทคนิคลดลง 50% และการดำเนินงานด้านจัดการและสนับสนุนเสร็จสิ้นเพิ่มขึ้น 30%
- ความพึงพอใจของผู้ใช้ภายในเพิ่มขึ้น 11%
- Shopify ใช้ Llama ในการสร้างหน้าสินค้า การโลคัลไลซ์คอนเทนต์ และการทำงานอัตโนมัติด้านสนับสนุน
- เมื่อเทียบกับโมเดลก่อนหน้า ปริมาณประมวลผลโทเคนสูงขึ้น 76% และทำความแม่นยำ Macro-F1 ได้ 97.7% ในการตรวจจับเจตนา
- เอาต์พุต JSON ช่วยลดต้นทุนคอมพิวต์ลง 33%
- guardrail สำหรับ generative AI มีบทบาทในการระบุและบรรเทาความเสี่ยงที่อาจเกิดขึ้นล่วงหน้าผ่านการป้องกันระดับระบบ และช่วยให้นักพัฒนาติดตั้งใช้งาน generative AI ได้อย่างรับผิดชอบมากขึ้น
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ลิงก์ที่น่าอ้างอิง: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
Meta เปิดตัวคอนโซลด้วย: https://www.meta.ai/
ยังประกาศ การผสาน Meta AI เข้ากับผลิตภัณฑ์ตระกูล Meta ทั่วทั้งแพลตฟอร์มด้วย: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
แต่ดูจากที่ไม่ได้ใส่การเทียบกับ GPT-4-Turbo หรือ Claude Opus ก็น่าจะยังห่างจากโมเดลแนวหน้าสุด และคงต้องรอดูว่าประสิทธิภาพใน LLM Arena จะออกมาอย่างไร
ความต่างใหญ่ ๆ น่าจะเกิดเฉพาะใน benchmark ด้านการให้เหตุผลที่ยากมาก ๆ เท่านั้น Llama เป็นน้ำหนักแบบเปิด ดังนั้นต่างจาก Opus ตรงที่จะมีการ fine-tuning และ LoRA ออกมาเยอะมาก
หากประเทศต่าง ๆ และบริษัทใหญ่หันไปใช้ Llama-3/Llama-4 แทนการทุ่มเงินซื้อ GPU เพื่อเทรนโมเดลของตัวเอง ความคาดหวังการเติบโตของ GPU อาจถูกกดลง, OpenAI ก็จะมีเหตุผลในการระดมทุน 100,000 ล้านดอลลาร์อ่อนลง และความได้เปรียบด้าน AI ของ Google ก็จะพร่าเลือนไปด้วย AMD กับ Intel สามารถโฟกัสที่ ชิปสำหรับ inference ด้าน AI แทนการไล่ตาม GPU สำหรับเทรนของ Nvidia
โมเดลที่ใหญ่ที่สุดซึ่งมีขนาดเกิน 400B ยังอยู่ระหว่างการเทรน และบอกว่าจะปล่อยหลายโมเดลในอีกไม่กี่เดือนข้างหน้า พร้อมความสามารถแบบมัลติโมดัล, บทสนทนาหลายภาษา, context window ที่ยาวกว่ามาก และความสามารถโดยรวมที่แข็งแกร่งขึ้น
benchmark สาธารณะใช้เป็นตัวชี้วัดคร่าว ๆ ได้ดี แต่สำหรับนักพัฒนาควรรัน benchmark แบบกำหนดเอง ให้ตรงกับ use case ของตัวเอง
Replicate ทำ Llama 3 API ออกมาอย่างรวดเร็วแล้ว https://replicate.com/blog/run-llama-3-with-an-api และสามารถใช้ promptfoo https://github.com/typpo/promptfoo เพื่อเปรียบเทียบ Llama 3, Mixtral, GPT, Claude ฯลฯ ได้ ตัวอย่างเช่นประเมิน
meta/meta-llama-3-8b-instruct,meta/meta-llama-3-70b-instructของ Replicate, OpenAIgpt-4-turbo, Anthropicclaude-3-opus-20240229ฯลฯ ด้วย prompt เดียวกันได้ยังอยู่ระหว่างทดสอบ แต่ในชุดคำถามโปรแกรมมิงแบบสุ่ม Llama 3 8B ดูค่อนข้างดี ตอนนี้ ollama ก็รองรับ Llama 3 8B แล้ว ทำให้ประเมินแบบ local ด้วย
ollama:chat:llama3ได้ง่ายขึ้นการทดสอบที่ดีคือโจทย์ง่าย ๆ แต่ต้องดูการประยุกต์ใช้จริง เช่น การแก้ สมการกำลังสอง สำหรับค่า a, b, c แบบสุ่ม แม้จะเป็นอัลกอริทึมที่ทุกโมเดลน่าจะรู้ แต่ก็ยังผิดพลาดได้ และหลังจากนั้นบางครั้งยังทำเหมือนตรวจสอบแล้วพร้อมตอบคำตอบผิดซ้ำ ๆ LLAMA 3 เองก็เช่นกัน หลังจากชี้ข้อผิดพลาดหลายครั้งแล้ว มันบอกว่า “พบคำตอบที่ถูกต้องแล้วและตรวจสอบด้วยหลายวิธี” แต่คำตอบจริงก็ยังผิดเหมือนตอนแรก และไม่ได้พยายามตรวจสอบด้วย
assistantต่อท้ายคำตอบ แต่ตอนนี้น่าจะทำงานได้แล้วรันได้ด้วย
ollama run llama3และกำลังอัปโหลดเวอร์ชัน quantization หลายแบบ รวมถึงโมเดล text/70B ด้วยLlama 3 70B เปิดตัวในอันดับ 5 บน leaderboard ของ LMSYS Chatbot Arena ที่มีชื่อเสียง โดยเสมอกับ Claude 2 Sonnet, Bard(Gemini Pro), Command R+ และนำหน้า Claude 2 Haiku กับ GPT-4 เวอร์ชันก่อน ๆ
ตอนนี้ค่าความไม่แน่นอนของคะแนนยังสูงอยู่ อันดับที่แน่นอนต้องรอเวลาและอาจเปลี่ยนได้ Llama 3 8B อยู่ที่อันดับ 12 เท่ากับ Claude 1, Mixtral 8x22B, Qwen-1.5-72B ดูอันดับล่าสุดได้ที่ https://arena.lmsys.org/
บน leaderboard เฉพาะภาษาอังกฤษ Llama 3 70B ยังอยู่กลุ่มบนสุดร่วมกับ GPT-4 และ Claude Opus ซึ่งน่าประทับใจกว่าเดิม อาจเป็นผลจากการปรับจูนด้านความปลอดภัยที่ไม่เข้มเท่าเดิม ทำให้ปฏิเสธ prompt น้อยลง แต่ก็ยังเป็นการปรับปรุงที่มีประโยชน์จริง ถ้าเร็วระดับนี้ โมเดล 400B มีโอกาสสูงมากที่จะครองสนามในทางปฏิบัติ
ลองให้สร้างแร็ปภาษาจีนแล้วทำได้ค่อนข้างดี แต่ทันทีที่จบ คำตอบถูกลบและเปลี่ยนเป็นข้อความว่า “ตอนนี้ยังไม่เข้าใจภาษาจีน แต่กำลังพัฒนาอยู่ และเมื่อสามารถสนทนาภาษาจีนได้แล้วจะส่งข้อความแจ้ง”
ภาษาอื่นก็เหมือนกัน คือ สร้างภาษาที่ไม่ใช่อังกฤษ ได้ แต่พอจบแล้วคำตอบจะถูกลบและแทนที่ด้วยข้อความแจ้งเดียวกัน
ในบล็อกมีรายละเอียดดี ๆ เยอะมาก: https://ai.meta.com/blog/meta-llama-3/
เวอร์ชัน 400B ก็จะออกมาด้วย และดูเหมือนว่าจะดีกว่า GPT-4 กับ Claude Opus มาก แนวโน้มคือการกระจายศูนย์และซอฟต์แวร์แบบเปิดกำลังเป็นฝ่ายชนะ
แน่นอนว่าสิ่งที่นำมา benchmark เป็น checkpoint ระหว่างทาง และการฝึกยังดำเนินต่ออยู่
ไม่ควรเชื่อ benchmark แบบตาบอดก็จริง แต่ไม่มีข้ออ้างว่ามันเหนือกว่า GPT-4 หรือ Opus ตอนนี้เป็น checkpoint ระหว่างทาง จึงมีความเป็นไปได้ว่าจะเหนือกว่าในอนาคต
และก็ไม่ใช่ โอเพนซอร์ส ด้วย
ขอบคุณ Zuck, Yann และทีม Meta จริง ๆ ที่เลือกใช้ แนวทางแบบเปิด โดยแชร์น้ำหนักโมเดล, tokenizer, ข้อมูลเกี่ยวกับชุดข้อมูลฝึก ฯลฯ
พวกเขานี่แหละคือแรงขับเคลื่อนใหญ่ที่สุดของการระเบิดของงานวิจัยแบบเปิด ที่ทำให้เรารันโมเดลที่ค่อนข้างดีบนฮาร์ดแวร์ผู้บริโภคแบบโลคัลผ่านโปรเจกต์อย่าง llama.cpp และหลีกเลี่ยงการเซ็นเซอร์หรือการควบคุมได้
ไม่ใช่ว่าผมจะพยายามส่งคำขอที่จะติดข้อจำกัดของ OpenAI หรือ Anthropic แต่ไม่ชอบสถานการณ์ที่เทคโนโลยีทรงพลังแบบนี้ถูกขังอยู่หลังกำแพงและมี gatekeeper ควบคุมวิธีใช้งาน มีคนและบริษัทมากมายที่เชื่อในความเปิดกว้าง แต่ถ้าบริษัทที่มีทุนระดับหลายแสนล้านดอลลาร์ กระแสเงินสดยั่งยืน และ GPU มูลค่าหลายพันล้านดอลลาร์ทำแบบนี้ ผลกระทบย่อมมากกว่ามาก Zuck ไม่จำเป็นต้องเลือกเส้นทางนี้ และถ้าผู้บริหารมืออาชีพสไตล์ HBS/McKinsey เป็นคนบริหาร Facebook ก็มีโอกาสสูงว่าจะไม่เปิดไว้แบบนี้ ทุกคนได้ประโยชน์อย่างมากจากการที่พวกเขาไม่ได้ใช้ข้ออ้างเรื่องความเสี่ยงด้านความปลอดภัยของ AI เพื่อซ่อนมงกุฎเพชรไว้หลัง API แบบรวมศูนย์
เป็นกลยุทธ์ที่ Joel Spolsky เคยพูดไว้ แต่ยังไม่แน่ชัดว่า Meta จะขายสินค้าประกอบของโมเดล AI แบบใดได้บ้าง อย่างไรก็ดี ดูชัดว่าเป็นการเลือกเชิงกลยุทธ์ไม่ทางใดก็ทางหนึ่ง
มีหลายเรื่องที่วิจารณ์ Zuck ได้ แต่การขาดความจริงใจต่อพันธกิจไม่ใช่หนึ่งในนั้น
ดีใจที่เห็น Meta รับคบเพลิงนี้ต่อจากตรงนี้ และหวังว่าจะเดินหน้าต่อไป
ไม่มีการเทียบตรง ๆ กับ GPT-4 ของ ChatGPT Plus แบบเสียเงิน เลยลองจับตัวเลขมาเทียบกัน
อิงจาก Llama 3 8B / Llama 3 70B / GPT-4 ค่า MMLU คือ 68.4 / 82.0 / 86.5, GPQA คือ 34.2 / 39.5 / 49.1, MATH คือ 30.0 / 50.4 / 72.2, HumanEval คือ 62.2 / 81.7 / 87.6, DROP คือ 58.4 / 79.7 / 85.4
ChatGPT ฟรีที่คนส่วนใหญ่ใช้เป็น GPT-3.5 ซึ่งอ่อนกว่า GPT-4 มาก ผมหาคะแนนประเมินแบบครอบคลุมของ GPT-3.5 รุ่นล่าสุดไม่เจอ แต่ Llama 3 70B น่าจะชนะได้แบบสบาย ๆ และ 8B ก็น่าจะเข้าใกล้มาก การที่เราสามารถรันและปรับแก้โมเดลระดับนี้แบบโลคัลได้นั้นน่าสนใจมาก ตัวเลขของ GPT-4 อิงจาก
gpt-4-turbo-2024-04-09 (chatgpt)ใน https://github.com/openai/simple-evalsอิงจาก Llama 3 400B Base / Instruct ค่า MMLU 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, DROP 83.5 / -
ถ้ามีใครอยากลองใช้สำหรับเขียนโค้ดใน IDE ผมได้เพิ่ม Llama 3 70B ไว้ในเครื่องมือช่วยเขียนโค้ด https://www.double.bot แล้ว
มีบทสัมภาษณ์ Zuck ออกมาด้วย: https://twitter.com/dwarkesh_sp/status/1780990840179187715
ตอนนั้นเขาเผื่อความปลอดภัยไว้เป็น 2 เท่าของปริมาณที่ต้องใช้ และด้วยเหตุนี้จึงบังเอิญกลายเป็นหนึ่งในไม่กี่บริษัทที่มีความจุ GPU เพียงพอสำหรับฝึก LLM ในระดับนี้
ใน model card มีผล benchmark เทียบกับ Llama รุ่นอื่น ๆ รวมถึง Llama 2: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
สิ่งที่น่าประทับใจคือ ประสิทธิภาพที่ดีขึ้นของ Llama 3 เมื่อเทียบกับ Llama 2 นั้นเด่นชัดมาก แม้เมื่อเทียบกับ Llama 2 13B ก็เป็นเช่นนั้น และการที่ context window เพิ่มเป็นสองเท่าเป็น 8k ก็น่าจะเปิดโอกาสใหม่ ๆ ได้มาก
ถึงอย่างนั้นตัวชี้วัดประสิทธิภาพที่เปิดเผยออกมาก็น่าประทับใจ และการที่ Meta ปล่อยโมเดลเหล่านี้ออกมาก็น่าชื่นชม