Meta เปิดตัวโมเดลภาษา Llama 3

(llama.meta.com)

1 คะแนน โดย GN⁺ 2024-04-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

หน้า Llama ของ Meta แนะนำ ตระกูลโมเดล Llama ในฐานะ AI โอเพนซอร์สที่มุ่งเน้นการติดตั้งใช้งานง่าย ความคุ้มค่าด้านต้นทุน ประสิทธิภาพ และการขยายสเกลขนาดใหญ่ โดยครอบคลุมทั้งตระกูล Llama 4 และ Llama 3
Llama 4 Maverick และ Llama 4 Scout เป็นโมเดลมัลติโมดัลแบบเนทีฟบนพื้นฐาน early fusion ที่พรีเทรนข้อความและโทเคนภาพร่วมกัน โดยทั้งคู่ชูจุดเด่นคอนเท็กซ์ 10M โทเคน
ตระกูล Llama 3 แบ่งเป็น 3.1, 3.2 และ 3.3 โดยมีตัวเลือกตามขนาดและการใช้งานด้านข้อความ, edge และมัลติโมดัล เช่น 8B, 70B, 405B, 1B, 3B, 11B, 90B และ 70B
การเปรียบเทียบประสิทธิภาพครอบคลุม MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi, MTOB เป็นต้น โดย Llama 4 Maverick ทำคะแนน MMLU Pro 80.5 และ Scout ทำได้ 74.3
กรณีของ Stoque และ Shopify แสดงผลลัพธ์จากการนำไปใช้ เช่น คำถามซ้ำในฝ่ายสนับสนุนทางเทคนิคลดลง 50%, ความพึงพอใจภายในเพิ่มขึ้น 11%, ปริมาณประมวลผลโทเคนเพิ่มขึ้น 76% และลดต้นทุนคอมพิวต์ 33% จากเอาต์พุต JSON

ตระกูลโมเดล Llama และตัวเลือกตามเวอร์ชัน

Llama เป็นตระกูลโมเดลที่สามารถ สร้างให้เหมาะกับเงื่อนไขของตนเอง โดยมุ่งเน้นการติดตั้งใช้งานง่าย ความคุ้มค่าด้านต้นทุน ประสิทธิภาพ และการขยายสเกลไปถึงระดับผู้ใช้นับพันล้านคน
แกนหลักของโมเดล Llama รุ่นล่าสุดคือมัลติโมดัลแบบเนทีฟ การให้เหตุผลขั้นสูง และหน้าต่างคอนเท็กซ์ยาว
สามารถดู model card และรูปแบบพรอมป์ได้ที่ Model overview
Llama 4: มัลติโมดัลแบบเนทีฟและคอนเท็กซ์ 10M
- Llama 4 เป็นตระกูลโมเดลมัลติโมดัลแบบเนทีฟที่ใช้ early fusion เพื่อพรีเทรนข้อมูลข้อความและภาพที่ไม่มีป้ายกำกับร่วมกัน
- Llama 4 Maverick รองรับความเข้าใจภาพและข้อความ และจัดการงานรูปแบบยาวด้วยคอนเท็กซ์ 10M โทเคน
- การใช้งานหลักคือหน่วยความจำ การปรับให้เหมาะกับแต่ละบุคคล และแอปพลิเคชันมัลติโมดัล
- Llama 4 Scout เป็นโมเดลที่ให้ความสามารถด้านข้อความและปัญญาเชิงภาพ โดยชูประสิทธิภาพบน GPU H100 เพียงตัวเดียวและหน้าต่างคอนเท็กซ์ 10M
- การวิเคราะห์เอกสารยาวถูกนำเสนอเป็นการใช้งานหลักของ Scout
- รายละเอียดมีให้ใน เอกสารโมเดล Llama 4
Llama 3: ตระกูลโมเดลตามขนาดและการใช้งาน
- Llama 3 เป็นตระกูลโมเดล AI โอเพนซอร์สที่สามารถ ไฟน์จูน ทำ distillation และติดตั้งใช้งานได้ทุกที่
- Llama 3.3 เป็นโมเดลภาษาโอเพนซอร์สขนาดใหญ่แบบพหุภาษาที่มีขนาด 70B โดยระบุว่าสามารถให้ประสบการณ์ด้านประสิทธิภาพและคุณภาพระดับ 405B ด้วยต้นทุนที่ต่ำกว่า
- เหมาะกับการใช้งานด้านข้อความ เช่น การสร้างข้อมูลสังเคราะห์ และดูรายละเอียดได้ใน เอกสารโมเดล Llama 3.3
- Llama 3.2 เป็นตระกูลโมเดลที่ยืดหยุ่นและคุ้มค่าด้านต้นทุนสำหรับการใช้งานบน edge
  - 1B และ 3B มีน้ำหนักเบาและคุ้มค่าด้านต้นทุน จึงสามารถรันได้ทุกที่
  - 11B และ 90B เป็นโมเดลมัลติโมดัลที่สามารถให้เหตุผลกับภาพความละเอียดสูงและส่งออกข้อความได้
  - รายละเอียดมีให้ใน เอกสารโมเดล Llama 3.2
- Llama 3.1 เป็นโมเดล foundation แบบเปิดเพื่อความยืดหยุ่นและการควบคุม มีให้เลือกในขนาด 8B, 70B และ 405B
- ครอบคลุมความรู้ทั่วไป ความสามารถในการปรับแต่ง คณิตศาสตร์ การใช้เครื่องมือ และความสามารถด้านการแปลหลายภาษา ใช้กับงานสรุปข้อความ เอเจนต์หลายภาษา และงานเขียนโค้ด
- รายละเอียดดูได้ใน เอกสารโมเดล Llama 3.1

ตัวชี้วัดประสิทธิภาพและผลลัพธ์จากการใช้งานจริง

เบนช์มาร์ก Llama 4 และเงื่อนไขการประเมิน
- ความสามารถของ Llama 4 สรุปได้เป็น มัลติโมดัลแบบเนทีฟ คอนเท็กซ์ยาว และ image grounding
- โมเดล Llama 4 ทั้งหมดใช้ early fusion เพื่อพรีเทรนข้อความและโทเคนภาพที่ไม่มีป้ายกำกับปริมาณมากร่วมกัน
- เบนช์มาร์กเปรียบเทียบ Llama 4 Maverick กับ Llama 4 Scout
  - การให้เหตุผล: MMLU Pro คือ Maverick 80.5, Scout 74.3 และ GPQA Diamond คือ Maverick 69.8, Scout 57.2
  - การเขียนโค้ด: LiveCodeBench คือ Maverick 43.4, Scout 32.8
  - ภาพมัลติโมดัล: MMMU คือ Maverick 73.4, Scout 69.4, ChartQA คือ Maverick 90.0, Scout 88.8 และ DocVQA คือ 94.4 ทั้งคู่
  - พหุภาษา: MMLU Multi คือ Maverick 84.6, Scout 74.3
  - คอนเท็กซ์ยาว: MTOB Half Book คือ Maverick 54.0 / 46.4, Scout 42.2 / 36.6 และ MTOB Full Book คือ Maverick 50.8 / 46.7, Scout 39.7 / 36.3
  - ประสิทธิภาพด้านต้นทุน: ค่าใช้จ่ายต่อ 1M โทเคนระบุว่าอยู่ที่ $0.19–$0.49 สำหรับทั้งคู่
- ตามวิธีวิจัยและหมายเหตุ ผลลัพธ์ของ Llama เป็น การประเมินแบบ 0-shot ที่ temperature 0 และไม่ได้ใช้ majority voting หรือคอมพิวต์เวลาเทสต์แบบขนาน
- สำหรับเบนช์มาร์กที่มีความแปรปรวนสูง เช่น GPQA Diamond และ LiveCodeBench มีการเฉลี่ยผลลัพธ์จากการสร้างหลายครั้งเพื่อลดความไม่แน่นอน
- การประเมินเฉพาะทางด้านคอนเท็กซ์ยาวตามธรรมเนียมแล้วไม่ได้ถูกรายงานในโมเดลทั่วไป จึงแชร์ผลลัพธ์จากการรันภายใน
- ต้นทุน $0.19/Mtok ของ Llama 4 Maverick เป็นค่าประมาณแบบ blended 3:1 ภายใต้สมมติฐานการอนุมานแบบกระจาย และคาดว่าสามารถให้บริการได้ที่ $0.30–$0.49/Mtok บนโฮสต์เดียว
กรณีการใช้งานของ Stoque และ Shopify
- Stoque ใช้ Llama เปลี่ยนระบบ intelligence ภายใน ทำให้ทีมค้นหาอินไซต์ได้เร็วขึ้น ลดแรงเสียดทาน และทำงานได้มีประสิทธิภาพมากขึ้นในสเกลใหญ่
- คำถามซ้ำในฝ่ายสนับสนุนทางเทคนิคลดลง 50% และการดำเนินงานด้านจัดการและสนับสนุนเสร็จสิ้นเพิ่มขึ้น 30%
- ความพึงพอใจของผู้ใช้ภายในเพิ่มขึ้น 11%
- Shopify ใช้ Llama ในการสร้างหน้าสินค้า การโลคัลไลซ์คอนเทนต์ และการทำงานอัตโนมัติด้านสนับสนุน
- เมื่อเทียบกับโมเดลก่อนหน้า ปริมาณประมวลผลโทเคนสูงขึ้น 76% และทำความแม่นยำ Macro-F1 ได้ 97.7% ในการตรวจจับเจตนา
- เอาต์พุต JSON ช่วยลดต้นทุนคอมพิวต์ลง 33%
- guardrail สำหรับ generative AI มีบทบาทในการระบุและบรรเทาความเสี่ยงที่อาจเกิดขึ้นล่วงหน้าผ่านการป้องกันระดับระบบ และช่วยให้นักพัฒนาติดตั้งใช้งาน generative AI ได้อย่างรับผิดชอบมากขึ้น

1 ความคิดเห็น

GN⁺ 2024-04-19

ความคิดเห็นจาก Hacker News

ลิงก์ที่น่าอ้างอิง: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613
Meta เปิดตัวคอนโซลด้วย: https://www.meta.ai/
ยังประกาศ การผสาน Meta AI เข้ากับผลิตภัณฑ์ตระกูล Meta ทั่วทั้งแพลตฟอร์มด้วย: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
แต่ดูจากที่ไม่ได้ใส่การเทียบกับ GPT-4-Turbo หรือ Claude Opus ก็น่าจะยังห่างจากโมเดลแนวหน้าสุด และคงต้องรอดูว่าประสิทธิภาพใน LLM Arena จะออกมาอย่างไร
- ที่ไม่ได้เทียบกับโมเดลอันดับต้น ๆ น่าจะเพราะต้องการเปรียบเทียบแบบ “ระดับเดียวกัน” โมเดล 70B อยู่ในระดับเดียวกับ Sonnet และถ้าชนะ Sonnet ได้ ก็อาจเข้าใกล้ Opus หรือ GPT-4 ได้ในงานส่วนใหญ่
  ความต่างใหญ่ ๆ น่าจะเกิดเฉพาะใน benchmark ด้านการให้เหตุผลที่ยากมาก ๆ เท่านั้น Llama เป็นน้ำหนักแบบเปิด ดังนั้นต่างจาก Opus ตรงที่จะมีการ fine-tuning และ LoRA ออกมาเยอะมาก
- ถ้า Llama-3-400B เทียบชั้น Claude 3 Opus และโมเดลอื่น ๆ ได้ ผู้แพ้อาจเป็นราคาหุ้น Nvidia, OpenAI กับ Sam และ Google ส่วนผู้ชนะอาจเป็น AMD, Intel, มหาวิทยาลัย และนักพัฒนาทั่วโลก
  หากประเทศต่าง ๆ และบริษัทใหญ่หันไปใช้ Llama-3/Llama-4 แทนการทุ่มเงินซื้อ GPU เพื่อเทรนโมเดลของตัวเอง ความคาดหวังการเติบโตของ GPU อาจถูกกดลง, OpenAI ก็จะมีเหตุผลในการระดมทุน 100,000 ล้านดอลลาร์อ่อนลง และความได้เปรียบด้าน AI ของ Google ก็จะพร่าเลือนไปด้วย AMD กับ Intel สามารถโฟกัสที่ ชิปสำหรับ inference ด้าน AI แทนการไล่ตาม GPU สำหรับเทรนของ Nvidia
- ที่เปิดให้ใช้ได้โดยไม่ต้องล็อกอินก็น่าแปลกใจเหมือนกัน เป็นสิ่งที่ไม่คาดคิดจาก Meta
- Meta ระบุว่ายังอยู่ระหว่างเทรน โมเดลแปรผันขนาดใหญ่ ที่แข่งขันได้มากขึ้น
  โมเดลที่ใหญ่ที่สุดซึ่งมีขนาดเกิน 400B ยังอยู่ระหว่างการเทรน และบอกว่าจะปล่อยหลายโมเดลในอีกไม่กี่เดือนข้างหน้า พร้อมความสามารถแบบมัลติโมดัล, บทสนทนาหลายภาษา, context window ที่ยาวกว่ามาก และความสามารถโดยรวมที่แข็งแกร่งขึ้น
- ขึ้นข้อความว่า “Meta AI isn't available yet in your country” เลยสงสัยว่าใช้ได้ที่ไหนบ้าง ใน Norway ขึ้นแบบนี้
benchmark สาธารณะใช้เป็นตัวชี้วัดคร่าว ๆ ได้ดี แต่สำหรับนักพัฒนาควรรัน benchmark แบบกำหนดเอง ให้ตรงกับ use case ของตัวเอง
Replicate ทำ Llama 3 API ออกมาอย่างรวดเร็วแล้ว https://replicate.com/blog/run-llama-3-with-an-api และสามารถใช้ promptfoo https://github.com/typpo/promptfoo เพื่อเปรียบเทียบ Llama 3, Mixtral, GPT, Claude ฯลฯ ได้ ตัวอย่างเช่นประเมิน meta/meta-llama-3-8b-instruct, meta/meta-llama-3-70b-instruct ของ Replicate, OpenAI gpt-4-turbo, Anthropic claude-3-opus-20240229 ฯลฯ ด้วย prompt เดียวกันได้
ยังอยู่ระหว่างทดสอบ แต่ในชุดคำถามโปรแกรมมิงแบบสุ่ม Llama 3 8B ดูค่อนข้างดี ตอนนี้ ollama ก็รองรับ Llama 3 8B แล้ว ทำให้ประเมินแบบ local ด้วย ollama:chat:llama3 ได้ง่ายขึ้น
- ต้องระวังอย่างมากเวลาทดสอบด้วยโจทย์ที่มีโอกาสสูงว่าเผยแพร่ทั้งชุดอยู่บนออนไลน์แล้ว
  การทดสอบที่ดีคือโจทย์ง่าย ๆ แต่ต้องดูการประยุกต์ใช้จริง เช่น การแก้ สมการกำลังสอง สำหรับค่า a, b, c แบบสุ่ม แม้จะเป็นอัลกอริทึมที่ทุกโมเดลน่าจะรู้ แต่ก็ยังผิดพลาดได้ และหลังจากนั้นบางครั้งยังทำเหมือนตรวจสอบแล้วพร้อมตอบคำตอบผิดซ้ำ ๆ LLAMA 3 เองก็เช่นกัน หลังจากชี้ข้อผิดพลาดหลายครั้งแล้ว มันบอกว่า “พบคำตอบที่ถูกต้องแล้วและตรวจสอบด้วยหลายวิธี” แต่คำตอบจริงก็ยังผิดเหมือนตอนแรก และไม่ได้พยายามตรวจสอบด้วย
- เคยมีปัญหาด้าน vocabulary ที่มีคำว่า assistant ต่อท้ายคำตอบ แต่ตอนนี้น่าจะทำงานได้แล้ว
  รันได้ด้วย ollama run llama3 และกำลังอัปโหลดเวอร์ชัน quantization หลายแบบ รวมถึงโมเดล text/70B ด้วย
Llama 3 70B เปิดตัวในอันดับ 5 บน leaderboard ของ LMSYS Chatbot Arena ที่มีชื่อเสียง โดยเสมอกับ Claude 2 Sonnet, Bard(Gemini Pro), Command R+ และนำหน้า Claude 2 Haiku กับ GPT-4 เวอร์ชันก่อน ๆ
ตอนนี้ค่าความไม่แน่นอนของคะแนนยังสูงอยู่ อันดับที่แน่นอนต้องรอเวลาและอาจเปลี่ยนได้ Llama 3 8B อยู่ที่อันดับ 12 เท่ากับ Claude 1, Mixtral 8x22B, Qwen-1.5-72B ดูอันดับล่าสุดได้ที่ https://arena.lmsys.org/
บน leaderboard เฉพาะภาษาอังกฤษ Llama 3 70B ยังอยู่กลุ่มบนสุดร่วมกับ GPT-4 และ Claude Opus ซึ่งน่าประทับใจกว่าเดิม อาจเป็นผลจากการปรับจูนด้านความปลอดภัยที่ไม่เข้มเท่าเดิม ทำให้ปฏิเสธ prompt น้อยลง แต่ก็ยังเป็นการปรับปรุงที่มีประโยชน์จริง ถ้าเร็วระดับนี้ โมเดล 400B มีโอกาสสูงมากที่จะครองสนามในทางปฏิบัติ
ลองให้สร้างแร็ปภาษาจีนแล้วทำได้ค่อนข้างดี แต่ทันทีที่จบ คำตอบถูกลบและเปลี่ยนเป็นข้อความว่า “ตอนนี้ยังไม่เข้าใจภาษาจีน แต่กำลังพัฒนาอยู่ และเมื่อสามารถสนทนาภาษาจีนได้แล้วจะส่งข้อความแจ้ง”
ภาษาอื่นก็เหมือนกัน คือ สร้างภาษาที่ไม่ใช่อังกฤษ ได้ แต่พอจบแล้วคำตอบจะถูกลบและแทนที่ด้วยข้อความแจ้งเดียวกัน
- ดูเหมือนมี post-processor ที่ประเมินคุณภาพคำตอบหลังจากสร้าง token ไปจำนวนหนึ่ง และถ้าต่ำกว่าเกณฑ์ก็ย้อนคำตอบกลับ
- รันบน local ก็ได้ เวอร์ชัน local ไม่มี guardrail แบบนั้น
- ภาษาอิตาลีใช้ได้ แต่จะมีข้อความ disclaimer แนบมาทุกครั้งว่า “ความสามารถในภาษาที่ไม่ใช่อังกฤษยังอยู่ระหว่างปรับปรุง จึงอาจมีข้อผิดพลาด และจะมีประโยชน์ที่สุดเมื่อช่วยเป็นภาษาอังกฤษ”
- แปลกที่บั๊กนี้ยังเกิดอยู่หลังผ่านไป 12 ชั่วโมง
ในบล็อกมีรายละเอียดดี ๆ เยอะมาก: https://ai.meta.com/blog/meta-llama-3/
เวอร์ชัน 400B ก็จะออกมาด้วย และดูเหมือนว่าจะดีกว่า GPT-4 กับ Claude Opus มาก แนวโน้มคือการกระจายศูนย์และซอฟต์แวร์แบบเปิดกำลังเป็นฝ่ายชนะ
- ถ้าเทียบกับตัวเลขของ Claude 3 จาก Anthropic https://www.anthropic.com/news/claude-3-family ตัวเลขของ Llama 400B ดูต่ำกว่านิดหน่อย
  แน่นอนว่าสิ่งที่นำมา benchmark เป็น checkpoint ระหว่างทาง และการฝึกยังดำเนินต่ออยู่
- ไม่เคยพูดแบบนั้นเลย ตรงกันข้าม benchmark ที่เผยแพร่ออกมาต่ำกว่า GPT-4 หรือ Opus
  ไม่ควรเชื่อ benchmark แบบตาบอดก็จริง แต่ไม่มีข้ออ้างว่ามันเหนือกว่า GPT-4 หรือ Opus ตอนนี้เป็น checkpoint ระหว่างทาง จึงมีความเป็นไปได้ว่าจะเหนือกว่าในอนาคต
- ไม่รู้ว่ามีตรงไหนที่บอกว่าโมเดล 400B ดีกว่า GPT-4 มาก
- จะเรียกว่ากระจายศูนย์ก็คงยาก อาจรันได้หลายที่ แต่แหล่งแจกจ่ายมีแค่ที่เดียว
  และก็ไม่ใช่ โอเพนซอร์ส ด้วย
- ไม่ใช่โอเพนซอร์ส และก็ไม่ใช่การกระจายศูนย์
ขอบคุณ Zuck, Yann และทีม Meta จริง ๆ ที่เลือกใช้ แนวทางแบบเปิด โดยแชร์น้ำหนักโมเดล, tokenizer, ข้อมูลเกี่ยวกับชุดข้อมูลฝึก ฯลฯ
พวกเขานี่แหละคือแรงขับเคลื่อนใหญ่ที่สุดของการระเบิดของงานวิจัยแบบเปิด ที่ทำให้เรารันโมเดลที่ค่อนข้างดีบนฮาร์ดแวร์ผู้บริโภคแบบโลคัลผ่านโปรเจกต์อย่าง llama.cpp และหลีกเลี่ยงการเซ็นเซอร์หรือการควบคุมได้
ไม่ใช่ว่าผมจะพยายามส่งคำขอที่จะติดข้อจำกัดของ OpenAI หรือ Anthropic แต่ไม่ชอบสถานการณ์ที่เทคโนโลยีทรงพลังแบบนี้ถูกขังอยู่หลังกำแพงและมี gatekeeper ควบคุมวิธีใช้งาน มีคนและบริษัทมากมายที่เชื่อในความเปิดกว้าง แต่ถ้าบริษัทที่มีทุนระดับหลายแสนล้านดอลลาร์ กระแสเงินสดยั่งยืน และ GPU มูลค่าหลายพันล้านดอลลาร์ทำแบบนี้ ผลกระทบย่อมมากกว่ามาก Zuck ไม่จำเป็นต้องเลือกเส้นทางนี้ และถ้าผู้บริหารมืออาชีพสไตล์ HBS/McKinsey เป็นคนบริหาร Facebook ก็มีโอกาสสูงว่าจะไม่เปิดไว้แบบนี้ ทุกคนได้ประโยชน์อย่างมากจากการที่พวกเขาไม่ได้ใช้ข้ออ้างเรื่องความเสี่ยงด้านความปลอดภัยของ AI เพื่อซ่อนมงกุฎเพชรไว้หลัง API แบบรวมศูนย์
- ดูจากสัมภาษณ์ของ Zuck จะเห็นว่าในใจเขายังเป็น วิศวกร อยู่ บริษัทเทคโนโลยีใหญ่รายอื่น ๆ สูญเสียภาวะผู้นำแบบนั้นไปแล้ว
- ยังอายุ 39 และดูมีพลังเหลือเฟือที่จะบริหารบริษัทต่อไป ถือเป็นเรื่องดี การมีผู้ก่อตั้งที่มีแพสชันเป็นข้อได้เปรียบใหญ่ของ Meta เมื่อเทียบกับบริษัทเทคโนโลยีใหญ่รายอื่น
- มีโอกาสสูงว่าไม่ได้ทำด้วยเจตนาดีล้วน ๆ น่าจะเป็นกลยุทธ์ทำให้โมเดลกลายเป็น สินค้าโภคภัณฑ์ เพื่อขายสินค้าประกอบ
  เป็นกลยุทธ์ที่ Joel Spolsky เคยพูดไว้ แต่ยังไม่แน่ชัดว่า Meta จะขายสินค้าประกอบของโมเดล AI แบบใดได้บ้าง อย่างไรก็ดี ดูชัดว่าเป็นการเลือกเชิงกลยุทธ์ไม่ทางใดก็ทางหนึ่ง
- เพราะเป็น CEO ผู้ก่อตั้งนั่นแหละ ต่างจากพวก MBA สายไต่เต้าในเรื่องแพสชันและความจริงใจ
  มีหลายเรื่องที่วิจารณ์ Zuck ได้ แต่การขาดความจริงใจต่อพันธกิจไม่ใช่หนึ่งในนั้น
- Meta ยังเป็นผู้นำ Open Compute Project ด้วย ผมเข้าทำงานเพราะความทุ่มเทต่อโอเพนซอร์สของ Google แต่ผิดหวังมากที่วัฒนธรรมนั้นไม่ได้สืบต่อมาเมื่อสร้างโซลูชันระดับเอกซะสเกล
  ดีใจที่เห็น Meta รับคบเพลิงนี้ต่อจากตรงนี้ และหวังว่าจะเดินหน้าต่อไป
ไม่มีการเทียบตรง ๆ กับ GPT-4 ของ ChatGPT Plus แบบเสียเงิน เลยลองจับตัวเลขมาเทียบกัน
อิงจาก Llama 3 8B / Llama 3 70B / GPT-4 ค่า MMLU คือ 68.4 / 82.0 / 86.5, GPQA คือ 34.2 / 39.5 / 49.1, MATH คือ 30.0 / 50.4 / 72.2, HumanEval คือ 62.2 / 81.7 / 87.6, DROP คือ 58.4 / 79.7 / 85.4
ChatGPT ฟรีที่คนส่วนใหญ่ใช้เป็น GPT-3.5 ซึ่งอ่อนกว่า GPT-4 มาก ผมหาคะแนนประเมินแบบครอบคลุมของ GPT-3.5 รุ่นล่าสุดไม่เจอ แต่ Llama 3 70B น่าจะชนะได้แบบสบาย ๆ และ 8B ก็น่าจะเข้าใกล้มาก การที่เราสามารถรันและปรับแก้โมเดลระดับนี้แบบโลคัลได้นั้นน่าสนใจมาก ตัวเลขของ GPT-4 อิงจาก gpt-4-turbo-2024-04-09 (chatgpt) ใน https://github.com/openai/simple-evals
- ที่ด้านล่างของ https://ai.meta.com/blog/meta-llama-3/ ยังมีผลของ โมเดล 400B ที่กำลังพัฒนาอยู่ด้วย ดูเหมือนว่ายังไปไม่ถึงเต็มที่
  อิงจาก Llama 3 400B Base / Instruct ค่า MMLU 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, DROP 83.5 / -
- น่าทึ่งเมื่อคิดว่า GPT-4 มี 1.8T พารามิเตอร์
- กำลังรอโมเดลที่ fine-tune หรือ merge แล้ว นักพัฒนาจำนวนมากสร้างโมเดลที่ดีกว่าโมเดลพื้นฐานมากบนฐาน Llama 2 ดังนั้นก็หวังว่าเวอร์ชันใหม่จะเป็นไปในทิศทางคล้ายกัน
- สงสัยว่ามีข้อมูลเปรียบเทียบกับ Mixtral 8x22B แล้วหรือยัง โลกเคลื่อนไหวเร็วจริง ๆ
- คาดหวังเป็นพิเศษเพราะ คะแนน HumanEval สูง ตอนนี้ทั้งโมเดล 400B และการจูน CodeLlama ยังไม่ออกมา
  ถ้ามีใครอยากลองใช้สำหรับเขียนโค้ดใน IDE ผมได้เพิ่ม Llama 3 70B ไว้ในเครื่องมือช่วยเขียนโค้ด https://www.double.bot แล้ว
มีบทสัมภาษณ์ Zuck ออกมาด้วย: https://twitter.com/dwarkesh_sp/status/1780990840179187715
- ช่วงประมาณนาทีที่ 5 มีส่วนที่น่าสนใจ Zuck บอกว่าเมื่อไม่กี่ปีก่อนเขาซื้อ H100 GPU จำนวนมหาศาลเพื่อสร้าง recommendation engine ของ Reels สำหรับแข่งกับ TikTok
  ตอนนั้นเขาเผื่อความปลอดภัยไว้เป็น 2 เท่าของปริมาณที่ต้องใช้ และด้วยเหตุนี้จึงบังเอิญกลายเป็นหนึ่งในไม่กี่บริษัทที่มีความจุ GPU เพียงพอสำหรับฝึก LLM ในระดับนี้
- MMA ช่วง 1–2 ปีดูเหมือนจะช่วยเรื่องคาริสมามากกว่าการฝึกสื่อทั้งหมดที่ผ่านมา ทุกวันนี้เขาดูเป็นธรรมชาติมากขึ้นในสัมภาษณ์
- พอดแคสต์ของ Dwarkesh โดยรวมดีมากจริง ๆ
ใน model card มีผล benchmark เทียบกับ Llama รุ่นอื่น ๆ รวมถึง Llama 2: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
สิ่งที่น่าประทับใจคือ ประสิทธิภาพที่ดีขึ้นของ Llama 3 เมื่อเทียบกับ Llama 2 นั้นเด่นชัดมาก แม้เมื่อเทียบกับ Llama 2 13B ก็เป็นเช่นนั้น และการที่ context window เพิ่มเป็นสองเท่าเป็น 8k ก็น่าจะเปิดโอกาสใหม่ ๆ ได้มาก
- หากดูตามโมเดลที่ผ่าน instruction tuning แล้ว Llama 3 8B ยังดีกว่า Llama 2 70B อยู่พอสมควร
- น่าเสียดายที่ context length 8k สั้นกว่า 64k context ของ Mixtral 8x22B อยู่มาก
  ถึงอย่างนั้นตัวชี้วัดประสิทธิภาพที่เปิดเผยออกมาก็น่าประทับใจ และการที่ Meta ปล่อยโมเดลเหล่านี้ออกมาก็น่าชื่นชม

Meta เปิดตัวโมเดลภาษา Llama 3

ตระกูลโมเดล Llama และตัวเลือกตามเวอร์ชัน

Llama 4: มัลติโมดัลแบบเนทีฟและคอนเท็กซ์ 10M

Llama 3: ตระกูลโมเดลตามขนาดและการใช้งาน

ตัวชี้วัดประสิทธิภาพและผลลัพธ์จากการใช้งานจริง

เบนช์มาร์ก Llama 4 และเงื่อนไขการประเมิน

กรณีการใช้งานของ Stoque และ Shopify

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News