1 คะแนน โดย GN⁺ 2024-04-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • หน้า Llama ของ Meta แนะนำ ตระกูลโมเดล Llama ในฐานะ AI โอเพนซอร์สที่มุ่งเน้นการติดตั้งใช้งานง่าย ความคุ้มค่าด้านต้นทุน ประสิทธิภาพ และการขยายสเกลขนาดใหญ่ โดยครอบคลุมทั้งตระกูล Llama 4 และ Llama 3
  • Llama 4 Maverick และ Llama 4 Scout เป็นโมเดลมัลติโมดัลแบบเนทีฟบนพื้นฐาน early fusion ที่พรีเทรนข้อความและโทเคนภาพร่วมกัน โดยทั้งคู่ชูจุดเด่นคอนเท็กซ์ 10M โทเคน
  • ตระกูล Llama 3 แบ่งเป็น 3.1, 3.2 และ 3.3 โดยมีตัวเลือกตามขนาดและการใช้งานด้านข้อความ, edge และมัลติโมดัล เช่น 8B, 70B, 405B, 1B, 3B, 11B, 90B และ 70B
  • การเปรียบเทียบประสิทธิภาพครอบคลุม MMLU Pro, GPQA Diamond, LiveCodeBench, MMMU, ChartQA, DocVQA, MMLU Multi, MTOB เป็นต้น โดย Llama 4 Maverick ทำคะแนน MMLU Pro 80.5 และ Scout ทำได้ 74.3
  • กรณีของ Stoque และ Shopify แสดงผลลัพธ์จากการนำไปใช้ เช่น คำถามซ้ำในฝ่ายสนับสนุนทางเทคนิคลดลง 50%, ความพึงพอใจภายในเพิ่มขึ้น 11%, ปริมาณประมวลผลโทเคนเพิ่มขึ้น 76% และลดต้นทุนคอมพิวต์ 33% จากเอาต์พุต JSON

ตระกูลโมเดล Llama และตัวเลือกตามเวอร์ชัน

  • Llama เป็นตระกูลโมเดลที่สามารถ สร้างให้เหมาะกับเงื่อนไขของตนเอง โดยมุ่งเน้นการติดตั้งใช้งานง่าย ความคุ้มค่าด้านต้นทุน ประสิทธิภาพ และการขยายสเกลไปถึงระดับผู้ใช้นับพันล้านคน
  • แกนหลักของโมเดล Llama รุ่นล่าสุดคือมัลติโมดัลแบบเนทีฟ การให้เหตุผลขั้นสูง และหน้าต่างคอนเท็กซ์ยาว
  • สามารถดู model card และรูปแบบพรอมป์ได้ที่ Model overview
  • Llama 4: มัลติโมดัลแบบเนทีฟและคอนเท็กซ์ 10M

    • Llama 4 เป็นตระกูลโมเดลมัลติโมดัลแบบเนทีฟที่ใช้ early fusion เพื่อพรีเทรนข้อมูลข้อความและภาพที่ไม่มีป้ายกำกับร่วมกัน
    • Llama 4 Maverick รองรับความเข้าใจภาพและข้อความ และจัดการงานรูปแบบยาวด้วยคอนเท็กซ์ 10M โทเคน
    • การใช้งานหลักคือหน่วยความจำ การปรับให้เหมาะกับแต่ละบุคคล และแอปพลิเคชันมัลติโมดัล
    • Llama 4 Scout เป็นโมเดลที่ให้ความสามารถด้านข้อความและปัญญาเชิงภาพ โดยชูประสิทธิภาพบน GPU H100 เพียงตัวเดียวและหน้าต่างคอนเท็กซ์ 10M
    • การวิเคราะห์เอกสารยาวถูกนำเสนอเป็นการใช้งานหลักของ Scout
    • รายละเอียดมีให้ใน เอกสารโมเดล Llama 4
  • Llama 3: ตระกูลโมเดลตามขนาดและการใช้งาน

    • Llama 3 เป็นตระกูลโมเดล AI โอเพนซอร์สที่สามารถ ไฟน์จูน ทำ distillation และติดตั้งใช้งานได้ทุกที่
    • Llama 3.3 เป็นโมเดลภาษาโอเพนซอร์สขนาดใหญ่แบบพหุภาษาที่มีขนาด 70B โดยระบุว่าสามารถให้ประสบการณ์ด้านประสิทธิภาพและคุณภาพระดับ 405B ด้วยต้นทุนที่ต่ำกว่า
    • เหมาะกับการใช้งานด้านข้อความ เช่น การสร้างข้อมูลสังเคราะห์ และดูรายละเอียดได้ใน เอกสารโมเดล Llama 3.3
    • Llama 3.2 เป็นตระกูลโมเดลที่ยืดหยุ่นและคุ้มค่าด้านต้นทุนสำหรับการใช้งานบน edge
      • 1B และ 3B มีน้ำหนักเบาและคุ้มค่าด้านต้นทุน จึงสามารถรันได้ทุกที่
      • 11B และ 90B เป็นโมเดลมัลติโมดัลที่สามารถให้เหตุผลกับภาพความละเอียดสูงและส่งออกข้อความได้
      • รายละเอียดมีให้ใน เอกสารโมเดล Llama 3.2
    • Llama 3.1 เป็นโมเดล foundation แบบเปิดเพื่อความยืดหยุ่นและการควบคุม มีให้เลือกในขนาด 8B, 70B และ 405B
    • ครอบคลุมความรู้ทั่วไป ความสามารถในการปรับแต่ง คณิตศาสตร์ การใช้เครื่องมือ และความสามารถด้านการแปลหลายภาษา ใช้กับงานสรุปข้อความ เอเจนต์หลายภาษา และงานเขียนโค้ด
    • รายละเอียดดูได้ใน เอกสารโมเดล Llama 3.1

ตัวชี้วัดประสิทธิภาพและผลลัพธ์จากการใช้งานจริง

  • เบนช์มาร์ก Llama 4 และเงื่อนไขการประเมิน

    • ความสามารถของ Llama 4 สรุปได้เป็น มัลติโมดัลแบบเนทีฟ คอนเท็กซ์ยาว และ image grounding
    • โมเดล Llama 4 ทั้งหมดใช้ early fusion เพื่อพรีเทรนข้อความและโทเคนภาพที่ไม่มีป้ายกำกับปริมาณมากร่วมกัน
    • เบนช์มาร์กเปรียบเทียบ Llama 4 Maverick กับ Llama 4 Scout
      • การให้เหตุผล: MMLU Pro คือ Maverick 80.5, Scout 74.3 และ GPQA Diamond คือ Maverick 69.8, Scout 57.2
      • การเขียนโค้ด: LiveCodeBench คือ Maverick 43.4, Scout 32.8
      • ภาพมัลติโมดัล: MMMU คือ Maverick 73.4, Scout 69.4, ChartQA คือ Maverick 90.0, Scout 88.8 และ DocVQA คือ 94.4 ทั้งคู่
      • พหุภาษา: MMLU Multi คือ Maverick 84.6, Scout 74.3
      • คอนเท็กซ์ยาว: MTOB Half Book คือ Maverick 54.0 / 46.4, Scout 42.2 / 36.6 และ MTOB Full Book คือ Maverick 50.8 / 46.7, Scout 39.7 / 36.3
      • ประสิทธิภาพด้านต้นทุน: ค่าใช้จ่ายต่อ 1M โทเคนระบุว่าอยู่ที่ $0.19–$0.49 สำหรับทั้งคู่
    • ตามวิธีวิจัยและหมายเหตุ ผลลัพธ์ของ Llama เป็น การประเมินแบบ 0-shot ที่ temperature 0 และไม่ได้ใช้ majority voting หรือคอมพิวต์เวลาเทสต์แบบขนาน
    • สำหรับเบนช์มาร์กที่มีความแปรปรวนสูง เช่น GPQA Diamond และ LiveCodeBench มีการเฉลี่ยผลลัพธ์จากการสร้างหลายครั้งเพื่อลดความไม่แน่นอน
    • การประเมินเฉพาะทางด้านคอนเท็กซ์ยาวตามธรรมเนียมแล้วไม่ได้ถูกรายงานในโมเดลทั่วไป จึงแชร์ผลลัพธ์จากการรันภายใน
    • ต้นทุน $0.19/Mtok ของ Llama 4 Maverick เป็นค่าประมาณแบบ blended 3:1 ภายใต้สมมติฐานการอนุมานแบบกระจาย และคาดว่าสามารถให้บริการได้ที่ $0.30–$0.49/Mtok บนโฮสต์เดียว
  • กรณีการใช้งานของ Stoque และ Shopify

    • Stoque ใช้ Llama เปลี่ยนระบบ intelligence ภายใน ทำให้ทีมค้นหาอินไซต์ได้เร็วขึ้น ลดแรงเสียดทาน และทำงานได้มีประสิทธิภาพมากขึ้นในสเกลใหญ่
    • คำถามซ้ำในฝ่ายสนับสนุนทางเทคนิคลดลง 50% และการดำเนินงานด้านจัดการและสนับสนุนเสร็จสิ้นเพิ่มขึ้น 30%
    • ความพึงพอใจของผู้ใช้ภายในเพิ่มขึ้น 11%
    • Shopify ใช้ Llama ในการสร้างหน้าสินค้า การโลคัลไลซ์คอนเทนต์ และการทำงานอัตโนมัติด้านสนับสนุน
    • เมื่อเทียบกับโมเดลก่อนหน้า ปริมาณประมวลผลโทเคนสูงขึ้น 76% และทำความแม่นยำ Macro-F1 ได้ 97.7% ในการตรวจจับเจตนา
    • เอาต์พุต JSON ช่วยลดต้นทุนคอมพิวต์ลง 33%
    • guardrail สำหรับ generative AI มีบทบาทในการระบุและบรรเทาความเสี่ยงที่อาจเกิดขึ้นล่วงหน้าผ่านการป้องกันระดับระบบ และช่วยให้นักพัฒนาติดตั้งใช้งาน generative AI ได้อย่างรับผิดชอบมากขึ้น

1 ความคิดเห็น

 
GN⁺ 2024-04-19
ความคิดเห็นจาก Hacker News
  • ลิงก์ที่น่าอ้างอิง: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613

  • Meta เปิดตัวคอนโซลด้วย: https://www.meta.ai/
    ยังประกาศ การผสาน Meta AI เข้ากับผลิตภัณฑ์ตระกูล Meta ทั่วทั้งแพลตฟอร์มด้วย: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
    แต่ดูจากที่ไม่ได้ใส่การเทียบกับ GPT-4-Turbo หรือ Claude Opus ก็น่าจะยังห่างจากโมเดลแนวหน้าสุด และคงต้องรอดูว่าประสิทธิภาพใน LLM Arena จะออกมาอย่างไร

    • ที่ไม่ได้เทียบกับโมเดลอันดับต้น ๆ น่าจะเพราะต้องการเปรียบเทียบแบบ “ระดับเดียวกัน” โมเดล 70B อยู่ในระดับเดียวกับ Sonnet และถ้าชนะ Sonnet ได้ ก็อาจเข้าใกล้ Opus หรือ GPT-4 ได้ในงานส่วนใหญ่
      ความต่างใหญ่ ๆ น่าจะเกิดเฉพาะใน benchmark ด้านการให้เหตุผลที่ยากมาก ๆ เท่านั้น Llama เป็นน้ำหนักแบบเปิด ดังนั้นต่างจาก Opus ตรงที่จะมีการ fine-tuning และ LoRA ออกมาเยอะมาก
    • ถ้า Llama-3-400B เทียบชั้น Claude 3 Opus และโมเดลอื่น ๆ ได้ ผู้แพ้อาจเป็นราคาหุ้น Nvidia, OpenAI กับ Sam และ Google ส่วนผู้ชนะอาจเป็น AMD, Intel, มหาวิทยาลัย และนักพัฒนาทั่วโลก
      หากประเทศต่าง ๆ และบริษัทใหญ่หันไปใช้ Llama-3/Llama-4 แทนการทุ่มเงินซื้อ GPU เพื่อเทรนโมเดลของตัวเอง ความคาดหวังการเติบโตของ GPU อาจถูกกดลง, OpenAI ก็จะมีเหตุผลในการระดมทุน 100,000 ล้านดอลลาร์อ่อนลง และความได้เปรียบด้าน AI ของ Google ก็จะพร่าเลือนไปด้วย AMD กับ Intel สามารถโฟกัสที่ ชิปสำหรับ inference ด้าน AI แทนการไล่ตาม GPU สำหรับเทรนของ Nvidia
    • ที่เปิดให้ใช้ได้โดยไม่ต้องล็อกอินก็น่าแปลกใจเหมือนกัน เป็นสิ่งที่ไม่คาดคิดจาก Meta
    • Meta ระบุว่ายังอยู่ระหว่างเทรน โมเดลแปรผันขนาดใหญ่ ที่แข่งขันได้มากขึ้น
      โมเดลที่ใหญ่ที่สุดซึ่งมีขนาดเกิน 400B ยังอยู่ระหว่างการเทรน และบอกว่าจะปล่อยหลายโมเดลในอีกไม่กี่เดือนข้างหน้า พร้อมความสามารถแบบมัลติโมดัล, บทสนทนาหลายภาษา, context window ที่ยาวกว่ามาก และความสามารถโดยรวมที่แข็งแกร่งขึ้น
    • ขึ้นข้อความว่า “Meta AI isn't available yet in your country” เลยสงสัยว่าใช้ได้ที่ไหนบ้าง ใน Norway ขึ้นแบบนี้
  • benchmark สาธารณะใช้เป็นตัวชี้วัดคร่าว ๆ ได้ดี แต่สำหรับนักพัฒนาควรรัน benchmark แบบกำหนดเอง ให้ตรงกับ use case ของตัวเอง
    Replicate ทำ Llama 3 API ออกมาอย่างรวดเร็วแล้ว https://replicate.com/blog/run-llama-3-with-an-api และสามารถใช้ promptfoo https://github.com/typpo/promptfoo เพื่อเปรียบเทียบ Llama 3, Mixtral, GPT, Claude ฯลฯ ได้ ตัวอย่างเช่นประเมิน meta/meta-llama-3-8b-instruct, meta/meta-llama-3-70b-instruct ของ Replicate, OpenAI gpt-4-turbo, Anthropic claude-3-opus-20240229 ฯลฯ ด้วย prompt เดียวกันได้
    ยังอยู่ระหว่างทดสอบ แต่ในชุดคำถามโปรแกรมมิงแบบสุ่ม Llama 3 8B ดูค่อนข้างดี ตอนนี้ ollama ก็รองรับ Llama 3 8B แล้ว ทำให้ประเมินแบบ local ด้วย ollama:chat:llama3 ได้ง่ายขึ้น

    • ต้องระวังอย่างมากเวลาทดสอบด้วยโจทย์ที่มีโอกาสสูงว่าเผยแพร่ทั้งชุดอยู่บนออนไลน์แล้ว
      การทดสอบที่ดีคือโจทย์ง่าย ๆ แต่ต้องดูการประยุกต์ใช้จริง เช่น การแก้ สมการกำลังสอง สำหรับค่า a, b, c แบบสุ่ม แม้จะเป็นอัลกอริทึมที่ทุกโมเดลน่าจะรู้ แต่ก็ยังผิดพลาดได้ และหลังจากนั้นบางครั้งยังทำเหมือนตรวจสอบแล้วพร้อมตอบคำตอบผิดซ้ำ ๆ LLAMA 3 เองก็เช่นกัน หลังจากชี้ข้อผิดพลาดหลายครั้งแล้ว มันบอกว่า “พบคำตอบที่ถูกต้องแล้วและตรวจสอบด้วยหลายวิธี” แต่คำตอบจริงก็ยังผิดเหมือนตอนแรก และไม่ได้พยายามตรวจสอบด้วย
    • เคยมีปัญหาด้าน vocabulary ที่มีคำว่า assistant ต่อท้ายคำตอบ แต่ตอนนี้น่าจะทำงานได้แล้ว
      รันได้ด้วย ollama run llama3 และกำลังอัปโหลดเวอร์ชัน quantization หลายแบบ รวมถึงโมเดล text/70B ด้วย
  • Llama 3 70B เปิดตัวในอันดับ 5 บน leaderboard ของ LMSYS Chatbot Arena ที่มีชื่อเสียง โดยเสมอกับ Claude 2 Sonnet, Bard(Gemini Pro), Command R+ และนำหน้า Claude 2 Haiku กับ GPT-4 เวอร์ชันก่อน ๆ
    ตอนนี้ค่าความไม่แน่นอนของคะแนนยังสูงอยู่ อันดับที่แน่นอนต้องรอเวลาและอาจเปลี่ยนได้ Llama 3 8B อยู่ที่อันดับ 12 เท่ากับ Claude 1, Mixtral 8x22B, Qwen-1.5-72B ดูอันดับล่าสุดได้ที่ https://arena.lmsys.org/
    บน leaderboard เฉพาะภาษาอังกฤษ Llama 3 70B ยังอยู่กลุ่มบนสุดร่วมกับ GPT-4 และ Claude Opus ซึ่งน่าประทับใจกว่าเดิม อาจเป็นผลจากการปรับจูนด้านความปลอดภัยที่ไม่เข้มเท่าเดิม ทำให้ปฏิเสธ prompt น้อยลง แต่ก็ยังเป็นการปรับปรุงที่มีประโยชน์จริง ถ้าเร็วระดับนี้ โมเดล 400B มีโอกาสสูงมากที่จะครองสนามในทางปฏิบัติ

  • ลองให้สร้างแร็ปภาษาจีนแล้วทำได้ค่อนข้างดี แต่ทันทีที่จบ คำตอบถูกลบและเปลี่ยนเป็นข้อความว่า “ตอนนี้ยังไม่เข้าใจภาษาจีน แต่กำลังพัฒนาอยู่ และเมื่อสามารถสนทนาภาษาจีนได้แล้วจะส่งข้อความแจ้ง”
    ภาษาอื่นก็เหมือนกัน คือ สร้างภาษาที่ไม่ใช่อังกฤษ ได้ แต่พอจบแล้วคำตอบจะถูกลบและแทนที่ด้วยข้อความแจ้งเดียวกัน

    • ดูเหมือนมี post-processor ที่ประเมินคุณภาพคำตอบหลังจากสร้าง token ไปจำนวนหนึ่ง และถ้าต่ำกว่าเกณฑ์ก็ย้อนคำตอบกลับ
    • รันบน local ก็ได้ เวอร์ชัน local ไม่มี guardrail แบบนั้น
    • ภาษาอิตาลีใช้ได้ แต่จะมีข้อความ disclaimer แนบมาทุกครั้งว่า “ความสามารถในภาษาที่ไม่ใช่อังกฤษยังอยู่ระหว่างปรับปรุง จึงอาจมีข้อผิดพลาด และจะมีประโยชน์ที่สุดเมื่อช่วยเป็นภาษาอังกฤษ”
    • แปลกที่บั๊กนี้ยังเกิดอยู่หลังผ่านไป 12 ชั่วโมง
  • ในบล็อกมีรายละเอียดดี ๆ เยอะมาก: https://ai.meta.com/blog/meta-llama-3/
    เวอร์ชัน 400B ก็จะออกมาด้วย และดูเหมือนว่าจะดีกว่า GPT-4 กับ Claude Opus มาก แนวโน้มคือการกระจายศูนย์และซอฟต์แวร์แบบเปิดกำลังเป็นฝ่ายชนะ

    • ถ้าเทียบกับตัวเลขของ Claude 3 จาก Anthropic https://www.anthropic.com/news/claude-3-family ตัวเลขของ Llama 400B ดูต่ำกว่านิดหน่อย
      แน่นอนว่าสิ่งที่นำมา benchmark เป็น checkpoint ระหว่างทาง และการฝึกยังดำเนินต่ออยู่
    • ไม่เคยพูดแบบนั้นเลย ตรงกันข้าม benchmark ที่เผยแพร่ออกมาต่ำกว่า GPT-4 หรือ Opus
      ไม่ควรเชื่อ benchmark แบบตาบอดก็จริง แต่ไม่มีข้ออ้างว่ามันเหนือกว่า GPT-4 หรือ Opus ตอนนี้เป็น checkpoint ระหว่างทาง จึงมีความเป็นไปได้ว่าจะเหนือกว่าในอนาคต
    • ไม่รู้ว่ามีตรงไหนที่บอกว่าโมเดล 400B ดีกว่า GPT-4 มาก
    • จะเรียกว่ากระจายศูนย์ก็คงยาก อาจรันได้หลายที่ แต่แหล่งแจกจ่ายมีแค่ที่เดียว
      และก็ไม่ใช่ โอเพนซอร์ส ด้วย
    • ไม่ใช่โอเพนซอร์ส และก็ไม่ใช่การกระจายศูนย์
  • ขอบคุณ Zuck, Yann และทีม Meta จริง ๆ ที่เลือกใช้ แนวทางแบบเปิด โดยแชร์น้ำหนักโมเดล, tokenizer, ข้อมูลเกี่ยวกับชุดข้อมูลฝึก ฯลฯ
    พวกเขานี่แหละคือแรงขับเคลื่อนใหญ่ที่สุดของการระเบิดของงานวิจัยแบบเปิด ที่ทำให้เรารันโมเดลที่ค่อนข้างดีบนฮาร์ดแวร์ผู้บริโภคแบบโลคัลผ่านโปรเจกต์อย่าง llama.cpp และหลีกเลี่ยงการเซ็นเซอร์หรือการควบคุมได้
    ไม่ใช่ว่าผมจะพยายามส่งคำขอที่จะติดข้อจำกัดของ OpenAI หรือ Anthropic แต่ไม่ชอบสถานการณ์ที่เทคโนโลยีทรงพลังแบบนี้ถูกขังอยู่หลังกำแพงและมี gatekeeper ควบคุมวิธีใช้งาน มีคนและบริษัทมากมายที่เชื่อในความเปิดกว้าง แต่ถ้าบริษัทที่มีทุนระดับหลายแสนล้านดอลลาร์ กระแสเงินสดยั่งยืน และ GPU มูลค่าหลายพันล้านดอลลาร์ทำแบบนี้ ผลกระทบย่อมมากกว่ามาก Zuck ไม่จำเป็นต้องเลือกเส้นทางนี้ และถ้าผู้บริหารมืออาชีพสไตล์ HBS/McKinsey เป็นคนบริหาร Facebook ก็มีโอกาสสูงว่าจะไม่เปิดไว้แบบนี้ ทุกคนได้ประโยชน์อย่างมากจากการที่พวกเขาไม่ได้ใช้ข้ออ้างเรื่องความเสี่ยงด้านความปลอดภัยของ AI เพื่อซ่อนมงกุฎเพชรไว้หลัง API แบบรวมศูนย์

    • ดูจากสัมภาษณ์ของ Zuck จะเห็นว่าในใจเขายังเป็น วิศวกร อยู่ บริษัทเทคโนโลยีใหญ่รายอื่น ๆ สูญเสียภาวะผู้นำแบบนั้นไปแล้ว
    • ยังอายุ 39 และดูมีพลังเหลือเฟือที่จะบริหารบริษัทต่อไป ถือเป็นเรื่องดี การมีผู้ก่อตั้งที่มีแพสชันเป็นข้อได้เปรียบใหญ่ของ Meta เมื่อเทียบกับบริษัทเทคโนโลยีใหญ่รายอื่น
    • มีโอกาสสูงว่าไม่ได้ทำด้วยเจตนาดีล้วน ๆ น่าจะเป็นกลยุทธ์ทำให้โมเดลกลายเป็น สินค้าโภคภัณฑ์ เพื่อขายสินค้าประกอบ
      เป็นกลยุทธ์ที่ Joel Spolsky เคยพูดไว้ แต่ยังไม่แน่ชัดว่า Meta จะขายสินค้าประกอบของโมเดล AI แบบใดได้บ้าง อย่างไรก็ดี ดูชัดว่าเป็นการเลือกเชิงกลยุทธ์ไม่ทางใดก็ทางหนึ่ง
    • เพราะเป็น CEO ผู้ก่อตั้งนั่นแหละ ต่างจากพวก MBA สายไต่เต้าในเรื่องแพสชันและความจริงใจ
      มีหลายเรื่องที่วิจารณ์ Zuck ได้ แต่การขาดความจริงใจต่อพันธกิจไม่ใช่หนึ่งในนั้น
    • Meta ยังเป็นผู้นำ Open Compute Project ด้วย ผมเข้าทำงานเพราะความทุ่มเทต่อโอเพนซอร์สของ Google แต่ผิดหวังมากที่วัฒนธรรมนั้นไม่ได้สืบต่อมาเมื่อสร้างโซลูชันระดับเอกซะสเกล
      ดีใจที่เห็น Meta รับคบเพลิงนี้ต่อจากตรงนี้ และหวังว่าจะเดินหน้าต่อไป
  • ไม่มีการเทียบตรง ๆ กับ GPT-4 ของ ChatGPT Plus แบบเสียเงิน เลยลองจับตัวเลขมาเทียบกัน
    อิงจาก Llama 3 8B / Llama 3 70B / GPT-4 ค่า MMLU คือ 68.4 / 82.0 / 86.5, GPQA คือ 34.2 / 39.5 / 49.1, MATH คือ 30.0 / 50.4 / 72.2, HumanEval คือ 62.2 / 81.7 / 87.6, DROP คือ 58.4 / 79.7 / 85.4
    ChatGPT ฟรีที่คนส่วนใหญ่ใช้เป็น GPT-3.5 ซึ่งอ่อนกว่า GPT-4 มาก ผมหาคะแนนประเมินแบบครอบคลุมของ GPT-3.5 รุ่นล่าสุดไม่เจอ แต่ Llama 3 70B น่าจะชนะได้แบบสบาย ๆ และ 8B ก็น่าจะเข้าใกล้มาก การที่เราสามารถรันและปรับแก้โมเดลระดับนี้แบบโลคัลได้นั้นน่าสนใจมาก ตัวเลขของ GPT-4 อิงจาก gpt-4-turbo-2024-04-09 (chatgpt) ใน https://github.com/openai/simple-evals

    • ที่ด้านล่างของ https://ai.meta.com/blog/meta-llama-3/ ยังมีผลของ โมเดล 400B ที่กำลังพัฒนาอยู่ด้วย ดูเหมือนว่ายังไปไม่ถึงเต็มที่
      อิงจาก Llama 3 400B Base / Instruct ค่า MMLU 84.8 / 86.1, GPQA - / 48.0, MATH - / 57.8, HumanEval - / 84.1, DROP 83.5 / -
    • น่าทึ่งเมื่อคิดว่า GPT-4 มี 1.8T พารามิเตอร์
    • กำลังรอโมเดลที่ fine-tune หรือ merge แล้ว นักพัฒนาจำนวนมากสร้างโมเดลที่ดีกว่าโมเดลพื้นฐานมากบนฐาน Llama 2 ดังนั้นก็หวังว่าเวอร์ชันใหม่จะเป็นไปในทิศทางคล้ายกัน
    • สงสัยว่ามีข้อมูลเปรียบเทียบกับ Mixtral 8x22B แล้วหรือยัง โลกเคลื่อนไหวเร็วจริง ๆ
    • คาดหวังเป็นพิเศษเพราะ คะแนน HumanEval สูง ตอนนี้ทั้งโมเดล 400B และการจูน CodeLlama ยังไม่ออกมา
      ถ้ามีใครอยากลองใช้สำหรับเขียนโค้ดใน IDE ผมได้เพิ่ม Llama 3 70B ไว้ในเครื่องมือช่วยเขียนโค้ด https://www.double.bot แล้ว
  • มีบทสัมภาษณ์ Zuck ออกมาด้วย: https://twitter.com/dwarkesh_sp/status/1780990840179187715

    • ช่วงประมาณนาทีที่ 5 มีส่วนที่น่าสนใจ Zuck บอกว่าเมื่อไม่กี่ปีก่อนเขาซื้อ H100 GPU จำนวนมหาศาลเพื่อสร้าง recommendation engine ของ Reels สำหรับแข่งกับ TikTok
      ตอนนั้นเขาเผื่อความปลอดภัยไว้เป็น 2 เท่าของปริมาณที่ต้องใช้ และด้วยเหตุนี้จึงบังเอิญกลายเป็นหนึ่งในไม่กี่บริษัทที่มีความจุ GPU เพียงพอสำหรับฝึก LLM ในระดับนี้
    • MMA ช่วง 1–2 ปีดูเหมือนจะช่วยเรื่องคาริสมามากกว่าการฝึกสื่อทั้งหมดที่ผ่านมา ทุกวันนี้เขาดูเป็นธรรมชาติมากขึ้นในสัมภาษณ์
    • พอดแคสต์ของ Dwarkesh โดยรวมดีมากจริง ๆ
  • ใน model card มีผล benchmark เทียบกับ Llama รุ่นอื่น ๆ รวมถึง Llama 2: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
    สิ่งที่น่าประทับใจคือ ประสิทธิภาพที่ดีขึ้นของ Llama 3 เมื่อเทียบกับ Llama 2 นั้นเด่นชัดมาก แม้เมื่อเทียบกับ Llama 2 13B ก็เป็นเช่นนั้น และการที่ context window เพิ่มเป็นสองเท่าเป็น 8k ก็น่าจะเปิดโอกาสใหม่ ๆ ได้มาก

    • หากดูตามโมเดลที่ผ่าน instruction tuning แล้ว Llama 3 8B ยังดีกว่า Llama 2 70B อยู่พอสมควร
    • น่าเสียดายที่ context length 8k สั้นกว่า 64k context ของ Mixtral 8x22B อยู่มาก
      ถึงอย่างนั้นตัวชี้วัดประสิทธิภาพที่เปิดเผยออกมาก็น่าประทับใจ และการที่ Meta ปล่อยโมเดลเหล่านี้ออกมาก็น่าชื่นชม