4 คะแนน โดย GN⁺ 2025-04-09 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Meta ประกาศโมเดล Llama 4 ใหม่ 2 รุ่น ได้แก่ Scout ซึ่งเป็นโมเดลขนาดเล็ก และ Maverick ซึ่งเป็นโมเดลขนาดกลาง
  • Meta อ้างว่า Maverick ทำผลงานได้ดีกว่า GPT-4o และ Gemini 2.0 Flash
  • Maverick ขึ้นสู่อันดับ 2 บน LMArena ซึ่งเป็นแพลตฟอร์มเปรียบเทียบโมเดล AI
  • คะแนน ELO ที่เปิดเผยคือ 1417 คะแนน สูงกว่า GPT-4o และต่ำกว่า Gemini 2.5 Pro เล็กน้อย
  • คะแนน ELO ที่สูงหมายถึงโมเดลดังกล่าวชนะบ่อยกว่าเมื่อถูกนำไปเปรียบเทียบประเมินกับโมเดลอื่น

เกิดข้อสงสัยเรื่องการบิดเบือน benchmark

  • นักวิจัย AI พบจุดผิดสังเกตในเอกสารของ Meta
  • เวอร์ชันของ Maverick ที่ใช้ใน LMArena แตกต่างจากเวอร์ชันที่เปิดให้สาธารณะใช้งาน
  • Meta ระบุว่าได้ใช้ เวอร์ชันทดลองที่ปรับแต่งสำหรับการสนทนา กับ LMArena
  • เวอร์ชันดังกล่าวเป็นโมเดลทดลองที่เน้น “ความเป็นธรรมชาติในการสนทนา(conversationality)”

ปฏิกิริยาจากชุมชนและแพลตฟอร์ม

  • LMArena ออกแถลงการณ์อย่างเป็นทางการว่าการตีความนโยบายของ Meta ไม่สอดคล้องกับความคาดหวัง
  • Meta ไม่ได้ระบุให้ชัดเจนว่าเป็นเวอร์ชันทดลอง และด้วยเหตุนี้ LMArena จึงประกาศเปลี่ยนนโยบายลีดเดอร์บอร์ด
  • เป็นมาตรการเพื่อรับประกันการประเมินที่ยุติธรรมและทำซ้ำได้ในอนาคต

คำชี้แจงจาก Meta

  • Ashley Gabriel โฆษกของ Meta อธิบายในแถลงการณ์ทางอีเมลว่าบริษัทมีการทดสอบเวอร์ชันทดลองหลายแบบ
  • พร้อมระบุว่า “‘Llama-4-Maverick-03-26-Experimental’ เป็นโมเดลทดลองที่ปรับแต่งเพื่อการสนทนา และแสดงผลงานได้ดีบน LMArena เช่นกัน”

2 ความคิดเห็น

 
ndrgrd 2025-04-10

ก็อย่างที่คิดเลยว่า เรื่องการปั่นแต้ม benchmark จะขาดไปไม่ได้หรอกนะ

 
GN⁺ 2025-04-09
ความเห็นจาก Hacker News
  • การเปิดตัว Llama 4 ดูเป็นความล้มเหลวครั้งใหญ่สำหรับ Meta ประสิทธิภาพของโมเดลไม่ดี และกระแสรายงานทั้งหมดก็เป็นไปในทางลบ
    • ก็เป็นไปตามที่คาดไว้ แต่ทำให้อยากรู้ว่า Meta จะทำอะไรต่อไป ตอนนี้ดูเหมือนจะตามหลังโมเดลเปิดอื่น ๆ อยู่ และการเดิมพันครั้งใหญ่กับ MoEs ก็ดูเหมือนจะไม่สำเร็จ
    • สงสัยว่า Zuck เป็นคนผลักดันให้เปิดตัวหรือไม่ เขาน่าจะรู้ว่ามันยังไม่พร้อม
  • รู้สึกช็อกที่บริษัทที่ขโมยข้อมูลมีลิขสิทธิ์ไปใช้ กลับมาทำเรื่องผิดจริยธรรมอีกครั้ง
  • Meta ถูกจับได้เป็นครั้งแรก
  • การดู sample battle (H2H) ที่ LMArena เผยแพร่น่าจะอธิบายได้ชัดที่สุด เอาต์พุตของโมเดล Meta เยิ่นเย้อและพูดมากเกินไป พอดูคำตัดสินแล้วก็เข้าใจได้ว่าทำไมผู้คนถึงเมินอันดับของ LMArena
  • ตอนนี้ LMArena หมดประโยชน์ไปแล้วหรือ?
    • เคยคิดว่ามันเป็นการรันสองโมเดลด้วยคิวรีเดียวกันที่ผู้ใช้ส่งมา ซึ่งไม่น่าจะถูกบิดเบือนได้
    • ไม่เข้าใจว่า "การปรับให้เหมาะกับบทสนทนา" หมายถึงอะไร และไม่รู้ว่าสิ่งนี้ให้ข้อได้เปรียบอะไรใน LMArena
  • Meta ทำร้ายตัวเองด้วย AI สาธารณะที่แย่มากซึ่งให้คนทั่วไปลองใช้ได้ (meta.ai) ฉันใช้เวอร์ชันเว็บของ GPT 4o, Deepseek, Grok, Google Gemeni 2.5 เป็นประจำ
    • ของ Meta แย่ที่สุดเสมอ เลยไม่สนใจอีกต่อไป
  • คงไม่มีใครแปลกใจ และกฎของ Goodhart ก็ทำงานอีกครั้ง
  • อันดับต้น ๆ ของลีดเดอร์บอร์ดเต็มไปด้วยโมเดลทดลองแบบปิดน้ำหนัก
  • เชื่อว่านี่ถูกออกแบบมาให้ประจบหรือเอาใจผู้พรอมป์มากขึ้น ถ้าเป็นเรื่องจริง ก็ชวนให้กังวลเกี่ยวกับคนที่ทำการเปรียบเทียบ