Meta เผชิญข้อถกเถียงเรื่องการปั่นคะแนน AI benchmark

(theverge.com)

4 คะแนน โดย GN⁺ 2025-04-09 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Meta ประกาศโมเดล Llama 4 ใหม่ 2 รุ่น ได้แก่ Scout ซึ่งเป็นโมเดลขนาดเล็ก และ Maverick ซึ่งเป็นโมเดลขนาดกลาง
Meta อ้างว่า Maverick ทำผลงานได้ดีกว่า GPT-4o และ Gemini 2.0 Flash
Maverick ขึ้นสู่อันดับ 2 บน LMArena ซึ่งเป็นแพลตฟอร์มเปรียบเทียบโมเดล AI
คะแนน ELO ที่เปิดเผยคือ 1417 คะแนน สูงกว่า GPT-4o และต่ำกว่า Gemini 2.5 Pro เล็กน้อย
คะแนน ELO ที่สูงหมายถึงโมเดลดังกล่าวชนะบ่อยกว่าเมื่อถูกนำไปเปรียบเทียบประเมินกับโมเดลอื่น

เกิดข้อสงสัยเรื่องการบิดเบือน benchmark

นักวิจัย AI พบจุดผิดสังเกตในเอกสารของ Meta
เวอร์ชันของ Maverick ที่ใช้ใน LMArena แตกต่างจากเวอร์ชันที่เปิดให้สาธารณะใช้งาน
Meta ระบุว่าได้ใช้ เวอร์ชันทดลองที่ปรับแต่งสำหรับการสนทนา กับ LMArena
เวอร์ชันดังกล่าวเป็นโมเดลทดลองที่เน้น “ความเป็นธรรมชาติในการสนทนา(conversationality)”

ปฏิกิริยาจากชุมชนและแพลตฟอร์ม

LMArena ออกแถลงการณ์อย่างเป็นทางการว่าการตีความนโยบายของ Meta ไม่สอดคล้องกับความคาดหวัง
Meta ไม่ได้ระบุให้ชัดเจนว่าเป็นเวอร์ชันทดลอง และด้วยเหตุนี้ LMArena จึงประกาศเปลี่ยนนโยบายลีดเดอร์บอร์ด
เป็นมาตรการเพื่อรับประกันการประเมินที่ยุติธรรมและทำซ้ำได้ในอนาคต

คำชี้แจงจาก Meta

Ashley Gabriel โฆษกของ Meta อธิบายในแถลงการณ์ทางอีเมลว่าบริษัทมีการทดสอบเวอร์ชันทดลองหลายแบบ
พร้อมระบุว่า “‘Llama-4-Maverick-03-26-Experimental’ เป็นโมเดลทดลองที่ปรับแต่งเพื่อการสนทนา และแสดงผลงานได้ดีบน LMArena เช่นกัน”

2 ความคิดเห็น

ndrgrd 2025-04-10

ก็อย่างที่คิดเลยว่า เรื่องการปั่นแต้ม benchmark จะขาดไปไม่ได้หรอกนะ

GN⁺ 2025-04-09

ความเห็นจาก Hacker News

การเปิดตัว Llama 4 ดูเป็นความล้มเหลวครั้งใหญ่สำหรับ Meta ประสิทธิภาพของโมเดลไม่ดี และกระแสรายงานทั้งหมดก็เป็นไปในทางลบ
- ก็เป็นไปตามที่คาดไว้ แต่ทำให้อยากรู้ว่า Meta จะทำอะไรต่อไป ตอนนี้ดูเหมือนจะตามหลังโมเดลเปิดอื่น ๆ อยู่ และการเดิมพันครั้งใหญ่กับ MoEs ก็ดูเหมือนจะไม่สำเร็จ
- สงสัยว่า Zuck เป็นคนผลักดันให้เปิดตัวหรือไม่ เขาน่าจะรู้ว่ามันยังไม่พร้อม
รู้สึกช็อกที่บริษัทที่ขโมยข้อมูลมีลิขสิทธิ์ไปใช้ กลับมาทำเรื่องผิดจริยธรรมอีกครั้ง
Meta ถูกจับได้เป็นครั้งแรก
การดู sample battle (H2H) ที่ LMArena เผยแพร่น่าจะอธิบายได้ชัดที่สุด เอาต์พุตของโมเดล Meta เยิ่นเย้อและพูดมากเกินไป พอดูคำตัดสินแล้วก็เข้าใจได้ว่าทำไมผู้คนถึงเมินอันดับของ LMArena
ตอนนี้ LMArena หมดประโยชน์ไปแล้วหรือ?
- เคยคิดว่ามันเป็นการรันสองโมเดลด้วยคิวรีเดียวกันที่ผู้ใช้ส่งมา ซึ่งไม่น่าจะถูกบิดเบือนได้
- ไม่เข้าใจว่า "การปรับให้เหมาะกับบทสนทนา" หมายถึงอะไร และไม่รู้ว่าสิ่งนี้ให้ข้อได้เปรียบอะไรใน LMArena
Meta ทำร้ายตัวเองด้วย AI สาธารณะที่แย่มากซึ่งให้คนทั่วไปลองใช้ได้ (meta.ai) ฉันใช้เวอร์ชันเว็บของ GPT 4o, Deepseek, Grok, Google Gemeni 2.5 เป็นประจำ
- ของ Meta แย่ที่สุดเสมอ เลยไม่สนใจอีกต่อไป
คงไม่มีใครแปลกใจ และกฎของ Goodhart ก็ทำงานอีกครั้ง
อันดับต้น ๆ ของลีดเดอร์บอร์ดเต็มไปด้วยโมเดลทดลองแบบปิดน้ำหนัก
เชื่อว่านี่ถูกออกแบบมาให้ประจบหรือเอาใจผู้พรอมป์มากขึ้น ถ้าเป็นเรื่องจริง ก็ชวนให้กังวลเกี่ยวกับคนที่ทำการเปรียบเทียบ

Meta เผชิญข้อถกเถียงเรื่องการปั่นคะแนน AI benchmark

เกิดข้อสงสัยเรื่องการบิดเบือน benchmark

ปฏิกิริยาจากชุมชนและแพลตฟอร์ม

คำชี้แจงจาก Meta

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความเห็นจาก Hacker News