- Meta ประกาศโมเดล Llama 4 ใหม่ 2 รุ่น ได้แก่ Scout ซึ่งเป็นโมเดลขนาดเล็ก และ Maverick ซึ่งเป็นโมเดลขนาดกลาง
- Meta อ้างว่า Maverick ทำผลงานได้ดีกว่า GPT-4o และ Gemini 2.0 Flash
- Maverick ขึ้นสู่อันดับ 2 บน LMArena ซึ่งเป็นแพลตฟอร์มเปรียบเทียบโมเดล AI
- คะแนน ELO ที่เปิดเผยคือ 1417 คะแนน สูงกว่า GPT-4o และต่ำกว่า Gemini 2.5 Pro เล็กน้อย
- คะแนน ELO ที่สูงหมายถึงโมเดลดังกล่าวชนะบ่อยกว่าเมื่อถูกนำไปเปรียบเทียบประเมินกับโมเดลอื่น
เกิดข้อสงสัยเรื่องการบิดเบือน benchmark
- นักวิจัย AI พบจุดผิดสังเกตในเอกสารของ Meta
- เวอร์ชันของ Maverick ที่ใช้ใน LMArena แตกต่างจากเวอร์ชันที่เปิดให้สาธารณะใช้งาน
- Meta ระบุว่าได้ใช้ เวอร์ชันทดลองที่ปรับแต่งสำหรับการสนทนา กับ LMArena
- เวอร์ชันดังกล่าวเป็นโมเดลทดลองที่เน้น “ความเป็นธรรมชาติในการสนทนา(conversationality)”
ปฏิกิริยาจากชุมชนและแพลตฟอร์ม
- LMArena ออกแถลงการณ์อย่างเป็นทางการว่าการตีความนโยบายของ Meta ไม่สอดคล้องกับความคาดหวัง
- Meta ไม่ได้ระบุให้ชัดเจนว่าเป็นเวอร์ชันทดลอง และด้วยเหตุนี้ LMArena จึงประกาศเปลี่ยนนโยบายลีดเดอร์บอร์ด
- เป็นมาตรการเพื่อรับประกันการประเมินที่ยุติธรรมและทำซ้ำได้ในอนาคต
คำชี้แจงจาก Meta
- Ashley Gabriel โฆษกของ Meta อธิบายในแถลงการณ์ทางอีเมลว่าบริษัทมีการทดสอบเวอร์ชันทดลองหลายแบบ
- พร้อมระบุว่า “‘Llama-4-Maverick-03-26-Experimental’ เป็นโมเดลทดลองที่ปรับแต่งเพื่อการสนทนา และแสดงผลงานได้ดีบน LMArena เช่นกัน”
2 ความคิดเห็น
ก็อย่างที่คิดเลยว่า เรื่องการปั่นแต้ม benchmark จะขาดไปไม่ได้หรอกนะ
ความเห็นจาก Hacker News