ถูกกำจัดโดย LLM
(r0bk.github.io)- รวบรวม benchmark ที่หมดประโยชน์ลงไปแล้วเพราะความก้าวหน้าของ AI (ไม่สามารถวัดโมเดลรุ่นล่าสุดได้)
- ยังมีประโยชน์ในฐานะแบบประเมินอยู่บ้าง แต่ไม่สามารถให้คำตอบที่มีนัยสำคัญต่อคำถามว่า "AI ทำ X ได้หรือไม่?"
- 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
- 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
- 2022: BIG-Bench
- 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
- 2018: SWAG
3 ความคิดเห็น
SQuAD ก็หายไปแล้วนะ?
ทำให้นึกถึง "killed by Google" นะ
ยังมีการเห็นด้วยและไม่เห็นด้วยเกี่ยวกับ benchmark บางตัวอยู่ แต่ก็ยังน่าสนใจ https://news.ycombinator.com/item?id=42606231