ถูกกำจัดโดย LLM

xguru · 2025-01-08T09:33:01+09:00

รวบรวม benchmark ที่หมดประโยชน์ลงไปแล้วเพราะความก้าวหน้าของ AI (ไม่สามารถวัดโมเดลรุ่นล่าสุดได้) ยังมีประโยชน์ในฐานะแบบประเมินอยู่บ้าง แต่ไม่สามารถให้คำตอบที่มีนัยสำคัญต่อคำถามว่า "AI ทำ X ได้หรือไม่?" 2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval 2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande 2022: BIG-Bench 2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD 2018: SWAG

(r0bk.github.io)

7 คะแนน โดย xguru 2025-01-08 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

รวบรวม benchmark ที่หมดประโยชน์ลงไปแล้วเพราะความก้าวหน้าของ AI (ไม่สามารถวัดโมเดลรุ่นล่าสุดได้)
- ยังมีประโยชน์ในฐานะแบบประเมินอยู่บ้าง แต่ไม่สามารถให้คำตอบที่มีนัยสำคัญต่อคำถามว่า "AI ทำ X ได้หรือไม่?"
2024: ARC-AGI, MATH, BIG-Bench-Hard, HumanEval, IFEval
2023: GSM8K, Turing Test, ARC(AI2), HellaSwag, MMLU, WinoGrande
2022: BIG-Bench
2019: SuperGLUE, WSC, GLUE, TriviaQA, SQaAD v2.0, SQuAD
2018: SWAG

3 ความคิดเห็น

kandk 2025-01-08

SQuAD ก็หายไปแล้วนะ?

nutella 2025-01-08

ทำให้นึกถึง "killed by Google" นะ

xguru 2025-01-08

ยังมีการเห็นด้วยและไม่เห็นด้วยเกี่ยวกับ benchmark บางตัวอยู่ แต่ก็ยังน่าสนใจ https://news.ycombinator.com/item?id=42606231

ถูกกำจัดโดย LLM

บทความที่เกี่ยวข้อง

3 ความคิดเห็น