การเปลี่ยนแปลงของ LLM ในช่วง 6 เดือนที่ผ่านมา อธิบายผ่านภาพนกกระทุงปั่นจักรยาน

(simonwillison.net)

13 คะแนน โดย GN⁺ 2025-06-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ในช่วง 6 เดือนที่ผ่านมา มี โมเดล LLM สำคัญมากกว่า 30 รุ่น เปิดตัวออกมา ทำให้ความเร็วของนวัตกรรมในอุตสาหกรรม AI เร่งขึ้นไปอีก
ความเชื่อมั่นต่อเบนช์มาร์กและลีดเดอร์บอร์ดแบบดั้งเดิมลดลง จึงมีการเปรียบเทียบโมเดลด้วยการทดสอบเฉพาะตัว โดยให้โมเดลวาด "นกกระทุงปั่นจักรยาน" ด้วยโค้ด SVG โดยตรง
มีทั้งโมเดลโอเพนและเชิงพาณิชย์จาก Meta, DeepSeek, Anthropic, OpenAI, Google และอีกหลายราย บางรุ่นเบาพอจะรันบนพีซีได้ ขณะที่บางรุ่นก็ก้าวหน้าอย่างมากในด้านความคุ้มค่าต่อราคา
ความสามารถในการเชื่อมต่อเครื่องมือและการให้เหตุผลที่ก้าวกระโดด รวมถึง ความเสี่ยงด้านความปลอดภัยอย่าง prompt injection และการรั่วไหลของข้อมูล กำลังกลายเป็นประเด็นสำคัญใหม่ของวงการ
ทั้ง บั๊กชวนขำและการทดลองเกี่ยวกับ LLM เช่นบั๊กประจบผู้ใช้ของ ChatGPT และเบนช์มาร์กผู้แจ้งเบาะแส กำลังชี้ให้เห็นว่าการประเมินจากประสบการณ์ใช้งานจริงมีความสำคัญมากขึ้นกว่าการดูคะแนนอย่างเดียว

The last six months in LLMs, illustrated by pelicans on bicycles

ในงาน AI Engineer World’s Fair ที่ซานฟรานซิสโก เดือนมิถุนายน 2025 มีการบรรยายคีย์โน้ตในหัวข้อ “LLM ในช่วง 6 เดือนที่ผ่านมา”
เดิมตั้งใจจะสรุปเป็นรายปี แต่เพราะในช่วง 6 เดือนล่าสุดมีการเปลี่ยนแปลงมากเกินไป
เฉพาะโมเดล LLM หลัก ๆ ก็มีการเปิดตัว มากกว่า 30 รุ่น ภายใน 6 เดือนที่ผ่านมา และล้วนสำคัญระดับที่คนทำงานในอุตสาหกรรมควรรู้จัก

การเปลี่ยนแปลงของวิธีประเมินโมเดล

เริ่มตระหนักว่าการดูเพียง คะแนนเบนช์มาร์กและลีดเดอร์บอร์ด แบบเดิมนั้นยากที่จะบอกได้ว่าโมเดลไหนใช้งานได้ดีจริง
จึงออกแบบ การทดลองให้ LLM วาดภาพ SVG ของ ‘นกกระทุงปั่นจักรยาน’ เป็นโค้ด
- LLM วาดภาพเองโดยตรงไม่ได้ แต่สามารถสร้างโค้ด SVG ได้
- ทั้งนกกระทุงและจักรยานต่างก็วาดยาก และยังเป็นการจับคู่ที่ไม่มีอยู่จริง จึงเหมาะสำหรับทดสอบความคิดสร้างสรรค์และตรรกะของโมเดล
- SVG รองรับคอมเมนต์ ทำให้เข้าใจได้ง่ายว่าโมเดลสร้างโค้ดขึ้นมาด้วยเจตนาแบบใด

การเปิดตัวและลักษณะเด่นของโมเดล LLM สำคัญ

Amazon Nova: รองรับ 1 ล้านโทเค็น ราคาถูกมาก แต่ความสามารถในการวาดนกกระทุงยังต่ำ
Meta Llama 3.3 70B: ถูกจับตามองในฐานะโมเดลระดับ GPT-4 ที่สามารถรันบนโน้ตบุ๊กส่วนตัวได้ (M2 MacBook Pro 64GB)
DeepSeek v3 (สถาบันวิจัย AI จากจีน): เปิดตัวแบบ open-weight ในช่วงคริสต์มาส ได้รับการประเมินว่าเป็นหนึ่งในโมเดลโอเพนชั้นนำ และมีต้นทุนการฝึกถูกกว่าโมเดลขนาดใหญ่เดิม 10~100 เท่า
DeepSeek-R1: โมเดลที่เน้นการให้เหตุผลและอยู่ในระดับแข่งขันกับ OpenAI o1 ได้ โดยตอนเปิดตัวมีเหตุการณ์ที่หุ้น NVIDIA ร่วงลง 6 หมื่นล้านดอลลาร์ภายในวันเดียว
Mistral Small 3 (24B): รันบนแล็ปท็อปได้ และให้ประสิทธิภาพใกล้เคียง Llama 3.3 70B โดยใช้หน่วยความจำน้อยกว่ามาก
Anthropic Claude 3.7 Sonnet: โดดเด่นทั้งด้านการให้เหตุผลและความคิดสร้างสรรค์ และให้ผลลัพธ์ที่ดีในการประเมินด้วยภาพ LLM
OpenAI GPT-4.5: ประสิทธิภาพต่ำกว่าที่คาดและมีต้นทุนสูง จึงยุติการให้บริการภายใน 6 สัปดาห์
OpenAI GPT-4.1 และ Nano/Mini: รองรับ 1 ล้านโทเค็น ค่าใช้จ่ายต่ำมาก และเป็นโมเดล API ที่แนะนำอย่างยิ่งสำหรับการใช้งานจริง
Google Gemini 2.5 Pro: วาดภาพได้อย่างสร้างสรรค์ในต้นทุนที่สมเหตุสมผล แต่มีข้อเสียตรงที่ชื่อซับซ้อนจนจำยาก
Llama 4: มีขนาดใหญ่เกินไปจนรันบนฮาร์ดแวร์ทั่วไปไม่ได้ ทำให้ความคาดหวังลดลง

วิธีประเมินนกกระทุงและการจัดอันดับ

มีการใช้ shot-scraper จับภาพ SVG นกกระทุง-จักรยาน 34 ภาพ ที่สร้างโดยโมเดลต่าง ๆ แล้วนำมาจับคู่เปรียบเทียบแบบ 1:1 ครบทุกคู่ (560 ครั้ง)
ให้ gpt-4.1-mini ประเมินว่า “ฝั่งไหนถ่ายทอดภาพนกกระทุงกำลังปั่นจักรยานได้ดีกว่า”
จากผลที่ได้จึงคำนวณ คะแนน Elo (แบบการจัดอันดับหมากรุก) เพื่อสร้างลำดับสุดท้าย
- อันดับ 1: Gemini 2.5 Pro Preview 05-06
- กลุ่มบน: o3, Claude 4 Sonnet, Claude Opus เป็นต้น
- กลุ่มล่าง: Llama 3.3 70B เป็นต้น

บั๊กของ LLM และกรณีที่น่าสนใจ

บั๊กประจบผู้ใช้มากเกินไปของ ChatGPT

ใน ChatGPT เวอร์ชันใหม่เกิดปัญหาที่ ชื่นชมไอเดียของผู้ใช้แบบเกินจริง แม้แต่ไอเดียธุรกิจที่ฟังดูหลุดโลก
OpenAI ออกแพตช์อย่างรวดเร็ว โดยลบแนวทาง “ปรับอารมณ์ให้เข้ากับผู้ใช้” ออกจาก system prompt และเปลี่ยนคำสั่งเป็น “อย่าประจบ”
เป็นการแก้บั๊กระยะสั้นด้วย prompt engineering

เบนช์มาร์กผู้แจ้งเบาะแส (SnitchBench)

เริ่มต้นจาก Claude 4 System Card และ Theo Browne ได้พัฒนา SnitchBench เพื่อประเมินว่า เมื่อโมเดล AI เห็นหลักฐานการทุจริตของบริษัท จะไปแจ้งที่ไหน
โมเดลส่วนใหญ่ รับบทเป็นผู้เปิดโปงข้อมูลภายใน โดยส่งอีเมลไปยัง FDA ของสหรัฐฯ สื่อมวลชน และหน่วยงานอื่น ๆ
DeepSeek-R1 แสดงพฤติกรรมเชิงรุกยิ่งกว่า ด้วยการแจ้งไปพร้อมกันถึงสื่ออย่าง WSJ และ ProPublica

ความสามารถในการใช้เครื่องมือและประเด็นด้านความปลอดภัย

ความสามารถของ LLM ในการ เรียกใช้เครื่องมือ (tool) พัฒนาไปมากในช่วง 6 เดือนที่ผ่านมา
ด้วย MCP (multi-component framework) จึงสามารถสร้างเวิร์กโฟลว์ซับซ้อน เช่น การผสมหลายเครื่องมือ การค้นหา การให้เหตุผล และการลองค้นหาใหม่ได้
แต่ขณะเดียวกัน ความเสี่ยงด้านความปลอดภัยร้ายแรง (lethal trifecta) อย่าง prompt injection, การรั่วไหลของข้อมูล และการรันคำสั่งอันตราย ก็เด่นชัดขึ้นเช่นกัน
ผู้ให้บริการ AI รายใหญ่อย่าง OpenAI ได้ระบุ คำเตือนด้านความปลอดภัยเมื่อใช้ตัวเลือกความเสี่ยงสูง เช่น การเข้าถึงอินเทอร์เน็ตหรือการรันโค้ด ไว้ในเอกสารอย่างชัดเจน

บทสรุปและแนวโน้ม

เบนช์มาร์กนกกระทุง-จักรยานน่าจะยังใช้ได้ต่อไปอีกระยะหนึ่ง แต่หากห้องแล็บ AI รายใหญ่เริ่มจับทางได้ ก็อาจต้องหาโจทย์ใหม่มาแทน
ในปี 2025 การเปลี่ยนแปลงด้าน ประสิทธิภาพของโมเดล ราคา การใช้เครื่องมือ และความปลอดภัย รุนแรงมาก จนในการใช้งานจริงจำเป็นต้องมีทั้งวิธีประเมินแบบใหม่และการจัดการความเสี่ยงที่มากกว่าการดูตัวเลขเบนช์มาร์กเพียงอย่างเดียว

1 ความคิดเห็น

GN⁺ 2025-06-09

ความคิดเห็นบน Hacker News

คิดว่านี่เป็นหนึ่งในการเปิดตัวผลิตภัณฑ์ที่ประสบความสำเร็จที่สุดครั้งหนึ่งในประวัติศาสตร์ แค่สัปดาห์เดียวก็มีบัญชีใหม่เพิ่ม 100 ล้านบัญชี และเคยมีช่วงหนึ่งที่มีคนสมัคร 1 ล้านคนภายในหนึ่งชั่วโมงด้วย กระแสไวรัลทำให้มันถูกพูดถึงต่อเนื่อง แต่ผมเพิ่งได้ยินเรื่องนี้เป็นครั้งแรกเมื่อไม่นานมานี้เอง เพราะใช้งานแอป stable diffusion แบบออฟไลน์อยู่แล้ว เลยรู้สึกยากที่จะมองว่านี่เป็นการอัปเกรด ทุกสัปดาห์มีข่าว AI เยอะเกินไป ถ้าไม่ได้ตามจริงจังก็พลาดแม้แต่การเปิดตัวสำคัญได้ง่ายมาก
- บริการนี้เข้ากระแสหลักจริง ๆ คนเอาไปแปลงตัวเองเป็นมัพเพ็ต หรือทำเวอร์ชันมนุษย์ของสุนัขเลี้ยงตัวเอง จนกลายเป็นประเด็นคุยกันไปทั่ว และดังมากบน TikTok ด้วย น่าทึ่งจริง ๆ
- พูดตามจริงคือคุณแทบจะหลุดออกจากโซเชียลมีเดียไปแล้ว การเปิดตัวครั้งนี้เป็นอีเวนต์ระดับแมสอย่างมาก และอยู่หลายวันทีเดียวที่ภาพซึ่งสร้างด้วย GPT กวาดเต็มโซเชียลมีเดีย
- จริง ๆ แล้ว ChatGPT มีฟีเจอร์สร้างภาพอยู่ก่อนแล้ว แต่รอบนี้เป็นเวอร์ชันที่ก้าวหน้ากว่าเดิมมาก ถึงคุณจะเป็นผู้ใช้แอป stable diffusion ที่มีอยู่แล้ว มันก็ยังเป็นการอัปเกรดครั้งใหญ่ ทั้งในแง่คุณภาพของภาพและความแม่นยำในการทำตามคำสั่ง
- สงสัยเหมือนกันว่ามีใครบ้างที่พลาดกระแส Ghiblifying ไป
ผมค่อนข้างพอใจกับ benchmark ของตัวเอง และเคยหวังว่าวิธีนี้จะยังมีประโยชน์ไปได้นาน ตราบใดที่แล็บ AI ใหญ่ ๆ ยังไม่สังเกตเห็นมัน แต่พอเห็นภาพนกกระทุงขี่จักรยานที่โผล่มาสั้น ๆ ใน Google I/O keynote ก็รู้เลยว่าความลับแตกแล้ว ดูเหมือนคงต้องหาวิธีทดสอบแบบใหม่แล้ว เรื่องแบบนี้ทำให้การถกกันในที่สาธารณะเกี่ยวกับความสามารถของ AI ยากขึ้น แม้จะเป็นการทดสอบเล็ก ๆ และแปลกเฉพาะทาง แต่ถ้าบริษัทใหญ่รู้เข้า ก็จะมีการปรับแต่งเกินพอดีด้วย RLHF เช่นการทดสอบคลาสสิกอย่าง "นับจำนวนตัว r ใน strawberry"
- ถ้า benchmark นกกระทุงขี่จักรยานของผมกลายเป็นแรงบันดาลใจให้แล็บ AI ลงแรงปรับแต่งและสร้างภาพประกอบนกกระทุงเท่ ๆ ออกมาได้ นั่นก็ถือเป็นความสำเร็จอย่างมากสำหรับผมในตัวมันเอง
- ผมลองทดสอบการนับจำนวน r ใน strawberry กับ GPT-4o แล้ว มันตอบผิด โดยตอบว่า "The word 'strawberry' contains 2 letter r’s."
- ในบริบทนี้ ผมคิดว่า ARC Prize เป็นแนวทางที่ดีกว่า ARC Prize
ชอบ benchmark นี้มาก ผมเองก็เคยลองอะไรคล้าย ๆ กันแบบขำ ๆ (และนาน ๆ ครั้งกว่ามาก) โดยให้หลายโมเดลสร้างเมโลดี้ออกมาในรูปโครงสร้างข้อมูล ผมใช้ท่อนอินโทรของ Smoke on the Water เป็นตัวอย่าง และทำให้มันมีเสียงจริงด้วย Web Audio API มันยังไม่เคยสำเร็จแบบสมบูรณ์ แต่ก็เห็นได้ว่าดีขึ้นเรื่อย ๆ และตอนนี้ถึงขั้นขอให้แต่ละโมเดลทำเว็บไซต์ให้ได้ด้วย ผมว่าการทดสอบของคุณระมัดระวังในแง่ความสดใหม่มากกว่า แต่สิ่งที่น่าสนใจคือการผลักให้โมเดลลองทำสิ่งที่ไม่ได้ถูกออกแบบมาโดยตรงให้ทำ ผลลัพธ์ ChatGPT 4 Turbo, ผลลัพธ์ Claude Sonnet 3.7, ผลลัพธ์ Gemini 2.5 Pro โดย Gemini ฟังดูดีที่สุด แต่ก็ยังไม่สมบูรณ์อยู่ดี อยากรู้เหมือนกันว่าโมเดลเสียเงินรุ่นล่าสุดจะทำได้แค่ไหน และถ้าอยากดูว่าความพยายามครั้งแรกหน้าตาเป็นยังไง ลิงก์นี้
- จุดอ่อนของการประเมินด้วย SVG นกกระทุงขี่จักรยานคือพรอมต์เปิดกว้างมาก และไม่มีเกณฑ์ตัดสินที่ชัดเจน ช่วงหลัง ๆ SVG ก็ออกมาคล้ายกันไปหมด หรืออย่างน้อยก็ไปถึงเป้าหมายที่ไม่ใช่เป้าหมายเดียวกันได้เหมือนกันหมด (มีนกกระทุง มีจักรยาน แต่ไม่ชัดว่าขาอยู่บนอานหรือบนแป้นถีบ) เลยยากที่จะเห็นพ้องกันว่าอันไหนดีกว่า ถ้าใช้ LLM เป็นกรรมการ การประเมินก็ยิ่งยุ่งและหลุดจากเจตนาเดิมไปอีก แถมถ้า benchmark นี้ดังขึ้น ก็เสี่ยงที่จะถูกดูดเข้าไปในชุดข้อมูลฝึกจนโมเดลเก่งขึ้นอย่างไม่ยุติธรรม จริง ๆ benchmark ที่ดัง ๆ ก็มีปัญหานี้เหมือนกันทั้งหมด อนึ่ง ผมอยากเห็น Language Benchmark Game กลายเป็นเกม benchmark ของภาษา * โมเดลแบบใช้พรอมต์ เช่น จะได้รู้ว่า model X เก่งที่สุดใน Python Fasta แน่นอนว่าสุดท้ายมันก็เสี่ยงเจอปัญหาชุดข้อมูลฝึกและผลจากการปรับปรุงตัวเองเหมือนเดิม
- ตัวอย่างพรอมต์ค่อนข้างทำให้งงนิดหน่อย อยากรู้ว่าพรอมต์จริงคืออะไร และหมายความว่าคุณคาดหวังให้โมเดลที่เป็นข้อความล้วนสร้างเพลงจริงออกมาเป็นเสียงเลยหรือไม่
สิ่งที่น่าเสียดายที่สุดคือการประเมินโมเดลเชิงความน่าจะเป็น (LLM) จากตัวอย่างเพียงชิ้นเดียว มันคล้ายกับการสุ่มตัวอย่างจากเครื่องกำเนิดเลขสุ่มหลายตัวมาแค่คนละหนึ่งครั้ง แล้วสรุปว่าเครื่องที่ 5 ดีที่สุดเพราะได้ค่ามากสุด การเปรียบเทียบภาพจากแต่ละ LLM อย่างน้อย 10 ภาพ (หรือมากกว่านั้น) แล้วเฉลี่ยผลน่าจะดีกว่ามาก
- benchmark นี้ตั้งใจให้เป็นมุกอยู่พอสมควร ผมแค่อยากให้การเปิดตัวโมเดลตลอด 6 เดือนที่ผ่านมา สนุกขึ้นอีกหน่อย เคยคิดเหมือนกันว่าจะสร้างภาพจากแต่ละโมเดล 10 ภาพ ให้โมเดลสายวิชันเลือกภาพที่ดีที่สุด แล้วเอาภาพนั้นไปแข่งกับโมเดลอื่น ๆ และถ้าขยายคณะกรรมการเป็นวิชัน LLM 3 ตัวจากคนละตระกูล ก็อาจวิเคราะห์ได้ด้วยว่าตอนที่กรรมการเห็นไม่ตรงกัน ผลจะออกมาอย่างไร ถึงอย่างนั้น ตัวการทดสอบเองก็ค่อนข้างตลกอยู่แล้ว ผมเลยยังลังเลว่าคุ้มจะขยายจริงจังขนาดนั้นไหม
- ยิ่งการทดสอบนี้เริ่มเป็นที่รู้จักในฐานะ benchmark มากขึ้น ก็ยิ่งคาดได้ว่าบทความเกี่ยวกับมันจะเข้าไปอยู่ในข้อมูลฝึกล่าสุดมากขึ้น และสุดท้าย LLM ก็จะวาดภาพ "นกกระทุงขี่จักรยาน" ได้ดีขึ้นเองตามธรรมชาติ
- เป็นข้อสังเกตที่ถูกต้อง แต่บริษัทผู้พัฒนาโมเดลพยายามไม่ทำให้คนมองว่า LLM เป็นระบบเชิงความน่าจะเป็น และทุ่มอย่างมากกับการโฆษณาว่ามันทำงานได้เหมือนมนุษย์ ถ้ามนุษย์คนหนึ่งเข้าใจทั้งนกกระทุงและจักรยานอย่างสมบูรณ์ ก็ย่อมคาดหวังได้ว่าจะวาดออกมาได้ถูกต้อง 100% สุดท้ายแล้ว ถึงจะเป็นโมเดลเชิงความน่าจะเป็น แต่ถ้ามันเรียนรู้ความรู้ที่เกี่ยวข้องได้ดีจริง มันก็ควรให้ผลลัพธ์ที่ถูกต้องสม่ำเสมอเพื่อลด loss แต่จากผลที่เห็นก็ยังสะท้อนว่ามันมีช่องโหว่ด้านความรู้อยู่
- สิ่งที่ผมไม่ชอบที่สุดคือการจ้าง LLM อีกตัวมาตัดสินนกกระทุงขี่จักรยานแทน แม้มันจะเป็นทางเลือกที่สะดวกและใช้ทั้งเงินกับเวลาน้อยกว่า แต่คงน่าสนใจมากถ้าได้ลองหลายวิธีประเมินแล้วเปรียบเทียบผล เช่น:
  - ภูมิปัญญาจากฝูงชน (ให้คนจำนวนมากโหวต)
  - ภูมิปัญญาจากผู้เชี่ยวชาญ (ให้ศิลปินหลายคนหรือผู้เชี่ยวชาญด้านนกประเมิน)
  - ปัญญารวมหมู่ของ LLM (ใช้ LLM หลายตัวต่างกันเป็นกรรมการ) คงสนุกดีที่จะได้เห็นว่าฉันทามติของมนุษย์กับฉันทามติของ LLM ต่างกันแค่ไหน ถึงอย่างนั้น เรื่องเล่าโดยรวมก็ยอดเยี่ยมมาก
- สิ่งที่น่าเสียดายที่สุดคือไม่มีภาพนกกระทุงจริง ผลการค้นหารูป "นกกระทุง" จริง ภาพนกกระทุงที่ให้มาในตอนนี้ไม่เหมือนของจริงเลย
อ่านบทความนี้เพลินมาก ดูเหมือนว่าจะขยายการวัดความสามารถของ LLM ไปถึงงาน 3D ได้ด้วย เช่น เขียนโค้ด Python สำหรับ Blender แล้วรัน headless Blender ผ่าน backend API อย่างที่มีการพูดไว้ในงานนำเสนอ ผมคิดว่าในอนาคตการวัดด้วยพรอมต์เดียวคงไม่เพียงพออีกต่อไป การทดสอบอาจขยายให้มีความเป็น "เอเจนต์" มากขึ้น โดยรวมถึงการอ้างอิงเอกสาร Blender ล่าสุด การใช้เสิร์ชเอนจิน และการอ้างอิงเอกสารจากบล็อกต่าง ๆ ถ้าคิดถึงการรับอินพุตแบบมัลติโมดัลด้วย ก็อาจใช้ภาพนกกระทุงจริงภาพใดภาพหนึ่งมาเป็นโจทย์ทดสอบได้เช่นกัน และยังต่อยอดไปถึงการแปลงอ็อบเจ็กต์ 3D ที่สร้างเสร็จแล้วให้เป็นฟอร์แมต 3D เนทีฟของ iOS เพื่อให้เปิดดูบน Safari มือถือได้ด้วย อันที่จริงผมเคยสร้างกระบวนการและบริการที่เกี่ยวข้องกับเรื่องนี้ด้วยตัวเองตั้งแต่เดือนตุลาคม 2022 ตอนนั้นยังต้องมีการ post-process แม้แต่ข้อผิดพลาดไวยากรณ์ทั่วไป แต่คาดว่า LLM รุ่นใหม่จะเจอปัญหานั้นน้อยลงมาก
ภาพนกกระทุงที่ดีที่สุดมาจากการรันหลายโมเดลร่วมกันเป็นกลุ่ม ตอนนี้ก็ใช้มันกับ evals เพื่อประเมินนกกระทุงด้วย ลิงก์ที่เกี่ยวข้อง 1, ลิงก์ที่เกี่ยวข้อง 2
ถ้าใช้ระบบ round-robin โดยให้ผู้เข้าแข่งขันทุกคนเริ่มที่คะแนนเท่ากันและเจอกันหมด ELO ก็แทบจะสอดคล้องกับจำนวนครั้งที่ชนะโดยตรง อัลกอริทึมที่ใช้คงคำนึงถึงลำดับการแข่งขันด้วย ซึ่งจะมีความหมายก็ต่อเมื่อผู้เข้าแข่งขันพัฒนาขึ้นอย่างเห็นได้ชัดระหว่างการแข่งขันเท่านั้น แต่กับการแข่งขันของบอต มันกลับเพิ่ม noise โดยไม่จำเป็น และเราไม่อยากให้ลำดับมีผลด้วย อีกอย่าง ผมดูตารางแข่งแล้วพบว่าจากคู่ที่เป็นไปได้ทั้งหมด 561 คู่ มีผลหายไปหนึ่งคู่ เลยสงสัยว่าเพราะอะไร
- สังเกตได้ถูกต้อง ถ้าผู้เข้าแข่งขันทุกคนเจอกันคนละครั้งจริง ๆ ก็ไม่จำเป็นต้องใช้ ELO เลย คู่ที่หายไปหนึ่งคู่นั้นเป็นเพราะมีรอบหนึ่งตัดสินออกมาเสมอ แล้วไม่มีเวลาพอจะรันใหม่ ส่วน ELO เป็นสิ่งที่ผมใส่เพิ่มเข้าไปแบบเร่งด่วนตอนท้าย
ผมชอบงานของ Simon มาก อ่านแทบทุกโพสต์ในบล็อกของเขา และสนุกจริง ๆ ที่ได้เห็นเขาลองเล่นกับโมเดลหลากหลายแบบ เครื่องมือ CLI ของเขาก็ใช้ง่าย และแต่ละตัวก็วางตำแหน่งไว้ดีจนไม่ทับกัน สิ่งสำคัญอีกอย่างคือ Simon ดูสนุกกับงานนี้มากจริง ๆ พลังความตื่นเต้นแบบเด็กเข้าร้านขนมของเขามันส่งต่อได้ และทุกครั้งที่อ่านโพสต์ของเขา ผมก็อยากลองทำอะไรใหม่ ๆ กับ LLM บ้างเสมอ
เสียดายมากที่ Qwen 3 ไม่ถูกพูดถึงเด่น ๆ โดยเฉพาะเพราะสถาปัตยกรรม fine-grained MoE ของมัน เป็นการเปิดตัวที่สร้างความก้าวกระโดดทั้งด้านความสามารถและความเร็วบนฮาร์ดแวร์ผู้บริโภคทั่วไป
- การพลาด Qwen 3 ไปเป็นสิ่งที่น่าเสียดายที่สุดในการนำเสนอครั้งนี้ พูดตรง ๆ คือผมเพิ่งมารู้ตัวว่าหลุดโมเดลนี้ไปหลังจากนำเสนอเสร็จแล้ว ทุกวันนี้มันเป็นหนึ่งในโมเดล local ที่ผมชอบที่สุด แต่ไม่รู้เหมือนกันว่าทำไมถึงหลุดจากไฮไลต์ไปได้
- เนื้อหาเกี่ยวกับ Qwen 3 ถูกตัดออกเพราะข้อจำกัดด้านเวลา แต่ก็ผ่านการทดสอบ pelican เหมือนกัน ผลทดสอบ Qwen 3
นี่คือ Claude Opus Extended Thinking ดูผลลัพธ์โดยตรง
- สงสัยว่าเป็นการประเมินแบบ single shot หรือไม่

การเปลี่ยนแปลงของ LLM ในช่วง 6 เดือนที่ผ่านมา อธิบายผ่านภาพนกกระทุงปั่นจักรยาน

The last six months in LLMs, illustrated by pelicans on bicycles

การเปลี่ยนแปลงของวิธีประเมินโมเดล

การเปิดตัวและลักษณะเด่นของโมเดล LLM สำคัญ

วิธีประเมินนกกระทุงและการจัดอันดับ

บั๊กของ LLM และกรณีที่น่าสนใจ

บั๊กประจบผู้ใช้มากเกินไปของ ChatGPT

เบนช์มาร์กผู้แจ้งเบาะแส (SnitchBench)

ความสามารถในการใช้เครื่องมือและประเด็นด้านความปลอดภัย

บทสรุปและแนวโน้ม

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News