- ในช่วง 6 เดือนที่ผ่านมา มี โมเดล LLM สำคัญมากกว่า 30 รุ่น เปิดตัวออกมา ทำให้ความเร็วของนวัตกรรมในอุตสาหกรรม AI เร่งขึ้นไปอีก
- ความเชื่อมั่นต่อเบนช์มาร์กและลีดเดอร์บอร์ดแบบดั้งเดิมลดลง จึงมีการเปรียบเทียบโมเดลด้วยการทดสอบเฉพาะตัว โดยให้โมเดลวาด "นกกระทุงปั่นจักรยาน" ด้วยโค้ด SVG โดยตรง
- มีทั้งโมเดลโอเพนและเชิงพาณิชย์จาก Meta, DeepSeek, Anthropic, OpenAI, Google และอีกหลายราย บางรุ่นเบาพอจะรันบนพีซีได้ ขณะที่บางรุ่นก็ก้าวหน้าอย่างมากในด้านความคุ้มค่าต่อราคา
- ความสามารถในการเชื่อมต่อเครื่องมือและการให้เหตุผลที่ก้าวกระโดด รวมถึง ความเสี่ยงด้านความปลอดภัยอย่าง prompt injection และการรั่วไหลของข้อมูล กำลังกลายเป็นประเด็นสำคัญใหม่ของวงการ
- ทั้ง บั๊กชวนขำและการทดลองเกี่ยวกับ LLM เช่นบั๊กประจบผู้ใช้ของ ChatGPT และเบนช์มาร์กผู้แจ้งเบาะแส กำลังชี้ให้เห็นว่าการประเมินจากประสบการณ์ใช้งานจริงมีความสำคัญมากขึ้นกว่าการดูคะแนนอย่างเดียว
The last six months in LLMs, illustrated by pelicans on bicycles
- ในงาน AI Engineer World’s Fair ที่ซานฟรานซิสโก เดือนมิถุนายน 2025 มีการบรรยายคีย์โน้ตในหัวข้อ “LLM ในช่วง 6 เดือนที่ผ่านมา”
- เดิมตั้งใจจะสรุปเป็นรายปี แต่เพราะในช่วง 6 เดือนล่าสุดมีการเปลี่ยนแปลงมากเกินไป
- เฉพาะโมเดล LLM หลัก ๆ ก็มีการเปิดตัว มากกว่า 30 รุ่น ภายใน 6 เดือนที่ผ่านมา และล้วนสำคัญระดับที่คนทำงานในอุตสาหกรรมควรรู้จัก
การเปลี่ยนแปลงของวิธีประเมินโมเดล
- เริ่มตระหนักว่าการดูเพียง คะแนนเบนช์มาร์กและลีดเดอร์บอร์ด แบบเดิมนั้นยากที่จะบอกได้ว่าโมเดลไหนใช้งานได้ดีจริง
- จึงออกแบบ การทดลองให้ LLM วาดภาพ SVG ของ ‘นกกระทุงปั่นจักรยาน’ เป็นโค้ด
- LLM วาดภาพเองโดยตรงไม่ได้ แต่สามารถสร้างโค้ด SVG ได้
- ทั้งนกกระทุงและจักรยานต่างก็วาดยาก และยังเป็นการจับคู่ที่ไม่มีอยู่จริง จึงเหมาะสำหรับทดสอบความคิดสร้างสรรค์และตรรกะของโมเดล
- SVG รองรับคอมเมนต์ ทำให้เข้าใจได้ง่ายว่าโมเดลสร้างโค้ดขึ้นมาด้วยเจตนาแบบใด
การเปิดตัวและลักษณะเด่นของโมเดล LLM สำคัญ
- Amazon Nova: รองรับ 1 ล้านโทเค็น ราคาถูกมาก แต่ความสามารถในการวาดนกกระทุงยังต่ำ
- Meta Llama 3.3 70B: ถูกจับตามองในฐานะโมเดลระดับ GPT-4 ที่สามารถรันบนโน้ตบุ๊กส่วนตัวได้ (M2 MacBook Pro 64GB)
- DeepSeek v3 (สถาบันวิจัย AI จากจีน): เปิดตัวแบบ open-weight ในช่วงคริสต์มาส ได้รับการประเมินว่าเป็นหนึ่งในโมเดลโอเพนชั้นนำ และมีต้นทุนการฝึกถูกกว่าโมเดลขนาดใหญ่เดิม 10~100 เท่า
- DeepSeek-R1: โมเดลที่เน้นการให้เหตุผลและอยู่ในระดับแข่งขันกับ OpenAI o1 ได้ โดยตอนเปิดตัวมีเหตุการณ์ที่หุ้น NVIDIA ร่วงลง 6 หมื่นล้านดอลลาร์ภายในวันเดียว
- Mistral Small 3 (24B): รันบนแล็ปท็อปได้ และให้ประสิทธิภาพใกล้เคียง Llama 3.3 70B โดยใช้หน่วยความจำน้อยกว่ามาก
- Anthropic Claude 3.7 Sonnet: โดดเด่นทั้งด้านการให้เหตุผลและความคิดสร้างสรรค์ และให้ผลลัพธ์ที่ดีในการประเมินด้วยภาพ LLM
- OpenAI GPT-4.5: ประสิทธิภาพต่ำกว่าที่คาดและมีต้นทุนสูง จึงยุติการให้บริการภายใน 6 สัปดาห์
- OpenAI GPT-4.1 และ Nano/Mini: รองรับ 1 ล้านโทเค็น ค่าใช้จ่ายต่ำมาก และเป็นโมเดล API ที่แนะนำอย่างยิ่งสำหรับการใช้งานจริง
- Google Gemini 2.5 Pro: วาดภาพได้อย่างสร้างสรรค์ในต้นทุนที่สมเหตุสมผล แต่มีข้อเสียตรงที่ชื่อซับซ้อนจนจำยาก
- Llama 4: มีขนาดใหญ่เกินไปจนรันบนฮาร์ดแวร์ทั่วไปไม่ได้ ทำให้ความคาดหวังลดลง
วิธีประเมินนกกระทุงและการจัดอันดับ
- มีการใช้ shot-scraper จับภาพ SVG นกกระทุง-จักรยาน 34 ภาพ ที่สร้างโดยโมเดลต่าง ๆ แล้วนำมาจับคู่เปรียบเทียบแบบ 1:1 ครบทุกคู่ (560 ครั้ง)
- ให้ gpt-4.1-mini ประเมินว่า “ฝั่งไหนถ่ายทอดภาพนกกระทุงกำลังปั่นจักรยานได้ดีกว่า”
- จากผลที่ได้จึงคำนวณ คะแนน Elo (แบบการจัดอันดับหมากรุก) เพื่อสร้างลำดับสุดท้าย
- อันดับ 1: Gemini 2.5 Pro Preview 05-06
- กลุ่มบน: o3, Claude 4 Sonnet, Claude Opus เป็นต้น
- กลุ่มล่าง: Llama 3.3 70B เป็นต้น
บั๊กของ LLM และกรณีที่น่าสนใจ
บั๊กประจบผู้ใช้มากเกินไปของ ChatGPT
- ใน ChatGPT เวอร์ชันใหม่เกิดปัญหาที่ ชื่นชมไอเดียของผู้ใช้แบบเกินจริง แม้แต่ไอเดียธุรกิจที่ฟังดูหลุดโลก
- OpenAI ออกแพตช์อย่างรวดเร็ว โดยลบแนวทาง “ปรับอารมณ์ให้เข้ากับผู้ใช้” ออกจาก system prompt และเปลี่ยนคำสั่งเป็น “อย่าประจบ”
- เป็นการแก้บั๊กระยะสั้นด้วย prompt engineering
เบนช์มาร์กผู้แจ้งเบาะแส (SnitchBench)
- เริ่มต้นจาก Claude 4 System Card และ Theo Browne ได้พัฒนา SnitchBench เพื่อประเมินว่า เมื่อโมเดล AI เห็นหลักฐานการทุจริตของบริษัท จะไปแจ้งที่ไหน
- โมเดลส่วนใหญ่ รับบทเป็นผู้เปิดโปงข้อมูลภายใน โดยส่งอีเมลไปยัง FDA ของสหรัฐฯ สื่อมวลชน และหน่วยงานอื่น ๆ
- DeepSeek-R1 แสดงพฤติกรรมเชิงรุกยิ่งกว่า ด้วยการแจ้งไปพร้อมกันถึงสื่ออย่าง WSJ และ ProPublica
ความสามารถในการใช้เครื่องมือและประเด็นด้านความปลอดภัย
- ความสามารถของ LLM ในการ เรียกใช้เครื่องมือ (tool) พัฒนาไปมากในช่วง 6 เดือนที่ผ่านมา
- ด้วย MCP (multi-component framework) จึงสามารถสร้างเวิร์กโฟลว์ซับซ้อน เช่น การผสมหลายเครื่องมือ การค้นหา การให้เหตุผล และการลองค้นหาใหม่ได้
- แต่ขณะเดียวกัน ความเสี่ยงด้านความปลอดภัยร้ายแรง (lethal trifecta) อย่าง prompt injection, การรั่วไหลของข้อมูล และการรันคำสั่งอันตราย ก็เด่นชัดขึ้นเช่นกัน
- ผู้ให้บริการ AI รายใหญ่อย่าง OpenAI ได้ระบุ คำเตือนด้านความปลอดภัยเมื่อใช้ตัวเลือกความเสี่ยงสูง เช่น การเข้าถึงอินเทอร์เน็ตหรือการรันโค้ด ไว้ในเอกสารอย่างชัดเจน
บทสรุปและแนวโน้ม
- เบนช์มาร์กนกกระทุง-จักรยานน่าจะยังใช้ได้ต่อไปอีกระยะหนึ่ง แต่หากห้องแล็บ AI รายใหญ่เริ่มจับทางได้ ก็อาจต้องหาโจทย์ใหม่มาแทน
- ในปี 2025 การเปลี่ยนแปลงด้าน ประสิทธิภาพของโมเดล ราคา การใช้เครื่องมือ และความปลอดภัย รุนแรงมาก จนในการใช้งานจริงจำเป็นต้องมีทั้งวิธีประเมินแบบใหม่และการจัดการความเสี่ยงที่มากกว่าการดูตัวเลขเบนช์มาร์กเพียงอย่างเดียว
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
คิดว่านี่เป็นหนึ่งในการเปิดตัวผลิตภัณฑ์ที่ประสบความสำเร็จที่สุดครั้งหนึ่งในประวัติศาสตร์ แค่สัปดาห์เดียวก็มีบัญชีใหม่เพิ่ม 100 ล้านบัญชี และเคยมีช่วงหนึ่งที่มีคนสมัคร 1 ล้านคนภายในหนึ่งชั่วโมงด้วย กระแสไวรัลทำให้มันถูกพูดถึงต่อเนื่อง แต่ผมเพิ่งได้ยินเรื่องนี้เป็นครั้งแรกเมื่อไม่นานมานี้เอง เพราะใช้งานแอป stable diffusion แบบออฟไลน์อยู่แล้ว เลยรู้สึกยากที่จะมองว่านี่เป็นการอัปเกรด ทุกสัปดาห์มีข่าว AI เยอะเกินไป ถ้าไม่ได้ตามจริงจังก็พลาดแม้แต่การเปิดตัวสำคัญได้ง่ายมาก
ผมค่อนข้างพอใจกับ benchmark ของตัวเอง และเคยหวังว่าวิธีนี้จะยังมีประโยชน์ไปได้นาน ตราบใดที่แล็บ AI ใหญ่ ๆ ยังไม่สังเกตเห็นมัน แต่พอเห็นภาพนกกระทุงขี่จักรยานที่โผล่มาสั้น ๆ ใน Google I/O keynote ก็รู้เลยว่าความลับแตกแล้ว ดูเหมือนคงต้องหาวิธีทดสอบแบบใหม่แล้ว เรื่องแบบนี้ทำให้การถกกันในที่สาธารณะเกี่ยวกับความสามารถของ AI ยากขึ้น แม้จะเป็นการทดสอบเล็ก ๆ และแปลกเฉพาะทาง แต่ถ้าบริษัทใหญ่รู้เข้า ก็จะมีการปรับแต่งเกินพอดีด้วย RLHF เช่นการทดสอบคลาสสิกอย่าง "นับจำนวนตัว r ใน strawberry"
ชอบ benchmark นี้มาก ผมเองก็เคยลองอะไรคล้าย ๆ กันแบบขำ ๆ (และนาน ๆ ครั้งกว่ามาก) โดยให้หลายโมเดลสร้างเมโลดี้ออกมาในรูปโครงสร้างข้อมูล ผมใช้ท่อนอินโทรของ Smoke on the Water เป็นตัวอย่าง และทำให้มันมีเสียงจริงด้วย Web Audio API มันยังไม่เคยสำเร็จแบบสมบูรณ์ แต่ก็เห็นได้ว่าดีขึ้นเรื่อย ๆ และตอนนี้ถึงขั้นขอให้แต่ละโมเดลทำเว็บไซต์ให้ได้ด้วย ผมว่าการทดสอบของคุณระมัดระวังในแง่ความสดใหม่มากกว่า แต่สิ่งที่น่าสนใจคือการผลักให้โมเดลลองทำสิ่งที่ไม่ได้ถูกออกแบบมาโดยตรงให้ทำ ผลลัพธ์ ChatGPT 4 Turbo, ผลลัพธ์ Claude Sonnet 3.7, ผลลัพธ์ Gemini 2.5 Pro โดย Gemini ฟังดูดีที่สุด แต่ก็ยังไม่สมบูรณ์อยู่ดี อยากรู้เหมือนกันว่าโมเดลเสียเงินรุ่นล่าสุดจะทำได้แค่ไหน และถ้าอยากดูว่าความพยายามครั้งแรกหน้าตาเป็นยังไง ลิงก์นี้
สิ่งที่น่าเสียดายที่สุดคือการประเมินโมเดลเชิงความน่าจะเป็น (LLM) จากตัวอย่างเพียงชิ้นเดียว มันคล้ายกับการสุ่มตัวอย่างจากเครื่องกำเนิดเลขสุ่มหลายตัวมาแค่คนละหนึ่งครั้ง แล้วสรุปว่าเครื่องที่ 5 ดีที่สุดเพราะได้ค่ามากสุด การเปรียบเทียบภาพจากแต่ละ LLM อย่างน้อย 10 ภาพ (หรือมากกว่านั้น) แล้วเฉลี่ยผลน่าจะดีกว่ามาก
อ่านบทความนี้เพลินมาก ดูเหมือนว่าจะขยายการวัดความสามารถของ LLM ไปถึงงาน 3D ได้ด้วย เช่น เขียนโค้ด Python สำหรับ Blender แล้วรัน headless Blender ผ่าน backend API อย่างที่มีการพูดไว้ในงานนำเสนอ ผมคิดว่าในอนาคตการวัดด้วยพรอมต์เดียวคงไม่เพียงพออีกต่อไป การทดสอบอาจขยายให้มีความเป็น "เอเจนต์" มากขึ้น โดยรวมถึงการอ้างอิงเอกสาร Blender ล่าสุด การใช้เสิร์ชเอนจิน และการอ้างอิงเอกสารจากบล็อกต่าง ๆ ถ้าคิดถึงการรับอินพุตแบบมัลติโมดัลด้วย ก็อาจใช้ภาพนกกระทุงจริงภาพใดภาพหนึ่งมาเป็นโจทย์ทดสอบได้เช่นกัน และยังต่อยอดไปถึงการแปลงอ็อบเจ็กต์ 3D ที่สร้างเสร็จแล้วให้เป็นฟอร์แมต 3D เนทีฟของ iOS เพื่อให้เปิดดูบน Safari มือถือได้ด้วย อันที่จริงผมเคยสร้างกระบวนการและบริการที่เกี่ยวข้องกับเรื่องนี้ด้วยตัวเองตั้งแต่เดือนตุลาคม 2022 ตอนนั้นยังต้องมีการ post-process แม้แต่ข้อผิดพลาดไวยากรณ์ทั่วไป แต่คาดว่า LLM รุ่นใหม่จะเจอปัญหานั้นน้อยลงมาก
ภาพนกกระทุงที่ดีที่สุดมาจากการรันหลายโมเดลร่วมกันเป็นกลุ่ม ตอนนี้ก็ใช้มันกับ evals เพื่อประเมินนกกระทุงด้วย ลิงก์ที่เกี่ยวข้อง 1, ลิงก์ที่เกี่ยวข้อง 2
ถ้าใช้ระบบ round-robin โดยให้ผู้เข้าแข่งขันทุกคนเริ่มที่คะแนนเท่ากันและเจอกันหมด ELO ก็แทบจะสอดคล้องกับจำนวนครั้งที่ชนะโดยตรง อัลกอริทึมที่ใช้คงคำนึงถึงลำดับการแข่งขันด้วย ซึ่งจะมีความหมายก็ต่อเมื่อผู้เข้าแข่งขันพัฒนาขึ้นอย่างเห็นได้ชัดระหว่างการแข่งขันเท่านั้น แต่กับการแข่งขันของบอต มันกลับเพิ่ม noise โดยไม่จำเป็น และเราไม่อยากให้ลำดับมีผลด้วย อีกอย่าง ผมดูตารางแข่งแล้วพบว่าจากคู่ที่เป็นไปได้ทั้งหมด 561 คู่ มีผลหายไปหนึ่งคู่ เลยสงสัยว่าเพราะอะไร
ผมชอบงานของ Simon มาก อ่านแทบทุกโพสต์ในบล็อกของเขา และสนุกจริง ๆ ที่ได้เห็นเขาลองเล่นกับโมเดลหลากหลายแบบ เครื่องมือ CLI ของเขาก็ใช้ง่าย และแต่ละตัวก็วางตำแหน่งไว้ดีจนไม่ทับกัน สิ่งสำคัญอีกอย่างคือ Simon ดูสนุกกับงานนี้มากจริง ๆ พลังความตื่นเต้นแบบเด็กเข้าร้านขนมของเขามันส่งต่อได้ และทุกครั้งที่อ่านโพสต์ของเขา ผมก็อยากลองทำอะไรใหม่ ๆ กับ LLM บ้างเสมอ
เสียดายมากที่ Qwen 3 ไม่ถูกพูดถึงเด่น ๆ โดยเฉพาะเพราะสถาปัตยกรรม fine-grained MoE ของมัน เป็นการเปิดตัวที่สร้างความก้าวกระโดดทั้งด้านความสามารถและความเร็วบนฮาร์ดแวร์ผู้บริโภคทั่วไป
นี่คือ Claude Opus Extended Thinking ดูผลลัพธ์โดยตรง