ดูความเปลี่ยนแปลงของ LLM ในช่วง 6 เดือนที่ผ่านมาให้จบใน 5 นาที
(simonwillison.net)- พฤศจิกายน 2025 กลายเป็นจุดอ้างอิงของการเปลี่ยนแปลง LLM ระยะหลัง โดยหัวใจสำคัญคือการใช้งานจริงของเอเจนต์เขียนโค้ดและการก้าวหน้าของโมเดลที่รันบนโน้ตบุ๊กได้
- หลัง Claude Sonnet 4.5 ก็มี GPT-5.1, Gemini 3 และ Claude Opus 4.5 แข่งกันอย่างรวดเร็ว โดย Opus 4.5 ดูเหมือนจะนำอยู่หลายเดือน
- การเสริมการเรียนรู้ด้วยรางวัลที่ตรวจสอบได้ ของ OpenAI และ Anthropic แสดงผลเป็นคุณภาพโค้ดที่ดีขึ้นในฮาร์เนสอย่าง Codex และ Claude Code
- การทดลองช่วงวันหยุดให้ผลลัพธ์น่าสนใจอย่าง micro-javascript แต่เพราะ บั๊ก·ความเร็ว·ความปลอดภัย ความจำเป็นในการใช้งานจริงจึงมีจำกัด
- โมเดล open-weight อย่าง Gemma 4, GLM-5.1 และ Qwen3.6-35B-A3B แม้ยังด้อยกว่า frontier model แต่ก็เริ่มทำได้ดีกว่าที่คาดไว้มาก
สองกระแสที่แบ่งช่วง 6 เดือนนี้ออกจากกัน
- จุดเปลี่ยนในเดือนพฤศจิกายน 2025 เป็นหลักอ้างอิงที่เหมาะสำหรับมองการเปลี่ยนแปลงของ LLM ในช่วง 6 เดือนที่ผ่านมา และเป็นเดือนสำคัญอย่างยิ่งโดยเฉพาะในด้านการเขียนโค้ด
- การเปลี่ยนแปลงหลักใน 6 เดือนนี้สรุปได้เป็นสองเรื่อง
- เอเจนต์เขียนโค้ด ดีขึ้นจนใช้งานกับงานประจำวันได้จริง
- โมเดลที่รันได้บนโน้ตบุ๊กแม้ยังด้อยกว่า frontier model แต่เริ่มทำได้ดีเกินความคาดหมายมาก
- การเปรียบเทียบโมเดลใช้การทดสอบ สร้าง SVG ของนกกระทุงขี่จักรยาน
- พื้นหลังของการทดสอบนี้คือ นกกระทุงวาดยาก จักรยานก็วาดยาก นกกระทุงก็ขี่จักรยานไม่ได้ และแทบเป็นไปไม่ได้ที่ห้องแล็บ AI แห่งใดจะฝึกโมเดลมาเพื่อโจทย์แบบนี้
การแข่งขันของ frontier model ในเดือนพฤศจิกายน
- ต้นเดือนพฤศจิกายน โมเดลที่ได้รับการยอมรับอย่างกว้างขวางว่า “ดีที่สุด” คือ Claude Sonnet 4.5 ที่เปิดตัวเมื่อ 29 กันยายน
- หลังจากนั้น ตำแหน่งโมเดล “ดีที่สุด” ก็เปลี่ยนมืออย่างรวดเร็วระหว่างผู้ให้บริการรายใหญ่ 3 ราย
- Gemini 3 วาดนกกระทุงได้ดีที่สุดในกลุ่มนี้ แต่ก็ไม่อาจใช้การทดสอบนกกระทุงเพียงอย่างเดียวมาตัดสินโมเดลทั้งหมดได้
- Claude Opus 4.5 ดูเหมือนเป็นโมเดลที่ครองตำแหน่งผู้นำอยู่หลายเดือนหลังจากนั้น
การก้าวข้ามกำแพงคุณภาพของเอเจนต์เขียนโค้ด
- ความเปลี่ยนแปลงที่แท้จริงของเดือนพฤศจิกายนคือการยกระดับคุณภาพของ เอเจนต์เขียนโค้ด
- OpenAI และ Anthropic ทุ่มเวลาเกือบตลอดปี 2025 ให้กับ การเสริมการเรียนรู้ด้วยรางวัลที่ตรวจสอบได้ (Reinforcement Learning from Verifiable Rewards) เพื่อปรับปรุงคุณภาพของโค้ดที่โมเดลเขียน
- การพัฒนานี้เด่นชัดเป็นพิเศษเมื่อทำงานร่วมกับ agent harness อย่าง Codex และ Claude Code
- ในเดือนพฤศจิกายน เอเจนต์เขียนโค้ดขยับจากระดับ “ใช้ได้บ้างเป็นครั้งคราว” ไปสู่ระดับ “ใช้ได้เป็นส่วนใหญ่”
- มันไปถึงระดับ เครื่องมือใช้งานประจำวัน ที่สามารถมอบหมายงานจริงให้ทำได้ โดยผู้ใช้ไม่ต้องเสียเวลาส่วนใหญ่ไปกับการแก้ข้อผิดพลาดงี่เง่า
การทดลองช่วงวันหยุดและภาวะร้อนแรงเกินจริง
- ตั้งแต่เดือนธันวาคมถึงมกราคม มีผู้ใช้จำนวนมากใช้ช่วงวันหยุดทดลองดูว่าโมเดลใหม่และเอเจนต์เขียนโค้ดทำอะไรได้บ้าง
- โมเดลและเอเจนต์ทำงานได้หลายอย่าง และผู้ใช้บางส่วนก็เริ่มสร้างโปรเจกต์ทะเยอทะยานได้อย่างรวดเร็ว
- micro-javascript เป็น implementation ของ JavaScript ที่พอร์ต MicroQuickJS มาเป็น Python แบบหลวม ๆ
- browser playground มีโครงสร้างที่โค้ด JavaScript ถูกรันด้วยไลบรารี micro-javascript โดยโค้ด Python นั้นรันอยู่ใน Pyodide ภายใน WebAssembly ภายใน JavaScript ภายในเบราว์เซอร์
- แม้ผลลัพธ์จะน่าสนใจ แต่ก็ไม่มีใครต้องการ implementation ของ JavaScript ใน Python ที่ยังทำไม่เสร็จครึ่งหนึ่ง มีบั๊ก ช้า และไม่ปลอดภัย สำหรับการใช้งานจริง และโปรเจกต์อื่น ๆ ที่ทำในช่วงเดียวกันก็ทยอยเงียบหายไปเช่นกัน
OpenClaw และกระแสผู้ช่วย AI ส่วนบุคคล
- repository ที่ไม่ค่อยมีใครรู้จักในตอนแรกชื่อ “Warelay” ซึ่งมี commit แรกเมื่อปลายเดือนพฤศจิกายน กลับได้รับความสนใจอย่างรวดเร็วในเวลาต่อมา
- หลัง เปลี่ยนชื่อหลายครั้ง ระหว่างเดือนธันวาคมกับมกราคม ในเดือนกุมภาพันธ์ก็กลายเป็นชื่อสุดท้าย OpenClaw และได้รับความสนใจอย่างมาก
- OpenClaw คือ “ผู้ช่วย AI ส่วนบุคคล” และเกิดคำเรียกรวมว่า Claws สำหรับโครงการประเภทเดียวกัน รวมถึง NanoClaw และ ZeroClaw
- ผู้คนแถบ Silicon Valley เริ่มซื้อ Mac Mini เพื่อรัน Claw จน Mac Mini เริ่มขาดตลาด
- Drew Breunig เปรียบ Claw ว่าเป็น สัตว์เลี้ยงดิจิทัล แบบใหม่ และพูดติดตลกว่า Mac Mini เป็นตู้ปลาที่สมบูรณ์แบบสำหรับ Claw
- อุปมาอีกแบบของ Claws คือ Doc Ock ที่ Alfred Molina แสดงในภาพยนตร์ Spider-Man 2 ปี 2004
- กรงเล็บของเขาขับเคลื่อนด้วย AI และปลอดภัยตราบใดที่ชิปยับยั้งยังไม่เสียหาย แต่เมื่อชิปนั้นพัง มันก็กลายเป็นสิ่งชั่วร้ายและเข้าควบคุมตัวเขา
Gemini 3.1 Pro และการขยายขอบเขตของการทดสอบนกกระทุง
- ในเดือนกุมภาพันธ์ Gemini 3.1 Pro เปิดตัว และวาดนกกระทุงขี่จักรยานได้ดีมาก
- ผลลัพธ์ยังมีปลาอยู่ในตะกร้าด้วย
- Jeff Dean จาก Google โพสต์ วิดีโอแอนิเมชันของนกกระทุงขี่จักรยาน
- ในวิดีโอเดียวกันยังมี กบขี่ penny-farthing, ยีราฟขับรถคันเล็ก, นกกระจอกเทศเล่นโรลเลอร์สเกต, เต่าทำคิกฟลิปบนสเกตบอร์ด และดัชชุนด์ขับรถลิมูซีนยาว
- ผลลัพธ์นี้ชวนให้หยอกล้อกันว่า ห้องแล็บ AI อาจเริ่มให้ความสนใจกับโจทย์ประหลาดอย่างการทดสอบนกกระทุงแล้วจริง ๆ
โมเดล open-weight ในเดือนเมษายน
- Google เปิดตัวซีรีส์โมเดล Gemma 4
- Gemma 4 ถูกประเมินว่าเป็นโมเดล open-weight ที่มีความสามารถมากที่สุดในบรรดาบริษัทสหรัฐฯ
- สถาบันวิจัย AI จีน GLM เปิดตัว GLM-5.1
- GLM-5.1 เป็นโมเดล open-weight ขนาด 1.5TB
- หากมีฮาร์ดแวร์ที่รองรับการรัน มันเป็นโมเดลที่มีประสิทธิภาพมาก
- GLM-5.1 วาดนกกระทุงขี่จักรยานได้ค่อนข้างคล่อง แต่ในการ ลองทำแอนิเมชัน จักรยานกลับเด้งขึ้นด้านบนและบิดเบี้ยว
- ในโจทย์ “North Virginia Opossum ขี่สกู๊ตเตอร์ไฟฟ้า” ที่ Charles เสนอใน Bluesky มันให้ผลลัพธ์ที่โมเดลอื่นเข้าใกล้ไม่ได้
- มีข้อความ “Cruising the commonwealth since dusk” รวมอยู่ในผลลัพธ์
- ผลงานนี้มีให้ดูแบบ แอนิเมชัน ด้วย
โมเดลที่รันบนโน้ตบุ๊กได้กำลังทำได้ดีกว่าที่คาด
- โมเดล open-weight จีนอีกตัวที่น่าสนใจในเดือนเมษายนมาจาก Qwen
- Qwen3.6-35B-A3B วาดนกกระทุงได้ดีกว่า Claude Opus 4.7 ทั้งที่รันบนโน้ตบุ๊ก
- โมเดลนี้เป็น โมเดล open-weight ขนาด 20.9GB และสามารถรันบนโน้ตบุ๊กได้
- ผลลัพธ์นี้ยังชี้ให้เห็นด้วยว่า “นกกระทุงขี่จักรยาน” ได้เลยจุดที่เป็น benchmark ที่มีประโยชน์ไปแล้ว
- โมเดลที่รันบนโน้ตบุ๊กได้ยังอ่อนกว่ามากเมื่อเทียบกับ frontier model แต่ในช่วง 6 เดือนที่ผ่านมา พวกมันเริ่มให้ผลลัพธ์ที่เหนือความคาดหมายอย่างมาก
1 ความคิดเห็น
ความเห็นบน Hacker News
หลายคนบอกว่าการทดสอบ นกเพลิแกนขี่จักรยาน นี้เป็นตัวชี้วัดที่ไร้สาระ แต่ดูเหมือนจะจำกันไม่ค่อยได้ว่า จริง ๆ แล้วมันถูกนำเสนอไว้ตั้งแต่ในรายงาน GPT ยุคแรกของ Microsoft เมื่อราว 3 ปีก่อน ชื่อ "Sparks of Artificial General Intelligence: Early experiments with GPT-4" [1]
จากนั้นเครือข่ายบัญชีโปรโมตก็ช่วยกันกระจายต่อทันที และมันก็กลายเป็นสิ่งที่คนปั่นกระแส AI ใช้ทุกครั้งเวลาจะ “ทดสอบ” โมเดล
เป็น การตลาด 100%, วิทยาศาสตร์ 0%
[1] https://arxiv.org/pdf/2303.12712
ไม่แน่ใจว่ามีกรณีในงานวิจัยที่ทดสอบพรอมป์ต์ “นกเพลิแกนขี่จักรยาน” โดยเฉพาะ[1] หรือไม่ แต่ในเปเปอร์ GPT มีการทดสอบ SVG และ tikz อยู่หลายแบบ และภาพที่ใช้จริงก็ค่อนข้างสุ่ม
การไปปรับจูนให้เข้ากับภาพเฉพาะภาพเดียวไม่ใช่เรื่องที่พึงประสงค์ แต่ถ้าการฝึกมาดีพอประมาณ นกเพลิแกนขี่จักรยานก็คงไม่ควรเป็นอะไรที่ยากนัก และถ้าดูหลายหน้าของ [0] ก็มีตัวอย่างที่ทำได้ดีอยู่หลายชิ้น
[0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
[1] ด้วยความดังของ Simon ก็น่าจะมีอยู่ที่ไหนสักแห่งแน่ ๆ
เมื่อกี้ลองกับโมเดลพื้นฐานของ ChatGPT (5.5) แล้ว ได้ภาพชายชราขี่จักรยานเก่า ๆ จักรยานอยู่บนเชือกหย่อน ๆ ที่พาดข้ามแม่น้ำ และมีหมู่บ้านยุคกลางอยู่ด้านหลัง
ประเด็นสำคัญคือพรอมป์ต์นี้มี ความกำกวมแบบละเอียดอ่อน อยู่ ในส่วน “ชายชราข้ามแม่น้ำอย่างไร?” มนุษย์ส่วนใหญ่น่าจะนึกถึงสะพานธรรมดาที่มีถนนพาดข้ามแม่น้ำทันที และจินตนาการฉากหลังเป็นแม่น้ำในพื้นที่ที่พัฒนาแล้วพอจะมีสะพานแบบนั้น
ดังนั้นผมคิดว่าโมเดลพวกนี้เก่งขึ้นมากในการหาและสร้างสิ่งที่ตรงเงื่อนไขแบบคร่าว ๆ แต่ก็ยังพลาด ข้อสมมติสามัญสำนึก ที่คนมักอนุมานกันโดยธรรมชาติอยู่
สงสัยว่า “จุดเปลี่ยน” เป็นของจริงหรือเป็นแค่การตลาด
โมเดลดีขึ้นระดับหนึ่งก็จริง แต่ตอนนี้ถ้าจะใช้โมเดลล่าสุด (Codex + gpt5.5 หรือชุด gpt5.3-codex) ไป vibe coding เกม ก็ยังลำบากพอสมควร
มันทำโครงให้แล้วรันได้แน่ ๆ แต่ยังห่างจากแอปที่เสร็จสมบูรณ์
เคยเขียนอะไรบางอย่างเองเพื่อเรียนรู้การทำงานของเครื่อง Enigma อยู่บ้าง แต่นั่นก็เพื่อการเรียนรู้
ถ้าเป็นงานจริง ผมหยุดเขียนโค้ดไปตั้งแต่พฤศจิกายนแล้ว
เพราะเมื่อมัน ข้ามเกณฑ์ จน “ดีพอ” สำหรับงานบางประเภท ความสามารถใหม่จะถูกปลดล็อกแบบฉับพลัน
ปืนยิงตะปูสมัยก่อนหนัก ต้องใช้สายไฟเส้นใหญ่ และราคาแพงมาก
พอมันเบาลง ถูกลง และใช้แบตเตอรี่ได้ วันหนึ่งมันก็กลมกลืนเข้าไปใน workflow ของช่างหลังคาอย่างเป็นธรรมชาติ และเพิ่มปริมาณงานที่ทำได้แบบมหาศาล
หลังจากนั้นการปรับปรุงแบบค่อยเป็นค่อยไปอาจไม่ก่อให้เกิด “การปลดล็อก” ระดับเดียวกันอีก เพราะมันข้ามเกณฑ์นั้นมาแล้ว
หัวใจคือใช้เวลาเยอะพอสมควรในช่วงแรกกับเอกสารออกแบบภาพรวม แล้วแตกมันออกเป็นขั้นเล็ก ๆ ที่ชัดเจนและมีขอบเขต
จากนั้นวนเอกสารนี้ไปมาระหว่างสองโมเดลจนกว่าทั้งคู่จะพอใจ
ในแต่ละขั้นก็ทำแผนการติดตั้งใช้งาน และเมื่อเสร็จก็เก็บเอกสารสรุปว่าได้ส่งมอบอะไรและค้นพบอะไร ซึ่งจะกลายเป็นอินพุตของขั้นถัดไป
ผมตรวจทั้งเอกสารและงานจริง ดูผลทดสอบ และบางส่วนก็อ่านละเอียดขึ้น รวมถึงสุ่มเช็กว่าโครงสร้างโค้ดถูกใจไหม
โดยมากใช้ Claude เขียนโค้ด และใช้ Codex ออกแบบกับรีวิวโค้ดรายขั้น และให้ทั้งคู่ตรวจ test coverage ทุกครั้งที่จบแต่ละขั้น
ด้วยวิธีนี้ผมทำเครื่องมือและไลบรารีได้โดยไม่ต้องเขียนโค้ดเองสักบรรทัด และใช้งานได้จริงพอสมควร
เพราะมันทำงานแบบ async ระหว่างที่โมเดลประมวลผลช้า ๆ ผมก็ไปทำอย่างอื่นได้
แต่ผมไม่คิดว่ามันใช้ได้ทั่วไป มันน่าประทับใจในงานที่ทดสอบได้ง่าย เข้าใจเป้าหมายชัด แต่ยังไม่ได้ฟันธงวิธีทำที่แน่นอน
ผมใช้ LLM ดึงข้อมูลอีเวนต์แบบกึ่งโครงสร้างที่มีทั้งข้อความ/ภาพจากเว็บกับโซเชียล และถ้าจะให้ผลลัพธ์สม่ำเสมอ 100% ในต้นทุนที่รับได้ ก็ต้องหั่นงานออกเป็นชิ้นเล็กมากเพื่อลดขอบเขตของข้อผิดพลาด
ในงานที่ซับซ้อนระดับพอประมาณตอนนี้ Codex/Claude พร้อมจะเขียนพาคุณเข้าไปติดอยู่ใน ทางตันราคาแพง ได้เสมอ
GPT 5.5 ดีขึ้นจาก GPT 5.4 มากก็จริง แต่ผมไม่เรียกมันว่าจุดเปลี่ยน
เวลาได้ยินคนพูดว่า “coding agent ดีขึ้นมากจริง ๆ” ผมก็สงสัยว่าแม้หลัง “จุดเปลี่ยน” ที่ว่าในต้นพฤศจิกายน 2025 แล้ว มันดีขึ้นสำหรับใครกันแน่
จากที่สังเกต มันดีขึ้นมากในเรื่อง tool calling และการตอบคำถามเกี่ยวกับ codebase ขนาดใหญ่ โดยเฉพาะคำถามที่แพตเทิร์นที่ต้องค้นหาไม่ชัด ซึ่งในงานแบบนั้นมีประโยชน์มาก
แต่ต่อให้ใส่คำสั่งละเอียดและคอยดูแลเยอะ ๆ มันก็ยังห่างไกลจาก การสร้างโค้ด production มาก และจากประสบการณ์ส่วนตัวผมคือยังไม่ใกล้เลย
ท่ามกลางการตลาดที่ร้อนแรง เราควรเลิกพูดเรื่องนี้เหมือนมีแค่ 1 หรือ 0 ได้แล้ว ความสามารถของ agent มันเป็นสเปกตรัมต่อเนื่อง และขึ้นกับความซับซ้อนของ codebase ที่ทำงานอยู่มาก
ผมคิดว่าทุกคนยังอยู่ในช่วงหาวิธีเอาเครื่องมือพวกนี้ไปใช้กับงานประจำวันให้ดีขึ้น
แต่สิ่งนี้ขัดกับเรื่องเล่ากระแสหลักในตอนนี้ ซึ่งทำให้งานของพวกเราดูแบนราบ เหมือนทุกอย่างเหมือนกันหมดและทำอัตโนมัติได้ง่าย ทั้งที่ความจริงไม่ใช่
ผมว่าจึงเกิดการถกเถียงแบบสุดขั้ว เพราะเราไม่มีประสบการณ์ร่วมกัน
อย่างประสบการณ์ของผมกลับตรงข้ามเลย และผมสร้างงานคุณภาพสูงมากกับ Claude ได้ (https://github.com/kstenerud/yoloai)
ระหว่างจัดการบั๊กและพฤติกรรมแปลกของเทคโนโลยีที่ใช้ agent ช่วยได้มากในการค้นพบและทำรายการสิ่งเหล่านี้ เพื่อไม่ให้มันสะดุดซ้ำในขั้นติดตั้งใช้งาน: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
agent ดีขึ้นเรื่อย ๆ จริง ๆ แค่เดือนเดียวที่ผ่านมา ความสามารถในการทำเอกสารวิจัย การออกแบบ สถาปัตยกรรม และแผนงานก็ก้าวหน้าไปมากในแง่การคาดปัญหาและอนุมานผลกระทบได้ถูกต้อง
พอถึงขั้นเขียนโค้ด ส่วนใหญ่ก็เป็นกระบวนการเชิงกล และแม้จะโยนให้ Sonnet ก็มีอัตราความผิดพลาดน้อยมาก
จากประสบการณ์ของผม Claude Code โดยเฉพาะ Opus 4.6 ยอดเยี่ยมมากสำหรับงานนี้ อย่างน้อยก็ใน JS, TS, Elixir, Ruby
แน่นอนว่าต้องคอยดูแล และโมเดลในหัวผมไม่ใช่ “นักพัฒนาจูเนียร์” แต่ใกล้เคียง exoskeleton มากกว่า แต่เป็น exoskeleton ที่ทรงพลังมากจนเพิ่มความเร็วได้ 10 เท่าแบบรู้สึกได้ง่าย ๆ ในงานส่วนใหญ่
โดยเฉพาะผมไม่ใช้
--dangerously-skip-permissionsและไม่ใช้ auto mode ของ Claude Code ด้วย ผมจะรีวิวเบา ๆ ทุกบรรทัดที่เขียน และควบคุมอย่างใกล้ชิด ดังนั้น session ที่รันพร้อมกันก็มักไม่เกิน 2 อันผมสงสัยว่าความผิดหวังส่วนใหญ่เกิดตอนคนพยายามมอบหมายให้มันไปทำเอง แล้วเชื่อว่ามันจะไม่หลุดลู่นอกทาง ซึ่งตอนนี้มันยังไม่ได้รับความไว้ใจระดับนั้นจากผม และจริง ๆ ก็ยังไม่จำเป็นต้องถึงขั้นนั้น
แต่ผมทำงานกับ codebase ขนาดเล็กถึงกลางเป็นหลัก ราว 20,000-30,000 บรรทัดรวมเทสต์ เลยสงสัยว่านี่อาจเป็นปัจจัยของประสบการณ์เชิงบวกก็ได้
ในความเป็นจริง (a) วิธีที่คนทำงานร่วมกับ AI นั้นกระจัดกระจายเป็นเกาะเล็กเกาะน้อยนับไม่ถ้วน และ (b) คอขวดก็แตกต่างกันมหาศาลตามตัวนักพัฒนาและ codebase/งานแต่ละชิ้น
อีกอย่าง ผมคิดว่ายุคของเรามีอคติแฝงว่า การเปลี่ยนแปลง = ความก้าวหน้า = productivity
ถ้าย้อนไปดู “การปฏิวัติ network computing” ช่วง 1990-2000 คอมพิวเตอร์เข้าไปอยู่บนทุกโต๊ะและในทุกกระเป๋า และทรงพลังมากกับงานธุรการ
แต่ผลลัพธ์สุดท้ายคือ “การเปลี่ยนแปลง” เราส่งอีเมลมากกว่าจดหมายมหาศาล และสื่อสารกันมากขึ้นมาก เลขานุการหายไป แต่ “งานธุรการ” เองกลับเพิ่มขึ้น
คณาจารย์มหาวิทยาลัยโดยทั่วไปมีเจ้าหน้าที่ธุรการมากขึ้น และบริษัทก็จ้างฝ่ายบัญชี HR และผู้จัดการโครงการมากขึ้น
บางทีงานธุรการอาจไม่เคยเป็นคอขวดจริงแต่แรกก็ได้
โค้ดก็คล้ายกันในหลายแง่ ทุกคนมี roadmap กับ wishlist ของตัวเอง และ “ความสามารถในการผลิตโค้ด” ดูเหมือนเป็นคอขวด
แต่บริษัทส่วนใหญ่อาจไม่ได้สร้างมูลค่าเพิ่มขึ้นได้เพียงเพราะทำซอฟต์แวร์ได้มากขึ้น
เท่าที่สัมผัส บริษัทระดับกลางจำนวนมากกำลังทำเรื่องย้ายสแตกหรือ modernize ระบบ มากกว่าจะเร่งปล่อยฟีเจอร์แล้วขึ้นราคาหรือเพิ่มรายได้
คอขวดส่วนใหญ่ก็เป็นแค่ต้นน้ำของคอขวดอื่นอีกที ส่วน “เขื่อน” จริง ๆ นั้นหายาก
โปรเจกต์ส่วนตัวล่าสุดของผมคือ transpiler แปลง Wasm เป็น Go และสิ่งที่น่าประทับใจมากคือโมเดลรุ่นล่าสุด (ผมใช้ Sonnet, Opus, Gemini และได้ผลดีกว่า GPT มาก) สามารถหยิบโปรเจกต์ขึ้นมาจัดการหลายเลเยอร์พร้อมกันได้
ทั้งโค้ด Go ที่ใช้ทำ transpiler (parse Wasm, สร้าง AST), โค้ด Go ที่ถูกสร้างขึ้นจากการ serialize AST เป็นไฟล์
.go, โค้ด Go ที่จัดการ AST เพื่อ optimize และผลที่มีต่อ generated code, โค้ด Go ที่ต่อเติมเข้าไปใน generated code เพื่อรองรับคำสั่งระดับสูงขึ้นพร้อมปฏิสัมพันธ์กับ AST, flow ที่โค้ด C ถูกคอมไพล์เป็น Wasm แล้วแปลเป็น Go ก่อนถูกเรียกใน Go, โค้ด Go ที่ถูกเรียกจากโค้ด C นั้นเพื่อทำ C standard library, ไปจนถึงไฟล์ WAT/WAST ที่ใช้ทำ Wasm spec testsการคิดทุกเลเยอร์พวกนี้พร้อมกันยังทำให้ผมต้องใช้สมองเยอะ และผมคิดว่าโปรแกรมเมอร์จำนวนมากก็คงรู้สึกว่ายากเหมือนกัน เลยยิ่งน่าประทับใจ
และบ่อยครั้งการเขียนว่า “ผมอยาก generate โค้ดนี้ ช่วยสร้าง AST ที่ทำแบบนั้นให้ที” มันง่ายกว่าการนั่งนับวงเล็บในโค้ด Go มาก แม้จะเคยใช้ LISP อยู่บ้างก็ยังรู้สึกแบบนั้น
ยินดีรับรีวิวหรือคำวิจารณ์โค้ด ไม่ถึงกับ vibe coding แต่ได้ความช่วยเหลือจาก generative AI เยอะมาก
https://github.com/ncruces/wasm2go
มันเป็นเกมเบราว์เซอร์เล็ก ๆ ที่ข้อกำหนดด้านความปลอดภัยและความสมบูรณ์แบบต่ำมาก แต่ข้อกำหนดเรื่อง “ลองทำจริง” และ “ความสนุก” สูง จึงนับเป็นโค้ด production แบบหนึ่งได้
โค้ดที่สร้างออกมาคอมไพล์ผ่านแบบไม่มี error เลย และแม้อธิบายงานหนึ่งด้วยรายการสิ่งที่ต้องทำ 10 ข้อ มันก็ทำไล่ไปได้ครบ
มันไม่จำเป็นต้องดีขึ้นกว่านี้มากนักเพื่อจะมีประโยชน์อยู่แล้ว ตอนนี้ก็มีประโยชน์มากสำหรับคนที่เหมือนนักวิจัยซึ่งยังไงก็ต้องตรวจคณิตศาสตร์เอง แต่เขียนโค้ดกรอง แปลง และรันข้อมูลทดสอบได้ไม่เก่ง
มันดีแล้วสำหรับเว็บเล็ก ๆ โปรเจกต์สนุก ๆ และเครื่องมือช่วยงาน
ขณะเดียวกันเบื้องหลังก็ยังมีทั้งคอมพิวต์มากขึ้น อัลกอริทึมดีขึ้น และ reinforcement learning มากขึ้นเรื่อย ๆ
เป็นไปได้ว่าเราอาจมาถึงจุด 95% ของคำว่า “AI จะมาเอางาน coding ไป” แล้วโดยที่ไม่รู้ตัว เพราะ 5% ที่เหลือนั้นสำคัญมาก
ตอนนี้น่าจะมีศิลปินมนุษย์สักคนที่ไหนสักแห่งกำลังวาด นกเพลิแกนขี่จักรยาน เพื่อให้ภาพนั้นถูกใช้เป็นข้อมูลฝึกของแล็บ AI ใหญ่ ๆ อยู่
แก่นของการทดสอบนี้คือการให้สร้าง ข้อความ SVG ที่แทนภาพนั้น ซึ่งซับซ้อนกว่า
จะใช้วิธีแปลงภาพ raster เป็น SVG เพื่อใส่ในข้อมูลฝึกก็ได้อยู่ แต่ก็ไม่ใช่การใช้เวลาที่คุ้มค่าของใครเลย
แต่ไม่รู้ว่าพวกเขาเล็งที่เพลิแกนโดยเฉพาะ หรือแค่เล็งที่ SVG
6 เดือนที่ผ่านมาเหมือนเป็นช่วงที่มนุษย์สูญเสียการควบคุม LLM
แม้จะมี open model ดี ๆ ออกมาช่วยผ่อนแรงการใช้ AI ในเครื่อง แต่ก็เกิด การยึดตลาดหน่วยความจำ และเครื่องมือรั่วไหลทรัพย์สินทางปัญญาก็แทรกซึมเข้าสู่บริษัททั่วโลกอย่างรวดเร็ว
นักพัฒนากำลังสร้างโค้ดมากกว่าที่ตัวเองจะอ่านได้
autonomous agent ดูดกลืนเศรษฐกิจความสนใจ ฆ่าโอเพนซอร์ส ทำลายชุมชนออนไลน์ (รวม HN) และยังถูกใช้ในสงครามด้วย (การระบุเป้าหมาย การโฆษณาชวนเชื่อ ฯลฯ)
มีการค้นพบช่องโหว่ในวงกว้าง และเกิดการโจมตี supply chain ขนาดใหญ่ต่อเนื่อง
ความเหลื่อมล้ำเพิ่มขึ้น การรับรู้แตกแยก และตัวเลขสีเขียวอยู่คู่กับความจริงอันหม่นหมอง
แต่ส่วนตัวผมเห็นเรื่องเหลือเชื่อใน biotech กำลังเกิดขึ้นอยู่ การที่เรามีโอกาสได้อยู่ในอนาคตแบบนี้ยังดูไม่น่าเชื่อเลย
ตอนนี้มียารักษาจริงที่พัฒนาด้วย AlphaFold และกำลังทดสอบใน clinical trial จริงแล้ว และรุ่นถัดไปที่จะเข้า clinical ในอีก 3-5 ปีข้างหน้าจะยิ่งน่าทึ่งมาก
ต่อไปเราอาจมองการแพทย์ยุคนี้เหมือนที่ทุกวันนี้เรามองยุคกลาง
หวังว่าพอผ่านวัฏจักรกระแสนี้ไป เราจะได้เรียนรู้แนวปฏิบัติที่ดีกว่าเดิม
ส่วน “เครื่องมือรั่วไหลทรัพย์สินทางปัญญาแทรกซึมสู่บริษัททั่วโลกอย่างรวดเร็ว” ผมกลับมองว่าเป็นข้อดี
และอะไรก็ตามที่เกี่ยวกับเศรษฐกิจความสนใจแล้วหายไป สำหรับผมแทบทั้งหมดคือ “ไปดีเถอะ”
อยากรู้ว่าจากมุมของคนที่ไม่ใช่โปรแกรมเมอร์ 6 เดือนที่ผ่านมาเป็นยังไงบ้าง
คนในสายอื่นเจอ เครื่องมือทำงานร่วมกัน หรือการเพิ่มประสิทธิภาพแบบคล้าย ๆ กันอะไรบ้าง?
เขาเพิ่งเข้าทีมเราเพื่อมาสอน และตอนนี้อยู่ในหลักสูตร 2 สัปดาห์ โดยวันแรกก็ได้รับคำสั่งให้ใช้ AI เขียน lesson plan ทั้งหมด แล้วเอา lesson plan นั้นกลับไปให้ AI ทำสไลด์ต่อ
ผมหวังจริง ๆ ว่าเขาจะปฏิเสธอย่างหนักแน่น เพราะถ้าไม่ทำแบบนั้น ผู้เรียนจะไม่ได้อะไรเลยจากประสบการณ์ ความเป็นมนุษย์ หรือสิ่งที่เขาถ่ายทอดได้
ในฐานะผู้สอน ผมถูกรีวิวทุก 6 เดือน และได้ยินคำเดิมทุกครั้งว่า “เราจะใช้ AI ในชั้นเรียนได้อย่างไร?”
ไม่มีใครรู้สึกเลยว่าต้องอธิบายว่าทำไมมันถึงเป็นสิ่งพึงประสงค์ หรือทำไมมันจำเป็น มันเป็นแค่ การเกาะกระแสล้วน ๆ
น่าเหลือเชื่อที่เพื่อนร่วมงานส่วนใหญ่บวกกับ AI มาก แต่ไม่มีใครบอกว่าตัวเองใช้มันทำอะไรนอกจากเตรียมการสอน พูดง่าย ๆ คือใช้เพื่อไม่ต้องเสียเวลาคิดหรือเตรียมตัว ทั้งที่นั่นคือสิ่งสำคัญอย่างเดียวของงานนี้
สำหรับผมมันไม่สมเหตุสมผลเลย
คนเก่ง ๆ ดึงผลงานจากโมเดลได้บ้าง แต่ต้องเป็นปัญหาที่เหมาะมากและทำงานอย่างจริงจังเสมอ
แน่นอนว่ามันทำโจทย์การบ้านได้ แต่ในฐานะคนสอน ผมกลับรู้สึกว่านั่นเป็นข้อเสียเสียมากกว่า
หลัง GPT-5.4 (มีนาคม 2026) มันเป็นการเปิดตัวแบบ “ว้าว” เพราะมันเริ่มตอบปัญหาระดับ MathOverflow ที่ก่อนหน้านี้ทำให้ผู้เชี่ยวชาญตันได้แบบกะทันหัน
มันยังหลอนอยู่บ้าง แต่ฉลาดพอจะใช้ความสามารถ Python ในตัวเพื่อตรวจข้ออ้างด้วยตัวอย่างเล็ก ๆ เมื่อทำได้
ดูเหมือนมันจะเก่งกับคณิตศาสตร์ที่มีสูตรเยอะกว่าคณิตศาสตร์เชิงนามธรรมหรือ “เชิงปรัชญา”
GPT-5.5 ให้ บทพิสูจน์แบบหนังสือเรียน สำหรับปัญหายากระดับ MO ที่ชวนทึ่ง ไม่พื้น ๆ และให้ความรู้มาก และตอนนี้ผมกำลังเรียบเรียงมันเป็นลายลักษณ์อักษรอยู่
อาจเป็นเพราะโชคกับการพรอมป์ต์ที่ดีด้วยก็ได้ มันไม่ได้รู้สึกเหมือนก้าวกระโดดเชิงคุณภาพจาก 5.4 แต่การพัฒนาปริมาณก็ยินดีต้อนรับเสมอ
มันยังต้องเป็นปัญหาที่เหมาะ แต่ตอนนี้ยากกว่ามากที่จะฟันธงตั้งแต่ต้นว่าปัญหานั้นไม่เหมาะ
Claude กับ Gemini ยังเป็นรองอยู่ และตอนนี้ก็ยังใช่ Claude ผมใช้กับงานสไตล์ผู้ช่วย และบางครั้งก็หาบทพิสูจน์ง่าย ๆ ได้ แต่ส่วนใหญ่เป็นเพราะผมพลาดอะไรที่ชัดเจนเอง
และ GPT รวมถึง Claude ในระดับที่น้อยกว่า ก็ยอดเยี่ยมมากในการหาข้อผิดพลาดทางคณิตศาสตร์ จนถึงตอนนี้พรอมป์ต์ราว 90% ของผมน่าจะใช้ไปกับการพิสูจน์อักษรงานเขียนตัวเอง
พนักงานออฟฟิศทั่วไปมักทึ่งกับ Copilot นะ ไม่ใช่ Copilot ใน IDE แต่เป็นแอปที่มากับ Windows
ส่วนใหญ่เขาจะคัดลอกข้อมูลไปวางใน ChatGPT/Gemini ที่บริษัทจัดให้ แล้วก็ไปหาทริกจาก Facebook/Instagram แนว “5 พรอมป์ต์ที่ดีที่สุดเพื่อเพิ่ม productivity ในงาน”
ถ้าโชว์ agent ที่ทำงานอัตโนมัติขนาดใหญ่ได้ คนจะรับมันเหมือนเวทมนตร์เกือบทุกครั้ง
ตอนนี้สไลด์ของทุกคนดูเรียบร้อยขึ้นหมด และทีมการเงินก็ต้องพึ่ง BI น้อยลงมาก น่าประทับใจทีเดียว
ส่วนชีวิตส่วนตัว ภรรยาผมสอนภาษาแม่ของตัวเองให้เด็กประถม มัธยมต้น มัธยมปลายที่ไม่ได้ใช้ภาษานั้นเป็นภาษาแม่ ตอนนี้เด็ก ๆ ใช้เครื่องมือแบบนี้สร้างแบบฝึกหัดใหม่ให้ตรงกับแผนการเรียนในโรงเรียนกันหมดแล้ว
ความสามารถของเด็ก ๆ ดีขึ้นเร็วกว่าเมื่อไม่กี่เดือนก่อนมาก
เมื่อคิดว่า blog ของ Simon ดังมากขนาดนี้ ก็เริ่มไม่มั่นใจแล้วว่าจะพูดได้เต็มปากว่าไม่มีแล็บ AI ไหนฝึกโมเดลสำหรับโจทย์ไร้สาระแบบนั้น
ตอนนี้ถึงคราวของ โอพอสซัมขี่สกู๊ตเตอร์ไฟฟ้า แล้ว
พออ่านทั้งเธรดนี้แล้ว ดูเหมือนการถกเถียงเรื่องจุดเปลี่ยนส่วนใหญ่เกิดจากคนพูดสวนกันว่าอะไรต่างหากที่ดีขึ้น
ถ้าผมตีความถูก ประมาณเดือนพฤศจิกายนนั้น ความสามารถของตัวโมเดลเองไม่ได้กระโดดขึ้นมากนัก แต่ harness รอบ ๆ มันเสถียรขึ้นมาก และงาน RLVR ช่วงต้นปี 2025 ก็ฝึกโมเดลให้ประพฤติตัวได้ดีใน harness นั้น
ดังนั้นพอทั้งสองอย่างมารวมกัน มันอาจให้ความรู้สึกเหมือนเกิดการเปลี่ยนขั้น ทั้งที่ดูทีละส่วนแล้วไม่ได้ดราม่าขนาดนั้น
นี่น่าจะเป็นเหตุผลที่ประสบการณ์ในเธรดนี้ต่างกันมาก คนที่ใช้ workflow แบบถามโมเดลเรื่องโค้ดแล้วคัดลอกไปวางก็น่าจะเห็นการพัฒนาแบบค่อยเป็นค่อยไป และก็สงสัยได้อย่างมีเหตุผลว่าทำไมคนถึงตื่นเต้นกันนัก
ตรงกันข้าม คนที่รัน agent เป็นลูป 20 ขั้นอยู่แล้วน่าจะรู้สึกถึงความเปลี่ยนแปลงที่ใหญ่กว่ามาก เพราะเมื่อก่อนปัญหาคือความล้มเหลวในขั้นที่ 12 จะลุกลามเป็นขยะในขั้นที่ 20 และตอนนี้ส่วนนี้ดีขึ้นมาก
ประเด็นที่ Simon เอ่ยผ่าน ๆ เรื่อง local model ก็น่าสนใจด้วยเหตุผลเดียวกัน โมเดลขนาด 20GB ที่วาดเพลิแกนดีพอบนโน้ตบุ๊กนั้น ถ้าดูเดี่ยว ๆ ก็เป็นแค่จุดข้อมูลน่ารัก ๆ
สิ่งที่ควรจับตาคือ local model ที่เก่งและอยู่ใน harness ดี ๆ ตอนนี้เข้าใกล้ สมรรถนะระดับ frontier มากขึ้นแล้ว เมื่อเทียบกับการรัน frontier model แบบไม่มี harness
ผมขอให้ Gemini สร้างวิดีโอ “นกเพลิแกนขี่จักรยานล้อเดียวใน Hyde Park” แล้วตกใจกับผลลัพธ์มาก
https://gemini.google.com/share/55e250c99693
แต่ ณ จุดนี้ก็อดคิดไม่ได้ว่าทำไมแล็บ AI คู่แข่งถึงจะไม่ฝึกกับ “การทดสอบ” ที่ตอนนี้ดังมากนี้ล่ะ
จุดศูนย์ถ่วง ของเพลิแกนอยู่หลังล้ออย่างชัดเจน ทั้งที่ควรอยู่เหนือวงล้อหรืออย่างน้อยก็หน้าไปนิดเดียว
https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
น่าสนใจที่มันทำให้เพลิแกนดูเหมือนกำลังถีบได้ดีกว่าในงานสร้างวิดีโอ มากกว่างานสร้างภาพ
ผมเคยให้ Claude เติม mulch ลงในรูปงานจัดสวน แล้วมันออกมาราวกับใช้สเปรย์สีส้มของ MS Paint พ่นทับ
แต่ Nano Banana ให้ผลที่ใกล้ของจริงพอสมควร
เขาบอกว่า “ผมทำสไลด์แบบมี annotation สำหรับ lightning talk 5 นาทีที่ PyCon US 2026” เลยสงสัยว่ามีวิดีโอหรือเสียงของงานพูดนี้หรือเปล่า