- ปี 2025 เป็นปีที่ การเรียนรู้เสริมกำลังจากรางวัลที่ตรวจสอบได้ (RLVR) ก้าวขึ้นมาเป็นขั้นตอนแกนกลางใหม่ของการฝึก LLM และถูกเพิ่มเข้าไปในไปป์ไลน์เดิมอย่าง pretraining-SFT-RLHF
- LLM พัฒนากลยุทธ์การให้เหตุผลได้ด้วยตัวเองใน สภาพแวดล้อมที่ตรวจสอบได้ เช่น คณิตศาสตร์และปริศนาโค้ด จนเรียนรู้รูปแบบการแก้ปัญหาที่สำหรับมนุษย์แล้วดูคล้ายกับการ “คิด”
- Cursor นิยาม เลเยอร์ใหม่ของแอป LLM โดยแสดงวิธีทำ context engineering และ orchestration ของการเรียกใช้ LLM ที่ซับซ้อนในบาง vertical โดยเฉพาะ
- Claude Code ปรากฏขึ้นในฐานะ ตัวอย่างแรกที่น่าเชื่อถือของเอเจนต์ LLM ที่รันอยู่บนคอมพิวเตอร์โลคัลของผู้ใช้ และนำเสนอพาราไดม์ใหม่ของการปฏิสัมพันธ์กับ AI
- Vibe Coding ทำให้คนที่ไม่ใช่ผู้เชี่ยวชาญก็สร้างโปรแกรมได้ด้วยภาษาอังกฤษเพียงอย่างเดียว และส่งสัญญาณถึงการทำให้การพัฒนาซอฟต์แวร์เป็นประชาธิปไตยมากขึ้น รวมถึงการเปลี่ยนความหมายของอาชีพ
1. การผงาดขึ้นมาของการเรียนรู้เสริมกำลังจากรางวัลที่ตรวจสอบได้ (RLVR)
- จนถึงต้นปี 2025 สแตกการผลิตของ LLM มีโครงสร้าง 3 ขั้น ได้แก่ pretraining, supervised fine-tuning (SFT) และ reinforcement learning from human feedback (RLHF)
- RLVR (Reinforcement Learning from Verifiable Rewards) ถูกเพิ่มเข้ามาเป็นขั้นตอนหลักใหม่ เพื่อฝึก LLM กับ รางวัลที่ตรวจสอบอัตโนมัติได้ เช่น คณิตศาสตร์และปริศนาโค้ด
- LLM เรียนรู้พฤติกรรมที่คล้าย “การให้เหตุผล” ได้เองโดยธรรมชาติ เช่น การ แยกปัญหาออกเป็นขั้นตอนคำนวณย่อย และพัฒนากลยุทธ์การแก้ปัญหาที่หลากหลาย
- กลยุทธ์เหล่านี้ยากจะบรรลุได้ในพาราไดม์ก่อนหน้า เพราะไม่ชัดเจนว่า reasoning trace แบบไหนจึงถือว่าเหมาะสมที่สุด
- LLM ต้องค้นหาวิธีที่ เหมาะกับตัวเอง ผ่านการทำ optimization กับรางวัล
- ต่างจาก SFT/RLHF ตรงที่ RLVR สามารถทำ optimization ที่ยาวกว่ามากกับ reward function ที่เป็นวัตถุวิสัยและเล่นเกมไม่ได้
- ด้วย capability/$ ที่สูงของ RLVR ทรัพยากรคอมพิวต์ที่เดิมใช้กับ pretraining จึงถูกโยกมาที่ RLVR
- ความก้าวหน้าด้านความสามารถส่วนใหญ่ในปี 2025 ถูกนิยามโดยการใช้ รอบ RL ที่ยาวขึ้น กับ LLM ขนาดใกล้เคียงเดิม
- มีปุ่มปรับใหม่ (และ scaling law ใหม่) เกิดขึ้นในรูปของ test-time compute ซึ่งทำให้ปรับความสามารถได้ผ่านการสร้าง reasoning trace ที่ยาวขึ้นและเพิ่ม “เวลาในการคิด”
- OpenAI o1 (ปลายปี 2024) คือเดโมแรกของโมเดล RLVR และ การเปิดตัว o3 (ต้นปี 2025) คือจุดหักเหที่ทำให้สัมผัสความต่างได้อย่างชัดเจน
2. ผี vs. สัตว์ / สติปัญญาแบบไม่สม่ำเสมอ (Jagged Intelligence)
- ในปี 2025 เราเริ่มเข้าใจ “รูปร่าง” ของสติปัญญา LLM ได้อย่างเป็นรูปธรรมมากขึ้น
- LLM ไม่ได้เป็นการ “วิวัฒนาการ/เลี้ยงดูสัตว์” แต่คือการ “อัญเชิญผี”
- เพราะทั้ง neural architecture, ข้อมูลฝึก, อัลกอริทึมการฝึก และแรงกดดันจาก optimization ต่างกันทั้งหมด จึงก่อให้เกิดสิ่งมีชีวิตที่ต่างไปมากใน space ของสติปัญญา
- เครือข่ายประสาทของมนุษย์ถูกปรับให้เหมาะกับ การอยู่รอดของเผ่าพันธุ์ในป่า ขณะที่เครือข่ายประสาทของ LLM ถูกปรับให้เหมาะกับ การเลียนแบบข้อความของมนุษยชาติ การสะสมรางวัลจากปริศนาคณิตศาสตร์ และการได้ upvote ใน LM Arena
- เมื่อ RLVR ใช้ได้ในโดเมนที่ตรวจสอบได้ ความสามารถของ LLM ในพื้นที่เหล่านั้นจึง พุ่งเป็นยอดแหลม และแสดง ลักษณะประสิทธิภาพที่ไม่สม่ำเสมอ
- ในเวลาเดียวกันมันอาจเป็นทั้ง อัจฉริยะรอบรู้ และ เด็กประถมที่สับสน รวมถึงอาจถูกหลอกให้ jailbreak แล้วทำข้อมูลรั่วไหลได้ภายในไม่กี่วินาที
- เกิด การสูญเสียความเชื่อมั่นและความสนใจต่อ benchmark
- Benchmark แทบจะโดยนิยามแล้วเป็นสภาพแวดล้อมที่ตรวจสอบได้ จึงเปราะบางทันทีต่อ RLVR และรูปแบบอ่อน ๆ ของการสร้างข้อมูลสังเคราะห์
- ในกระบวนการ benchmaxxing ทีมต่าง ๆ สร้างสภาพแวดล้อมให้ครอบคลุมบริเวณใกล้เคียง embedding space ของ benchmark
- การเรียนจาก test set กลายเป็นเทคนิคใหม่
- หน้าตาของโลกที่ “ผ่าน benchmark ทุกตัวแต่ยังไม่ไปถึง AGI” จะเป็นอย่างไร?
- บทความที่เกี่ยวข้อง
3. Cursor / เลเยอร์ใหม่ของแอป LLM
- พร้อมกับการเติบโตอย่างรวดเร็วของ Cursor เราเริ่มเห็นชัดถึง เลเยอร์ใหม่ของ “แอป LLM”
- เริ่มมีการใช้สำนวนว่า “Cursor for X”
- แอป LLM อย่าง Cursor ทำการ bundle และ orchestration การเรียกใช้ LLM เพื่อ vertical เฉพาะทาง
1. ทำ context engineering
2. ทำ orchestration เป็น DAG ที่ซับซ้อนขึ้นเรื่อย ๆ ของการเรียก LLM หลายครั้ง เพื่อถ่วงดุลระหว่างประสิทธิภาพกับต้นทุน
3. มี GUI เฉพาะแอปสำหรับ human in the loop
4. มี “ตัวเลื่อนระดับความเป็นอิสระ”
- มีการถกเถียงกันมากว่าเลเยอร์แอปใหม่นี้จะ “หนา” แค่ไหน
- ถกกันว่า LLM lab จะยึดแอปทั้งหมดไปเลยหรือไม่ หรือยังมีโอกาสสำหรับแอป LLM อยู่
- โดยทั่วไป LLM lab มักผลิตสิ่งที่เหมือนนักศึกษามหาวิทยาลัยที่เก่งกาจออกมา แต่คาดว่าแอป LLM จะเป็นตัวเติม ข้อมูลส่วนตัว, เซนเซอร์, แอคชูเอเตอร์, feedback loop ให้กับ vertical เฉพาะ เพื่อจัดระเบียบ ปรับละเอียด และทำให้สิ่งเหล่านี้กลายเป็นผู้เชี่ยวชาญตัวจริง
4. Claude Code / AI ที่พำนักอยู่บนคอมพิวเตอร์
- Claude Code (CC) ปรากฏขึ้นในฐานะ เดโมแรกที่น่าเชื่อถือของเอเจนต์ LLM
- มันเชื่อมการใช้เครื่องมือและการให้เหตุผลเข้าด้วยกันแบบลูป เพื่อแก้ปัญหาที่ขยายขอบเขตได้
- CC รันอยู่บนคอมพิวเตอร์ของผู้ใช้ พร้อมกับ สภาพแวดล้อม, ข้อมูล และบริบทส่วนตัว
- OpenAI วางทิศทางพลาดในความพยายามยุคแรก ๆ ของ Codex/เอเจนต์ โดยไปโฟกัสกับ การ deploy container บนคลาวด์ ที่ orchestrate จาก ChatGPT
- คือไปโฟกัสที่คลาวด์ แทนที่จะเป็นแค่
localhost
- การมี agent swarm รันอยู่บนคลาวด์ให้ความรู้สึกเหมือน “AGI endgame” แต่ปัจจุบันเราอยู่ในโลกของ การกระโดดแบบก้ำกึ่งและช้า ภายใต้ความสามารถที่ไม่สม่ำเสมอ
- การรันเอเจนต์บนคอมพิวเตอร์ของนักพัฒนาโดยตรงจึงสมเหตุสมผลกว่า
- ประเด็นสำคัญไม่ใช่ว่า “งาน AI” รันที่ไหน แต่คือเรื่องของ คอมพิวเตอร์ที่มีอยู่แล้วและถูกบูตไว้, การติดตั้ง, บริบท, ข้อมูล, secrets, การตั้งค่า, และการปฏิสัมพันธ์แบบหน่วงต่ำ
- Anthropic มองลำดับความสำคัญนี้ได้แม่น และแพ็ก CC มาใน ฟอร์มแฟกเตอร์แบบ CLI ที่กระชับ
- นี่คือพาราไดม์ใหม่ของการปฏิสัมพันธ์ ที่ AI ไม่ใช่เว็บไซต์แบบ Google ที่เราเข้าไปเยี่ยมชม แต่เป็นวิญญาณ/ผีเล็ก ๆ ที่ “พำนักอยู่” บนคอมพิวเตอร์
5. Vibe Coding
- ปี 2025 คือปีที่ AI ข้ามพ้น threshold ด้านความสามารถในการสร้างโปรแกรมที่น่าประทับใจได้หลากหลาย ด้วยภาษาอังกฤษเพียงอย่างเดียว
- เราสามารถเขียนโปรแกรมได้โดยแทบลืมไปเลยว่ามีโค้ดอยู่จริง
- ผู้เขียน coin คำว่า “vibe coding” ในทวีต แต่ไม่ได้คาดคิดว่ามันจะแพร่หลายได้มากเพียงนี้
- Vibe coding ทำให้การเขียนโปรแกรมเปลี่ยนจากสิ่งที่เป็น พื้นที่ของผู้เชี่ยวชาญที่ผ่านการฝึกอย่างหนักเท่านั้น ไปสู่สิ่งที่ใคร ๆ ก็ทำได้
- LLM เป็นกรณีที่ไม่เหมือนเทคโนโลยีอื่นทั้งหมด คือ คนทั่วไปได้รับประโยชน์มากกว่าผู้เชี่ยวชาญ บริษัท หรือรัฐบาลอย่างมาก
- Vibe coding ไม่เพียงเปิดทางให้คนทั่วไปเข้าถึงการเขียนโปรแกรม แต่ยังทำให้ผู้เชี่ยวชาญที่ผ่านการฝึกแล้วสามารถสร้าง ซอฟต์แวร์ที่ไม่อย่างนั้นคงไม่ถูกเขียนขึ้นมาเลย (ซอฟต์แวร์แบบ vibe-coded) ได้มากขึ้นอย่างมหาศาล
- ตัวอย่างที่เป็นรูปธรรม:
- ใน nanochat มีการ vibe code BPE tokenizer แบบ custom ประสิทธิภาพสูงด้วย Rust โดยไม่ต้องรับไลบรารีเดิมมาใช้หรือเรียน Rust เชิงลึก
- vibe code สิ่งที่อยากให้มี เช่น menugen, llm-council, reader3, HN time capsule ให้เป็น เดโมแอปแบบรวดเร็ว
- vibe code ทั้งแอปแบบใช้ครั้งเดียว เพียงเพื่อหาบั๊กตัวเดียว — อยู่ ๆ โค้ดก็กลายเป็นของฟรี ชั่วคราว ยืดหยุ่น และใช้แล้วทิ้ง
- Vibe coding จะ terraform วงการซอฟต์แวร์ และเปลี่ยนนิยามของอาชีพ
6. Nano Banana / LLM GUI
- Google Gemini Nano Banana คือหนึ่งในโมเดลที่พลิกพาราไดม์ได้ชวนทึ่งที่สุดของปี 2025
- หากมองว่า LLM คือ พาราไดม์การคอมพิวต์ใหญ่ถัดไป ที่คล้ายกับคอมพิวเตอร์ในยุค 1970–80 นวัตกรรมประเภทคล้ายกันก็น่าจะเกิดขึ้นด้วยเหตุผลพื้นฐานที่คล้ายกัน
- จะมีสิ่งที่เทียบได้กับ personal computing, microcontroller (แกนรับรู้), internet (ของเอเจนต์) เป็นต้น
- ในแง่ UIUX การ “คุย” กับ LLM นั้นคล้ายกับการสั่งงานผ่านคอนโซลคอมพิวเตอร์ในยุค 1980
- ข้อความเป็นรูปแบบข้อมูลดิบที่คอมพิวเตอร์ (และ LLM) ชอบ แต่ ไม่ใช่รูปแบบที่มนุษย์ชอบ
- โดยเฉพาะฝั่ง input มนุษย์ไม่ชอบการอ่านข้อความเยอะ ๆ เพราะช้าและต้องใช้แรง
- มนุษย์ชอบบริโภคข้อมูลในรูปแบบ ภาพและเชิงพื้นที่ จึงเกิด GUI ขึ้นในโลกคอมพิวเตอร์แบบดั้งเดิม
- ในทำนองเดียวกัน LLM ก็ควรสื่อสารในรูปแบบที่มนุษย์ชอบ เช่น ภาพ, infographic, สไลด์, whiteboard, animation/video, web app
- เวอร์ชันเริ่มต้นที่มีตอนนี้คืออีโมจิและ Markdown — การจัดวางข้อความให้ “ดูเป็นภาพมากขึ้น” ด้วยหัวเรื่อง ตัวหนา ตัวเอียง รายการ ตาราง ฯลฯ
- Nano Banana คือคำใบ้แรก ๆ ว่า LLM GUI อาจมีหน้าตาอย่างไร
- สิ่งสำคัญไม่ใช่แค่การสร้างภาพเองเท่านั้น แต่คือ ความสามารถแบบผสานกัน ที่ทั้งการสร้างข้อความ การสร้างภาพ และความรู้เกี่ยวกับโลก ถักรวมอยู่ในน้ำหนักของโมเดลเดียวกัน
TLDR; สรุปรวม
- ปี 2025 เป็นปีที่น่าสนใจและชวนประหลาดใจเล็กน้อยสำหรับ LLM
- LLM กำลังก้าวขึ้นมาเป็น สติปัญญาประเภทใหม่ ที่ ฉลาดกว่าที่คาดไว้มาก ขณะเดียวกันก็ โง่กว่าที่คาดไว้มาก
- ไม่ว่าอย่างไร LLM ก็มีประโยชน์มาก และผู้เขียนคิดว่า แม้ในระดับเทคโนโลยีปัจจุบัน อุตสาหกรรมก็ยังใช้ศักยภาพของมันได้ไม่ถึง 10%
- ยังมี ไอเดียที่น่าลองอีกไม่รู้จบ และในเชิงแนวคิดแล้ว พื้นที่นี้ ยังดูเหมือนเพิ่งเดินทางมาได้ไม่ไกลนัก
- แม้จะดูขัดแย้งในตัวเอง แต่ผู้เขียนเชื่อว่าต่อจากนี้จะยังมี ความก้าวหน้าที่รวดเร็วและต่อเนื่อง ขณะเดียวกันก็ยังมี งานอีกมากที่ต้องทำ
2 ความคิดเห็น
"vibe coding" ทำเดโมแอปอย่างรวดเร็วสำหรับสิ่งที่อยากให้มีอยู่ เช่น menugen, llm-council, reader3, HN time capsule
สมกับเป็นบิดาแห่ง vibe coding จริงๆ สิ่งที่เขาทำด้วย vibe coding นั้นแตกต่างจากของเล็กๆ น้อยๆ ที่ผมทำอย่างมหาศาลเลย 🤣
ความคิดเห็นจาก Hacker News
สำหรับฉัน นวัตกรรมที่น่าประทับใจที่สุดในปีนี้คือ Claude Code
Cursor เป็นการพิสูจน์แนวคิดที่ดี แต่สิ่งที่ทำให้ฉันเริ่มใช้ LLM ในการเขียนโค้ดจริงๆ คือ Claude Code
โค้ดที่ Claude สร้างขึ้นแทบจะเหมือนโค้ดที่ฉันเขียนเอง ราวกับมันอ่านความคิดฉันได้
เลยทำให้ดูแล บำรุงรักษา โค้ดที่ Claude สร้างได้ง่ายด้วย
ฉันเดาสไตล์โค้ดได้ราว 90~95% และมันเขียนได้เร็วกว่าฉันมาก
Gemini ก็น่าประทับใจ แต่โดยเฉพาะ Nano Banana มีประโยชน์กับงานกราฟิกดีไซน์
ฉันยังไม่ได้ลองใช้ Gemini กับงานเขียนโค้ด เพราะ Claude Code ดีเกินไป จนรู้สึกว่าถ้าเขียนได้เร็วไปกว่านี้อาจเกิด decision fatigue
ปกติฉันจะไม่รีบตัดสินใจเรื่องสถาปัตยกรรมหรือ UX แต่จะคิดอยู่สักวันสองวันก่อนค่อยเริ่มลงมือ เพราะพอเริ่มเดินไปในทิศทางหนึ่งแล้วจะย้อนกลับได้ยาก และอาจยึดติดกับทางเลือกที่ผิดเพราะ sunk cost fallacy
ฉันติดตั้งปลั๊กอิน Claude Code ใน IntelliJ IDEA แล้วใช้ IDE แค่สำหรับสำรวจโค้ดหรือรีวิวเท่านั้น
จำไม่ได้แล้วว่าครั้งล่าสุดที่พิมพ์โค้ดเองเกินสองบรรทัดคือเมื่อไร
ด้วย Claude Code ผลิตภาพของฉันเพิ่มขึ้นอย่างน้อย 5 เท่าขึ้นไป และเพราะต้นทุนการเขียนเทสต์แทบไม่มีเลย test coverage ก็เลยดีขึ้นมากด้วย
ตอนนี้ฉันใช้ เวิร์กโฟลว์ AI agent แบบเต็มรูปแบบ โดยวางแผนกับ Claude, ถามคำถาม, ให้มันลงมือทำ, รีวิว แล้วก็ขอให้แก้ไข
ไม่มีการเขียนโค้ดด้วยมือเลย ศูนย์จริงๆ
จนถึงตอนนี้ก็ยังไม่อยากเชื่อว่าของแบบนี้ถูกปล่อยออกมาสู่สาธารณะแล้ว
แต่เพราะต้องคอยขอให้ Claude ทำโค้ดให้ สวยงามและอ่านง่ายขึ้น ทุกครั้ง สุดท้ายก็เลยย้ายมาใช้ Claude Code เลย
GLM ก็ใกล้เคียงมากถ้าใช้พรอมป์ต์ดีๆ แต่ถ้าจ่ายแค่ 0.6 ดอลลาร์ต่อวันแล้วไม่ต้องกังวลเรื่องพวกนั้น ก็รู้สึกว่าไม่ต้องคิดมาก
ใช้โมเดลเดียวกันแท้ๆ เลยสงสัยว่าฉันกำลังพลาดอะไรไป
ฉันชอบบทความของ Karpathy แต่ช่วงนี้พอเห็น โครงสร้างประโยคแบบ LLM อย่าง “It’s not X, it’s Y” ก็สะดุ้งโดยสัญชาตญาณ
เมื่อ 3 ปีก่อนมันไม่ได้รบกวนอะไร แต่ตอนนี้รู้สึกว่าสำนวนแบบนี้พังไปหมดแล้ว
ประโยคอย่าง “It’s not just a website…” ฉันเรียกว่า ไขมันเชิงวาทศิลป์ (rhetorical fat)
ตัดส่วนเกินพวกนี้ออกไป ประโยคจะดูเรียบขึ้นแต่ชัดเจนกว่า
โดยเฉพาะคำอย่าง “little spirit” ที่ให้ความรู้สึกโอเวอร์จนฉันต้องกลอกตา
แน่นอนว่าผู้เขียนคงใส่มาเพื่อเน้นน้ำหนัก แต่สำหรับฉันมันไม่ตรงกับอุดมคติในการเขียน เลยทำให้รู้สึกต่อต้าน
ประโยคอย่าง “It’s not just about image generation…” สร้าง ความตึงเครียดเชิงแนวคิดที่ไม่จำเป็น
ฉันคิดว่าเขียนตรงๆ ไปเลยว่า “การสร้างภาพจะเจ๋งขึ้นเมื่อรวมเข้ากับการสร้างข้อความ” ยังจะดีกว่า
เป็นรีวิวที่ยอดเยี่ยมและสมจริงมาก
คำพูดที่ว่า “LLM ฉลาดกว่าที่คาด แต่ก็โง่กว่าที่คาดในเวลาเดียวกัน” ทำให้ฉันกังวล
เราจะรู้ได้อย่างไรว่าครั้งไหนจะเจอด้านไหน?
ในงานเขียนโค้ดเราจับข้อผิดพลาดได้ค่อนข้างง่าย แต่ในโดเมนทั่วไปมันยากกว่านั้นไม่ใช่หรือ
อีกทั้งกับคำกล่าวที่ว่า “คนทั่วไปได้ประโยชน์จาก LLM มากกว่าผู้เชี่ยวชาญ” อดีตก็เคยมีความหวังแบบเดียวกันกับ AppleScript, VB, visual programming แต่สุดท้าย AI กลับถูกใช้เหมือนเสิร์ชเอนจินที่ฉลาดขึ้น
แต่พื้นที่นั้นแหละคือจุดที่ hallucination หนักที่สุด จึงคิดว่านี่คือปัญหาและอยากรู้ว่าจะแก้อย่างไร
ฉันชอบท่าทีมองโลกในแง่ดีของ Andrej แต่ก็อยากฟังมุมมองของเขาด้วยว่าในปี 2025 การกระจุกตัวของอำนาจในอุตสาหกรรม เปลี่ยนไปอย่างไร รวมถึงประเด็นอย่าง โอเพนซอร์ส, local inference, ข้อจำกัดด้านฮาร์ดแวร์
ตัวอย่างเช่น เขาเขียนว่า Claude Code “รันแบบโลคัล” แต่ในความเป็นจริง มีแค่ TUI ที่รันโลคัล ส่วน inference เกิดขึ้นบนคลาวด์
เลยอยากรู้ว่าโครงสร้างแบบนี้จะพัฒนาไปทางไหนหลังปี 2026
สิ่งที่ทำให้การตั้งค่าแบบคลาวด์ไม่สะดวกไม่ใช่เรื่องการคำนวณ แต่เป็นเรื่อง UI/UX และ user loop
สามารถรันร่วมกับโมเดล gpt-oss ที่โฮสต์บน Ollama ได้
เช่น
codex --oss -m gpt-oss:20bและก็ใช้กับโมเดลที่ใหญ่กว่า (120b) ได้ด้วยagent นี้สามารถเรียก Bash, จัดการไฟล์ในระบบ, และทำแทบทุกอย่างบน OS ได้
กล่าวคือ โมเดลเป็นเหมือน สมอง ที่อยู่ไกลออกไป ส่วน agent คือ ชุดจักรกล
เขาน่าจะหมายถึงว่า ตัว agent รันในเครื่อง ไม่ใช่ inference รันในเครื่อง
ดูเหมือนเขาต้องการเน้นว่า OpenAI ออกแบบ Codex แบบเน้นคลาวด์ ในขณะที่ CC เลือกแนวทางที่ให้ความสำคัญกับโลคัลก่อน
แต่ความต่างนี้ควรถูกอธิบายให้ชัดกว่านี้มาก
ฉันรู้สึกว่าอุปมา RLVR ของ Karpathy เรื่อง “เลี้ยงสัตว์ vs อัญเชิญผี” เป็นโมเดลที่อธิบาย jagged intelligence ในตอนนี้ได้อย่างสมบูรณ์แบบ
เราไม่ได้กำลังสร้างผู้รอดชีวิตแบบอเนกประสงค์ แต่กำลังโอเวอร์ออปติไมซ์เฉพาะโดเมนให้เข้ากับรางวัลที่ตรวจสอบได้
และแนวคิดเรื่อง “ซอฟต์แวร์ใช้ครั้งเดียวจาก vibe coding” ก็โดนใจมาก
เวิร์กโฟลว์ที่สร้างแอปชั่วคราวขึ้นมาเพื่อดีบักปัญหาแค่เรื่องเดียวแล้วลบทิ้งทันที มันให้ความรู้สึกว่าเป็นการเปลี่ยนแปลงจริงๆ
มนุษย์กับสัตว์คือ สิ่งมีชีวิตที่มีสติปัญญาจริง แต่ LLM แค่ สะท้อนผลผลิตของมนุษย์ ในขอบเขตแคบๆ เท่านั้น
ถ้าจะเป็นปัญญาประดิษฐ์ที่แท้จริง มันต้องมีคุณลักษณะอย่าง อิสระในการกระทำ, การเรียนรู้อย่างต่อเนื่อง, ความอยากรู้อยากเห็น, ภาวะมีตัวตนเสมือน
สัตว์ส่วนใหญ่ขับเคลื่อนด้วยสัญชาตญาณ แต่มีเพียงสิ่งมีชีวิตที่เรียนรู้แบบทั่วไปได้เหมือนมนุษย์เท่านั้นที่ถือว่ามีสติปัญญาอย่างแท้จริง
ต้องรอดูว่าถ้าต้องจ่ายต้นทุนจริง การทำแอปใช้ครั้งเดียวแบบนี้จะยังไปต่อได้หรือไม่
ฉันสรุปไว้ในโพสต์ของฉัน ว่านี่คือสแตกที่ทำงานที่ Jupyter เริ่มไว้ให้เสร็จ
มันมีโครงสร้าง functional fence ที่เรียกใช้ได้และประกอบต่อกันได้
คล้ายกับ MCP และแค่เรียนรู้แพตเทิร์นก็พอ ไม่ต้องฝึกอะไรเพิ่มเติม
ถึงขั้นมี functor ที่เชื่อมวิธีสอนเปียโนในศตวรรษที่ 18 เข้ากับ context engineering เลยด้วย
ส่วนที่ Karpathy บอกว่า “LLM ควรสื่อสารใน รูปแบบที่ผู้ใช้ชอบ เช่น ภาพ, สไลด์, ไวต์บอร์ด” น่าสนใจมาก
แต่ถ้า LLM สร้าง UX ใหม่ให้ผู้ใช้แต่ละคนทุกครั้ง มันก็อาจกลายเป็น นรกของอินเทอร์เฟซที่คาดเดาไม่ได้ ได้เหมือนกัน
อาจเกิดสถานการณ์แบบ “ในแอปนี้ Command-W จะทำอะไรนะ?”
อย่าง Codex นี่ละเอียดกว่ามนุษย์เสียอีก
ตัว LLM เองนี่แหละคือ UI ที่ดีที่สุด
เพราะมันเข้าใจได้ทั้งหลายภาษาและแนวคิดเชิงนามธรรม จึงไม่จำเป็นต้องสร้าง UI แบบสุ่มขึ้นมา
ฉันเป็นผู้ใช้ที่ไม่ได้ใช้ภาษาอังกฤษเป็นหลัก ต่อให้พิมพ์ปนคำเยอรมัน มันก็ยังเข้าใจได้ดี
อินฟลูเอนเซอร์ด้าน AI หลายคนมั่นใจว่า “text UI จะหายไป” แต่ในความเป็นจริง อินเทอร์เฟซแบบข้อความยังคงเป็นศูนย์กลาง
สุดท้ายมันซ่อนอยู่ใน เมนูสามจุดสีจางๆ บนการ์ดแพ็กเกจ พอกดแล้วกลับเปิด หน้าต่างแชตบอต AI ขึ้นมา
ต้องพิมพ์พรอมป์ต์คำว่า “unsubscribe” ถึงจะมีปุ่มให้
ฉันรู้สึกว่าการเอา UX แบบระบบโทรศัพท์ตอบรับอัตโนมัติ มาใส่ในแอปเป็นเรื่องเลวร้ายมาก
ในฐานะวิศวกรฟรอนต์เอนด์ เทรนด์นี้ทำให้ฉันรู้สึกน่ากลัว
ฉันสงสัยว่า Andrej คิดอย่างไรกับ โมเดลความเร็วสูง แห่งปีนี้ (Gemini 3 Flash, Grok 4 Fast)
ตอนนี้มีโมเดลที่เร็ว ถูก และดีแบบนี้ออกมาแล้ว แต่ดูเหมือนชุมชนแทบไม่ค่อยสนใจ
ถ้าวิสัยทัศน์เรื่อง LLM สำหรับอินเทอร์เฟซแบบภาพจะเป็นจริง โมเดลประเภทนี้น่าจะขาดไม่ได้
เดาว่ามันน่าจะถูกฝึกด้วย reasoning traces ที่โมเดลใหญ่สร้างขึ้น
ปี 2025 ยังเป็นปีที่ ผีเริ่มสิงอยู่ในข้อมูลฝึก ด้วย
ตอนนี้ครึ่งหนึ่งของ X (Twitter) คือ LLM ตอบ LLM
พูดอีกอย่างคือ มีการเรียกซ้อนอยู่ภายในตัวชุดข้อมูลเอง
เห็นด้วยที่บอกว่า o3 คือ จุดเปลี่ยน
มีคนบอกว่า o3 หรือ o4-mini จริงๆ แล้วก็ระดับ gpt-5 แล้ว
แต่เพราะชื่อไม่คุ้นหู คนเลยไม่ค่อยสนใจ และพอ gpt-5 ออกมากลับมีแค่ การพัฒนาแบบค่อยเป็นค่อยไป เลยทำให้คนผิดหวัง
o4-mini อาจไม่เหมาะเป็นโมเดลพื้นฐานเพราะภาษาสนทนาดูแปลกๆ แต่ถ้าใช้ชื่ออย่าง “gpt-5 pro” แล้วใส่ไว้ในแพ็กเกจ 20 ดอลลาร์ก็คงดี
มองย้อนกลับไป ตอนนั้นแหละคือจังหวะของ การเปิดตัวใหญ่