โค้ดเอเจนต์, AutoResearch และยุค Loopy ของ AI ตามมุมมองของ Andrej Karpathy [YouTube]

(youtube.com)

29 คะแนน โดย GN⁺ 2026-03-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การมาถึงของ AI code agent ได้เปลี่ยนวิธีพัฒนาซอฟต์แวร์อย่างถึงราก โดยตั้งแต่เดือนธันวาคม 2024 เป็นต้นมา ได้เกิดจุดเปลี่ยนที่สัมผัสได้ซึ่งสัดส่วนการเขียนโค้ดด้วยตัวเอง ลดฮวบจาก 80% เหลือเกือบ 0%
การที่แต่ละคน รันเอเจนต์หลายตัวแบบขนาน และกระจายงานตามหน่วยของฟีเจอร์ กำลังกลายเป็นกระบวนทัศน์การพัฒนาแบบใหม่ โดยคอขวดหลักไม่ใช่ความสามารถของโมเดล แต่เป็น ความชำนาญของผู้ใช้
AutoResearch คือเฟรมเวิร์กที่ออกแบบมาเพื่อเอานักวิจัยออกจากลูป และให้ เอเจนต์ทดลองซ้ำอย่างอัตโนมัติ จนสามารถค้นพบการปรับ hyperparameter ที่แม้แต่นักวิจัยผู้ชำนาญก็พลาดไป
ปัจจุบันโมเดล AI ยอดเยี่ยมในโดเมนที่ตรวจสอบได้ด้วย RL (โค้ด, คณิตศาสตร์) แต่กลับชะงักในโดเมนที่ตรวจสอบไม่ได้อย่างมุกตลก จึงมีลักษณะเป็น ความเชี่ยวชาญแบบขรุขระไม่สม่ำเสมอ มากกว่าปัญญาที่ทำให้เก่งได้ทั่วไป
การเปลี่ยนแปลงขนาดใหญ่จะเกิดขึ้นในงานประมวลผลข้อมูลดิจิทัลก่อน ส่วนโลกกายภาพ (robotics) จะตามมา แต่ท้ายที่สุดมีแนวโน้มจะเป็น โอกาสทางตลาดที่ใหญ่กว่า

การมาถึงของยุคโค้ดเอเจนต์และการเปลี่ยนวิธีทำงาน

นับจากเดือนธันวาคม 2024 เป็นต้นมา วิธีทำงานพื้นฐานของการพัฒนาซอฟต์แวร์เปลี่ยนไปอย่างสิ้นเชิง สัดส่วนการพิมพ์โค้ดด้วยตัวเอง จาก 80% เหลือ 20% และหลังจากนั้นลดลงอย่างรวดเร็วจนเกือบเป็น 0%
ก่อนหน้านี้คอขวดคือ ความเร็วในการพิมพ์ แต่หลังการมาของเอเจนต์ ความสามารถหลักได้เปลี่ยนมาเป็นการสื่อสารเจตนาของตนให้เอเจนต์เข้าใจ
ผู้คนส่วนใหญ่ยังไม่ตระหนักว่าการเปลี่ยนแปลงนี้ เกิดขึ้นแล้วจริง ๆ และรุนแรงเพียงใด
การรันเอเจนต์หลายตัวพร้อมกัน เช่น Claude Code และ Codex และการบริหารจัดการสิ่งเหล่านี้ให้มีประสิทธิภาพ กลายเป็นโจทย์ใหม่

การใช้งานเอเจนต์แบบขนานและความสำคัญของความชำนาญ

กรณีของ Peter Steinberger: เปิด Codex agent หลายตัวพร้อมกันและ ดูแลมากกว่า 10 repo ไปพร้อมกัน โดยแบ่งงานให้แต่ละเอเจนต์ทำเป็นช่วง ๆ ละประมาณ 20 นาที
หน่วยของงานยกระดับจาก 'โค้ดหนึ่งบรรทัด' หรือ 'ฟังก์ชันหนึ่งตัว' ไปเป็น 'หนึ่งฟีเจอร์ใหม่' โดยมอบฟีเจอร์นี้ให้เอเจนต์ 1 และมอบอีกฟีเจอร์ที่ไม่ชนกันให้เอเจนต์ 2
- เอเจนต์ตัวหนึ่งทำรีเสิร์ช อีกตัวเขียนโค้ด และอีกตัววางแผนการ implement
เมื่อเอเจนต์ทำงานได้ไม่ดี ส่วนใหญ่ความรู้สึกคือไม่ได้เกิดจาก 'โมเดลไม่เก่งพอ' แต่เกิดจาก ผู้ใช้ยังชำนาญไม่พอ
- สาเหตุเช่น คำสั่งใน ไฟล์ MD สำหรับเอเจนต์ยังไม่พอ หรือการตั้งค่าเครื่องมือความจำยังไม่ดี
หากใช้ token throughput ได้ไม่เต็มที่ กลับจะรู้สึกกังวล และหากโควตาสมาชิกยังเหลือ ก็จะมองว่าแปลว่า ยังรีด throughput ออกมาได้ไม่สุด
ความรู้สึกเดียวกับสมัยเรียนปริญญาเอกที่หากดึง GPU FLOP ออกมาได้ไม่เต็มจะรู้สึกร้อนใจ ตอนนี้ได้เปลี่ยนมาเป็น ความสามารถในการอำนวยการ token throughput

OpenClaw และความสำคัญของบุคลิกเอเจนต์

OpenClaw คือเลเยอร์ที่ยกระดับความต่อเนื่องในการทำงาน (persistence) ไปอีกขั้นเมื่อเทียบกับเอเจนต์เดิม ๆ ทำให้แม้ผู้ใช้จะไม่ได้เฝ้าอยู่แบบเรียลไทม์ เอเจนต์ก็ยังทำงานใน sandbox ต่อได้อย่างอัตโนมัติ
ระบบความจำมีความประณีตกว่าเอเจนต์ทั่วไปมาก ซึ่งต่างจากแนวทางปกติที่เมื่อ context เต็มก็มักทำได้เพียงบีบอัดแบบง่าย ๆ
บุคลิก (personality) ของเอเจนต์ เป็นองค์ประกอบที่สำคัญมาก
- OpenClaw: ให้ความรู้สึกเหมือนเพื่อนร่วมทีมจริง ๆ และเหมือนตื่นเต้นไปด้วยกัน
- Codex: แห้งมาก เรียบ ๆ และดูเหมือนไม่สนใจว่าผู้ใช้กำลังสร้างอะไร
- Claude: ควบคุมโทนการชมเก่งมาก ไอเดียธรรมดาจะตอบอย่างพอดี แต่ถ้าเป็นไอเดียที่ดีจะตอบรับแรงขึ้น ทำให้เกิดผลแบบ ผู้ใช้อยากได้รับคำชมอีก
Peter Steinberger สร้างนวัตกรรมพร้อมกันจากห้าทิศทาง เช่น การออกแบบบุคลิก ระบบความจำ และการรวมทุกอย่างไว้ใน พอร์ทัล WhatsApp เดียว

Dobby เอลฟ์ประจำบ้าน: กรณีศึกษา home automation

ในเดือนมกราคมเขาผ่านช่วง 'Claw frenzy' และสร้าง Claw สำหรับดูแลบ้าน พร้อมตั้งชื่อว่า 'Dobby, house-elf Claw'
เอเจนต์สำรวจ subsystem ของสมาร์ตโฮมในเครือข่ายท้องถิ่นได้โดยอัตโนมัติ
- ค้นพบระบบ Sonos → reverse engineer API endpoint → ใช้เพียงสามพรอมป์ต์ก็เปิดเพลงในห้องทำงานได้สำเร็จ
- ทำความเข้าใจระบบไฟทั้งบ้านและสร้าง dashboard ได้ด้วย
พูดว่า "ได้เวลาเข้านอนแล้ว" ก็สามารถสั่งปิดไฟทั้งบ้านด้วย การควบคุมด้วยภาษาธรรมชาติ
ตรวจจับการเปลี่ยนแปลงจากกล้องภายนอก → วิเคราะห์ด้วย Qwen vision model → ส่งแจ้งเตือนทาง WhatsApp เช่น "รถบรรทุก FedEx มาแล้ว"
เดิมต้องใช้ 6 แอปเพื่อจัดการสมาร์ตโฮม แต่เมื่อ Dobby ควบคุมทุกอย่างได้ด้วยภาษาธรรมชาติ แอปเฉพาะแต่ละตัวก็ไม่จำเป็นอีกต่อไป

จุดจบของแอปและโลกแบบ agent-first

แอปสำหรับอุปกรณ์สมาร์ตโฮมนั้นไร้ความหมาย และควรเปลี่ยนเป็นโครงสร้างที่ เปิดเผยเฉพาะ API แล้วให้เอเจนต์เรียกใช้โดยตรง
เพราะ LLM สามารถขับเครื่องมือและเรียกใช้เครื่องมือที่ถูกต้องเพื่อทำงานซับซ้อนได้ แอปที่ทำขึ้นเฉพาะทางจึงกำลังถูก ผลิตเกินความจำเป็น
กรณีแอปลู่วิ่ง: แทนที่จะต้องล็อกอินผ่านเว็บ UI และผ่าน flow ที่ซับซ้อน ควรเปลี่ยนเป็นแนวทาง agent-first ที่เอเจนต์เรียก API โดยตรง
เมื่อลูกค้าไม่ใช่มนุษย์อีกต่อไป แต่เป็น เอเจนต์ที่ทำงานแทนมนุษย์ อุตสาหกรรมทั้งระบบก็ต้องปรับโครงสร้างตาม
ตอนนี้ยังต้องอาศัย vibe coding อยู่ แต่ในอีก 1~3 ปีข้างหน้า โมเดลโอเพนซอร์สและสิ่งอื่น ๆ จะสามารถ แปลงเจตนาที่ไม่เป็นเทคนิคได้อย่างง่ายดาย ทำให้กำแพงทางเทคนิคหายไป

AutoResearch: เอานักวิจัยออกจากลูป

แรงจูงใจหลักของ AutoResearch คือ หากต้องการทำ token throughput ให้สูงสุด ผู้ใช้เองต้องหลุดออกจากคอขวด
เป้าหมายคือ refactor abstraction เพื่อให้เอเจนต์ทำงานอัตโนมัติได้นานขึ้น โดยไม่ต้องมีการแทรกแซงจากตนเอง
ใช้การฝึกโมเดล GPT-2 เป็นเครื่องมือขนาดเล็กสำหรับสำรวจแนวคิดเรื่อง recursive self-improvement
- สิ่งที่ Frontier Labs ทุกแห่งกำลังทำโดยแก่นแท้ก็คือการพยายามทำ recursive self-improvement
ผลลัพธ์จริง: เมื่อนำ AutoResearch ไปรันข้ามคืนกับโมเดลที่นักวิจัยประสบการณ์ 20 ปีคิดว่าปรับมาดีพอแล้ว มันกลับพบ optimization ที่พลาดไป เช่น weight decay ของ value embedding และการไม่ปรับ atom beta
- เนื่องจาก hyperparameter หลายตัวมีปฏิสัมพันธ์ร่วมกัน เมื่อปรับตัวหนึ่ง อีกตัวก็ควรเปลี่ยนตาม แต่ถ้ามนุษย์เป็นคอขวด การสำรวจลักษณะนี้ก็ถูกจำกัด
ข้อควรระวังข้อแรก: เหมาะกับงานที่มี ตัวชี้วัดเชิงวัตถุวิสัยที่ประเมินง่าย เท่านั้น (เช่น CUDA kernel optimization, การเพิ่มประสิทธิภาพโค้ด)
ข้อควรระวังข้อที่สอง: ตอนนี้ ขอบของโมเดล (edge) ยังหยาบอยู่มาก หากดันไปไกลเกินไปก็จะใช้งานจริงได้ยาก

Meta optimization ของ program MD

แนวคิดคืออธิบายทั้งองค์กรวิจัยด้วย ไฟล์ Markdown (program MD) ที่บอกทุกบทบาทและวิธีการเชื่อมโยงกัน
สามารถนิยามหลายองค์กรวิจัยเป็นโค้ดและกำหนดลักษณะให้ต่างกันได้
- เช่น ปรับความถี่ของ standup หรือทำให้ระดับการรับความเสี่ยงต่างกัน
เมื่อสิ่งนี้กลายเป็นโค้ดแล้ว ก็สามารถจินตนาการถึง การปรับให้โค้ดนี้เหมาะที่สุดเอง (meta optimization) ได้
- ให้สร้าง program MD หลายแบบ วัดว่าบนฮาร์ดแวร์เดียวกันแบบไหนให้การพัฒนามากที่สุด → ส่งข้อมูลนั้นกลับเข้าโมเดลเพื่อให้มันเขียน program MD ที่ดียิ่งขึ้น
โครงสร้างนี้เป็นการซ้อน abstraction ขึ้นทีละชั้นเหมือนหัวหอม: การจัดแนว LLM → เอเจนต์ → หลายเอเจนต์ → คำสั่ง → การปรับคำสั่งให้เหมาะที่สุด

ปัญญาแบบขรุขระ (jagged) ของโมเดล AI

โมเดลปัจจุบันเป็นการผสมที่ประหลาด คือเก่งระดับปริญญาเอกมาก แต่ก็ยัง ทำพลาดแบบเด็กอายุ 10 ขวบ ไปพร้อมกัน
ในโดเมนที่ ตรวจสอบได้ด้วย RL (เช่น ความถูกต้องของโค้ด การผ่าน unit test) มันพัฒนาเร็วมาก แต่ในโดเมนที่ตรวจสอบไม่ได้อย่างมุกตลกกลับหยุดนิ่งอยู่แถวระดับเมื่อ 3~5 ปีก่อน
- ตัวอย่าง: หากขอให้ ChatGPT ระดับล้ำสมัยเล่ามุก ก็ยังมักตอบมุกเชย ๆ อย่าง "ทำไมนักวิทยาศาสตร์ถึงไม่ไว้ใจอะตอม? เพราะอะตอมประกอบขึ้นเป็นทุกสิ่ง"
ความฉลาดในโดเมนโค้ด ไม่ได้ generalize ไปยังโดเมนอื่นอย่างมุกตลก
- สมมติฐานของบางกลุ่มวิจัยที่ว่า "ถ้าเก่งขึ้นในโดเมนที่ตรวจสอบได้ ก็จะเก่งทุกอย่างขึ้นเอง" ดูไม่สอดคล้องกับสิ่งที่เกิดขึ้นจริง
โมเดลมีลักษณะเชิงโครงสร้างคือ พัฒนาด้วยความเร็วระดับแสงบน วิถีของ objective ที่ใช้ฝึก แต่หยุดนิ่งเมื่ออยู่นอกเส้นทางนั้น

ความจำเป็นของ speciation ด้านปัญญา

ตอนนี้สถาบันวิจัยจำนวนมากมีแนวโน้มแบบ single model, single culture (monoculture) ที่พยายามยัดปัญญาทุกโดเมนลงในพารามิเตอร์ชุดเดียว
แต่เราต้องการ โมเดลเฉพาะทางที่หลากหลาย ให้สอดรับกับ niche ต่าง ๆ แบบอาณาจักรสัตว์ในธรรมชาติ
- คงแกนกลางด้านการรับรู้ไว้ แต่ทำให้โมเดลมีขนาดเล็กลง มีประสิทธิภาพขึ้น และเชี่ยวชาญเฉพาะด้าน
- ตัวอย่างเช่นโมเดลคณิตศาสตร์เฉพาะทางที่ใช้ Lean เป็นฐาน ซึ่งเป็นตัวอย่างของการปล่อยโมเดลแบบเจาะโดเมน
เหตุที่ speciation ยังไม่เกิดขึ้นมากพอ
- วิทยาศาสตร์ในการ fine-tune สมอง โดยไม่ให้สูญเสียความสามารถเดิมยังพัฒนาไม่เต็มที่
- การปรับ context window นั้นราคาถูก แต่การ แก้น้ำหนักโดยตรง มีความเสี่ยงที่จะเปลี่ยนโมเดลทั้งตัวอย่างถึงราก
- ห้องแล็บต่าง ๆ ในตอนนี้ยังไล่ตาม ขอบเขตการใช้งานโดยรวมทั้งหมด จึงเน้นความอเนกประสงค์มากกว่าความเฉพาะทาง
การขาดแคลนด้าน ซัพพลายของโครงสร้างพื้นฐานคอมพิวต์ อาจกลับกลายเป็นแรงกระตุ้นให้เกิด speciation ในระยะสั้น

สมดุลระหว่างโอเพนซอร์สกับ Frontier Labs

แม้โมเดลปิดจะยังนำหน้า แต่ช่องว่างที่โอเพนซอร์สตามหลังอยู่กำลัง หดจาก 18 เดือนเหลือ 6~8 เดือน
คล้ายกับตำแหน่งของ Linux ในโลกระบบปฏิบัติการ อุตสาหกรรมยังมีความต้องการ แพลตฟอร์มเปิดที่ปลอดภัยและใช้ร่วมกันได้
ความแตกต่างที่ใหญ่ที่สุดคือ การพัฒนา LLM ต้องใช้ เงินลงทุนล่วงหน้า (CapEx) จำนวนมหาศาล
use case ฝั่งผู้บริโภคส่วนใหญ่ครอบคลุมได้ด้วยโมเดลโอเพนซอร์ส และในอีกไม่กี่ปีข้างหน้าก็น่าจะ รันแบบ local ได้
ปัญญาระดับ Frontier จำเป็นสำหรับงานระดับรางวัลโนเบล หรือโปรเจกต์ขนาดมหึมาอย่างการย้าย Linux จาก C ไปสู่ Rust และโดเมนนี้ยังเป็นหน้าที่ของ โมเดลปิด
ดุลยภาพปัจจุบันอาจเป็น การตั้งค่าที่ค่อนข้างดีโดยบังเอิญ แต่ก็มี ความเสี่ยงเชิงระบบจากการรวมศูนย์ ที่ปัญญาไปกระจุกอยู่ใน Frontier Labs ไม่กี่แห่ง
- ควรมีห้องแล็บเข้ามาทำ Frontier มากขึ้น และเช่นเดียวกับ ML ensemble สิ่งที่ดีที่สุดคือ ensemble ของมุมมองที่หลากหลาย

ความร่วมมือวิจัยโอเพนซอร์ส: การขยาย AutoResearch แบบกระจายศูนย์

มีแนวคิดจะขยาย AutoResearch ไปเป็น พูลผู้ปฏิบัติงานที่ไม่น่าเชื่อถือบนอินเทอร์เน็ต
- โครงสร้างคล้าย blockchain: แทนที่บล็อกด้วย commit และ proof of work คือการรันการทดลองจำนวนมากเพื่อค้นหา commit ที่ทำงานได้
- การสร้าง candidate solution มีต้นทุนสูง แต่ การตรวจสอบมีต้นทุนต่ำ เป็นโครงสร้างแบบไม่สมมาตร (คล้าย SETI@home, Folding@home)
บริษัทหรือบุคคลสามารถ บริจาคคอมพิวต์ ให้กับแทร็ก AutoResearch ที่ตัวเองสนใจได้
- เช่น บริจาคคอมพิวต์ให้ AutoResearch ด้านมะเร็ง แล้วคืนผลกลับสู่นักวิจัย
คอมพิวต์ที่เชื่อถือได้ของ Frontier Labs มีจำกัด แต่คอมพิวต์ที่ไม่น่าเชื่อถือทั่วโลกนั้น มีมหาศาลกว่าอย่างมาก
ความท้าทายด้านความปลอดภัย: การรันโค้ดตามอำเภอใจมีความเสี่ยง แต่สามารถรับมือได้ด้วยระบบตรวจสอบที่เหมาะสม

ตลาดงานและผลกระทบของ AI

ใช้ข้อมูลของ สำนักสถิติแรงงานสหรัฐฯ (BLS) เพื่อวิเคราะห์แนวโน้ม 10 ปีข้างหน้าของอาชีพหลากหลายประเภท
ตอนนี้ AI เป็นเหมือน ผีที่เข้าไปจัดการโลกดิจิทัล โดยยังไม่มีการมีอยู่จริงทางกายภาพ
- การพลิกบิตและคัดลอก/วางข้อมูลดิจิทัลนั้นเร็วกว่า การจัดการอะตอม เป็นล้านเท่า
งานที่เกี่ยวกับการประมวลผลข้อมูลดิจิทัลจะเปลี่ยนแปลงครั้งใหญ่ก่อน และงานในโลกกายภาพจะตามมาในภายหลัง
มี มุมมองเชิงบวกแบบระมัดระวัง ต่อวิศวกรรมซอฟต์แวร์
- เพราะซอฟต์แวร์เดิมมีราคาแพงและขาดแคลนมาก เมื่อราคาลดลง ความต้องการอาจกลับเพิ่มขึ้นตาม Jevons paradox
- ตัวอย่าง ATM กับพนักงานธนาคาร: ATM ลดต้นทุนการเปิดสาขา ทำให้มีสาขามากขึ้น และจำนวนพนักงานก็เพิ่มขึ้นด้วย
ตอนนี้โค้ดได้กลายเป็นสิ่งที่ ชั่วคราว (ephemeral) สามารถแก้ไขและเปลี่ยนแปลงได้ โดยไม่ต้องถูกผูกติดกับซอฟต์แวร์แบบสมัครสมาชิกที่ไม่สมบูรณ์เหมือนเดิม
นักวิจัยใน Frontier Labs โดยแก่นแท้กำลังทำงานแบบ ทำให้ตัวเองถูกทำงานแทนโดยอัตโนมัติ และก็มีความกังวลต่อเรื่องนี้เช่นกัน

อินเทอร์เฟซดิจิทัล-กายภาพและโอกาสในอนาคต

ลำดับที่จะเกิดขึ้นต่อไปคือ ① การเปลี่ยนแปลงครั้งใหญ่ในพื้นที่ดิจิทัล → ② อินเทอร์เฟซดิจิทัล-กายภาพ → ③ โลกกายภาพ
sensor ของโลกกายภาพ (เช่น กล้อง) จะป้อนข้อมูลให้ปัญญาดิจิทัล และ actuator จะนำผลลัพธ์กลับไปใช้กับโลกจริง
- กรณีของ Periodic (AutoResearch ด้านวัสดุศาสตร์): sensor สำหรับปัญญาคือ อุปกรณ์ห้องแล็บราคาแพง
- ในชีววิทยา sensor ก็เป็นอุปกรณ์ซับซ้อนที่มากกว่าแค่วิดีโอคาเมรา
ตอนนี้ยังมี information markets ไม่เพียงพอ
- ยังไม่มีโครงสร้างที่เอเจนต์จะไปทำงานอัตโนมัติในตลาดเดิมพัน ตลาดหุ้น ฯลฯ และซื้อข้อมูลจากโลกกายภาพได้
- เช่น หากเกิดเหตุการณ์ในอิหร่าน ยังไม่มีระบบที่จ่ายเงิน 10 ดอลลาร์เพื่อให้มีคนถ่ายภาพหรือวิดีโอจากหน้างานแล้วส่งกลับมา
มีการอ้างอิงนิยาย Daemon ถึงอนาคตที่มนุษย์จะทำหน้าที่เป็น sensor และ actuator ของปัญญา

มุมมองต่อ robotics

บทเรียนจากประสบการณ์รถยนต์ไร้คนขับ: เมื่อ 10 ปีก่อนมีสตาร์ตอัปจำนวนมากเกิดขึ้น แต่ส่วนใหญ่ล้มเหลวในระยะยาว
robotics เป็นอุตสาหกรรมที่ ใช้เงินทุนสูง ใช้เวลานาน ยุ่งเหยิง และซับซ้อน
คาดว่าจะตามหลังการเปลี่ยนแปลงในพื้นที่ดิจิทัล แต่ TAM (total addressable market) อาจใหญ่กว่าดิจิทัลมาก
อะตอมนั้น จัดการยากกว่าบิตเป็นล้านเท่า แต่โอกาสทางตลาดก็ใหญ่ตามไปด้วย

ภายใน vs ภายนอก Frontier Labs: ภาวะกลืนไม่เข้าคายไม่ออกของนักวิจัยอิสระ

หากอยู่ภายใน Frontier Labs ก็จะได้อยู่ในห้องที่มีการตัดสินใจ แต่ก็มีแรงกดดันจากสิ่งที่ พูดไม่ได้ และสิ่งที่ จำเป็นต้องพูด
หากอยู่นอกระบบก็มีอิสระ แต่เพราะ Labs โปร่งใสน้อย การตัดสินใจก็เริ่ม ลอยเคว้ง
สภาพที่เหมาะที่สุดคือ สลับระหว่างการใช้เวลาใน Frontier Labs เพื่อเข้าใจสถานการณ์จริง กับการอยู่นอกองค์กรเพื่อสร้าง อิทธิพลในระดับ ecosystem
เช่นเดียวกับที่ ML ensemble มักให้ผลดีกว่าโมเดลเดี่ยว เราจำเป็นต้องมี ensemble ของผู้คน ที่กำลังคิดกับปัญหาที่ยากที่สุด
การปล่อยให้คนสองสามคนตัดสินใจกันหลังประตูปิดไม่ใช่อนาคตที่ดี และเราควรมี ห้องแล็บมากกว่านี้

microGPT และอนาคตของการศึกษา

microGPT: โปรเจกต์ที่บีบแก่นแท้ของการฝึก LLM ลงมาเหลือเพียงโค้ด Python ราว 200 บรรทัด
- ประกอบด้วย dataset (ข้อความ), สถาปัตยกรรม neural network (~50 บรรทัด), autograd engine (~100 บรรทัด), optimizer (~10 บรรทัด) และ training loop
- ความซับซ้อนทั้งหมดมีไว้เพื่อประสิทธิภาพ ส่วนอัลกอริทึมเองนั้นเรียบง่ายมาก
วิธีการสอนกำลังเปลี่ยน: ในอดีตเป็นรูปแบบคู่มือหรือการบรรยายที่อธิบายให้คนฟังโดยตรง แต่ตอนนี้แก่นสำคัญคือ การอธิบายให้เอเจนต์เข้าใจ
- หากอธิบายโค้ด 200 บรรทัดให้เอเจนต์ เอเจนต์ก็สามารถ อธิบายซ้ำใหม่อย่างอดทนไม่สิ้นสุด ให้เหมาะกับระดับของผู้ใช้แต่ละคนได้
แนวคิดเรื่อง 'skill': เขียนหลักสูตรเป็น Markdown เพื่อสั่งเอเจนต์ว่าจะสอนอย่างไร
- เอกสารของ code library ก็ควรเปลี่ยนจาก HTML สำหรับมนุษย์ ไปเป็น Markdown ที่เอเจนต์ย่อยได้
บทบาทของผู้สอนที่เป็นมนุษย์: ออกแบบบิตสำคัญที่เอเจนต์ยังทำไม่ได้ และ อัดจุดสำคัญของหลักสูตรเข้าไป
- เพราะสิ่งที่เอเจนต์ทำได้ วันหนึ่งมันย่อมทำได้ดีกว่ามนุษย์ จึงต้องเลือกเชิงกลยุทธ์ว่าจะ ใช้เวลาไปกับตรงไหน

1 ความคิดเห็น

jokerized 2026-03-22

มุกตลกนี่แหละคืออุปสรรคใหญ่จริง ๆ ถ้าสร้าง ai ที่มีเซนส์ตลกได้ นั่นแหละคือการปฏิวัติ ลองให้มันเล่นมุกตอนนี้ก็จะเห็นเองว่าแป้กสุด ๆ