- การมาถึงของ AI code agent ได้เปลี่ยนวิธีพัฒนาซอฟต์แวร์อย่างถึงราก โดยตั้งแต่เดือนธันวาคม 2024 เป็นต้นมา ได้เกิดจุดเปลี่ยนที่สัมผัสได้ซึ่งสัดส่วนการเขียนโค้ดด้วยตัวเอง ลดฮวบจาก 80% เหลือเกือบ 0%
- การที่แต่ละคน รันเอเจนต์หลายตัวแบบขนาน และกระจายงานตามหน่วยของฟีเจอร์ กำลังกลายเป็นกระบวนทัศน์การพัฒนาแบบใหม่ โดยคอขวดหลักไม่ใช่ความสามารถของโมเดล แต่เป็น ความชำนาญของผู้ใช้
- AutoResearch คือเฟรมเวิร์กที่ออกแบบมาเพื่อเอานักวิจัยออกจากลูป และให้ เอเจนต์ทดลองซ้ำอย่างอัตโนมัติ จนสามารถค้นพบการปรับ hyperparameter ที่แม้แต่นักวิจัยผู้ชำนาญก็พลาดไป
- ปัจจุบันโมเดล AI ยอดเยี่ยมในโดเมนที่ตรวจสอบได้ด้วย RL (โค้ด, คณิตศาสตร์) แต่กลับชะงักในโดเมนที่ตรวจสอบไม่ได้อย่างมุกตลก จึงมีลักษณะเป็น ความเชี่ยวชาญแบบขรุขระไม่สม่ำเสมอ มากกว่าปัญญาที่ทำให้เก่งได้ทั่วไป
- การเปลี่ยนแปลงขนาดใหญ่จะเกิดขึ้นในงานประมวลผลข้อมูลดิจิทัลก่อน ส่วนโลกกายภาพ (robotics) จะตามมา แต่ท้ายที่สุดมีแนวโน้มจะเป็น โอกาสทางตลาดที่ใหญ่กว่า
การมาถึงของยุคโค้ดเอเจนต์และการเปลี่ยนวิธีทำงาน
- นับจากเดือนธันวาคม 2024 เป็นต้นมา วิธีทำงานพื้นฐานของการพัฒนาซอฟต์แวร์เปลี่ยนไปอย่างสิ้นเชิง สัดส่วนการพิมพ์โค้ดด้วยตัวเอง จาก 80% เหลือ 20% และหลังจากนั้นลดลงอย่างรวดเร็วจนเกือบเป็น 0%
- ก่อนหน้านี้คอขวดคือ ความเร็วในการพิมพ์ แต่หลังการมาของเอเจนต์ ความสามารถหลักได้เปลี่ยนมาเป็นการสื่อสารเจตนาของตนให้เอเจนต์เข้าใจ
- ผู้คนส่วนใหญ่ยังไม่ตระหนักว่าการเปลี่ยนแปลงนี้ เกิดขึ้นแล้วจริง ๆ และรุนแรงเพียงใด
- การรันเอเจนต์หลายตัวพร้อมกัน เช่น Claude Code และ Codex และการบริหารจัดการสิ่งเหล่านี้ให้มีประสิทธิภาพ กลายเป็นโจทย์ใหม่
การใช้งานเอเจนต์แบบขนานและความสำคัญของความชำนาญ
- กรณีของ Peter Steinberger: เปิด Codex agent หลายตัวพร้อมกันและ ดูแลมากกว่า 10 repo ไปพร้อมกัน โดยแบ่งงานให้แต่ละเอเจนต์ทำเป็นช่วง ๆ ละประมาณ 20 นาที
- หน่วยของงานยกระดับจาก 'โค้ดหนึ่งบรรทัด' หรือ 'ฟังก์ชันหนึ่งตัว' ไปเป็น 'หนึ่งฟีเจอร์ใหม่' โดยมอบฟีเจอร์นี้ให้เอเจนต์ 1 และมอบอีกฟีเจอร์ที่ไม่ชนกันให้เอเจนต์ 2
- เอเจนต์ตัวหนึ่งทำรีเสิร์ช อีกตัวเขียนโค้ด และอีกตัววางแผนการ implement
- เมื่อเอเจนต์ทำงานได้ไม่ดี ส่วนใหญ่ความรู้สึกคือไม่ได้เกิดจาก 'โมเดลไม่เก่งพอ' แต่เกิดจาก ผู้ใช้ยังชำนาญไม่พอ
- สาเหตุเช่น คำสั่งใน ไฟล์ MD สำหรับเอเจนต์ยังไม่พอ หรือการตั้งค่าเครื่องมือความจำยังไม่ดี
- หากใช้ token throughput ได้ไม่เต็มที่ กลับจะรู้สึกกังวล และหากโควตาสมาชิกยังเหลือ ก็จะมองว่าแปลว่า ยังรีด throughput ออกมาได้ไม่สุด
- ความรู้สึกเดียวกับสมัยเรียนปริญญาเอกที่หากดึง GPU FLOP ออกมาได้ไม่เต็มจะรู้สึกร้อนใจ ตอนนี้ได้เปลี่ยนมาเป็น ความสามารถในการอำนวยการ token throughput
OpenClaw และความสำคัญของบุคลิกเอเจนต์
- OpenClaw คือเลเยอร์ที่ยกระดับความต่อเนื่องในการทำงาน (persistence) ไปอีกขั้นเมื่อเทียบกับเอเจนต์เดิม ๆ ทำให้แม้ผู้ใช้จะไม่ได้เฝ้าอยู่แบบเรียลไทม์ เอเจนต์ก็ยังทำงานใน sandbox ต่อได้อย่างอัตโนมัติ
- ระบบความจำมีความประณีตกว่าเอเจนต์ทั่วไปมาก ซึ่งต่างจากแนวทางปกติที่เมื่อ context เต็มก็มักทำได้เพียงบีบอัดแบบง่าย ๆ
- บุคลิก (personality) ของเอเจนต์ เป็นองค์ประกอบที่สำคัญมาก
- OpenClaw: ให้ความรู้สึกเหมือนเพื่อนร่วมทีมจริง ๆ และเหมือนตื่นเต้นไปด้วยกัน
- Codex: แห้งมาก เรียบ ๆ และดูเหมือนไม่สนใจว่าผู้ใช้กำลังสร้างอะไร
- Claude: ควบคุมโทนการชมเก่งมาก ไอเดียธรรมดาจะตอบอย่างพอดี แต่ถ้าเป็นไอเดียที่ดีจะตอบรับแรงขึ้น ทำให้เกิดผลแบบ ผู้ใช้อยากได้รับคำชมอีก
- Peter Steinberger สร้างนวัตกรรมพร้อมกันจากห้าทิศทาง เช่น การออกแบบบุคลิก ระบบความจำ และการรวมทุกอย่างไว้ใน พอร์ทัล WhatsApp เดียว
Dobby เอลฟ์ประจำบ้าน: กรณีศึกษา home automation
- ในเดือนมกราคมเขาผ่านช่วง 'Claw frenzy' และสร้าง Claw สำหรับดูแลบ้าน พร้อมตั้งชื่อว่า 'Dobby, house-elf Claw'
- เอเจนต์สำรวจ subsystem ของสมาร์ตโฮมในเครือข่ายท้องถิ่นได้โดยอัตโนมัติ
- ค้นพบระบบ Sonos → reverse engineer API endpoint → ใช้เพียงสามพรอมป์ต์ก็เปิดเพลงในห้องทำงานได้สำเร็จ
- ทำความเข้าใจระบบไฟทั้งบ้านและสร้าง dashboard ได้ด้วย
- พูดว่า "ได้เวลาเข้านอนแล้ว" ก็สามารถสั่งปิดไฟทั้งบ้านด้วย การควบคุมด้วยภาษาธรรมชาติ
- ตรวจจับการเปลี่ยนแปลงจากกล้องภายนอก → วิเคราะห์ด้วย Qwen vision model → ส่งแจ้งเตือนทาง WhatsApp เช่น "รถบรรทุก FedEx มาแล้ว"
- เดิมต้องใช้ 6 แอปเพื่อจัดการสมาร์ตโฮม แต่เมื่อ Dobby ควบคุมทุกอย่างได้ด้วยภาษาธรรมชาติ แอปเฉพาะแต่ละตัวก็ไม่จำเป็นอีกต่อไป
จุดจบของแอปและโลกแบบ agent-first
- แอปสำหรับอุปกรณ์สมาร์ตโฮมนั้นไร้ความหมาย และควรเปลี่ยนเป็นโครงสร้างที่ เปิดเผยเฉพาะ API แล้วให้เอเจนต์เรียกใช้โดยตรง
- เพราะ LLM สามารถขับเครื่องมือและเรียกใช้เครื่องมือที่ถูกต้องเพื่อทำงานซับซ้อนได้ แอปที่ทำขึ้นเฉพาะทางจึงกำลังถูก ผลิตเกินความจำเป็น
- กรณีแอปลู่วิ่ง: แทนที่จะต้องล็อกอินผ่านเว็บ UI และผ่าน flow ที่ซับซ้อน ควรเปลี่ยนเป็นแนวทาง agent-first ที่เอเจนต์เรียก API โดยตรง
- เมื่อลูกค้าไม่ใช่มนุษย์อีกต่อไป แต่เป็น เอเจนต์ที่ทำงานแทนมนุษย์ อุตสาหกรรมทั้งระบบก็ต้องปรับโครงสร้างตาม
- ตอนนี้ยังต้องอาศัย vibe coding อยู่ แต่ในอีก 1~3 ปีข้างหน้า โมเดลโอเพนซอร์สและสิ่งอื่น ๆ จะสามารถ แปลงเจตนาที่ไม่เป็นเทคนิคได้อย่างง่ายดาย ทำให้กำแพงทางเทคนิคหายไป
AutoResearch: เอานักวิจัยออกจากลูป
- แรงจูงใจหลักของ AutoResearch คือ หากต้องการทำ token throughput ให้สูงสุด ผู้ใช้เองต้องหลุดออกจากคอขวด
- เป้าหมายคือ refactor abstraction เพื่อให้เอเจนต์ทำงานอัตโนมัติได้นานขึ้น โดยไม่ต้องมีการแทรกแซงจากตนเอง
- ใช้การฝึกโมเดล GPT-2 เป็นเครื่องมือขนาดเล็กสำหรับสำรวจแนวคิดเรื่อง recursive self-improvement
- สิ่งที่ Frontier Labs ทุกแห่งกำลังทำโดยแก่นแท้ก็คือการพยายามทำ recursive self-improvement
- ผลลัพธ์จริง: เมื่อนำ AutoResearch ไปรันข้ามคืนกับโมเดลที่นักวิจัยประสบการณ์ 20 ปีคิดว่าปรับมาดีพอแล้ว มันกลับพบ optimization ที่พลาดไป เช่น weight decay ของ value embedding และการไม่ปรับ atom beta
- เนื่องจาก hyperparameter หลายตัวมีปฏิสัมพันธ์ร่วมกัน เมื่อปรับตัวหนึ่ง อีกตัวก็ควรเปลี่ยนตาม แต่ถ้ามนุษย์เป็นคอขวด การสำรวจลักษณะนี้ก็ถูกจำกัด
- ข้อควรระวังข้อแรก: เหมาะกับงานที่มี ตัวชี้วัดเชิงวัตถุวิสัยที่ประเมินง่าย เท่านั้น (เช่น CUDA kernel optimization, การเพิ่มประสิทธิภาพโค้ด)
- ข้อควรระวังข้อที่สอง: ตอนนี้ ขอบของโมเดล (edge) ยังหยาบอยู่มาก หากดันไปไกลเกินไปก็จะใช้งานจริงได้ยาก
Meta optimization ของ program MD
- แนวคิดคืออธิบายทั้งองค์กรวิจัยด้วย ไฟล์ Markdown (program MD) ที่บอกทุกบทบาทและวิธีการเชื่อมโยงกัน
- สามารถนิยามหลายองค์กรวิจัยเป็นโค้ดและกำหนดลักษณะให้ต่างกันได้
- เช่น ปรับความถี่ของ standup หรือทำให้ระดับการรับความเสี่ยงต่างกัน
- เมื่อสิ่งนี้กลายเป็นโค้ดแล้ว ก็สามารถจินตนาการถึง การปรับให้โค้ดนี้เหมาะที่สุดเอง (meta optimization) ได้
- ให้สร้าง program MD หลายแบบ วัดว่าบนฮาร์ดแวร์เดียวกันแบบไหนให้การพัฒนามากที่สุด → ส่งข้อมูลนั้นกลับเข้าโมเดลเพื่อให้มันเขียน program MD ที่ดียิ่งขึ้น
- โครงสร้างนี้เป็นการซ้อน abstraction ขึ้นทีละชั้นเหมือนหัวหอม: การจัดแนว LLM → เอเจนต์ → หลายเอเจนต์ → คำสั่ง → การปรับคำสั่งให้เหมาะที่สุด
ปัญญาแบบขรุขระ (jagged) ของโมเดล AI
- โมเดลปัจจุบันเป็นการผสมที่ประหลาด คือเก่งระดับปริญญาเอกมาก แต่ก็ยัง ทำพลาดแบบเด็กอายุ 10 ขวบ ไปพร้อมกัน
- ในโดเมนที่ ตรวจสอบได้ด้วย RL (เช่น ความถูกต้องของโค้ด การผ่าน unit test) มันพัฒนาเร็วมาก แต่ในโดเมนที่ตรวจสอบไม่ได้อย่างมุกตลกกลับหยุดนิ่งอยู่แถวระดับเมื่อ 3~5 ปีก่อน
- ตัวอย่าง: หากขอให้ ChatGPT ระดับล้ำสมัยเล่ามุก ก็ยังมักตอบมุกเชย ๆ อย่าง "ทำไมนักวิทยาศาสตร์ถึงไม่ไว้ใจอะตอม? เพราะอะตอมประกอบขึ้นเป็นทุกสิ่ง"
- ความฉลาดในโดเมนโค้ด ไม่ได้ generalize ไปยังโดเมนอื่นอย่างมุกตลก
- สมมติฐานของบางกลุ่มวิจัยที่ว่า "ถ้าเก่งขึ้นในโดเมนที่ตรวจสอบได้ ก็จะเก่งทุกอย่างขึ้นเอง" ดูไม่สอดคล้องกับสิ่งที่เกิดขึ้นจริง
- โมเดลมีลักษณะเชิงโครงสร้างคือ พัฒนาด้วยความเร็วระดับแสงบน วิถีของ objective ที่ใช้ฝึก แต่หยุดนิ่งเมื่ออยู่นอกเส้นทางนั้น
ความจำเป็นของ speciation ด้านปัญญา
- ตอนนี้สถาบันวิจัยจำนวนมากมีแนวโน้มแบบ single model, single culture (monoculture) ที่พยายามยัดปัญญาทุกโดเมนลงในพารามิเตอร์ชุดเดียว
- แต่เราต้องการ โมเดลเฉพาะทางที่หลากหลาย ให้สอดรับกับ niche ต่าง ๆ แบบอาณาจักรสัตว์ในธรรมชาติ
- คงแกนกลางด้านการรับรู้ไว้ แต่ทำให้โมเดลมีขนาดเล็กลง มีประสิทธิภาพขึ้น และเชี่ยวชาญเฉพาะด้าน
- ตัวอย่างเช่นโมเดลคณิตศาสตร์เฉพาะทางที่ใช้ Lean เป็นฐาน ซึ่งเป็นตัวอย่างของการปล่อยโมเดลแบบเจาะโดเมน
- เหตุที่ speciation ยังไม่เกิดขึ้นมากพอ
- วิทยาศาสตร์ในการ fine-tune สมอง โดยไม่ให้สูญเสียความสามารถเดิมยังพัฒนาไม่เต็มที่
- การปรับ context window นั้นราคาถูก แต่การ แก้น้ำหนักโดยตรง มีความเสี่ยงที่จะเปลี่ยนโมเดลทั้งตัวอย่างถึงราก
- ห้องแล็บต่าง ๆ ในตอนนี้ยังไล่ตาม ขอบเขตการใช้งานโดยรวมทั้งหมด จึงเน้นความอเนกประสงค์มากกว่าความเฉพาะทาง
- การขาดแคลนด้าน ซัพพลายของโครงสร้างพื้นฐานคอมพิวต์ อาจกลับกลายเป็นแรงกระตุ้นให้เกิด speciation ในระยะสั้น
สมดุลระหว่างโอเพนซอร์สกับ Frontier Labs
- แม้โมเดลปิดจะยังนำหน้า แต่ช่องว่างที่โอเพนซอร์สตามหลังอยู่กำลัง หดจาก 18 เดือนเหลือ 6~8 เดือน
- คล้ายกับตำแหน่งของ Linux ในโลกระบบปฏิบัติการ อุตสาหกรรมยังมีความต้องการ แพลตฟอร์มเปิดที่ปลอดภัยและใช้ร่วมกันได้
- ความแตกต่างที่ใหญ่ที่สุดคือ การพัฒนา LLM ต้องใช้ เงินลงทุนล่วงหน้า (CapEx) จำนวนมหาศาล
- use case ฝั่งผู้บริโภคส่วนใหญ่ครอบคลุมได้ด้วยโมเดลโอเพนซอร์ส และในอีกไม่กี่ปีข้างหน้าก็น่าจะ รันแบบ local ได้
- ปัญญาระดับ Frontier จำเป็นสำหรับงานระดับรางวัลโนเบล หรือโปรเจกต์ขนาดมหึมาอย่างการย้าย Linux จาก C ไปสู่ Rust และโดเมนนี้ยังเป็นหน้าที่ของ โมเดลปิด
- ดุลยภาพปัจจุบันอาจเป็น การตั้งค่าที่ค่อนข้างดีโดยบังเอิญ แต่ก็มี ความเสี่ยงเชิงระบบจากการรวมศูนย์ ที่ปัญญาไปกระจุกอยู่ใน Frontier Labs ไม่กี่แห่ง
- ควรมีห้องแล็บเข้ามาทำ Frontier มากขึ้น และเช่นเดียวกับ ML ensemble สิ่งที่ดีที่สุดคือ ensemble ของมุมมองที่หลากหลาย
ความร่วมมือวิจัยโอเพนซอร์ส: การขยาย AutoResearch แบบกระจายศูนย์
- มีแนวคิดจะขยาย AutoResearch ไปเป็น พูลผู้ปฏิบัติงานที่ไม่น่าเชื่อถือบนอินเทอร์เน็ต
- โครงสร้างคล้าย blockchain: แทนที่บล็อกด้วย commit และ proof of work คือการรันการทดลองจำนวนมากเพื่อค้นหา commit ที่ทำงานได้
- การสร้าง candidate solution มีต้นทุนสูง แต่ การตรวจสอบมีต้นทุนต่ำ เป็นโครงสร้างแบบไม่สมมาตร (คล้าย SETI@home, Folding@home)
- บริษัทหรือบุคคลสามารถ บริจาคคอมพิวต์ ให้กับแทร็ก AutoResearch ที่ตัวเองสนใจได้
- เช่น บริจาคคอมพิวต์ให้ AutoResearch ด้านมะเร็ง แล้วคืนผลกลับสู่นักวิจัย
- คอมพิวต์ที่เชื่อถือได้ของ Frontier Labs มีจำกัด แต่คอมพิวต์ที่ไม่น่าเชื่อถือทั่วโลกนั้น มีมหาศาลกว่าอย่างมาก
- ความท้าทายด้านความปลอดภัย: การรันโค้ดตามอำเภอใจมีความเสี่ยง แต่สามารถรับมือได้ด้วยระบบตรวจสอบที่เหมาะสม
ตลาดงานและผลกระทบของ AI
- ใช้ข้อมูลของ สำนักสถิติแรงงานสหรัฐฯ (BLS) เพื่อวิเคราะห์แนวโน้ม 10 ปีข้างหน้าของอาชีพหลากหลายประเภท
- ตอนนี้ AI เป็นเหมือน ผีที่เข้าไปจัดการโลกดิจิทัล โดยยังไม่มีการมีอยู่จริงทางกายภาพ
- การพลิกบิตและคัดลอก/วางข้อมูลดิจิทัลนั้นเร็วกว่า การจัดการอะตอม เป็นล้านเท่า
- งานที่เกี่ยวกับการประมวลผลข้อมูลดิจิทัลจะเปลี่ยนแปลงครั้งใหญ่ก่อน และงานในโลกกายภาพจะตามมาในภายหลัง
- มี มุมมองเชิงบวกแบบระมัดระวัง ต่อวิศวกรรมซอฟต์แวร์
- เพราะซอฟต์แวร์เดิมมีราคาแพงและขาดแคลนมาก เมื่อราคาลดลง ความต้องการอาจกลับเพิ่มขึ้นตาม Jevons paradox
- ตัวอย่าง ATM กับพนักงานธนาคาร: ATM ลดต้นทุนการเปิดสาขา ทำให้มีสาขามากขึ้น และจำนวนพนักงานก็เพิ่มขึ้นด้วย
- ตอนนี้โค้ดได้กลายเป็นสิ่งที่ ชั่วคราว (ephemeral) สามารถแก้ไขและเปลี่ยนแปลงได้ โดยไม่ต้องถูกผูกติดกับซอฟต์แวร์แบบสมัครสมาชิกที่ไม่สมบูรณ์เหมือนเดิม
- นักวิจัยใน Frontier Labs โดยแก่นแท้กำลังทำงานแบบ ทำให้ตัวเองถูกทำงานแทนโดยอัตโนมัติ และก็มีความกังวลต่อเรื่องนี้เช่นกัน
อินเทอร์เฟซดิจิทัล-กายภาพและโอกาสในอนาคต
- ลำดับที่จะเกิดขึ้นต่อไปคือ ① การเปลี่ยนแปลงครั้งใหญ่ในพื้นที่ดิจิทัล → ② อินเทอร์เฟซดิจิทัล-กายภาพ → ③ โลกกายภาพ
- sensor ของโลกกายภาพ (เช่น กล้อง) จะป้อนข้อมูลให้ปัญญาดิจิทัล และ actuator จะนำผลลัพธ์กลับไปใช้กับโลกจริง
- กรณีของ Periodic (AutoResearch ด้านวัสดุศาสตร์): sensor สำหรับปัญญาคือ อุปกรณ์ห้องแล็บราคาแพง
- ในชีววิทยา sensor ก็เป็นอุปกรณ์ซับซ้อนที่มากกว่าแค่วิดีโอคาเมรา
- ตอนนี้ยังมี information markets ไม่เพียงพอ
- ยังไม่มีโครงสร้างที่เอเจนต์จะไปทำงานอัตโนมัติในตลาดเดิมพัน ตลาดหุ้น ฯลฯ และซื้อข้อมูลจากโลกกายภาพได้
- เช่น หากเกิดเหตุการณ์ในอิหร่าน ยังไม่มีระบบที่จ่ายเงิน 10 ดอลลาร์เพื่อให้มีคนถ่ายภาพหรือวิดีโอจากหน้างานแล้วส่งกลับมา
- มีการอ้างอิงนิยาย Daemon ถึงอนาคตที่มนุษย์จะทำหน้าที่เป็น sensor และ actuator ของปัญญา
มุมมองต่อ robotics
- บทเรียนจากประสบการณ์รถยนต์ไร้คนขับ: เมื่อ 10 ปีก่อนมีสตาร์ตอัปจำนวนมากเกิดขึ้น แต่ส่วนใหญ่ล้มเหลวในระยะยาว
- robotics เป็นอุตสาหกรรมที่ ใช้เงินทุนสูง ใช้เวลานาน ยุ่งเหยิง และซับซ้อน
- คาดว่าจะตามหลังการเปลี่ยนแปลงในพื้นที่ดิจิทัล แต่ TAM (total addressable market) อาจใหญ่กว่าดิจิทัลมาก
- อะตอมนั้น จัดการยากกว่าบิตเป็นล้านเท่า แต่โอกาสทางตลาดก็ใหญ่ตามไปด้วย
ภายใน vs ภายนอก Frontier Labs: ภาวะกลืนไม่เข้าคายไม่ออกของนักวิจัยอิสระ
- หากอยู่ภายใน Frontier Labs ก็จะได้อยู่ในห้องที่มีการตัดสินใจ แต่ก็มีแรงกดดันจากสิ่งที่ พูดไม่ได้ และสิ่งที่ จำเป็นต้องพูด
- หากอยู่นอกระบบก็มีอิสระ แต่เพราะ Labs โปร่งใสน้อย การตัดสินใจก็เริ่ม ลอยเคว้ง
- สภาพที่เหมาะที่สุดคือ สลับระหว่างการใช้เวลาใน Frontier Labs เพื่อเข้าใจสถานการณ์จริง กับการอยู่นอกองค์กรเพื่อสร้าง อิทธิพลในระดับ ecosystem
- เช่นเดียวกับที่ ML ensemble มักให้ผลดีกว่าโมเดลเดี่ยว เราจำเป็นต้องมี ensemble ของผู้คน ที่กำลังคิดกับปัญหาที่ยากที่สุด
- การปล่อยให้คนสองสามคนตัดสินใจกันหลังประตูปิดไม่ใช่อนาคตที่ดี และเราควรมี ห้องแล็บมากกว่านี้
microGPT และอนาคตของการศึกษา
- microGPT: โปรเจกต์ที่บีบแก่นแท้ของการฝึก LLM ลงมาเหลือเพียงโค้ด Python ราว 200 บรรทัด
- ประกอบด้วย dataset (ข้อความ), สถาปัตยกรรม neural network (~50 บรรทัด), autograd engine (~100 บรรทัด), optimizer (~10 บรรทัด) และ training loop
- ความซับซ้อนทั้งหมดมีไว้เพื่อประสิทธิภาพ ส่วนอัลกอริทึมเองนั้นเรียบง่ายมาก
- วิธีการสอนกำลังเปลี่ยน: ในอดีตเป็นรูปแบบคู่มือหรือการบรรยายที่อธิบายให้คนฟังโดยตรง แต่ตอนนี้แก่นสำคัญคือ การอธิบายให้เอเจนต์เข้าใจ
- หากอธิบายโค้ด 200 บรรทัดให้เอเจนต์ เอเจนต์ก็สามารถ อธิบายซ้ำใหม่อย่างอดทนไม่สิ้นสุด ให้เหมาะกับระดับของผู้ใช้แต่ละคนได้
- แนวคิดเรื่อง 'skill': เขียนหลักสูตรเป็น Markdown เพื่อสั่งเอเจนต์ว่าจะสอนอย่างไร
- เอกสารของ code library ก็ควรเปลี่ยนจาก HTML สำหรับมนุษย์ ไปเป็น Markdown ที่เอเจนต์ย่อยได้
- บทบาทของผู้สอนที่เป็นมนุษย์: ออกแบบบิตสำคัญที่เอเจนต์ยังทำไม่ได้ และ อัดจุดสำคัญของหลักสูตรเข้าไป
- เพราะสิ่งที่เอเจนต์ทำได้ วันหนึ่งมันย่อมทำได้ดีกว่ามนุษย์ จึงต้องเลือกเชิงกลยุทธ์ว่าจะ ใช้เวลาไปกับตรงไหน
1 ความคิดเห็น
มุกตลกนี่แหละคืออุปสรรคใหญ่จริง ๆ ถ้าสร้าง ai ที่มีเซนส์ตลกได้ นั่นแหละคือการปฏิวัติ ลองให้มันเล่นมุกตอนนี้ก็จะเห็นเองว่าแป้กสุด ๆ