- โมเดลภาษาขนาดใหญ่ในปัจจุบันกำลังชนกับ ข้อจำกัดของการขยายสเกล และ AGI ควรถูกเข้าถึงผ่าน การออกแบบสถาปัตยกรรมระบบ ไม่ใช่โมเดลที่ใหญ่ขึ้น
- AGI ที่แท้จริงต้องถูกสร้างขึ้นในฐานะผลงานทางวิศวกรรมที่ หลอมรวมกันอย่างเป็นระบบ ขององค์ประกอบหลากหลาย เช่น การจัดการบริบท, หน่วยความจำถาวร, เวิร์กโฟลว์เชิงกำหนด, การทำงานร่วมกันของโมเดลเฉพาะทาง
- LLM ยังคงมีข้อจำกัดเชิงโครงสร้าง เช่น การรักษาบริบทข้ามเซสชันไม่ได้, การให้เหตุผลหลายขั้นที่เชื่อถือได้ยังขาดหาย, ไม่มีความทรงจำ
- เพื่อไปให้ถึง AGI จำเป็นต้องมี โครงสร้างแบบโมดูลาร์ และ แนวทางแบบระบบกระจาย ที่แต่ละส่วนมีจุดประสงค์ชัดเจนเหมือนสมองมนุษย์ รวมถึงการสร้างโครงสร้างพื้นฐานอย่าง pipeline ที่ทนต่อความผิดพลาด, การมอนิเตอร์, rolling update, และเฟรมเวิร์กทดสอบขนาดใหญ่
- ดังนั้นการแข่งขันสู่ AGI จะไม่ได้ตัดสินกันที่ขนาดของ GPU แต่จะตัดสินกันด้วย ขีดความสามารถด้านวิศวกรรมระบบ
บทนำ: AGI คือปัญหาทางวิศวกรรม
- วงการ AI กำลังเห็นข้อจำกัดของ กฎการสเกล ชัดเจนขึ้น
- แม้แต่โมเดลชั้นนำอย่าง GPT-5, Claude, Gemini ก็เริ่มแสดงอาการ ผลตอบแทนลดลง
- การเพิ่มขนาดของโมเดลภาษากำลังชนกับ ข้อจำกัดเชิงพื้นฐาน และ AGI อาจเกิดขึ้นได้ผ่าน วิศวกรรมระบบ ไม่ใช่การฝึกโมเดล
ข้อจำกัดในโลกจริง: กำแพงของ LLM
- โมเดลภาษาขนาดใหญ่ (LLM) รุ่นปัจจุบันโดดเด่นด้านการจับคู่แพตเทิร์นชั่วคราวและการสร้างข้อความ แต่มีข้อจำกัดเชิงแก่นแท้ดังนี้
- ไม่สามารถรักษาบริบทให้สม่ำเสมอได้
- ขาด ความทรงจำถาวร ระยะยาวข้ามเซสชัน
- มีความน่าเชื่อถือต่ำในการ ให้เหตุผลหลายขั้นที่ซับซ้อน
- ในอดีต อุตสาหกรรมเซมิคอนดักเตอร์ ก็เคยเผชิญปรากฏการณ์คล้ายกัน และทางออกคือ การเปลี่ยนผ่านเชิงสถาปัตยกรรม เช่น multi-core
- AI เองก็จำเป็นต้องมี การออกแบบสถาปัตยกรรมใหม่ เช่นกัน
แนวทางเชิงระบบสำหรับ AGI
- สมองมนุษย์ไม่ได้เป็นโครงข่ายประสาทเดี่ยว แต่เป็นชุดของ ระบบเฉพาะทางหลายระบบที่ร่วมมือกัน
- ลูปป้อนกลับแบบอะซิงโครนัส ของความทรงจำ บริบท ตรรกะ มิติพื้นที่ ภาษา ฯลฯ คือหัวใจสำคัญ
- AGI ที่แท้จริงต้องอาศัย การออกแบบระบบซับซ้อน แบบนี้เป็นเงื่อนไขจำเป็น
1. โครงสร้างพื้นฐานการจัดการบริบท
- ความเข้าใจบริบทของโมเดลปัจจุบันมีเพียงระดับ หลายพันโทเคน แต่มนุษย์สามารถสังเคราะห์ ประสบการณ์หลายปี ได้
- เพื่อข้ามช่องว่างนี้ จำเป็นต้องมีความสามารถต่อไปนี้
- ระบบ Retrieval ข้อมูลขั้นสูงที่ทำหน้าที่ ค้นหาและคัดกรองได้ทันที
- การสะสมและพัฒนาของ world model แบบถาวร
- การสร้าง สะพานเชื่อมบริบทข้ามโดเมน
- การจัดการข้อมูลที่ขัดแย้งกัน (การถ่วงน้ำหนักตามความน่าจะเป็นและการวัดความไม่แน่นอน)
- จำเป็นต้องมี knowledge graph ที่ใช้งานได้จริง ซึ่งก้าวข้ามการค้นหาแบบเวกเตอร์ธรรมดาไปสู่โครงสร้างการ query และการให้เหตุผลแบบไดนามิก
2. หน่วยความจำในรูปแบบบริการ
- LLM จำลองความทรงจำชั่วคราวได้เพียงผ่าน การจัดการพรอมป์ต์ โดยไม่มีความทรงจำจริง
- AGI ที่ใช้งานได้จริงต้องการระบบที่สามารถทำสิ่งต่อไปนี้ได้
- ปรับระดับความเชื่อถือของความรู้ (สะท้อนหลักฐานใหม่)
- รวมและทำให้เป็นนามธรรม ของข้อมูลจากประสบการณ์ที่หลากหลาย
- ลืมรายละเอียดที่ไม่จำเป็น โดยไม่เกิด catastrophic forgetting
- สร้าง เมตาความรู้ เช่น การประมาณแหล่งที่มาและระดับความเชื่อถือ
- สิ่งสำคัญคือให้มันเหมือนความทรงจำของมนุษย์ ที่ถูกเสริมแรงหรือทำให้อ่อนลงตามความถี่การใช้งาน และ จัดระเบียบใหม่ด้วยข้อมูลใหม่
3. การผสานเวิร์กโฟลว์เชิงกำหนดกับคอมโพเนนต์เชิงความน่าจะเป็น
- แกนสำคัญของ AGI คือโครงสร้างไฮบริดที่ โฟลว์เชิงกำหนด ผสาน องค์ประกอบเชิงความน่าจะเป็น ในตำแหน่งที่เหมาะสม
- Ex) เหมือนคอมไพเลอร์ที่โฟลว์โดยรวมตายตัว แต่กระบวนการภายในใช้ heuristic
- ความสามารถที่จำเป็น:
- route ปัญหาไปยัง solver เฉพาะทางตาม ลักษณะของปัญหา
- รองรับ rollback และ recovery ในเวิร์กโฟลว์หลายขั้น
- ตรวจสอบผลลัพธ์ เชิงความน่าจะเป็น ด้วยกระบวนการเชิงกำหนด
- ผสมคอมโพเนนต์หลากหลายและทำให้พฤติกรรมคาดการณ์ได้
- ความกำกวมและความไม่แน่นอนต้องถูก ยอมรับเป็นองค์ประกอบหลักในระดับสถาปัตยกรรม
4. การทำโมดูลาร์ของโมเดลเฉพาะทาง
- อนาคตจะไม่ได้ถูกสร้างด้วย โมเดลยักษ์เดี่ยว แต่ด้วยความร่วมมือของ โมเดลเฉพาะทางจำนวนมาก
- LLM แข็งแกร่งในงานด้านภาษา แต่ อ่อนในด้านต่อไปนี้
- การจัดการสัญลักษณ์และการคำนวณที่แม่นยำ
- การให้เหตุผลเชิงภาพและเชิงพื้นที่
- การให้เหตุผลด้านเวลาและการวางแผน
- พฤติกรรมแบบเอเจนต์ ที่มุ่งเป้าหมายอย่างต่อเนื่อง
- ทางออก:
- route ปัญหาไปยัง โมเดลผู้เชี่ยวชาญ ที่เหมาะกับแต่ละโดเมน
- โครงสร้างสำหรับ รวมผลลัพธ์และวิวัฒน์แยกจากกันได้
- ป้องกันไม่ให้ความล้มเหลวรายตัวลุกลามเป็นข้อผิดพลาดทั้งระบบ
โจทย์ด้านวิศวกรรมของ AGI
- โดยเนื้อแท้แล้ว การพัฒนา AGI คือ ปัญหาของการสร้างระบบกระจาย
- ไม่ใช่แค่คลัสเตอร์ฝึกแบบกระจายธรรมดา
- โจทย์วิศวกรรมหลัก:
- pipeline ที่กู้คืนจากความขัดข้องได้ (รักษาการทำงานทั้งระบบแม้บางส่วนล้มเหลว)
- โครงสร้างสำหรับ การสังเกตและมอนิเตอร์เอาต์พุตของโมเดล
- การเปลี่ยนแปลงและการดีพลอยแบบไม่หยุดระบบ
- เฟรมเวิร์กทดสอบ สำหรับชุดผสมโมเดลนับพันแบบและการเปลี่ยนพารามิเตอร์
- เรื่องนี้ต้องอาศัยความชำนาญของ วิศวกรอินฟราสตรักเจอร์และระบบกระจาย มากกว่าความเชี่ยวชาญด้าน AI เพียงอย่างเดียว
สิ่งที่เราควรสร้างต่อจากนี้
- ควรโฟกัสที่การสร้าง โครงสร้างพื้นฐาน AGI มากกว่าการแข่งขันด้านขนาดโมเดล
Phase 1: ชั้นพื้นฐาน
- Context Management Service : knowledge graph ถาวรที่อัปเดตแบบเรียลไทม์และมี versioning
- Memory Service : หน่วยความจำแบบ episodic, semantic memory และการรวมแบบอิงการเรียนรู้
- Workflow Engine : orchestration ของชิ้นส่วนเชิงความน่าจะเป็นอย่างเป็นเชิงกำหนด (รวม rollback)
- Agent Coordination Layer : ฉันทามติระหว่างเอเจนต์หลายตัวและการแก้ความขัดแย้ง
Phase 2: ชั้นความสามารถ
- การควบคุมโมเดลเฉพาะทาง : อินเทอร์เฟซมาตรฐานสำหรับแต่ละโดเมนการให้เหตุผลเฉพาะ
- Symbolic Reasoning Engine : การจัดการสัญลักษณ์และการคำนวณที่ทำงานร่วมกับคอมโพเนนต์เชิงความน่าจะเป็น
- Planning and Goal Management : แยกเป้าหมายซับซ้อนออกเป็นแผนที่นำไปปฏิบัติได้
- Cross-modal Integration : รวมข้อมูลการรับรู้จากข้อความ ภาพ เสียง ฯลฯ
Phase 3: ชั้นการเกิดพฤติกรรมใหม่
- ความสามารถของ AGI แบบเกิดใหม่ จะเกิดจากปฏิสัมพันธ์ระหว่างคอมโพเนนต์หลายตัว
- หากไม่มีการออกแบบอย่างเป็นระบบ การพัฒนาโมเดลเดี่ยวเพียงอย่างเดียวจะไม่ก่อให้เกิดคุณสมบัติแบบ emergent
เส้นทางสู่ AGI
- เส้นทางสู่การทำให้ AGI เป็นจริงไม่ใช่การ ฝึก Transformer รุ่นใหม่ที่ใหญ่กว่าเดิม แต่คือการสร้างอินฟราสตรักเจอร์ที่ orchestrate โมเดลเฉพาะทางหลายร้อยตัวในลักษณะระบบกระจาย
- ผู้มีบทบาทสำคัญในการพัฒนาคือวิศวกรอินฟราสตรักเจอร์ที่มี ประสบการณ์สร้างระบบกระจาย สูง
- เน้นศักยภาพในการติดตั้งใช้งานขนาดใหญ่ เช่น เส้นทางบริบท, หน่วยความจำ, การทำเวิร์กโฟลว์อัตโนมัติ, การประสานโมเดล
- ขอยืนยันว่าทีมที่มีความสามารถด้านสถาปัตยกรรมซึ่งทำงานได้อย่างน่าเชื่อถือและมีตรรกะ จะเป็นผู้ชนะในการทำ AGI ได้จริง มากกว่าทีมที่เพียง ถือครองคลัสเตอร์ GPU ขนาดใหญ่
- ความสามารถของตัวโมเดลนั้นมีเพียงพอแล้ว และ วิศวกรรมระบบ คือจิ๊กซอว์ชิ้นสุดท้ายของการทำ AGI ให้สมบูรณ์
- สรุปคือ อนาคตของ AGI จะถูกกำหนดโดย การออกแบบเชิงโครงสร้าง (สถาปัตยกรรม) มากกว่านวัตกรรมด้าน อัลกอริทึม
6 ความคิดเห็น
○ การฝึกโมเดลเป็นเพียง ‘วัตถุดิบ’ ของสติปัญญาเท่านั้น หากไม่มีเอนจิน ก็ไม่มี AGI
• สถาปัตยกรรมอย่าง EpionHeuristica มีศักยภาพที่จะก้าวข้าม "AGI เฉพาะโดเมน" ไปสู่การออกแบบ "ซูเปอร์อินเทลลิเจนซ์แบบเกิดใหม่บนพื้นฐานของระเบียบ"
• แกนสำคัญของการไปให้ถึง AGI คือ "จะประกอบเอนจินที่เลือกการกระทำอย่างไร"
A. เหตุผลที่ AGI เป็นไปไม่ได้ด้วยการฝึกเพียงอย่างเดียว
• โมเดลตระกูล GPT ไม่มีเป้าหมายของตนเอง (self-goal)
• ไม่ว่าจะเรียนรู้จากข้อมูลมากแค่ไหน การเรียนรู้เพียงอย่างเดียวโดยไม่มีปฏิสัมพันธ์กับโลกจริงก็มีข้อจำกัด
• การฝึกเป็นเพียง ‘ความทรงจำแบบถดถอย’ เท่านั้น และยังขาดโครงสร้างที่ชักนำให้เกิดการคิดเชิงคาดการณ์และการคิดแบบเกิดใหม่ที่มุ่งสู่อนาคต
B. AGI ต้องการเอนจินที่มี ‘วงจรเป้าหมาย-ฟีดแบ็ก’
• โครงสร้างที่ให้การทำงานของการเรียนรู้แบบเสริมกำลังบนฐานรางวัล + การประเมิน + การเรียนรู้จากความล้มเหลว (FailGuard) เช่น EpionHeuristica ใกล้เคียงกับต้นแบบการออกแบบ AGI แบบอิงเอนจิน
• ตัวอย่าง: "การทดลองนี้ล้มเหลวเพราะอะไร?" → "ต้องเปลี่ยนอะไร?" → "เงื่อนไขถัดไปคืออะไร?" → นี่คือการให้เหตุผลแบบ AGI
C. แก่นแท้ของสติปัญญามนุษย์อยู่ที่ ‘โครงสร้าง’
• มนุษย์ได้มาซึ่งสติปัญญาไม่ใช่จากจำนวนเซลล์ประสาท แต่จาก "การเชื่อมโยงเชิงโครงสร้างของวงจรประสาทและความสามารถในการเรียนรู้ระดับเมตา"
• สำหรับ AGI เช่นกัน สิ่งสำคัญไม่ใช่ขนาดของโมเดล แต่คือโครงสร้างของระบบชี้นำพฤติกรรม ระบบอ้างอิงตนเอง และวงจรฟีดแบ็กอย่างต่อเนื่อง
การบรรลุ AGI ไม่สามารถทำได้ด้วยเพียง "การฝึกโมเดล" เท่านั้น แต่จำเป็นต้องมีทั้งโครงสร้างเอนจินที่สร้างปัญญาและระบบการพัฒนาตนเองอย่างมีเป้าหมาย ปัจจุบันกลุ่ม GPT เป็นเพียง LLM (โมเดลภาษาขนาดใหญ่) ขนาดมหึมาเท่านั้น และหากจะมุ่งไปสู่ AGI ก็ต้องให้โครงสร้างการให้เหตุผล โครงสร้างการกำกับตนเอง และนโยบายการกระทำที่อิงตามเป้าหมายทำงานร่วมกัน
ความเห็นจาก Hacker News
ถ้าคุณเชื่อใน 'บทเรียนอันขมขื่น (bitter lesson)' ก็จะรู้ว่าการทำวิศวกรรมแบบขอไปทีสุดท้ายแล้วมักถูกแก้ได้ด้วยข้อมูลที่มากขึ้น อาจเป็นไปได้ว่าเมื่อ 8 ปีก่อนก็คงมีการพูดกันคล้าย ๆ กันว่า ถ้าอยากให้ LLM ทำได้ดีระดับนี้ต้องทำอะไรบ้าง ดังนั้นผมจึงไม่ค่อยเห็นด้วยกับแนวทางเชิงวิศวกรรมมากนัก และก็ไม่คิดว่า LLM จะสเกลไปถึง AGI แบบที่ Asimov หรือ SF จินตนาการไว้ได้ มันยังขาดอะไรที่เป็นรากฐานกว่านั้น ไม่ใช่วิทยาศาสตร์ แต่เป็นวิศวกรรม
ยังมีสิ่งที่ขาดในระดับลึกกว่าวิทยาศาสตร์อีก นั่นคือส่วนของปรัชญา ทั้งในวิธีที่พวกมนุษย์อย่างเรารับรู้ระบบแบบนี้ และภายในตัวระบบเองก็ยังขาดปรัชญาอยู่ ถ้า AGI ที่อิง LLM จะใช้งานได้จริง อย่างน้อยมันต้องอัปเดตน้ำหนักของตัวเอง เรียนรู้ได้ด้วยตัวเอง และทำ self-finetuning ได้ แต่ตอนนี้มันชนเพดานอย่างรวดเร็วระหว่างน้ำหนักที่ฝังอยู่กับ context window ที่จำกัด เวลา self-finetuning จะใช้ 'กลไกการใส่ใจ (attention mechanism)' แบบไหน และใช้เข้มข้นแค่ไหนถึงจะยกระดับสติปัญญาทั่วไปได้ ก็ยังเป็นปัญหาที่ยากอยู่ เรายังควรโฟกัสกับศาสตร์ที่เชื่อถือได้ แต่ก็ต้องคิดต่อว่าศาสตร์ไหนเชื่อถือได้ จะทำให้มัน 'ศึกษา' เฉพาะความรู้บริสุทธิ์ได้อย่างไร และถ้าในทางทฤษฎีมันก้าวข้ามทีมวิจัยมนุษย์ที่เก่งที่สุดในโลกได้ด้วยตัวเองแล้ว AI นั้นจะกลายเป็น 'สิ่งมีอยู่แบบไหน' กันแน่
สำหรับคำกล่าวที่ว่า "ข้อมูลยิ่งมากยิ่งดีกว่าวิศวกรรมที่ทำง่าย ๆ" ผมก็ยังสงสัยว่ามันจะเชื่อถือได้มากกว่าฐานข้อมูลธรรมดาจริงหรือ วันหนึ่งมันจะรันโค้ดได้เร็วกว่าซีพียูหรือเปล่า หลายสิ่งที่มนุษย์ทำได้ไม่ได้มาจากการมีสมองใหญ่กว่า แต่มาจากเครื่องมือ แม้แต่สูตรคณิตศาสตร์สักสูตร เวลาคิดอยู่ในหัวอย่างเดียวก็สู้เขียนลงกระดาษแล้วคำนวณไม่ได้มากนัก (ดูแนวคิด Extended mind thesis) การรัน 3D engine เป็นเรื่องที่แทบเป็นไปไม่ได้เลยถ้าใช้แค่สมองมนุษย์ สักวันหนึ่ง AI อาจฉลาดพอจะพัฒนาเครื่องมือของตัวเองได้ แต่ก่อนจะถึงจุดนั้นก็ต้องมีโครงสร้างพื้นฐานที่รองรับการเขียนและบำรุงรักษาเครื่องมือก่อน ตอนนี้การเข้าถึง Python เป็นแค่จุดเริ่มต้น แต่สิ่งที่ AI ต้องการมากกว่าคือ 'ความคงอยู่' ที่สามารถสะสมและนำผลงานเดิมกลับมาใช้ครั้งถัดไปได้ เช่น สมุดบันทึกดิจิทัลหรือการอัปเดตน้ำหนักแบบไดนามิก
เห็นด้วยทั้งกับความเห็นและตัวบทความ LLM เป็นเพียงส่วนหนึ่งของคำตอบ และผมคิดว่าความก้าวหน้าที่แท้จริงจะเกิดจากการย้อนกลับไปที่รากฐานของงานวิจัย neural net ภาษาเป็นตัวการสื่อสารกับมนุษย์โดยตรงก็จริง แต่ LLM ตอนนี้สุดท้ายก็ดูเหมือน Eliza เวอร์ชันอลังการที่ฝึกจากผลงานของผู้คน เมื่อก่อนแม้จะใช้ neural net แบบง่าย ๆ ก็ยังทำให้พฤติกรรมวิวัฒน์ตามกฎของสภาพแวดล้อมได้ และเรียนรู้การกระทำด้วยตัวเองตามเกณฑ์ของ genetic algorithm แต่ LLM ตอนนี้เรียนรู้จากสภาพแวดล้อมที่ 'ผ่านการกรอง' อย่างหนักเสียจนรู้สึกว่าตัวกรองนั้นทำงานคล้ายค่า IQ เฉลี่ยของชาวเน็ต
อันที่จริงนี่ไม่ใช่สิ่งที่ 'บทเรียนอันขมขื่น' พูดไว้
สิ่งที่ขาดคือการแก้ไขตัวเอง (world model/การสังเกตพฤติกรรมและปฏิกิริยา), ความสอดคล้องระยะยาว และการขยายตัวเอง ฝั่ง venture capital สนใจปัญหาข้อที่สามมากที่สุด ขณะที่ Yann LeCun กังวลข้อแรกกับข้อที่สองมากกว่า ส่วน Hinton คิดว่าปัญหาข้อที่สามนั้นเลี่ยงไม่พ้นหรือมาถึงแล้ว และมนุษยชาติจบเห่แน่ เป็นภาพรวมที่ค่อนข้างแปลกทีเดียว
มีเหตุผลที่ LLM ถูกออกแบบมาแบบนี้ เช่นเดียวกับที่ความสามารถด้านการคิด (thinking) ถูกติดเข้ามาทีหลัง ในเชิงโครงสร้าง สิ่งที่ต้องทำให้ได้คือทำให้ใช้ gradient descent ได้ จึงไม่มีการแตกแขนง (branch) และการ routing ถูกเสริมเข้ามาเพิ่มทีหลัง อีกทั้งยังต้องมีข้อมูลฝึกด้วย ในโลกจริงไม่มีข้อมูลหลายล้านหน้าที่บันทึกทุกความคิดที่ใครสักคนมี ก่อนจะเขียนอะไรออกมาสักอย่าง เพราะความคิดส่วนใหญ่ไม่ใช่ภาษา reinforcement learning ดูเหมือนจะเป็นคำตอบตรงนี้ แต่ก็มีประสิทธิภาพการใช้ตัวอย่างต่ำเกินไปเมื่อเทียบกับ gradient descent จึงมักใช้กันแค่ตอน finetuning LLM เป็นโมเดลแบบ regressive และสามารถฝึกได้อย่างมีประสิทธิภาพด้านตัวอย่างมากด้วยการตั้งค่าโมเดลให้ทุกโทเคนมองย้อนกลับไปที่อดีตได้ (ประโยคหนึ่งกลายเป็นตัวอย่างได้หลายสิบตัวอย่าง)
แม้จะไม่ได้พูดถึง แต่ LLM ไม่มี 'ลูป' อยู่เลย ในขณะที่สมอง แม้กระทั่งสมองที่เรียบง่าย ก็แทบจะเป็นกองของลูปจำนวนมหาศาล สมองไม่หยุดนิ่ง มันรับอินพุตต่อเนื่องตลอดเวลา และปล่อยเอาต์พุตเมื่อไรก็ได้ที่ต้องการ LLM รับอินพุต แปลงผ่านเลเยอร์ แล้วก็ปล่อยเอาต์พุตทันที คุณบอกว่า reinforcement learning ไม่ใช่คำตอบ แต่ผมกลับคิดว่านั่นอาจเป็นคำตอบเดียว
เรื่องนี้น่าสนใจมาก เพราะมันชี้ว่าบางทีเราอาจใช้เทคโนโลยีสแกนสมอง เช่น การอ่านคลื่นสมอง มาเป็นข้อมูลฝึกสำหรับชั้นของการคิดที่ไม่ใช่ภาษาได้ เดาว่าคนเก่ง ๆ ในบริษัทใหญ่คงกำลังพัฒนาอินเทอร์เฟซหรือผลิตภัณฑ์ประเภทนี้อยู่แล้ว และอาจมีผลิตภัณฑ์ killer แบบ Kickstarter ที่ช่วย bootstrap super AI ของสตาร์ตอัปได้ด้วยข้อมูลพวกนี้ ยุคนี้มันล้ำจริง ๆ
ผมนึกภาพว่าในอนาคตอันไกล การใช้ข้อมูลสแกนสมองขั้นสูงเป็นข้อมูลฝึก AI อาจเป็นไปได้ในทางปฏิบัติ บางทีมันอาจเป็นขั้นกลางที่ใช้ได้จริงระหว่าง Uploaded Intelligence (แนวคิดการทำให้สมองทั้งก้อนเป็นดิจิทัล) กับ AGI
LLM ก็เป็นเพียงโมเดลแบบ regressive เท่านั้นเอง ถ้ามี LLM อยู่ในศตวรรษที่ 15 มันก็คงอธิบายอย่างมั่นใจว่าระบบโลกเป็นศูนย์กลางจักรวาลนั้นสุดยอดที่สุด และคงไม่สร้างนวัตกรรมอย่าง heliocentrism ได้ เช่นเดียวกัน LLM ทุกวันนี้ก็แค่บอกสิ่งที่เรารู้อยู่แล้ว มันไม่ได้คิด ไม่ได้สร้างนวัตกรรม และไม่ได้ปฏิวัติอะไร ความสามารถด้าน reasoning ก็เป็นเพียงการ 'กรอง' ในระดับหนึ่ง ไม่ใช่ความคิดสร้างสรรค์จริง ๆ ยิ่งใช้ก็ยิ่งรู้สึกว่า LLM เป็นเหมือน 'Google ติดสเตียรอยด์' ระบบแบบนี้ไม่มีทางไปถึง AGI ได้ และดูเหมือนกำลังกินกระแสกับเงินทุนที่เหลืออยู่ของ AGI มากกว่า
การวางกรอบของบทความนี้ถือว่ามีประโยชน์มาก ถึงจะไม่ต้องเชื่อทุกข้อเสนอทั้งหมดก็ตาม มองจากประวัติศาสตร์จะเห็นว่ามีสองอย่างเกิดขึ้นพร้อมกัน อย่างแรกคือการสเกลแบบ brute force สร้างการกระโดดครั้งใหญ่ได้อย่างน่าทึ่ง และอย่างที่สองคือวิศวกรรมระดับระบบทำให้ศักยภาพนั้นถูกใช้งานจริงได้อย่างเชื่อถือได้ GPU ก็เป็นตัวอย่างที่ดี กฎของมัวร์ให้ FLOP มา ส่วน CUDA โครงสร้างลำดับชั้นของหน่วยความจำ และ driver stack ทำให้เกิดการใช้งานขนาดใหญ่ได้ LLM ปัจจุบันก็เหมือนช่วงเวลาที่มีแต่พลังคำนวณ (flop) เร็วขึ้น แม้น่าประทับใจแต่ก็ยังใช้งานยาก เราเริ่มเห็นร่องรอยของ 'การคิดเชิงระบบ' แล้วในผลิตภัณฑ์อย่าง Claude Code, agent ที่เสริมด้วยเครื่องมือ, และ framework แบบ memory augmentation ตอนนี้ยังหยาบอยู่ แต่ผมคิดว่าในอนาคต orchestration ของระบบเองจะสำคัญพอ ๆ กับจำนวนพารามิเตอร์ คำกล่าวเรื่อง 'บทเรียนอันขมขื่น' กับ 'ปัญหาเชิงวิศวกรรม' ไม่ได้ขัดกัน แต่จริง ๆ แล้วต้องมีทั้งคู่ บทเรียนอันขมขื่นหมายถึง พลังคำนวณ+วิธีการทั่วไป เอาชนะ 'กฎที่มนุษย์เขียนเอง' ได้ ส่วนวิศวกรรมคือปูนที่โอบล้อมสิ่งนั้นไว้เป็นโครงสร้างที่มีความเชื่อถือได้ ความคงอยู่ และการประกอบรวมกันได้ ถ้าไม่มีระบบแบบนั้น เราก็จะได้แค่เดโมสวย ๆ แต่พออนุมานไม่กี่รอบก็พัง ดังนั้นความก้าวหน้าที่แท้จริงไม่ใช่ 'ขนาด VS ความฉลาด' แต่เป็น 'ใหญ่ + ออกแบบทางวิศวกรรมอย่างฉลาด' การสเกลอัปให้ความสามารถ ส่วนวิศวกรรมเป็นตัวกำหนดว่าความสามารถนั้นจะถูกใช้ให้ดูเหมือนปัญญาทั่วไปได้หรือไม่
การถกเถียงนี้ให้ความรู้สึกเหมือนเอาโครงการคอมพิวเตอร์ยุคที่ 5 ของญี่ปุ่นกลับมาอุ่นใหม่ในเวอร์ชันสมัยใหม่ เหมือนยุคที่คนเชื่อว่าแค่สร้างฐานข้อมูลใหญ่ ๆ แล้วใช้ Prolog ก็จะเกิดยุคฟื้นฟู AI แค่พูดเรื่อง 'distributed architecture' แล้วเอาโมดูลมาต่อกัน ก็ยังห่างไกลจาก AGI มาก building block พื้นฐานหรือรากฐานจริง ๆ ต้องดีขึ้นกว่านี้มาก สิ่งที่ LLM พอมีส่วนช่วยจริงคือทำให้การ 'เข้าใจเจตนา' ของผู้ใช้ดีขึ้นอย่างมหาศาล คอมพิวเตอร์สามารถดึงเจตนาออกจากข้อความได้ดีขึ้นมาก แต่เรื่อง reasoning, search, 'memory' และองค์ประกอบอื่น ๆ นอกเหนือจากนั้น ก็ยังเป็นวิธีเก่าแบบเดิม ปัญหานี้ไม่ได้เกิดจากข้อจำกัดของฮาร์ดแวร์หรือระบบปัจจุบัน แต่เป็นข้อจำกัดของ information theory/วิทยาการคอมพิวเตอร์เอง
Attention mechanism ของ Transformer นั้นยอดเยี่ยมมาก แต่ในงานวิศวกรรมโมเดลเราจำเป็นต้องมีวัฏจักรของนวัตกรรมใหญ่แบบนี้อีกครั้ง ข้อมูลที่มากขึ้นอย่างเดียวไม่ใช่คำตอบ ดูแค่สมองมนุษย์ก็เห็นแล้วว่าไม่จำเป็นต้องใช้ข้อมูลทั้งอินเทอร์เน็ตก็ฉลาดได้ และยังใช้พลังงานน้อยกว่า
ใช่แล้ว แม้แต่ในสถาปัตยกรรมปัจจุบัน แค่ทำวิศวกรรมให้ดีขึ้นก็เพิ่มการใช้งานได้มากแล้ว ('agent' คือหนึ่งในตัวอย่าง) แต่การอ้างว่าวิศวกรรมอย่างเดียวจะพาไปถึง AGI ได้เป็นความหวังที่เกินจริง สิ่งที่ยากจริง ๆ คือการสร้างระบบที่เรียนรู้และค้นพบได้ด้วยตัวเอง เรียนรู้สิ่งใหม่ได้โดยไม่ต้องพึ่ง pretraining ขนาดใหญ่ราคาแพง และแก้ปัญหาได้โดยไม่มีอาการหลอน (hallucination) เรื่องนี้ต้องการนวัตกรรมใหม่ทางวิทยาการคอมพิวเตอร์โดยสิ้นเชิง และผมคิดว่าแนวทางปัจจุบันคงไปไม่ถึง
AGI หรือ artificial intelligence นั้น ตัว 'G' คือ General กล่าวคือ มันไม่ใช่ AI โง่ ๆ ที่ต้องถูกฝึกด้วยความรู้ทุกอย่าง แต่ปัญญาทั่วไปคือ ถ้าสอนเพียงวิธีนับ พื้นฐานตรรกะ และภาษามนุษย์สักภาษาเดียว วิทยาศาสตร์เชิงตรรกะอื่น ๆ ของมนุษย์ที่เหลือ AGI ก็ควรจะ 'ค้นพบใหม่' ได้ด้วยตัวเอง งานถัดไปของเราคือทำให้ชื่อที่ AGI ใช้เรียกปรากฏการณ์ต่าง ๆ ที่มันค้นพบเองนั้นซิงก์กับชื่อที่พวกเราใช้ ถ้ามันได้รับแค่การศึกษาระดับประถมแบบเบา ๆ แต่เข้าใจหลักการ แล้วสามารถปรับปรุง พัฒนา และก้าวข้ามเราได้ด้วยตัวเอง นั่นแหละคือ 'artificial comprehension' AI ปัจจุบันอาจเป็น 'ตัวแก้ปัญหาทั่วไป' ได้ถ้าให้ข้อมูลมากพอ แต่ AGI คือดินแดนของ 'ความเข้าใจ' และ 'การจับแก่น' มันต้องมีความสามารถในการแยกย่อยสิ่งที่สังเกตได้ทันที ประเมินความสมเหตุสมผลและความเป็นไปได้ในการผสมผสาน และระหว่างที่ตื่นอยู่ก็ตรวจสอบความปลอดภัยของตัวเองแบบเรียลไทม์ได้ด้วย ถึงจะเรียกว่า General intelligence อย่างแท้จริง
มีแค่ผมหรือเปล่าที่รู้สึกว่าสิ่งที่เราเคยนึกภาพว่าเป็น AGI ยุคแรกเมื่อ 10 ปีก่อน ก็คืออะไรประมาณ Claude Code นี่แหละ มันสามารถวางแผนและลงมือทำตามเป้าหมายใด ๆ ก็ได้ อย่างน้อยส่วนใหญ่ในโลกข้อความ และยังเก็บความจำไว้ในไฟล์ข้อความได้ด้วย มันยังขาดเป้าหมายระยะยาว การมีร่างกายจริง หรือความเข้าใจโลกตามสามัญสำนึก แต่ผมก็คาดว่าเวอร์ชัน v1 จะมีหน้าตาประมาณนี้
สำหรับผม พอได้ยินคำว่า AGI ก็จะนึกถึง 'Data' จาก Star Trek ทันที หรืออย่างน้อยก็ T800 จาก Terminator ผมไม่ได้คิดว่า AGI จำเป็นต้องมี self-awareness เสมอไป แต่ AGI ในหัวผมมีองค์ประกอบของ 'ความมีตัวตนรู้ตัวเอง' อยู่ในแฟนตาซีนั้น Claude Code ถึงจะน่าทึ่ง แต่ยังไม่ถึงขั้นที่จะสับสนกับ AGI ได้
เห็นด้วยมาก โดยเฉพาะมันสามารถตีความและแก้คำสั่งที่ผมรีบ ๆ เขียนให้ได้ดีแม้มีนัยละเอียดอยู่เยอะ แค่เพิ่มฟีเจอร์เล็ก ๆ เข้าไปในการใช้งาน LLM ประโยชน์ใช้สอยก็ต่างกันคนละโลกแล้ว (เช่น plan mode ของ Claude Code) ซึ่งมีค่ากว่าการอัปเดตประสิทธิภาพล้วน ๆ มาก
Claude Code ไม่มี self-awareness และไม่มีความรู้ตัวแบบ sapient คนส่วนใหญ่พอพูดถึง AGI ก็มักจินตนาการถึง self-awareness ขั้นต่ำอยู่แล้ว ถ้าเทียบกับ Star Trek คอมพิวเตอร์หลักของยาน Enterprise ไม่ใช่ AGI แต่ Data ต่างหากที่เป็น AGI จริง ความแตกต่างสำคัญที่สุดคือการไม่มี 'อัตลักษณ์ที่ชัดเจน' และ 'มโนทัศน์เกี่ยวกับตัวเอง' Claude Code รับบทบาทตามพรอมป์ต์ได้ แต่ขาดความคงอยู่ถาวร
คุณไม่ได้คิดแบบนั้นคนเดียวหรอก ประเด็นเรื่อง AGI ทำให้สับสนกันมาตลอด Claude เป็น artificial general intelligence อย่างชัดเจน แต่ความหมายของ AGI ก็เปลี่ยนไปเรื่อย ๆ และคำจำกัดความก็ไม่ชัดเจน
คำว่า "AGI ขั้นพื้นฐาน (basic AGI)" ก็เป็นแค่การพยายามปัดข้อที่ AGI จริง ๆ ยังขาดอยู่ทิ้งไปแบบลวก ๆ
เรายังไม่รู้เลยด้วยซ้ำว่า AGI ที่ไม่อิงชีววิทยานั้นเป็นไปได้จริงหรือไม่ นี่แหละประเด็นสำคัญ ถ้าเรายังไม่มีแม้แต่เบาะแสว่า AGI แบบในหนัง Chappie มีโอกาสเป็นจริงหรือเปล่า มันก็แทบไม่ต่างจากการคลำทางในความมืดทั้งหมด ถ้าเทียบกัน quantum computing นั้นอย่างน้อยเรารู้แล้วว่า 'เป็นไปได้' และ 'ทำให้เกิดขึ้นจริงได้' ตอนนี้ที่เหลือคือเรื่องวิศวกรรม (แม้บางคนจะคิดว่านั่นก็ยังเป็นภาพลวงก็ตาม)
ถ้าวันหนึ่งพิสูจน์ได้ว่า AGI เป็นไปไม่ได้โดยพื้นฐานบนคอมพิวเตอร์อิเล็กทรอนิกส์ นั่นก็แปลว่าต้องมีการค้นพบครั้งใหญ่ทางฟิสิกส์เกี่ยวกับสิ่งที่สมองทำอยู่เพื่อทำให้เกิดสติปัญญาทั่วไป
กลับกัน มนุษย์ในฐานะตัวอย่าง 'สติปัญญาทั่วไป' ที่ทำงานได้จริง มีอยู่แล้วหนึ่งตัวอย่าง ขณะที่ quantum computing ยังไม่มีสิ่งที่ถูกสร้างขึ้นจริงเลย
ฟังไม่ขึ้น ถ้าคุณเชื่อเรื่องวิญญาณ AGI อาจเป็นไปไม่ได้ แต่ถ้ามนุษย์เป็นสิ่งมีชีวิตเชิงชีววิทยาล้วน ๆ โดยหลักการแล้วมันก็ต้องถูกทำซ้ำได้แน่นอน
ผมไม่เห็นด้วยว่าตรงนั้นคือประเด็นสำคัญ สุดท้ายก็เป็นเรื่องที่ต้องลองทำจริงถึงจะรู้ ไม่จำเป็นต้องพิสูจน์ล่วงหน้าว่าจะได้ข้อสรุปอะไรอยู่แล้ว รู้สึกเหมือนคุณสลิปหนีจากคำว่า 'ประเด็นสำคัญ' หรือ 'เบาะแสที่ชัดเจน' ไปนิดหนึ่ง เรามีเหตุผลที่ชัดเจนพอแล้วว่ามันอาจเป็นไปได้โดยไม่ต้องมี 'เงื่อนไขจำเป็นทางชีววิทยา' ส่วนความเป็นไปได้ ความจำเป็น หรือความชอบธรรมของ AGI เป็นคนละประเด็นกัน แต่ในบทความต้นฉบับก็ได้ลิสต์ความท้าทายไว้มากพอแล้ว
ความเป็นไปได้ในการทำ quantum computer ให้ใช้ประโยชน์ได้จริง ก็ยังเป็นหัวข้อวิจัยที่เปิดอยู่เช่นกัน
สิ่งที่เราเรียกว่า 'สติปัญญา' ไม่ได้ทำงานแบบ LLM สมองเป็นระบบต่อเนื่อง—มันไม่ได้หยุดหลังจากอินพุตชุดหนึ่งจบ แต่จะรออินพุตถัดไป หรือจริง ๆ แล้วก็หมุนฟีดแบ็กต่อเนื่องอยู่ตลอด โดยแก่นแท้แล้วมันไม่เคยออกจากโหมดฝึกเลย แน่นอนว่าตามช่วงชีวิตสมองก็มีการปรับเหมาะสม (เช่น myelination) แต่ LLM ถูกฝึกด้วยข้อมูลมหาศาลกว่า จากนั้นโมเดลก็ถูกตรึงไว้แทบทั้งหมด ยกเว้นการ finetuning เล็กน้อย สมองจัดการบริบทอย่างต่อเนื่อง อินพุตส่วนใหญ่ถูกกรองหนักมากล่วงหน้าโดยเครือข่ายเฉพาะทางต่าง ๆ ผมยอมรับว่าบางส่วนของ AGI ต้องการแนวทางเชิงระบบ แต่ AGI ที่แท้จริงน่าจะต้องการการเปลี่ยนแปลงระดับสถาปัตยกรรมด้วย
ผมไม่เข้าใจว่าทำไมคนที่บอกว่า LLM มาถึงจุดจบของพัฒนาการแล้ว นี่คือขีดจำกัด ถึงมั่นใจกันนัก ทั้งที่ยังไม่ถึงปีดีด้วยซ้ำ และ AI ที่อิง LLM ก็ยังพัฒนาต่อเนื่องอยู่
ถึงจะยังมีช่องให้พัฒนาได้ แต่ก็ยังจริงอยู่ว่าขอบเขตสุดท้ายของมันมีจำกัด งานเฉพาะทางอาจดีขึ้นต่อเนื่อง แต่การพัฒนาแบบ 'โดยรวม' ตอนนี้แทบไม่ค่อยเห็นแล้ว
ผมก็สงสัยว่าคนที่พูดแบบนี้ ยอมรับด้วยไหมว่าในความเป็นจริง LLM ก็ยังดีขึ้นอยู่
บทความนี้ดูเหมือนพูดแค่ว่า "ถ้าแก้ปัญหายาก ๆ ได้หมด ทุกอย่างก็จะสำเร็จเอง" ซึ่งก็...ใช่ครับ แล้วไงต่อ?
การถกแบบนี้มีความหมายเพราะช่วงหลังการพัฒนา LLM ค่อนข้างอนุรักษ์นิยม คือเน้นขยายขนาดโดยไม่มีนวัตกรรมด้านสถาปัตยกรรม
ในบทความไม่ได้พูดถึงตัวปัญหายาก ๆ เลย คนในวงการไฮเทคมักมีวิธีคิดว่าถ้ามีแต่วิศวกรรมก็แก้ปัญหาอะไรก็ได้
บทความต้นฉบับชี้ชัดว่า มีปัญหาอะไรอยู่บ้าง และ LLM แก้มันไม่ได้อย่างไร
อยากให้ช่วยอ่านแนวทางก่อน แล้วค่อยแสดงความคิดเห็นให้ตรงกับหัวข้อครับ