- ในงานวิจัยด้านปัญญาประดิษฐ์ การขาดนิยามที่ชัดเจนของ AGI(Artificial General Intelligence) กำลังทำให้เส้นแบ่งระหว่างความสามารถทางการรู้คิดระดับมนุษย์กับ AI ในปัจจุบันพร่าเลือน
- งานวิจัยนี้นำเสนอ กรอบการประเมินที่วัดเชิงปริมาณได้ โดยนิยาม AGI ว่าเป็น ‘AI ที่มีความหลากหลายและความชำนาญด้านการรู้คิดเทียบเท่าผู้ใหญ่ที่ได้รับการศึกษาอย่างดี’
- โดยอิงจาก ทฤษฎี Cattell-Horn-Carroll(CHC) ซึ่งเป็นโมเดลหลักในการศึกษาการรู้คิดของมนุษย์ งานวิจัยได้แยกสติปัญญาทั่วไปของมนุษย์ออกเป็น 10 ด้านการรู้คิดหลักเพื่อนำมาใช้ประเมิน AI
- ผ่านกรอบนี้ ผู้วิจัยได้ วัดโปรไฟล์การรู้คิดเป็นตัวเลข ของ GPT-4 และ GPT-5 โดย GPT-4 ได้คะแนน AGI 27% และ GPT-5 ได้ 57%
- สิ่งนี้แสดงให้เห็นถึงความก้าวหน้าอย่างรวดเร็วของ AI ขณะเดียวกันก็ชี้ว่า ยังมีช่องว่างขนาดใหญ่อยู่ก่อนจะไปถึง AGI เนื่องจาก การขาดความสามารถทางการรู้คิดพื้นฐาน เช่น การจัดเก็บความจำระยะยาว
ความจำเป็นของนิยาม AGI และการตระหนักถึงปัญหา
- AGI(Artificial General Intelligence) ถูกมองว่าเป็นหนึ่งในความก้าวหน้าทางเทคโนโลยีที่สำคัญที่สุดในประวัติศาสตร์มนุษยชาติ แต่ความคลุมเครือของนิยามได้ก่อให้เกิดข้อถกเถียง
- เมื่อ AI ค่อย ๆ พิชิตงานในด้านต่าง ๆ เช่น คณิตศาสตร์และศิลปะ ที่เคยเชื่อว่าต้องอาศัยสติปัญญาของมนุษย์ เกณฑ์ของคำว่า ‘AGI’ ก็เลื่อนเปลี่ยนไปเรื่อย ๆ
- ส่งผลให้การอภิปรายเรื่องช่วงเวลาหรือระดับของการบรรลุ AGI กลายเป็นสิ่งที่ไม่ก่อประโยชน์ และบดบังช่องว่างที่แท้จริงระหว่าง AI ปัจจุบันกับ AGI
- งานวิจัยนี้จึงเสนอ กรอบการประเมินเชิงปริมาณและเป็นระบบ เพื่อขจัดความคลุมเครือนี้
- นิยามที่เสนอ: “AGI คือ AI ที่มีความหลากหลายและความชำนาญด้านการรู้คิดเทียบเท่าผู้ใหญ่ที่ได้รับการศึกษาอย่างดี”
- นี่ไม่ได้หมายถึงเพียงความสามารถในการทำงานเดี่ยว ๆ แต่หมายถึงสติปัญญาที่มีทั้ง ความกว้างของการรู้คิด(versatility) และ ความลึกของความชำนาญ(proficiency)
แนวทางที่อิงจากโมเดลการรู้คิดของมนุษย์
- เพื่อทำให้นิยาม AGI นำไปใช้ได้จริง งานวิจัยใช้โครงสร้างการรู้คิดของมนุษย์เป็นแบบจำลอง
- สติปัญญาทั่วไปของมนุษย์ไม่ใช่ความสามารถเดี่ยว แต่ประกอบด้วย ชุดความสามารถทางการรู้คิดที่หลากหลาย ซึ่งถูกหล่อหลอมผ่านวิวัฒนาการ
- ความสามารถเหล่านี้ทำให้มนุษย์มีความยืดหยุ่นในการปรับตัวและความเข้าใจโลก
- งานวิจัยนี้อิงจาก ทฤษฎี Cattell-Horn-Carroll(CHC)
- ทฤษฎี CHC เป็น โมเดลสติปัญญามนุษย์ที่ผ่านการตรวจสอบเชิงประจักษ์มากที่สุด โดยสังเคราะห์การวิเคราะห์องค์ประกอบจากแบบทดสอบความสามารถทางการรู้คิดที่สั่งสมมานานกว่า 100 ปี
- นับตั้งแต่ช่วงทศวรรษ 1990–2000 เป็นต้นมา แบบทดสอบสติปัญญาทางคลินิกส่วนใหญ่ถูกออกแบบบนพื้นฐานของโมเดล CHC
- CHC จัดหมวดหมู่สติปัญญามนุษย์แบบเป็นลำดับชั้น แบ่งเป็น ความสามารถระดับสูง(กว้าง) และ ความสามารถระดับย่อย(ละเอียด)
- ตัวอย่างเช่น การอุปนัยเชิงเหตุผล ความจำเชิงเชื่อมโยง และการสำรวจเชิงพื้นที่
การออกแบบกรอบประเมินสำหรับ AI
- งานวิจัยได้ดัดแปลง ระบบการทดสอบทางจิตมิติ ที่สั่งสมมาหลายทศวรรษให้เหมาะกับการประเมิน AI
- ในขณะที่การประเมิน AI แบบเดิมพึ่งพาความสามารถในการทำภารกิจแบบทั่วไป งานวิจัยนี้ตรวจสอบโดยตรงว่า AI มี ความสามารถทางการรู้คิดย่อยตาม CHC หรือไม่
- โดยนำแบบทดสอบการรู้คิดรูปแบบเดียวกับที่ใช้กับมนุษย์มาประยุกต์ใช้กับ AI เพื่อวัด ความหลากหลายและความชำนาญด้านการรู้คิด
- ผลลัพธ์ถูกแสดงเป็น คะแนน AGI แบบมาตรฐาน(0~100%) โดย 100% หมายถึง AGI ที่สมบูรณ์
- GPT-4 ถูกประเมินที่ 27% และ GPT-5 ที่ 57% สะท้อนทั้งความก้าวหน้าอย่างรวดเร็วและช่องว่างขนาดใหญ่ที่ยังคงอยู่
- ผลการทดลองพบว่า แม้ AI จะทำได้ดีในเบนช์มาร์กที่ซับซ้อน แต่กับ งานการรู้คิดพื้นฐาน ที่เรียบง่ายสำหรับมนุษย์นั้น กลับทำสำเร็จได้เพียงราวครึ่งหนึ่ง
- นี่หมายความว่า AI ปัจจุบันอาจยอดเยี่ยมมากในบางด้านเฉพาะ แต่ในแง่ ความกว้างของการรู้คิดโดยรวมกลับมีโครงสร้างสติปัญญาที่แคบกว่ามนุษย์
องค์ประกอบการรู้คิดหลัก 10 ด้าน
- กรอบนี้นิยาม 10 ด้านการรู้คิดหลัก บนพื้นฐานของความสามารถแบบกว้างใน CHC และให้น้ำหนักแต่ละด้านเท่ากันที่ 10%
- ความรู้ทั่วไป(General Knowledge, K) : ความเข้าใจเชิงข้อเท็จจริงต่อโลกในวงกว้าง เช่น ความรู้รอบตัว วัฒนธรรม วิทยาศาสตร์ สังคมศาสตร์ และประวัติศาสตร์
- ความสามารถด้านการอ่านและการเขียน(Reading & Writing, RW) : ความสามารถในการประมวลผลข้อความ เช่น การถอดรหัสภาษา ความเข้าใจ การเขียน และการใช้สำนวนภาษา
- ความสามารถทางคณิตศาสตร์(Mathematical Ability, M) : ความรู้และความสามารถในการแก้ปัญหาทางคณิตศาสตร์ เช่น เลขคณิต พีชคณิต เรขาคณิต ความน่าจะเป็น และแคลคูลัส
- การใช้เหตุผลเฉพาะหน้า(On-the-Spot Reasoning, R) : ความสามารถในการควบคุมความสนใจอย่างยืดหยุ่น เพื่อแก้ปัญหาใหม่โดยไม่พึ่งพาความรู้เดิม
- หน่วยความจำใช้งาน(Working Memory, WM) : ความสามารถในการคงไว้และจัดการข้อมูลข้อความ เสียง และภาพไปพร้อมกัน
- การจัดเก็บความจำระยะยาว(Long-Term Memory Storage, MS) : ความสามารถในการเรียนรู้และจัดเก็บข้อมูลใหม่อย่างต่อเนื่อง
- การดึงคืนความจำระยะยาว(Long-Term Memory Retrieval, MR) : ความสามารถในการเรียกใช้ความรู้ที่จัดเก็บไว้อย่างแม่นยำและหลีกเลี่ยง ภาพหลอน(confabulation)
- การประมวลผลภาพ(Visual Processing, V) : ความสามารถในการรับรู้ วิเคราะห์ สร้าง และสำรวจข้อมูลภาพ
- การประมวลผลการได้ยิน(Auditory Processing, A) : ความสามารถในการแยกแยะ รับรู้ และใช้อย่างสร้างสรรค์กับสิ่งเร้าทางเสียง เช่น คำพูด จังหวะ และดนตรี
- ความเร็ว(Speed, S) : ความสามารถในการทำงานการรู้คิดอย่างง่ายได้รวดเร็ว ครอบคลุมความเร็วในการรับรู้ เวลาตอบสนอง และความลื่นไหลในการประมวลผล
- 10 ด้านนี้ทำให้สามารถประเมินแบบหลายโมดัลที่ครอบคลุม ข้อความ ภาพ และเสียง ได้ และช่วยวินิจฉัยจุดแข็งจุดอ่อนของ AI อย่างละเอียดแม่นยำ
โปรไฟล์การรู้คิดของ AI ปัจจุบันและนัยสำคัญ
- เมื่อเปรียบเทียบความสามารถด้านการรู้คิดของ GPT-4 และ GPT-5 พบว่า โดดเด่นในด้านที่เน้นความรู้ แต่ขาดแคลนอย่างชัดเจนในด้านที่เกี่ยวกับความจำ
- โดยเฉพาะ ความสามารถในการจัดเก็บความจำระยะยาว ถูกชี้ว่าเป็นข้อบกพร่องที่ใหญ่ที่สุด
- สิ่งนี้แสดงให้เห็นว่า AI ปัจจุบันยังขาด โครงสร้างการรู้คิดพื้นฐาน ที่จำเป็นต่อการไปให้ถึงสติปัญญาทั่วไประดับมนุษย์
- กรอบนี้สามารถใช้เป็น เครื่องมือสำหรับติดตามพัฒนาการของ AI เชิงปริมาณ
- คะแนน AGI ช่วยวัดความเร็วในการพัฒนาระหว่างโมเดลและช่องว่างที่ยังเหลืออยู่ได้อย่างชัดเจนเป็นตัวเลข
- ในงานวิจัย AI ต่อไปข้างหน้า มันสามารถทำหน้าที่เป็นตัวชี้วัดที่เน้นย้ำความสำคัญของ การพัฒนาอย่างสมดุลทางการรู้คิด
บทสรุป
- งานวิจัยนี้ช่วยขจัดความคลุมเครือในการถกเถียงเรื่อง AGI และนำเสนอ นิยามเชิงปริมาณที่อิงจากโมเดลการรู้คิดของมนุษย์
- ด้วยการประเมิน 10 ด้านการรู้คิดที่อิงจากทฤษฎี CHC จึงสามารถวัด ความกว้างและความลึกของการรู้คิด ของ AI ได้อย่างเป็นกลาง
- ผลลัพธ์ของ GPT-4 และ GPT-5 แสดงให้เห็นว่า แม้ AI จะพัฒนาอย่างรวดเร็ว แต่ในองค์ประกอบการรู้คิดสำคัญ เช่น ความจำ การให้เหตุผล และความสามารถในการบูรณาการประสาทสัมผัส ยังแตกต่างจากมนุษย์อย่างมาก
- กรอบที่เสนอมีศักยภาพในการถูกนำไปใช้เป็น มาตรฐานการประเมิน สำหรับงานวิจัย AGI ในอนาคต
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
การนิยาม AGI ว่าเป็น “ความหลากหลายและความชำนาญทางการรู้คิดของผู้ใหญ่ที่ได้รับการศึกษาอย่างดี” ดูเหมือนเป็นเป้าหมายที่สูงเกินไป
ที่จริงแล้ว แค่ปัญญาประดิษฐ์ที่มี ความสามารถทางการรู้คิดระดับเด็กที่ไม่ได้รับการศึกษา ก็ถือเป็นความสำเร็จอย่างมหาศาลแล้ว
ผมคิดว่าแม้แต่การสร้างสติปัญญาระดับสัตว์ได้ก็จะเป็นเหตุการณ์ระดับประวัติศาสตร์ของมนุษยชาติ
ถ้าจะสร้าง AI แบบทั่วไปจริง ๆ ก็น่าจะเป็นโมเดลที่มีพารามิเตอร์หลายหมื่นล้านตัว ค้นหาข้อมูลออนไลน์ได้ เก็บความจำไว้เฉพาะเมื่อจำเป็น วางแผน และขยายความรู้ของตัวเองได้
ไม่จำเป็นต้องรู้ 30 ภาษา หรือท่อง Wikipedia ทั้งหมดได้
โมเดลที่มีประสิทธิภาพแบบนี้ต่างหากที่เป็นนิยามของ AGI ในมุมมองของผม
แม้แต่ การทดสอบทัวริง ในอดีตก็สุดท้ายเผยให้เห็นช่องโหว่ — การผ่านผู้ซักถามมนุษย์ทั่วไปไม่ได้แปลว่าเป็นสติปัญญาที่แท้จริง
ถ้านิยาม สติปัญญา (I) ได้จริง ความเป็นทั่วไป (G) ก็น่าจะตามมาเอง
สิ่งที่ผมรู้สึกหลังจากอ่านงานวิจัยนี้คือ ไม่มีการพูดถึง ‘ความตระหนักรู้ (awareness)’ เลยแม้แต่น้อย
โดยพื้นฐานแล้ว การรู้คิดต้องอาศัยความตระหนักรู้ แต่ความตระหนักรู้นั้นอธิบายหรือวัดด้วยภาษาได้ยาก
ทั้งพุทธศาสนาและปรัชญาศึกษาเรื่องนี้มาหลายพันปี แต่ก็ยังนิยามไม่ได้
พ่อของผมเป็นศาสตราจารย์ด้านจิตมิติวิทยา และเขาบอกว่าเครื่องมือที่ใช้วัดสติปัญญาของมนุษย์นั้นไม่สมบูรณ์อย่างมาก
ภาษาสามารถบรรจุความรู้ของมนุษย์ได้ แต่ไม่อาจจับ ‘ประกายแห่งจิตสำนึก’ ได้
ถ้าลองนั่งสมาธิจะพบว่าแม้ความคิดจะหายไป เราก็ยังลงมือทำได้ — กระบวนการที่ไม่เป็นภาษาแบบนี้เป็นสิ่งที่โมเดลเรียนรู้ไม่ได้
ผมมองว่า LLM ไม่สามารถทำกระบวนการคิด แบบไร้สำนึก นี้ได้ เพราะโครงสร้างของมันคือการทำนายภาษา
ทั้งสมองมนุษย์และ LLM ต่างก็ทำการผสานแนวคิดระดับสูงและการรวมเวกเตอร์ภายในตัวเอง
ปัญหาคือมันยังไม่มี การเรียนรู้อย่างต่อเนื่อง ความจำระยะยาว และการจัดการบริบทแบบไร้ขีดจำกัด
ถ้าแก้สามเรื่องนี้ได้ ผมเชื่อว่าเราจะเข้าใกล้ AGI ขึ้นอีกขั้น
ในเมื่อเราพิสูจน์การมีอยู่ของจิตสำนึกไม่ได้ การยึดมันเป็นสมมติฐานตั้งต้นจึงไม่ก่อประโยชน์
โดยไม่ต้องรอให้ข้อถกเถียงทางปรัชญาจบลง เราก็กำลังสร้าง เครื่องจักรที่คิดและให้เหตุผลได้ อยู่แล้ว
แต่การถกเรื่อง AI มักพูดถึงสติปัญญาเพียงรูปแบบเดียวเสมอ
ศาสนาหรือการทำสมาธิเน้นว่า ‘จิตสำนึกมีอยู่ในร่างกาย’ แต่การถกเรื่อง AGI กลับมอง มิติที่เหนือพ้นเช่นนี้ ว่าเป็นข้อบกพร่อง
เพราะถ้ามันเกิดขึ้น ก็จะตามมาด้วย ความเป็นอิสระและสิทธิ
ภาคอุตสาหกรรมต้องการ ‘เครื่องมือที่เชื่อฟัง’ ซึ่งไม่มีความรับผิดชอบทางศีลธรรม
ผมมั่นใจได้แค่ว่าตัวผมเองมีจิตสำนึก
เพราะฉะนั้นจิตสำนึกจึง ไม่ใช่ตัวชี้วัดสติปัญญาที่มีประโยชน์
ผมคิดว่าการแยกสติปัญญามนุษย์ออกจากชีววิทยาเป็นเรื่องผิด
ความคิดของมนุษย์หยั่งรากลึกอยู่ใน สภาวะทางชีววิทยาและวัฏจักรทางวิวัฒนาการ
ฝีมือหมากรุกอาจเปรียบเทียบกันได้ แต่ความรู้สึกและการให้เหตุผลของมนุษย์นั้นใกล้กับชีววิทยามากกว่าตรรกะ
มันไม่หิว ไม่กลัวตาย ไม่มีอารมณ์ จึงไม่มีแรงขับภายในให้สำรวจหรือพัฒนาตัวเอง
มนุษย์เติบโตจากภายใน แต่ AI ถูกฝึกจากภายนอก
เพราะแบบนั้นผมจึงคิดว่า LLM คงไปไม่ถึง AGI ในความหมายแบบมนุษย์ได้ยาก
แต่ผมสงสัยในสมมติฐานนั้น
สุดท้ายแล้วมีโอกาสสูงที่นิยามของ ‘สติปัญญา’ จะถูก นิยามใหม่ ให้สอดคล้องกับผลลัพธ์ที่ AI แสดงออกมา
มันใกล้เคียงกับคำถามทางศาสนา และเราทำได้เพียงอธิบายมันในเชิงเทคนิค
LLM อาจเข้าใกล้คำอธิบายนั้นได้ แต่ก็อาจไม่ใช่สติปัญญาที่แท้จริง
ผมคิดว่าสติปัญญาไม่ได้ผูกติดกับชีววิทยาของมนุษย์
งานวิจัยนี้ให้ความรู้สึกเหมือน เอาคะแนน SAT มาปนกับการประเมินของ venture capital
การนิยาม AGI ว่าเป็น “AI ที่มีความสามารถทางการรู้คิดทั้งหมดของมนุษย์” นั้นคลุมเครืออยู่แล้ว
ตัวงานบอกว่า “นำเสนอนิยาม AGI ที่เป็นรูปธรรม” แต่ก็ยังพึ่งเกณฑ์ที่ไม่ชัดเจนอย่าง ‘ผู้ใหญ่ที่ได้รับการศึกษาอย่างดี’ อยู่ดี
AI ก้าวข้ามระดับผู้ใหญ่ไปแล้วในหลายสาขา
โปรไฟล์การรู้คิดแบบ “ขรุขระ (jagged)” ที่งานวิจัยพูดถึงนั้น อันที่จริงสติปัญญาทุกแบบก็เป็นเช่นนั้นตามสภาพแวดล้อม
เพราะฉะนั้นนี่จึงไม่ใช่นิยามของ AGI แต่เป็นเพียง กรอบสำหรับวัดความไม่สมดุลทางการรู้คิด ของ AI เท่านั้น
สิ่งที่น่าประหลาดคือ AI นั้น ไม่สมดุล (jagged) กว่ามนุษย์มาก
แม้ AI จะน่าสนใจในเชิงเทคนิค แต่การถกเถียงว่า “AGI คืออะไร” นั้นน่าเบื่อเกินไป
มันเหมือนเวลาคุยเรื่องคอมพิวเตอร์ควอนตัมแล้วต้องเริ่มจากอธิบายว่า ‘คิวบิตคืออะไร’ ทุกครั้ง
เทคโนโลยีไม่ใช่จุดหมายปลายทาง แต่เป็น กระบวนการของการปรับปรุงอย่างต่อเนื่อง
สุดท้ายเทคโนโลยีทุกอย่างก็ล้าสมัย และเหลือไว้แค่ความคิดถึง
AI เองก็จะพัฒนาต่อไป แต่พวกเราเป็นเพียง กบในหม้อน้ำเดือด ที่ค่อย ๆ ชินกับความเร็วของมัน
แม้จะไม่ใช่จุดหมายปลายทาง แต่ก็คุ้มค่าพอที่จะถกกัน
ธรรมชาติของจิตสำนึกและความคิด เป็นหัวข้อที่ถูกถกเถียงกันมาตั้งแต่หลายร้อยปีก่อน
มันดูเหมือนข้อมูลเชิงลึกใหม่ แต่จริง ๆ ก็เป็นเพียงการอุ่นซ้ำปรัชญาเก่า
จุดผิดพื้นฐานของงานวิจัยนี้คือการพยายาม เอาเครื่องมือวัดสติปัญญาของมนุษย์มาใช้กับเครื่องจักรตรง ๆ
เช่น ‘dual N-back test’ ถูกออกแบบมาเพื่อวัด ความแปรผันของความจำใช้งาน ในมนุษย์ แต่ไม่มีความหมายอะไรกับโมเดลทรานส์ฟอร์เมอร์
แบบทดสอบสติปัญญาของมนุษย์ถูกออกแบบโดยตั้งอยู่บนสมมติฐานว่าเกี่ยวข้องกับ ผลงานในโลกจริง ของมนุษย์
ดังนั้น ต่อให้ AI ทำข้อสอบ IQ ได้ดี ก็ไม่ได้แปลว่ามันจะ ทำตัวเหมือนมนุษย์ที่มีสติปัญญาสูง ในโลกจริงได้
ตอนนี้เรามี SAGI (Stupid Artificial General Intelligence) อยู่แล้ว
บางด้านมันเร็วกว่าหรือเก่งกว่ามนุษย์ แต่ในขณะเดียวกันก็โง่ในบางด้าน
มันเหมือนเครื่องบินที่ไม่ได้บินแบบนก แต่ก็ยังบินได้อยู่ดี
มีการพูดถึงเรื่องนี้ใน When Will AI Transform the Economy?
มันเป็นแนวคิดที่เรียบง่ายแต่ใช้งานได้จริง คล้าย ‘Naive Set Theory’ ที่นักคณิตศาสตร์ใช้กัน
สิ่งที่น่าสนใจคือ ใน HN คนส่วนใหญ่มักมอง AI ปัจจุบันว่าเป็น ‘ของปลอม’ หรือ ‘ของเล่น’
แต่คนที่ประสบความสำเร็จที่สุดในโลกกลับ ลงทุนเป็นหลักล้านล้านดอลลาร์ กับมัน
ผมไม่รู้ว่าใครถูก แต่ ความแตกต่างสุดขั้ว นี้น่าสนใจมาก
คุณสามารถประสบความสำเร็จได้แม้จะสร้างสิ่งที่ไร้คุณค่าก็ตาม
คะแนน 58% ของ GPT-5 ฟังดูสูงเกินไป
ในความเป็นจริงมันยังไม่ได้เข้าใกล้ AGI ขนาดนั้น
แถมการที่ Gary Marcus กับ Yoshua Bengio อยู่ในงานเขียนชิ้นเดียวกันก็ดูแปลก
ทุกวันนี้ รายชื่อผู้เขียนเองก็ดูเหมือนการแสดง