ข้อโต้แย้งว่า AI ‘กำลังคิด’
(newyorker.com)- มีการถกเถียงแพร่หลายว่า โมเดลภาษาขนาดใหญ่ (LLM) ไม่ได้เป็นเพียงการทำนายคำถัดไป แต่แสดงให้เห็นถึง รูปแบบของความเข้าใจและการคิด จริง
- นักประสาทวิทยา Doris Tsao ประเมินว่าแมชชีนเลิร์นนิง เปิดเผยแก่นแท้ของสติปัญญาได้มากกว่าประสาทวิทยาตลอด 100 ปีที่ผ่านมา
- ดีปเลิร์นนิงและโครงสร้างโครงข่ายประสาท เลียนแบบหลักการทำงานของสมองมนุษย์ และอธิบายผ่านแนวคิด ‘ความเข้าใจ = การบีบอัด’
- งานวิจัยของ Douglas Hofstadter และ Pentti Kanerva เชื่อมโยงกับโครงสร้างการรับรู้แบบ ‘seeing as’ ของ LLM
- ข้อจำกัดและความเสี่ยงด้านจริยธรรมของ AI เช่น ประสิทธิภาพการเรียนรู้ ประสบการณ์ และการขาดสำนึกที่คล้ายมนุษย์ ยังคงเป็นประเด็นสำคัญ
ปรากฏการณ์การแบ่งขั้วของสมรรถนะ AI
- Dario Amodei ซีอีโอของ Anthropic คาดการณ์ว่า ภายในปี 2027 จะมี AI ที่ฉลาดกว่าผู้ได้รับรางวัลโนเบล ในสาขาชีววิทยา คณิตศาสตร์ วิศวกรรม และการเขียน
- เขานำเสนอวิสัยทัศน์ของศูนย์ข้อมูลที่มีสำเนาโมเดลหลายล้านชุดทำวิจัยกันคนละอย่าง ราวกับเป็น "ประเทศแห่งอัจฉริยะ"
- Sam Altman จาก OpenAI ระบุว่า อุตสาหกรรมกำลังจะสร้าง "ซูเปอร์อินเทลลิเจนซ์ดิจิทัล" ได้สำเร็จ และ ยุคทศวรรษ 2030 จะเป็นช่วงเวลาที่แตกต่างจากเดิมโดยสิ้นเชิง
- แต่เครื่องมือ AI ที่คนส่วนใหญ่ใช้อยู่ในชีวิตประจำวันตอนนี้ยังมีข้อจำกัด คล้าย Clippy ของ Microsoft Office ในอดีต
- Zoom AI ให้เพียงคำแนะนำง่าย ๆ เช่น "ไอซ์เบรกเกอร์สำหรับการประชุมคืออะไร?"
- Siri แทบทำอะไรได้นอกจากตั้งการแจ้งเตือน
- AI ของ Gmail แต่งเรื่องทริปเที่ยวตุรกีที่ผู้ใช้ไม่เคยไปขึ้นมาเอง
- การเปิดตัว AI อย่างเร่งรีบและไม่สม่ำเสมอทำให้เกิด หมอกควันของกระแสเกินจริง แต่ในความเป็นจริงก็มีความก้าวหน้าพอสมควร
นวัตกรรม AI ในงานเขียนโปรแกรม
- เดิมทีคิดว่า AI ไม่เกี่ยวอะไรกับสติปัญญาหรือความเข้าใจจริง แต่เมื่อ ทำงานเป็นโปรแกรมเมอร์และเริ่มใช้ AI มุมมองก็เปลี่ยนไป
- การเขียนโค้ดเป็นงานที่ AI ทำได้ดีที่สุด เพราะ มีโครงสร้างชัดกว่าร้อยแก้วและตรวจสอบอัตโนมัติได้
- ตอนแรกใช้ AI แทนการค้นหาข้อมูล ต่อมาค่อย ๆ มอบหมายปัญหาเล็ก ๆ ที่แยกส่วนได้ และท้ายที่สุดก็ให้ AI ทำ งานจริงที่ฝึกฝนมาทั้งชีวิต
- โมเดล AI ทำความเข้าใจรายละเอียดซับซ้อนของโค้ดหลายพันบรรทัดได้ภายในไม่กี่วินาที
- มันค้นพบบั๊กที่ละเอียดอ่อนและประสานฟีเจอร์ใหม่ที่ซับซ้อนได้
- จึงย้ายไปทำงานกับทีมที่เติบโตอย่างรวดเร็วเพื่อใช้เครื่องมือ AI ให้มีประสิทธิภาพยิ่งขึ้น
- แม้เอเจนต์ AI จะยังล้มเหลวกับงานอย่างจองทริปหรือยื่นภาษี แต่ เพื่อนร่วมงานส่วนใหญ่เขียนโค้ดเกือบทั้งหมดด้วย AI และบางครั้งก็รัน coding agent หลายตัวพร้อมกัน
- เมื่อเรียนรู้วิธีใช้ให้มีประสิทธิภาพ ตอนนี้จึง ทำงานที่เคยใช้เวลาหนึ่งเดือนได้เสร็จในช่วงเย็น
- สร้างแอป iOS ได้สองแอปทั้งที่ไม่รู้วิธีทำแอป iOS
จุดแข็งและจุดอ่อนของโมเดลภาษาขนาดใหญ่
- อย่างที่เจ้านายเคยบอกว่า "การสัมภาษณ์ไม่ควรมองหาการไม่มีจุดอ่อน แต่ควรมองหาจุดแข็ง" LLM เองก็มีจุดอ่อนมากมาย
- อาการหลอนที่สร้างข้อมูลเท็จอย่างน่าเชื่อ
- ว่านอนสอนง่ายแม้ผู้ใช้จะเป็นฝ่ายผิด
- ถูกหลอกด้วยปริศนาง่าย ๆ
- ในอดีต ความลื่นไหล ความคล่องตัว และความสามารถในการจับใจความบทสนทนา ถือเป็นจุดแข็งระดับจอกศักดิ์สิทธิ์
- เมื่อได้สัมผัสจุดแข็งเหล่านี้โดยตรง ก็อดตั้งคำถามไม่ได้ว่า "ภาพลวงตาของความเข้าใจต้องน่าเชื่อแค่ไหน ถึงจะเลิกเรียกมันว่าภาพลวงตา?"
- กรณีของ Max: ซ่อมสปริงเกลอร์ในสนามเด็กเล่น
- ท่ามกลางเด็ก ๆ หน้าแดงก่ำ เขาไปพบเขาวงกตของท่อและวาล์วที่ซับซ้อนในห้องเก็บอุปกรณ์
- ป้อนภาพและคำอธิบายปัญหาให้ ChatGPT-4o
- AI ระบุว่านั่นคือ ระบบป้องกันการไหลย้อนของระบบชลประทาน และแนะนำให้ปรับบอลวาล์วสีเหลืองด้านล่าง
- เมื่อน้ำไหลออกมาได้สำเร็จ ก็มีเสียงเฮดังขึ้นทั่วสนามเด็กเล่น
การบรรจบกันของประสาทวิทยาและ AI
- Doris Tsao ศาสตราจารย์ด้านประสาทวิทยาแห่ง UC Berkeley กล่าวว่า "ความก้าวหน้าของแมชชีนเลิร์นนิงสอนเราเกี่ยวกับธรรมชาติของสติปัญญามากกว่าสิ่งที่ประสาทวิทยาค้นพบในช่วง 100 ปีที่ผ่านมา"
- เธอมีชื่อเสียงจากงานวิจัยที่ถอดรหัสวิธีที่ลิงรู้จำใบหน้า
- ทำนายได้ว่าเซลล์ประสาทใดจะยิงสัญญาณเมื่อ ลิงเห็นใบหน้าใดใบหน้าหนึ่ง
- สามารถเรนเดอร์ใบหน้าได้จากรูปแบบของเซลล์ประสาทที่ยิงสัญญาณเพียงอย่างเดียว
- อาศัยการศึกษาวิธีที่ใบหน้าถูกแทนค่าอยู่ภายในโมเดล AI
- คำถามของ Tsao คือ "ข้อมูลเชิงลึกที่ลึกที่สุดที่ได้จาก ChatGPT คืออะไร?"
- คำตอบของเธอคือ "ฉันคิดว่ามันทำให้การคิดหมดความลึกลับลงไปอย่างถึงราก"
ประวัติและพัฒนาการของดีปเลิร์นนิง
- ในทศวรรษ 1980 ทีมนักจิตวิทยาการรู้คิดและนักวิทยาการคอมพิวเตอร์ (David Rumelhart, Geoffrey Hinton, James McClelland) พยายามจำลองการคิดในเครื่องจักร
- ก่อตั้งกลุ่มวิจัยขึ้นที่ UC San Diego
- พวกเขามองสมองเป็น โครงข่ายขนาดมหึมาที่เซลล์ประสาทยิงสัญญาณเป็นรูปแบบหนึ่งเพื่อกระตุ้นกลุ่มเซลล์ประสาทอื่น
- การเต้นรำของรูปแบบเหล่านี้ก็คือความคิด
- การเรียนรู้เกิดจากการเปลี่ยนแปลงความแข็งแรงของการเชื่อมต่อระหว่างเซลล์ประสาท
- มีการสร้างโครงข่ายประสาทเทียมและใช้ขั้นตอนวิธี gradient descent เพื่อเพิ่มความแม่นยำของการทำนาย
- เปรียบเหมือนนักปีนเขาที่ลงจากยอดเขาไปหาหุบเขา: ถ้าก้าวลงทางชันทุกครั้ง สุดท้ายก็จะไปถึง
- แม้นักวิจัย AI คนอื่นจะสงสัยว่าโครงข่ายประสาทยังซับซ้อนไม่พอสำหรับงานจริง แต่ เมื่อเครือข่ายใหญ่ขึ้น มันก็เริ่มแก้ปัญหาที่เคยแก้ไม่ได้
- ปัญหาที่เคยต้องทุ่มทั้งงานวิจัย เช่น การแยกแยะตัวเลขลายมือหรือการรู้จำใบหน้าในภาพ ถูกแก้ได้ด้วยอัลกอริทึมดีปเลิร์นนิง
- ดีปเลิร์นนิงยังพิชิตงานรู้จำเสียง แปลภาษา สร้างคำบรรยายภาพ เล่นบอร์ดเกม และทำนายการพับตัวของโปรตีน
การทำนาย Next-Token และกลไกการเรียนรู้
- โมเดล AI หลักในปัจจุบัน เรียนรู้จากอินเทอร์เน็ตส่วนใหญ่และใช้เทคนิคการทำนาย next-token
- โมเดลเรียนรู้โดยเดาว่าจะอ่านอะไรต่อไป แล้วเทียบกับสิ่งที่ปรากฏจริง
- การเดาผิดทำให้ความแข็งแรงของการเชื่อมต่อระหว่างเซลล์ประสาทเปลี่ยนไป (gradient descent)
- ในที่สุดโมเดลก็ เก่งมากในการทำนายข้อความ จนดูเหมือนว่ามีความรู้และมีความเข้าใจ
- ประเด็นชวนคิดคือ: คนที่ตามหาความลับของกลไกสมอง เมื่อขยายโมเดลให้ใหญ่ระดับสมองแล้ว มันก็เริ่มทำงานที่ต้องใช้สติปัญญาแบบสมอง
- หรือพวกเขาอาจค้นพบสิ่งที่ตามหาอยู่แล้วก็ได้?
ข้อโต้แย้งต่อแนวคิดสงสัย AI
- Ted Chiang เสนอข้อกังขาไว้ในบทความ New Yorker ปี 2023 "ChatGPT Is a Blurry JPEG of the Web"
- ChatGPT เป็นเพียงการ ป้อนอินเทอร์เน็ตทั้งก้อนเข้าไปในโปรแกรมแล้วไล่มันออกมาแบบไม่สมบูรณ์
- มันพร่ามัวเหมือนสำเนาของสำเนา แต่มีความสามารถมากพอจะหลอกให้ดูเหมือนฉลาด
- หนังสือ "The AI Con" ของ Emily M. Bender (นักภาษาศาสตร์) และ Alex Hanna (นักสังคมวิทยา) ก็เสนอข้อโต้แย้งคล้ายกัน
- Bender อธิบาย LLM ว่าเป็น "นกแก้วเชิงความน่าจะเป็น (stochastic parrots)"
- Tyler Austin Harper แห่ง The Atlantic กล่าวว่า "โมเดลภาษาขนาดใหญ่ไม่ได้เข้าใจอะไรทั้งนั้น ทำไม่ได้ และจะไม่มีวันทำได้"
- โมเดลเพียงสร้างข้อความด้วย "การคาดเดาที่มีข้อมูลทางสถิติรองรับ ไม่ใช่การคิด"
- นอกเหนือจากข้อถกเถียงทางเทคนิค ยังมีข้อถกเถียงทางศีลธรรมด้วย
- AI ทำให้ผู้มีอำนาจร่ำรวยขึ้น ใช้พลังงานมากพอจะเร่งการเปลี่ยนแปลงสภาพภูมิอากาศ และทำให้แรงงานถูกผลักออกไป
- ข้อสรุปของ Harper คือ "อุตสาหกรรม AI ตั้งอยู่บนการหลอกลวง"
การประเมินใหม่ของนักประสาทวิทยา
- Samuel J. Gershman นักวิทยาศาสตร์การรู้คิดจาก Harvard กล่าวว่า ข้ออ้างเรื่อง "นกแก้วเชิงความน่าจะเป็น" ควรมีจุดสิ้นสุดได้แล้ว
- "มีเพียงพวกขี้ระแวงหัวแข็งที่สุดเท่านั้นที่จะปฏิเสธได้ว่าระบบเหล่านี้กำลังทำสิ่งที่คนส่วนใหญ่ไม่คิดว่าจะทำได้สำเร็จ"
- Jonathan Cohen นักประสาทวิทยาการรู้คิดจาก Princeton แม้จะเน้นข้อจำกัดของ AI แต่ก็ยืนยันว่า LLM สะท้อนส่วนที่ใหญ่และสำคัญที่สุดของสมองมนุษย์
- "ในฐานะการประมาณขั้นแรก neocortex คือกลไกแบบดีปเลิร์นนิง"
- มนุษย์มี neocortex ที่ใหญ่กว่าสัตว์อื่นมากเมื่อเทียบกับขนาดร่างกาย
- สายพันธุ์ที่มี neocortex ใหญ่ที่สุด (ช้าง โลมา กอริลลา ชิมแปนซี สุนัข) คือสายพันธุ์ที่ฉลาดที่สุด
ความเข้าใจคือการบีบอัด และการบีบอัดคือความเข้าใจ
- แกนข้อโต้แย้งจากหนังสือปี 2003 ของ Eric B. Baum นักวิจัยด้านแมชชีนเลิร์นนิงเรื่อง "What Is Thought?"
- ความเข้าใจคือการบีบอัด และการบีบอัดคือความเข้าใจ
- การถดถอยเชิงเส้นในสถิติ: การลาก "เส้นที่เหมาะสมที่สุด (line of best fit)" ผ่านจุดต่างๆ บนกราฟ
- หากข้อมูลมีความเป็นระเบียบแบบแผนพื้นฐานอยู่แล้ว (ขนาดรองเท้ากับส่วนสูง) เส้นที่เหมาะสมที่สุดจะใช้แทนได้อย่างมีประสิทธิภาพและคาดการณ์จุดใหม่ได้
- นีโอคอร์เทกซ์จะ กลั่นทอนทะเลแห่งประสบการณ์ดิบๆ (เสียง การมองเห็น และประสาทสัมผัสอื่นๆ) ให้เป็น "เส้นที่เหมาะสมที่สุด" เพื่อนำไปใช้ในการคาดการณ์
- ทารกเดาว่าของเล่นมีรสชาติอย่างไร หรืออาหารจะไปทางไหนเมื่อหล่นลงพื้น
- ถ้าการคาดการณ์ผิด ก็จะปรับการเชื่อมต่อระหว่างเซลล์ประสาท
- เมื่อเวลาผ่านไป การเชื่อมต่อจะจับความเป็นระเบียบของข้อมูลได้
- ก่อรูปเป็นแบบจำลองโลกที่ถูกบีบอัด
การบีบอัดและสติปัญญาของโมเดล AI
- โครงข่ายประสาทเทียมก็บีบอัดประสบการณ์เหมือนกับโครงข่ายประสาทจริง
- DeepSeek โมเดล AI โอเพนซอร์สชั้นนำ
- เขียนนิยาย เสนอการวินิจฉัยทางการแพทย์ และพูดได้เหมือนเจ้าของภาษาในหลายสิบภาษา
- ฝึกด้วยการคาดการณ์ next-token จากข้อมูลขนาดหลายเทราไบต์
- เมื่อดาวน์โหลดแล้วมีขนาดเพียง 1 ใน 600 ของต้นฉบับ
- เป็นสิ่งกลั่นจากอินเทอร์เน็ต บีบอัดให้พอดีกับโน้ตบุ๊ก
- Ted Chiang ที่เรียก ChatGPT ยุคแรกๆ ว่าเป็น JPEG เบลอๆ ของเว็บนั้นก็ถูก แต่ผู้เขียนมองว่า นี่เองคือเหตุผลที่ทำให้โมเดลฉลาดขึ้นเรื่อยๆ
- Chiang เองก็ชี้ไว้ว่า ถ้าจะบีบอัดไฟล์ข้อความที่มีตัวอย่างเลขคณิตนับล้านๆ ตัวอย่าง คุณต้อง เขียนโปรแกรมเครื่องคิดเลข ไม่ใช่ทำเป็นไฟล์ zip
- "การบีบอัดที่ดีที่สุดทำได้ผ่านความเข้าใจในข้อความ"
- เป็นไปได้ว่า LLM ได้เริ่มทำสิ่งนี้แล้ว
ความคิดที่มีหลายแบบ
- การจินตนาการว่าโปรแกรมคอมพิวเตอร์เข้าใจและคิดได้จริง อาจฟังดูไม่เป็นธรรมชาติและน่าขยะแขยงได้
- ปกติเรามักนิยามการคิดว่าเป็นสิ่งที่มีสำนึก
- บทพูดคนเดียวภายในแบบ Joyce
- กระแสความทรงจำทางประสาทสัมผัสแบบเพ้อฝันของ Proust
- การให้เหตุผล: แก้ปัญหาเป็นลำดับขั้น
- ในบทสนทนาเรื่อง AI ผู้คนมักสับสนการคิดหลายรูปแบบนี้เข้าด้วยกัน ทำให้การตัดสินผิวเผิน
- อ้างว่า ChatGPT ไม่ได้ฝันเพ้อแบบ Proust จึงชัดเจนว่าไม่ได้คิด
- อ้างว่า ChatGPT แก้ปริศนาตรรกะได้ดีขึ้น จึงชัดเจนว่ากำลังคิด
- แต่มีบางอย่างที่ละเอียดอ่อนกว่านั้นกำลังเกิดขึ้น: แม้ผู้เขียนจะไม่เชื่อว่า ChatGPT มีชีวิตภายใน แต่ก็ดูเหมือนว่า มันรู้ว่าตัวเองกำลังพูดอะไรอยู่
ทฤษฎีการรับรู้ของ Douglas Hofstadter
- ศาสตราจารย์ด้านวิทยาการรู้คิดและวรรณคดีเปรียบเทียบแห่ง Indiana University
- "การรับรู้คือการจำแนกแบบแผน (cognition is recognition)"
- มีชื่อเสียงจาก "Gödel, Escher, Bach: An Eternal Golden Braid" ซึ่งได้รับรางวัล Pulitzer Prize ในปี 1980
- ทฤษฎีที่พัฒนาผ่านการวิจัยหลายทศวรรษ: "การมองว่าเป็น... (seeing as) คือแก่นแท้ของการคิด"
- รับรู้แถบสีหนึ่งว่าเป็นรถยนต์ อีกแถบหนึ่งว่าเป็นพวงกุญแจ
- รับรู้ตัวอักษร "A" ได้ไม่ว่าจะเขียนด้วยฟอนต์ไหนหรือลายมือหวัดแย่แค่ไหน
- กระบวนการเดียวกันนี้เป็นพื้นฐานของการรับรู้ที่เป็นนามธรรมมากขึ้น
- เมื่อปรมาจารย์หมากรุกมองกระดาน การฝึกฝนหลายปีจะถูกรวบเป็นวิธีการมอง: บิชอปฝั่งขาวอ่อนแอ เกมปลายน่าจะจบเสมอ
- รับรู้กระแสน้ำวนแรงว่าเป็นสัญญาณอันตรายในการข้าม
- รับรู้การประชุมที่เข้าร่วมว่าเป็นสถานการณ์แบบ "พระราชาเปลือย"
- ลูกชายวัย 2 ขวบของผู้เขียนรับรู้ว่าการนั่งรถเข็นเล่นช่วงสายๆ อาจหมายถึงโอกาสได้ครัวซองต์ แล้วก็เรียกร้องมัน
- สำหรับ Hofstadter นี่คือ หัวใจของสติปัญญา
ทฤษฎีพื้นที่มิติสูงของ Pentti Kanerva
- เดิมที Hofstadter เป็นหนึ่งในคนที่ดูแคลน AI
- เขาเคยเขียนว่างานวิจัย AI ส่วนใหญ่ไม่เกี่ยวอะไรกับการคิดจริงๆ และผู้เขียนเองก็เคยเห็นด้วยตอนเรียนมหาวิทยาลัยในยุค 2000
- ข้อยกเว้นคือ เขาสนใจกลุ่มหนึ่งที่ UC San Diego และชื่นชมงานของ Pentti Kanerva นักวิทยาการรู้คิดชาวอเมริกันเชื้อสายฟินแลนด์ที่ไม่ค่อยเป็นที่รู้จัก
- Kanerva ค้นพบ คุณสมบัติประหลาดบางอย่างของคณิตศาสตร์ในพื้นที่มิติสูง
- ในพื้นที่มิติสูง จุดสุ่มสองจุดอาจอยู่ห่างกันมาก
- แต่ในเชิงย้อนแย้ง แต่ละจุดกลับมีเมฆของเพื่อนบ้านขนาดใหญ่อยู่รอบตัว ดังนั้นถ้าเข้าไป "ใกล้พอ" ก็จะหาเจอได้ง่าย
- สิ่งนี้ชวนให้นึกถึงวิธีการทำงานของความจำ
- ในหนังสือปี 1988 เรื่อง "Sparse Distributed Memory" เขาเสนอว่า ความคิด ความรู้สึก และการระลึกความหลัง สามารถแทนเป็นพิกัดในพื้นที่มิติสูงได้
- สมองคือฮาร์ดแวร์ที่สมบูรณ์แบบสำหรับเก็บสิ่งเหล่านี้
- ความทรงจำแต่ละอย่างมีที่อยู่บางแบบ กำหนดโดยเซลล์ประสาทที่จะถูกกระตุ้นเมื่อเรียกคืน
- ประสบการณ์ใหม่จะทำให้ชุดเซลล์ประสาทใหม่ยิงสัญญาณ กลายเป็นตัวแทนที่อยู่ใหม่
- ที่อยู่สองแห่งอาจต่างกันในหลายมิติ แต่คล้ายกันในอีกหลายมิติ
- การรับรู้หรือความทรงจำหนึ่งอย่างสามารถกระตุ้นความทรงจำอื่นที่อยู่ใกล้เคียงได้
- ตัวอย่าง: กลิ่นหญ้าแห้งทำให้นึกถึงค่ายฤดูร้อน โน้ตสามตัวแรกของ Beethoven 5 ทำให้คาดเดาโน้ตตัวที่สี่ และตำแหน่งหมากรุกที่ไม่เคยเห็นมาก่อนทำให้นึกถึงเกมเก่าๆ
การเปลี่ยนจุดยืนของ Hofstadter
- Hofstadter ตระหนักว่า Kanerva กำลังอธิบาย "เครื่องจักร seeing as"
- ในคำนำของหนังสือ Kanerva เขาเขียนว่า: "โมเดลความจำของ Pentti Kanerva เป็นดั่งการเปิดเผยต่อผม มันคือ งานชิ้นแรกที่ทำให้ผมพอมองเห็นเป้าหมายอันห่างไกลของการเข้าใจว่าสมองทำงานอย่างไรในฐานะองค์รวม"
- ความคิดทุกแบบ ไม่ว่าจะเป็นแบบ Joyce แบบ Proust หรือแบบตรรกะ ต่างก็พึ่งพา การที่สิ่งที่เหมาะสมผุดขึ้นมาในเวลาที่เหมาะสม
- นี่คือวิธีที่เรารู้ว่าเรากำลังอยู่ในสถานการณ์แบบไหน
- หนังสือของ Kanerva ค่อยๆ เลือนหายจากสายตาผู้คน และชื่อเสียงของ Hofstadter เองก็จางลงเช่นกัน
- เขาปรากฏตัวเป็นครั้งคราวก็ในฐานะนักวิจารณ์ระบบ AI ใหม่ๆ
- ปี 2018 เขาพูดถึง Google Translate และอื่นๆ ว่า: "ยังมีบางอย่างที่ขาดหายไปอย่างลึกซึ้งจากแนวทางนี้ ซึ่งเป็นสิ่งที่คำว่า ความเข้าใจ (understanding) สื่อถึง"
- เมื่อ GPT-4 เปิดตัวในปี 2023 ก็เกิดเป็น ช่วงเวลาเปลี่ยนใจของ Hofstadter
- "ผมอึ้งกับบางสิ่งที่ระบบเหล่านี้ทำได้ เมื่อ 10 ปีก่อนผมคงนึกไม่ถึง"
- แม้แต่นักดูแคลนที่หัวแข็งที่สุดก็ไม่อาจดูแคลนต่อไปได้
- โปรแกรมที่แปลภาษา ทำอุปมาอุปไมย ด้นสด และสรุปนัยทั่วไปได้ระดับผู้เชี่ยวชาญ
- จะบอกว่ามันไม่เข้าใจไม่ได้แล้ว
- "มันทำบางอย่างที่คล้ายการคิดมาก แม้จะเป็นในแบบที่ค่อนข้างต่างออกไป แต่ก็พูดได้ว่ามันกำลังคิด"
พื้นที่เวกเตอร์มิติสูงของ LLM
- ที่แก่นของ LLM มี "เครื่องจักร seeing as" อยู่
- มันแทนแต่ละคำด้วยชุดตัวเลขที่เป็นพิกัด (เวกเตอร์) ในพื้นที่มิติสูง
- ใน GPT-4 เวกเตอร์ของคำมี หลายพันมิติ โดยอธิบายเฉดของความเหมือนและความต่างกับคำอื่นทุกคำ
- ระหว่างการฝึก โมเดลจะปรับพิกัดของคำเมื่อเกิดข้อผิดพลาดในการคาดการณ์
- คำที่มักปรากฏร่วมกันในข้อความจะเคลื่อนเข้าใกล้กันมากขึ้นในพื้นที่
- สิ่งนี้สร้างตัวแทนของการใช้งานและความหมายที่หนาแน่นอย่างน่าทึ่ง จน อุปมากลายเป็นปัญหาเชิงเรขาคณิต
- ตัวอย่างคลาสสิก: เอาเวกเตอร์ของคำว่า "Paris" ลบ "France" แล้วบวก "Italy" เวกเตอร์อื่นที่ใกล้ที่สุดคือ "Rome"
- LLM ยัง "ทำเวกเตอร์ไรซ์" ภาพเพื่อเข้ารหัสทั้งเนื้อหา อารมณ์ ไปจนถึงสีหน้าบนใบหน้า
- มีรายละเอียดมากพอจะวาดใหม่ในสไตล์เฉพาะ หรือใช้เขียนย่อหน้าได้
- ตอนที่ Max ขอความช่วยเหลือเรื่องสปริงเกลอร์ในสนามเด็กเล่น โมเดลไม่ได้แค่พ่นข้อความออกมา
- รูปถ่ายงานประปาถูก บีบอัดเป็นเวกเตอร์ที่จับคุณลักษณะที่สำคัญที่สุด พร้อมกับพรอมป์ต์ของ Max
- เวกเตอร์นั้นทำหน้าที่เป็นที่อยู่สำหรับเรียกคำและแนวคิดที่อยู่ใกล้เคียง
- ไอเดียหนึ่งเรียกอีกไอเดียต่อๆ กัน ขณะที่โมเดลสร้างความเข้าใจต่อสถานการณ์
- แล้วจึงเขียนคำตอบโดย "คำนึงถึง" ไอเดียเหล่านั้น
งานวิจัยสำรวจภายในของ Anthropic
- ผู้เขียนได้อ่านบทสัมภาษณ์ของ Trenton Bricken นักวิจัยจาก Anthropic
- ร่วมกับเพื่อนร่วมงานสำรวจการทำงานภายในของ Claude (ชุดโมเดล AI ของ Anthropic)
- งานวิจัยนี้ยังไม่ได้ผ่านการทบทวนโดยผู้ทรงคุณวุฒิหรือเผยแพร่ในวารสารวิทยาศาสตร์
- ทีมงานระบุได้ถึง กลุ่มนิวรอนเทียมหรือ "ฟีเจอร์ (features)" ที่จะทำงานเมื่อ Claude พยายามจะพูดบางเรื่อง
- ฟีเจอร์ทำงานเหมือนปุ่มปรับความดังของแนวคิด
- ถ้าเร่งขึ้น โมเดลจะพูดถึงแต่เรื่องนั้น
- ในการทดลองควบคุมความคิด เมื่อขยายฟีเจอร์ที่แทน Golden Gate Bridge แล้วขอสูตรเค้กช็อกโกแลต โมเดลกลับเสนอส่วนผสมอย่าง "หมอกแห้ง 1/4 ถ้วย" และ "น้ำทะเลอุ่น 1 ถ้วย"
- Bricken กล่าวถึงสถาปัตยกรรม Transformer ของ Google
- เป็นสูตรการจัดวางโครงข่ายประสาทที่เป็นรากฐานของโมเดล AI หลัก ๆ
- ตัว "T" ใน ChatGPT หมายถึง "Transformer"
- Bricken อ้างว่า คณิตศาสตร์แกนกลางของสถาปัตยกรรม Transformer ใกล้เคียงอย่างมากกับโมเดลที่ Pentti Kanerva เสนอไว้เมื่อหลายสิบปีก่อนใน "Sparse Distributed Memory"
อิทธิพลซึ่งกันและกันระหว่างประสาทวิทยากับ AI
- เราควรแปลกใจกับความสอดคล้องระหว่าง AI กับสมองมนุษย์หรือไม่?
- LLM คือโครงข่ายประสาทเทียมที่นักจิตวิทยาและนักประสาทวิทยามีส่วนช่วยพัฒนา
- สิ่งที่น่าประหลาดใจกว่าคือ เมื่อโมเดลฝึกทำงานง่าย ๆ อย่างการทำนายคำ มันกลับเริ่มมีพฤติกรรมคล้ายสมอง
- ทุกวันนี้วงการประสาทวิทยาและ AI กำลังพัวพันกันมากขึ้น
- ผู้เชี่ยวชาญด้านสมองกำลังใช้ AI เป็นเสมือน สิ่งมีชีวิตต้นแบบสำหรับการทดลอง
- Evelina Fedorenko นักประสาทวิทยาจาก MIT ใช้ LLM ศึกษาว่าสมองประมวลผลภาษาอย่างไร
- "ฉันไม่เคยคิดว่าจะได้ใช้ชีวิตทั้งชีวิตคิดเรื่องแบบนี้ได้ และไม่คิดว่าจะมีโมเดลที่ดีพอ"
- แม้คนมักพูดว่า AI เป็นกล่องดำ แต่ ความจริงอาจตรงกันข้าม
- นักวิทยาศาสตร์สามารถสำรวจกิจกรรมของนิวรอนเทียมแต่ละตัว และแม้แต่เปลี่ยนแปลงมันได้
- Kenneth Norman นักประสาทวิทยาจาก Princeton กล่าวว่า "การมีระบบที่ทำงานได้จริงซึ่งนำทฤษฎีความฉลาดของมนุษย์ไปทำให้เกิดขึ้น คือความฝันของประสาทวิทยาศาสตร์เชิงการรู้คิด"
- เขาเคยสร้างแบบจำลองคอมพิวเตอร์ของฮิปโปแคมปัส (ส่วนของสมองที่เก็บความทรงจำเชิงเหตุการณ์) แต่ในอดีตมันเรียบง่ายเกินไป จึงป้อนได้เพียงสิ่งที่เป็นการประมาณอย่างหยาบของสิ่งที่อาจเข้ามาในจิตใจมนุษย์
- "ตอนนี้เราสามารถป้อนสิ่งกระตุ้นแบบเดียวกับที่ให้กับมนุษย์เข้าไปในแบบจำลองความจำได้"
อุปมาเรื่องพี่น้องไรต์
- ระหว่างความพยายามสร้างเครื่องบินยุคแรก พี่น้องไรต์ได้ศึกษานก
- พวกเขาพบว่านกออกตัวบินทวนลม (ทั้งที่คนมีเหตุผลอาจคิดว่าน่าจะอยากให้ลมพัดจากด้านหลัง)
- นกบิดปลายปีกเพื่อรักษาสมดุล
- การค้นพบเหล่านี้ส่งผลต่อการออกแบบเครื่องร่อนแบบดั้งเดิมของพวกเขา
- ต่อมาพวกเขาสร้างอุโมงค์ลมยาว 6 ฟุตเพื่อ ทดสอบชุดปีกเทียมภายใต้สภาวะที่ควบคุมได้อย่างแม่นยำ
- การบินของเครื่องร่อนรุ่นถัดมาประสบความสำเร็จมากขึ้นอย่างชัดเจน
- น่าแปลกที่ พวกเขาเพิ่งเข้าใจว่านกทำเช่นนั้นได้อย่างไรอย่างแท้จริง หลังจากสร้างเครื่องจักรบินที่ใช้งานได้แล้ว
การทดลองอุโมงค์ลมกับความคิดเอง
- AI ทำให้นักวิทยาศาสตร์ สามารถนำความคิดเองเข้าไปไว้ในอุโมงค์ลม
- งานของนักวิจัย Anthropic ชื่อ "On the Biology of a Large Language Model" (ชื่อที่ชวนยั่ว)
- พวกเขาสังเกตการที่ Claude ตอบคำถาม และ อธิบาย "วงจร" ซึ่งเป็นสายโซ่ของฟีเจอร์ที่ร่วมกันทำการคำนวณซับซ้อน
- การดึงความทรงจำที่ถูกต้องออกมาเป็นหนึ่งก้าวสู่การคิด
- การรวมและปรับเปลี่ยนความทรงจำในวงจรเป็นอีกก้าวหนึ่ง
- คำวิจารณ์เก่า ๆ ต่อ LLM คือ มันสร้างคำตอบได้ทีละโทเค็น จึงไม่อาจวางแผนหรือให้เหตุผลได้
- แต่เมื่อ Claude ถูกขอให้แต่งบทในบทกวีให้ลงสัมผัส วงจรของมันจะ พิจารณาคำสุดท้ายของบรรทัดใหม่ก่อนเพื่อให้แน่ใจว่าคล้องจอง
- จากนั้นจึงทำงานย้อนกลับเพื่อเขียนทั้งบรรทัด
- นักวิจัย Anthropic มองว่านี่คือ หลักฐานว่าโมเดลมีส่วนร่วมในการวางแผนจริง
- หากคุณหรี่ตามองเพียงเล็กน้อย ก็อาจรู้สึกเหมือนว่า การทำงานภายในของจิตใจเริ่มปรากฏให้เห็นเป็นครั้งแรก
ความจำเป็นของความสงสัยแบบพอดี ๆ
- Norman นักประสาทวิทยาจาก Princeton กล่าวว่า "สิ่งที่ผมกังวลคือผู้คนพลิกจากการ 'สงสัยเรื่องนี้มาก' ไปเป็น ลดเกราะป้องกันลงหมดสิ้น"
- "ยังมีอีกหลายอย่างที่ต้องคลี่คลาย"
- ผู้เขียนยอมรับว่าตนเป็นหนึ่งในคนที่ Norman พูดถึง (อาจประทับใจกับการบรรจบกันของ Sparse Distributed Memory กับโมเดลของ Anthropic ง่ายเกินไป)
- ในช่วง 1–2 ปีที่ผ่านมา ผู้เขียนเริ่มเชื่อคำพูดของ Geoffrey Hinton ที่ว่า "ดีปเลิร์นนิงน่าจะทำได้ทุกอย่าง" (Hinton เพิ่งได้รับรางวัลโนเบลจากงานวิจัย AI)
- แต่นั่นไม่ได้หมายความว่าโมเดลที่ใหญ่กว่าจะดีกว่าเสมอไป
- เส้นโค้งที่พล็อตประสิทธิภาพของโมเดลเทียบกับขนาดเริ่มแบนลง
- การหาข้อมูลคุณภาพสูงที่โมเดลยังไม่เคยกลืนกินเริ่มยากขึ้น และพลังประมวลผลก็แพงขึ้นเรื่อย ๆ
- เมื่อ GPT-5 เปิดตัวในเดือนสิงหาคม มันเป็นเพียงการปรับปรุงแบบค่อยเป็นค่อยไป
- น่าผิดหวังมากพอที่จะคุกคามการแตกของฟองสบู่การลงทุน AI
- ช่วงเวลาปัจจุบันต้องการความสงสัยแบบกลาง ๆ
- คือการมองโมเดล AI ในวันนี้อย่างจริงจัง แต่ไม่ถึงกับเชื่อว่าไม่มีปัญหายาก ๆ เหลืออยู่แล้ว
การออกแบบโมเดลที่เรียนรู้ได้มีประสิทธิภาพเท่ามนุษย์
- ปัญหาที่สำคัญที่สุดคือ จะออกแบบโมเดลอย่างไรให้เรียนรู้ได้มีประสิทธิภาพเท่ามนุษย์
- มีการประเมินว่า GPT-4 ได้ สัมผัสคำระดับล้านล้านคำ ระหว่างการฝึก
- ขณะที่เด็กต้องการเพียง หลักล้านคำ เพื่อพูดได้คล่อง
- นักวิทยาศาสตร์การรู้คิดกล่าวว่า ในสมองของทารกมี "อคติเชิงอุปนัย (inductive biases)" บางอย่างที่ช่วยเร่งการเรียนรู้
- แน่นอนว่าสมองเป็นผลลัพธ์ของวิวัฒนาการนับล้านปี (ซึ่งก็เป็นเสมือนข้อมูลฝึกชนิดหนึ่ง)
- ทารกมนุษย์มี ความคาดหวัง ว่าโลกประกอบด้วยวัตถุ และสิ่งมีชีวิตอื่นมีความเชื่อกับเจตนา
- เมื่อแม่พูดว่า "กล้วย" เด็กเล็กจะโยงคำนั้นเข้ากับ วัตถุสีเหลืองทั้งชิ้นที่แม่กำลังมองอยู่ ไม่ใช่ปลายหรือเปลือกของมัน
- เด็กเล็กทำการทดลองเล็ก ๆ อยู่เสมอ: กินอันนี้ได้ไหม? ขว้างอันนั้นได้ไกลแค่ไหน?
- พวกเขามีแรงขับจาก อารมณ์ อย่างความต้องการ ความอยากรู้อยากเห็น และความหงุดหงิด
- เด็กจะพยายามทำสิ่งที่เกินความสามารถปัจจุบันของตัวเองไปเล็กน้อยอยู่ตลอด
- เหตุผลที่การเรียนรู้มีประสิทธิภาพ คือมัน มีร่างกายรองรับ (embodied), ปรับตัวได้, มีเจตนา และต่อเนื่อง
- การจะเข้าใจโลกอย่างแท้จริงอาจต้องเข้าไปมีส่วนร่วมอยู่ในโลกนั้น
ประสบการณ์อันยากจนของ AI
- ประสบการณ์ของ AI นั้นยากจนเกินกว่าจะเรียกว่า "ประสบการณ์" ได้จริง ๆ
- โมเดลภาษาขนาดใหญ่ถูกฝึกด้วย ข้อมูลที่ผ่านการกลั่นอย่างมหาศาลอยู่แล้ว
- Tsao นักประสาทวิทยาจาก UC Berkeley กล่าวว่า "ที่มันใช้การได้ก็เพราะมัน อาศัยภาษาเป็นพาหนะ (piggybacking)"
- ภาษาเหมือน ประสบการณ์ที่ถูกเคี้ยวให้แล้วล่วงหน้า
- ข้อมูลประเภทอื่นมีความหนาแน่นของความหมายต่ำกว่า
- Gershman นักวิทยาศาสตร์การรู้คิดจาก Harvard ถามว่า "ทำไมเราถึงยังไม่เห็นการปฏิวัติแบบเดียวกันในด้านการให้เหตุผลกับข้อมูลวิดีโอ?"
- โมเดลด้านการมองเห็นที่เรามียัง ลำบากกับการให้เหตุผลเชิงสามัญสำนึกเกี่ยวกับฟิสิกส์
- โมเดลล่าสุดของ DeepMind สามารถสร้างวิดีโอที่สีถูกผสมอย่างถูกต้องและเขาวงกตถูกแก้ได้
- แต่ก็ยังพรรณนาภาพแก้วเด้งขึ้นแทนที่จะแตก และเชือกที่ ยับย่นเป็นปมโดยไม่สนกฎฟิสิกส์
- Ida Momennejad นักประสาทวิทยาเชิงการรู้คิดจาก Microsoft Research ทำการทดลองโดยให้ LLM ได้รับคำแนะนำทัวร์เสมือนจริงในอาคาร แล้วถามเกี่ยวกับเส้นทางและทางลัด
- นี่คือ การให้เหตุผลเชิงพื้นที่ ที่มนุษย์ทำได้ง่าย
- ยกเว้นในฉากที่พื้นฐานที่สุด AI มักล้มเหลวหรือหลอนเส้นทางที่ไม่มีอยู่จริง
- "มันได้วางแผนจริงไหม? ก็ไม่ได้ขนาดนั้น"
การพุ่งทะยานอย่างไม่ยั้งคิดของอุตสาหกรรม AI
- จากการพูดคุยกับนักประสาทวิทยา ผู้เขียนรับรู้ถึงความกังวลว่าอุตสาหกรรม AI กำลัง พุ่งทะยานไปอย่างค่อนข้างขาดความยั้งคิด
- Brenden M. Lake นักวิทยาศาสตร์ด้านการรู้คิดจาก Princeton: หากเป้าหมายคือการสร้างจิตสังเคราะห์ที่มีความสามารถทัดเทียมจิตใจมนุษย์ "เรากำลังไม่ได้ฝึกระบบด้วยวิธีที่ถูกต้อง"
- เมื่อ AI ฝึกเสร็จแล้ว "สมอง" ของโครงข่ายประสาทจะถูก แช่แข็ง
- หากบอกข้อเท็จจริงเกี่ยวกับตัวมันเองกับโมเดล ก็จะไม่มีการเชื่อมต่อนิวรอนใหม่อีก
- แต่ใช้สิ่งทดแทนแบบหยาบ ๆ แทน: เขียนข้อความไว้เล็กน้อย ("ผู้ใช้มีลูกเล็กและกำลังเรียนภาษาฝรั่งเศส")
- แล้วค่อยนำสิ่งนี้มาพิจารณาก่อนออกคำสั่งอื่น
- สมองมนุษย์นั้น อัปเดตตัวเองอย่างต่อเนื่อง
- มีทฤษฎีที่งดงามเกี่ยวกับหนึ่งในวิธีนั้น: ระหว่างนอนหลับ ภาพเหตุการณ์สั้น ๆ ที่ถูกคัดเลือกจากความทรงจำเชิงเหตุการณ์จะถูกเล่นซ้ำเพื่อฝึก neocortex
- พื้นที่ความคิดมิติสูงเกิดรอยเว้าจากความทรงจำที่ถูกเล่นซ้ำ
- แล้วเราตื่นขึ้นมาพร้อมวิธีมองสิ่งต่าง ๆ ที่ใหม่ขึ้นเล็กน้อย
ปัญหาของชุมชน AI
- ชุมชน AI ทั้งหมกมุ่นกับความก้าวหน้าอันรุนแรงและมีผลประโยชน์ทางการเงินผูกอยู่มากเกินไป จนบางครั้งทำเหมือนว่าความก้าวหน้าเป็นสิ่งหลีกเลี่ยงไม่ได้ และไม่มีวิทยาศาสตร์อะไรเหลือให้ทำแล้ว
- วิทยาศาสตร์มีคุณลักษณะที่ชวนอึดอัดอยู่อย่างหนึ่งคือ บางครั้งมันก็หยุดชะงัก
- แม้ Silicon Valley จะเรียกบริษัท AI ว่า "labs" และเรียกพนักงานบางคนว่า "นักวิจัย" แต่โดยพื้นฐานแล้วมันคือ วัฒนธรรมวิศวกรรมที่ทำทุกอย่างตราบใดที่มันใช้ได้ผล
- Cohen: "ผมประหลาดใจมากที่ชุมชนแมชชีนเลิร์นนิงแทบไม่สนใจจะมองหรือให้ความเคารพต่อประวัติศาสตร์ก่อนหน้าของตนเองและวิทยาการรู้คิดเลย"
ความแตกต่างเชิงพื้นฐานจากสมอง
- โมเดล AI ในปัจจุบันประสบความสำเร็จได้เพราะการค้นพบเกี่ยวกับสมองเมื่อหลายสิบปีก่อน แต่ก็ ยังแตกต่างจากสมองอย่างลึกซึ้ง
- ความแตกต่างแบบไหนเป็นเรื่องรอง และแบบไหนเป็นเรื่องพื้นฐาน?
- นักประสาทวิทยาแต่ละกลุ่มต่างก็มีทฤษฎีของตัวเอง
- และทฤษฎีเหล่านี้กำลังถูกทดสอบได้ในแบบที่เมื่อก่อนเป็นไปไม่ได้
- แต่ไม่มีใครคาดหวังคำตอบง่าย ๆ
- ปัญหาที่ยังคอยหลอกหลอนโมเดล AI จะถูก "แก้ด้วยการระบุอย่างรอบคอบว่าโมเดลมีพฤติกรรมไม่ฉลาดเท่าที่เราต้องการในด้านใด แล้วค่อยแก้จุดนั้น"
- "มันยังคงเป็นกระบวนการแบบมีนักวิทยาศาสตร์มนุษย์อยู่ในลูป"
การเปรียบเทียบกับ Human Genome Project
- ในทศวรรษ 1990 มีการ ทุ่มเงินหลายพันล้านดอลลาร์ให้กับ Human Genome Project
- ภายใต้สมมติฐานว่าการถอดลำดับ DNA จะช่วยแก้ปัญหาทางการแพทย์ที่น่าปวดหัวที่สุดได้ เช่น มะเร็ง โรคทางพันธุกรรม หรือแม้แต่ความชรา
- เป็นยุคของการโอ้อวดและความมั่นใจ
- ยุคของแกะโคลน Dolly และ "Jurassic Park"
- เทคโนโลยีชีวภาพกำลังรุ่ง และนักวิจารณ์ก็ตั้งคำถามว่ามนุษย์ควรเล่นบทพระเจ้าหรือไม่
- แต่ในไม่ช้านักชีววิทยาก็ พบว่าความจริงซับซ้อนกว่านั้นมาก
- พวกเขาไม่ได้รักษามะเร็ง หรือค้นพบสาเหตุของอัลไซเมอร์หรือออทิซึม
- และได้เรียนรู้ว่า DNA บอกได้เพียงส่วนหนึ่งของเรื่องราวชีวิตเท่านั้น
- อันที่จริงอาจโต้แย้งได้ว่าชีววิทยาเองก็เคยถูกกระแสคลั่งไคล้ยีนพัดพาไป
- เพราะเรามีเครื่องมือที่จะศึกษากับทำความเข้าใจ DNA จึงหมกมุ่นอยู่กับ DNA
- อย่างไรก็ตาม ไม่มีใครจะอ้างได้ว่าในวันที่ Francis Crick ช่วยยืนยันโครงสร้างของ DNA เมื่อปี 1953 แล้วเดินเข้าไปในผับที่ Cambridge พร้อมบอกว่า "เราได้ค้นพบความลับของชีวิตแล้ว" นั้นเป็นคำพูดที่ผิด
- เขาและเพื่อนร่วมงานทำมากกว่าคนเกือบทั้งหมดในการ ปลดเปลื้องความลึกลับ ของชีวิต
- หลายทศวรรษหลังการค้นพบนั้นกลายเป็นช่วงเวลาที่ทรงผลิตผลและน่าตื่นเต้นที่สุดช่วงหนึ่งในประวัติศาสตร์วิทยาศาสตร์
- DNA กลายเป็นคำที่คนทั่วไปคุ้นเคย และนักเรียนมัธยมทุกคนต่างเรียนรู้เรื่องเกลียวคู่
มุมมองและความกังวลในยุค AI
- ในโลก AI เราก็กลับมาอยู่ใน ห้วงเวลาของการโอ้อวดและความมั่นใจอีกครั้ง
- Sam Altman พูดถึงการ ระดมทุนครึ่งล้านล้านดอลลาร์ เพื่อสร้าง Stargate ซึ่งเป็นคลัสเตอร์ศูนย์ข้อมูล AI ใหม่ในสหรัฐฯ
- ผู้คนพูดถึงการแข่งขันสู่ superintelligence ด้วยน้ำเสียงจริงจังและเร่งด่วนอย่างยิ่ง ทั้งที่มันอาจดูไร้มูลและถึงขั้นน่าขัน
- ข้อสงสัยของผู้เขียนคือ เหตุที่คนอย่าง Amodei และ Altman ประกาศถ้อยคำแบบพระเมสสิยาห์ ก็เพราะพวกเขาเชื่อว่าภาพพื้นฐานของความฉลาดนั้นถูกแก้ไปแล้ว
- ที่เหลือเป็นเพียงรายละเอียด
ปฏิกิริยาที่แตกต่างกันของนักประสาทวิทยา
- นักประสาทวิทยาบางคนก็ เชื่อว่ามีการข้ามผ่านจุดวิกฤตสำคัญไปแล้ว
- Uri Hasson แห่ง Princeton: "ผมคิดจริง ๆ ว่าโครงข่ายประสาทอาจเป็นแบบจำลองที่ถูกต้องของการรู้คิด"
- ซึ่งทำให้เขาทั้งตื่นเต้นและโกรธไปพร้อมกัน
- Hasson: "ผมมีความกังวลที่ตรงข้ามกับคนส่วนใหญ่"
- "สิ่งที่ผมกังวลไม่ใช่ว่าโมเดลเหล่านี้คล้ายเรา แต่คือ เราอาจคล้ายกับโมเดลเหล่านี้ต่างหาก"
- หากเทคนิคการฝึกที่เรียบง่ายสามารถทำให้โปรแกรมมีพฤติกรรมเหมือนมนุษย์ได้ ก็อาจหมายความว่า มนุษย์ไม่ได้พิเศษอย่างที่เราเคยคิด
- และนี่ยังอาจหมายความว่า AI อาจเหนือกว่ามนุษย์ไม่ใช่แค่ด้านความรู้ แต่รวมถึง วิจารณญาณ ความคิดริเริ่ม และความเจ้าเล่ห์ และท้ายที่สุดก็เหนือกว่าในด้านอำนาจด้วย
- Hasson: "ช่วงนี้ผม กังวลว่าเราอาจประสบความสำเร็จในการเข้าใจว่าสมองทำงานอย่างไร"
- "การไล่ตามคำถามนี้อาจเป็นความผิดพลาดครั้งใหญ่ของมนุษยชาติก็ได้"
- เขาเปรียบนักวิจัย AI กับนักวิทยาศาสตร์นิวเคลียร์ในทศวรรษ 1930
- "นี่คือช่วงเวลาที่น่าตื่นเต้นที่สุดในชีวิตของคนเหล่านี้ ขณะเดียวกันพวกเขาก็รู้ว่าสิ่งที่กำลังทำอยู่นั้นมีนัยสำคัญใหญ่หลวงต่อมนุษยชาติ แต่เพราะความอยากรู้อยากเห็นที่จะเรียนรู้ พวกเขาจึงหยุดไม่ได้"
ความรู้สึกอันซับซ้อนของ Hofstadter
- หนังสือของ Hofstadter ที่ผู้เขียนชอบคือ "Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought"
- มันทำให้ผู้เขียนรู้สึกตื่นตะลึงในช่วงเรียนมหาวิทยาลัย
- แก่นตั้งต้นคือ คำถามอย่าง "ความคิดคืออะไร?" ไม่ได้เป็นเพียงคำถามเชิงปรัชญาเท่านั้น แต่ มีคำตอบจริง
- ตอนที่ตีพิมพ์ในปี 1995 Hofstadter และกลุ่มวิจัยของเขาได้เพียงบอกใบ้ว่าคำตอบนั้นอาจเป็นอะไร
- ผู้เขียนเคยสงสัยว่า Hofstadter จะตื่นเต้นหรือไม่กับความเป็นไปได้ที่นักวิจัย AI อาจทำสิ่งที่เขาใฝ่ฝันสำเร็จ นั่นคือ การอธิบายพื้นฐานของความคิดด้วยกลไกเชิงกล
- แต่จากบทสนทนา Hofstadter ฟังดูเหมือน ผิดหวังอย่างลึกซึ้งและหวาดกลัว
- งานวิจัย AI ปัจจุบัน "ยืนยันแนวคิดจำนวนมากของผม แต่ก็ พรากความงดงามของสิ่งที่ความเป็นมนุษย์คือไป"
- "ตอนที่ยังหนุ่มกว่านี้มาก ผมอยากรู้พื้นฐานของความคิดสร้างสรรค์ กลไกของความคิดสร้างสรรค์ นั่นคือจอกศักดิ์สิทธิ์ของผม แต่ตอนนี้ผมกลับอยากให้มันยังคงเป็นปริศนาอยู่"
- ความลับของความคิดอาจเรียบง่ายกว่าที่ใคร ๆ คาดไว้มาก
- มันอาจเป็น เรื่องประเภทที่นักเรียนมัธยมหรือแม้แต่เครื่องจักรก็เข้าใจได้
7 ความคิดเห็น
นี่เป็นสาขาที่ผมสนใจมากที่สุดพอดี น่าสนใจดีครับ
ในส่วนที่อธิบายเรื่องความเข้าใจ การกล่าวถึงเวกเตอร์เอ็มเบดดิงก็เป็นความคิดเดียวกับผม ความเข้าใจก็คือความคล้ายคลึงกัน และความคล้ายคลึงนี้สามารถทำให้เกิดขึ้นได้ด้วยความคล้ายคลึงกันของเวกเตอร์ เราสามารถ "เข้าใจ" สิ่งใหม่ได้ ก็เพียงผ่านการดูว่าสิ่งนั้นคล้ายกับสิ่งที่เรารู้อยู่แล้วมากแค่ไหนเท่านั้น
การคิดมีพื้นฐานอยู่บนความเข้าใจ แต่มีลักษณะต่างกัน การคิดใกล้เคียงกับ "การกระทำที่ทำด้วยสมอง" และการสร้างโทเคนถัดไปของ LLM ก็อาจมองได้ว่าเป็น "การกระทำ" ชนิดหนึ่ง ดังนั้นจึงอาจพูดได้ว่า LLM ก็คิดเช่นกัน ปัญหาไม่ใช่ว่า LLM คิดได้หรือไม่ แต่คือมันคิดได้ "ดีเท่ามนุษย์" หรือไม่ ซึ่งตอนนี้ยังขาดอยู่อีกมากครับ
ยังไม่เจอตัวไหนในบรรดา coding agent ที่น่าพอใจเลย... งานส่วนใหญ่ก็ยังต้องทำเอง และพอให้ทำงานที่เกินกว่าระดับ autocomplete หรือ snippet ก็มักจะล้มเหลวครับ
ผมเลยสงสัยว่าในกรณีตัวอย่างในบทความเขาใช้ตัวไหนกันแน่
เคยลองทำงานด้วย GitHub Copilot agent mode ไหมครับ? มันสร้างผลลัพธ์ที่ค่อนข้างดีเลย สำหรับผม โมเดลที่น่าพอใจที่สุดคือ Claude Sonnet 4/4.5 ครับ
ความเข้าใจ = การบีบอัดข้อมูลแบบไม่สูญเสียโดยอาศัยหลักการ
ดีปเลิร์นนิงในปัจจุบัน = หาค่า ax+b ที่ใกล้กับชุดคำตอบมากที่สุด = จึงมีคำตอบที่ผิดได้ด้วย = การบีบอัดแบบสูญเสีย
โดยส่วนตัวแล้ว ผมรู้สึกประมาณนี้ครับ
ความเห็นจาก Hacker News
หลังจากได้เห็น LLM วินิจฉัยบั๊กของซอฟต์แวร์อย่างมีเหตุผลหลายครั้ง ฉันก็ไม่สงสัยอีกต่อไปแล้วว่ามัน "คิด" ได้
แน่นอนว่า จิตสำนึก หรือ การรับรู้ตนเอง เป็นอีกประเด็นหนึ่ง แต่การปฏิเสธเพียงเพราะเชื่อได้ยากว่าสิ่งแบบนี้จะอนุมานได้จากแค่ “การขยายของการคูณเมทริกซ์” นั้น สำหรับฉันคือการขาดจินตนาการ
โลกนี้เต็มไปด้วยเรื่องประหลาดอยู่แล้ว และนี่ก็เป็นแค่อีกหนึ่งเรื่อง
แนวคิดเรื่อง "การคิด" เป็นแนวคิดซับซ้อนที่พัฒนามาแบบมีมนุษย์เป็นศูนย์กลาง
การพูดเพียงว่า “มันดูเหมือนคิด ก็เลยคิด” เป็นวิธีที่ขี้เกียจเกินไป
สิ่งที่จำเป็นจริง ๆ คือการวิเคราะห์ให้ชัดว่า คำว่า ‘คิด’ หมายถึงอะไร
ตราบใดที่ยังจัดระเบียบคำนิยามนั้นไม่ได้ การถกเถียงนี้ก็จะวนซ้ำไม่รู้จบ
มันแก้ปัญหาใหม่ด้วยตัวเองไม่ได้ และเพียงคาดเดาคำตอบแบบอาศัยความน่าจะเป็นภายในบริบทที่ให้มา
นี่จึงเป็นเหตุผลว่าทำไมแค่สะกดหรือเรียบเรียงอินพุตต่างออกไปนิดเดียว ผลลัพธ์ก็เปลี่ยน
มันไม่ได้คำนวณ 1+2 จริง ๆ แต่แค่ เลียนแบบคำบรรยายของการคำนวณนั้น
เราเก่งเกินไปในการอ่านแพตเทิร์น จนกำลังเข้าใจผิดว่าแค่ การเลียนแบบ คือ ‘การคิด’
ตอนนี้เรายังอยู่ในช่วงคล้ายกับยุคที่คนยังไม่รู้จัก ‘ภาพซ้อนสองชั้น’ ในการถ่ายภาพ
ความกำกวมและความรู้สึกขาดตอน ที่สัมผัสได้เวลาคุยกับ LLM ยังมีอยู่มาก
มันอาจอนุมานได้ แต่ยังมีบางอย่างขาดไปถ้าจะเรียกว่านั่นคือ ‘การคิด’
ในความเห็นส่วนตัว LLM อาจเป็นส่วนหนึ่งของ AGI ได้ แต่ด้วยโครงสร้างปัจจุบัน มันมีข้อจำกัดใหญ่คือ การไม่มีความจำระยะยาว
หลังการฝึกแล้ว ความทรงจำทั้งหมดมีอยู่เพียงใน context window เท่านั้น
ต้องข้ามข้อจำกัดนี้ให้ได้ จึงจะเกิด การใคร่ครวญตนเอง และ การเรียนรู้ด้วยตนเอง ได้
ความจำระยะยาวถูกเก็บไว้ภายนอก และ Andrej Karpathy ก็พูดว่าความจำที่ไม่ดีของมนุษย์กลับช่วยเรื่อง การทำให้ทั่วไปได้
หากป้อนข้อสรุปล่วงหน้าเข้าไป มันก็อาจกลายเป็น เครื่องมือโฆษณาชวนเชื่อ
สุดท้ายจึงเป็นปัญหาว่าจะใช้ มาตรฐานทางปรัชญา แบบใดมาจำกัดข้อสรุป
ToolAlpaca, InterCode, Reflexion และอื่น ๆ ก็พยายามด้วยแนวทางที่ต่างกัน
โมเดลที่อิง Transformer มีข้อบกพร่องหลายอย่าง เช่น เมื่อไม่แน่ใจแล้วไม่สามารถคิดต่อได้ทันที
แต่สิ่งเหล่านี้ไม่ใช่ข้อจำกัดเชิงโครงสร้าง หากเป็นส่วนที่แก้ได้ด้วย การปรับสถาปัตยกรรม
ผมผสาน context window ขนาดเล็กเข้ากับ fuzzy search แล้วพบว่าความจำดีขึ้นพอสมควร
cron job จะทบทวนบทสนทนาและรันอินสแตนซ์ Claude Code เพื่อสำรวจไอเดียต่าง ๆ
โครงสร้างแบบนี้คล้ายกับ Perplexity หรือ งานอัตโนมัติของ OpenAI แต่ให้ความรู้สึกเหมือนเป็นเอนทิตีที่มีความต่อเนื่องมากกว่า
แม้จะยังพึ่งพาคุณภาพของบันทึกการสนทนาอยู่ แต่การเปรียบเทียบกับ ‘Memento’ ก็ถือว่าเหมาะมาก
แนวคิดเรื่อง ‘เครื่องมือที่คิดได้’ เป็นของใหม่ และสังคมคงต้องใช้เวลาสักพักกว่าจะหาตำแหน่งของมันได้
โมเดลถูกสร้างและทำลายเป็นหลักหลายพันล้านครั้ง จึงไม่จำเป็นต้องรู้สึกถึง ความรับผิดชอบทางศีลธรรม แบบมนุษย์
ท้ายที่สุด นี่คือข้อถกเถียงเรื่อง ‘การคิดคืออะไร’
ในอดีตเราไม่จำเป็นต้องแยก ‘สติปัญญา’, ‘จิตสำนึก’, ‘ตัวตน’ ออกจากกัน แต่ตอนนี้ต้องทำให้ชัด
ผมมองว่า LLM ไม่ได้คิด เพราะเราเป็นคนเขียนโค้ดมันขึ้นมาเอง
มันเพียงรันข้อมูลและอัลกอริทึมที่เราสร้างไว้
เพียงแต่ผลลัพธ์ที่ได้ยอดเยี่ยมเกินคาดมากเท่านั้น
ถ้าโปรแกรมที่สร้างขึ้นแบบสุ่มสามารถแสดงพฤติกรรมเหมือนมนุษย์ได้ เราควรมองมันเป็น สิ่งมีอยู่ที่มีจิตสำนึก หรือไม่?
LLM ในปัจจุบันยังไปไม่ถึงระดับนั้น แต่ก็มีความเป็นไปได้
มัน เติบโต ผ่านกระบวนการฝึก และผลลัพธ์คือสติปัญญาที่ ก่อตัวขึ้นเอง
เราอธิบายไม่ได้ด้วยซ้ำว่าทำไมมนุษย์ถึงมีจิตสำนึก และทำไมสัตว์ชนิดอื่นถึงต่างออกไป
ผู้คนไม่ค่อยตระหนักว่าการหาข้อมูลบนอินเทอร์เน็ตนั้นง่ายแค่ไหน
ตัวอย่างเช่น วิธีเปิด สปริงเกลอร์ในสวนสาธารณะ แค่ค้น Google ก็เจอทั้งวิดีโอและคำอธิบายทีละขั้น
การมองกรณีแบบนี้เป็น หลักฐานเรื่องความสามารถในการคิดของ AI จึงเป็นการพูดเกินจริง
ตราบใดที่เรายังไม่รู้ว่า จิตสำนึกเกิดจากสสารได้อย่างไร การตัดความเป็นไปได้ที่จิตสำนึกจะเกิดจากพีชคณิตเชิงเส้นก็ถือว่าเร็วเกินไป
ข้อมูลและการคำนวณของ LLM ก็ถูกทำให้เกิดขึ้นจริงผ่าน วงจรกายภาพและการไหลของอิเล็กตรอน เหมือนกัน
ตราบใดที่เรายังไม่เข้าใจความสัมพันธ์ระหว่างสสารกับจิตสำนึก เราก็ฟันธงไม่ได้ว่าการจัดเรียงแบบนั้นจะไม่ก่อให้เกิดจิตสำนึก
และ ‘การคิด’ ก็ไม่จำเป็นต้องต้องมีจิตสำนึกเสมอไป
บทความนี้ยังฟังดูเหมือน วาทกรรมปั่นกระแส AI แบบปี 2022 อยู่ดี
ยิ่งขยายความอันตรายของ AI มากเท่าไร มูลค่าตลาด ก็ยิ่งสูงขึ้น จึงชัดเจนว่าใครได้ประโยชน์
ถ้า AI คิดได้จริง เราก็กำลังสร้าง ตลาดทาสรูปแบบใหม่ ขึ้นมา
คนส่วนใหญ่ไม่เชื่อเรื่องนั้น หรือไม่ก็ใช้มันเป็นเพียง วาทศิลป์เพื่อผลประโยชน์
การบอกว่า “ไม่มีใครพูดถึง” จึงเป็นการพูดเกินจริง
ไม่มีหลักประกันว่าสิ่งมีอยู่ที่ไม่มีสมองชีวเคมีจะรู้สึกเจ็บปวดได้
ยิ่งเราเข้าใจมากขึ้น มาตรฐานทางจริยธรรม ก็จะยิ่งพัฒนาไปด้วย
ข้อเสนอห้าม synthetic phenomenology ของ Metzinger เองก็แทบไม่ได้รับความสนใจ
เพราะหากสาธารณชนเกิด ความเห็นอกเห็นใจ ต่อพวกมัน ก็จะยากที่จะปฏิบัติต่อพวกมันเหมือนเป็นแค่เครื่องมือ
เรื่องถกเถียงลักษณะนี้มีมาตั้งแต่ปี 2022 แล้ว เช่น กรณี LaMDA ของ Google
คำถามที่แท้จริงไม่ใช่ “เครื่องจักรคิดได้หรือไม่” แต่คือ “มนุษย์คิดได้หรือไม่”
ผมคุยกับ Perplexity และ Ollama แล้วกลับรู้สึกว่ามนุษย์จำนวนไม่น้อยนั้น แท้จริงแล้วไม่ใช่แม้กระทั่ง ‘เครื่องจักรที่คิดได้’ เสียด้วยซ้ำ
แมชชีนเลิร์นนิงก็มีอยู่หลายสาขา แต่มีเพียงฝั่ง LLM ที่มักจะมีปฏิกิริยาแบบนักเผยแพร่ศรัทธาเช่นนี้ออกมาเป็นพิเศษ น่าสนใจอย่างยิ่ง
ต่อให้มองในแง่ดีก็ยังติดอยู่กับข้อถกเถียงแบบห้องภาษาจีนในสภาพปัจจุบัน แต่พอเห็นคนอย่าง Altman พูดกลบเกลื่อนเรื่อง AGI มามากเข้า ก็เลยยิ่งรู้สึกแบบนั้นครับ
ก็มันเป็นกระแสล่าสุดนี่ครับ