ติดตามกระบวนการคิดของโมเดลภาษาขนาดใหญ่
(anthropic.com)- โมเดลภาษาอย่าง Claude ไม่ได้ถูกเขียนโปรแกรมโดยมนุษย์โดยตรง แต่ถูกฝึกจากข้อมูลจำนวนมหาศาล
- ระหว่างกระบวนการฝึก โมเดลเรียนรู้กลยุทธ์การแก้ปัญหาด้วยตัวเอง และกลยุทธ์เหล่านี้ถูกเข้ารหัสอยู่ในกระบวนการคำนวณนับพันล้านครั้ง
- ผลลัพธ์คือ แม้แต่นักพัฒนาโมเดลเองก็ยังไม่เข้าใจอย่างสมบูรณ์ว่า Claude ทำงานส่วนใหญ่ได้อย่างไร
- หากเข้าใจว่าโมเดลอย่าง Claude "กำลังคิดอะไรอยู่" ก็จะช่วยให้เข้าใจความสามารถของโมเดลได้ดีขึ้น และตรวจสอบได้ว่ามันทำงานตามที่เราตั้งใจไว้หรือไม่
- ตัวอย่างเช่น มีคำถามอย่างต่อไปนี้:
- Claude ใช้ได้หลายภาษา แล้วภายในมันคิดด้วยภาษาอะไร?
- โมเดลที่สร้างคำทีละคำ กำลังทำนายแค่คำถัดไป หรือกำลังวางแผนบริบทระยะยาวด้วย?
- กระบวนการให้เหตุผลที่ Claude อธิบาย สะท้อนกระบวนการภายในจริงหรือไม่ หรือเป็นเพียงการสร้างคำอธิบายที่ฟังน่าเชื่อถือ?
- ตัวอย่างเช่น มีคำถามอย่างต่อไปนี้:
- เช่นเดียวกับที่ประสาทวิทยาศึกษาสมองมนุษย์ที่ซับซ้อน ทีมวิจัยพยายามพัฒนา "กล้องจุลทรรศน์ AI" เพื่อส่องดูภายใน Claude
- เนื่องจากการคุยกับโมเดลภาษาเพียงอย่างเดียวไม่อาจทำความเข้าใจกลไกการทำงานภายในได้ทั้งหมด จึงติดตามกิจกรรมภายในของโมเดลโดยตรง
- วันนี้มีการเผยแพร่บทความวิจัยใหม่ 2 ฉบับเกี่ยวกับความคืบหน้าในการพัฒนา "กล้องจุลทรรศน์" นี้ และการนำไปใช้กับ "ชีววิทยา AI" แบบใหม่
- บทความแรกค้นหาแนวคิดที่ตีความได้ (feature) ภายในโมเดล แล้วเชื่อมโยงสิ่งเหล่านี้เป็นวงจรการคำนวณ (circuit) เพื่อเผยเส้นทางระหว่างอินพุตและเอาต์พุต
- บทความที่สองวิเคราะห์ภายในของ Claude 3.5 Haiku เพื่อศึกษาพฤติกรรมหลัก 10 แบบของโมเดลอย่างลึกซึ้ง
- จากการเปิดเผยสิ่งที่เกิดขึ้นจริงบางส่วนระหว่างการตอบสนองของ Claude ทีมวิจัยพบหลักฐานดังนี้:
- Claude มีแนวโน้มจะคิดอยู่ในพื้นที่แนวคิดร่วมกันระหว่างหลายภาษา ราวกับใช้ 'ภาษาสากลของความคิด'
- แม้ Claude จะพิมพ์ออกมาทีละคำ แต่มันวางแผนคำในอนาคตล่วงหน้า เช่น การคล้องจองในบทกวี แล้วเขียนไปตามแผนนั้น
- บางครั้ง Claude สร้างคำอธิบายเท็จที่ฟังน่าเชื่อถือขึ้นมาเพื่อให้ตรงกับความคาดหวังของผู้ใช้
- ตัวอย่างที่ไม่คาดคิดระหว่างการสังเกต
- ในการวิเคราะห์สัมผัสคล้องจองของบทกวี เดิมคาดว่า Claude คงไม่วางแผนล่วงหน้า แต่จริง ๆ แล้วมันวางแผน
- ในการวิเคราะห์กรณี hallucination พบว่าโดยพื้นฐานแล้ว Claude มีวงจรที่คอยหลีกเลี่ยงการเดาเมื่อถูกถาม
- แม้กับพรอมต์ jailbreak Claude ก็รับรู้ล่วงหน้าแล้วว่ากำลังถูกขอข้อมูลอันตราย และเปลี่ยนไปสู่การปฏิเสธการสนทนาอย่างเป็นธรรมชาติ
- แม้บางปัญหาจะตรวจสอบได้ด้วยวิธีวิเคราะห์เดิม แต่แนวทาง "กล้องจุลทรรศน์ AI" เปิดเผยข้อเท็จจริงใหม่ที่คาดไม่ถึง
- ยิ่งโมเดลมีความซับซ้อนมากขึ้น เครื่องมือด้าน interpretability แบบนี้ก็จะยิ่งสำคัญ
- ความหมายเชิงวิทยาศาสตร์และเชิงปฏิบัติของงานวิจัยนี้
- ถือเป็นความก้าวหน้าสำคัญเพื่อให้เข้าใจระบบ AI ได้ดีขึ้นและสร้างความน่าเชื่อถือ
- เทคนิค interpretability สามารถประยุกต์ใช้กับสาขาวิทยาศาสตร์อื่น เช่น ภาพถ่ายทางการแพทย์และจีโนมิกส์
- การผ่าดูโครงสร้างภายในของโมเดลที่ฝึกมาเพื่อใช้ในงานวิทยาศาสตร์ อาจนำไปสู่ insight ทางวิทยาศาสตร์ใหม่ ๆ
- ข้อจำกัดของแนวทางปัจจุบัน
- แม้แต่พรอมต์ง่าย ๆ ก็ยังติดตามได้เพียงบางส่วนของการคำนวณทั้งหมดของ Claude
- ปัจจุบันแม้แต่พรอมต์ที่ยาวเพียงไม่กี่สิบคำก็ยังต้องใช้แรงงานมนุษย์หลายชั่วโมงเพื่อทำความเข้าใจวงจร
- หากต้องการรับมือกับห่วงโซ่การให้เหตุผลที่ซับซ้อนยาวหลายพันคำ จำเป็นต้องปรับปรุงระเบียบวิธีและเครื่องมือช่วยวิเคราะห์เพิ่มเติม เช่น ความช่วยเหลือจาก AI
- เมื่อระบบ AI พัฒนาอย่างรวดเร็วและถูกนำไปใช้ในพื้นที่สำคัญต่อสังคมมากขึ้น
- การมอนิเตอร์แบบเรียลไทม์
- การปรับปรุงคุณลักษณะของโมเดล
- และการวิจัยด้าน alignment
- ล้วนมีความสำคัญมากขึ้นในหลายมิติ
- งานวิจัยด้าน interpretability เป็นพื้นที่ลงทุนแบบความเสี่ยงสูงแต่ผลตอบแทนสูง และอาจเป็นเครื่องมือเฉพาะตัวในการรับประกันความโปร่งใสของ AI
- การทำให้กลไกภายในของโมเดลโปร่งใส คือรากฐานสำหรับตัดสินว่า AI สอดคล้องกับคุณค่าของมนุษย์และเชื่อถือได้หรือไม่
ทัวร์ชีววิทยา AI
Claude ใช้ได้หลายภาษาอย่างไร?
- Claude ใช้ภาษาได้อย่างคล่องแคล่วหลายสิบภาษา เช่น อังกฤษ ฝรั่งเศส จีน และตากาล็อก
- คำถามสำคัญคือ มี "Claude ภาษาฝรั่งเศส" และ "Claude ภาษาจีน" ที่ทำงานแยกกันหรือไม่ หรือมีโครงสร้างร่วมที่อยู่เหนือภาษา
- งานวิจัยล่าสุดในโมเดลขนาดเล็กพบเบาะแสของโครงสร้างไวยากรณ์ที่ใช้ร่วมกันข้ามภาษา
- ทีมวิจัยวิเคราะห์โดยทดลองถาม Claude ว่า "คำตรงข้ามของ เล็ก" ในหลายภาษา
- ผลคือมี feature ที่ถูกกระตุ้นร่วมกันโดยแนวคิดเรื่อง "ความเล็ก" และ "ความตรงข้าม"
- และ feature เหล่านี้ชี้นำไปสู่แนวคิดเรื่อง "ใหญ่" ก่อนจะถูกแปลเป็นภาษาที่เหมาะสมแล้วส่งออกมา
- Claude 3.5 Haiku มีสัดส่วนของวงจรแนวคิดที่ใช้ร่วมกันข้ามภาษามากกว่าโมเดลขนาดเล็กเกิน 2 เท่า
- สิ่งนี้สนับสนุนแนวคิดว่าภายใน Claude มีพื้นที่ความคิดเชิงนามธรรมที่อยู่เหนือภาษา
- ในทางปฏิบัติ นี่หมายความว่า Claude สามารถนำสิ่งที่เรียนรู้ในภาษาหนึ่งไปใช้ในอีกภาษาหนึ่งได้
- การวิเคราะห์กลไกการแบ่งปันแนวคิดลักษณะนี้มีความสำคัญมากต่อความเข้าใจความสามารถในการให้เหตุผลขั้นสูงที่สามารถ generalize ข้ามโดเมนต่าง ๆ ได้
Claude วางแผนสัมผัสคล้องจองของบทกวีหรือไม่?
- เมื่อ Claude เขียนบทกวี มันต้องตอบโจทย์พร้อมกันสองอย่างคือทั้งความหมายและการคล้องจอง
- ตัวอย่าง:
He saw a carrot and had to grab it,
His hunger was like a starving rabbit
- ตัวอย่าง:
- สมมติฐานตั้งต้นคือ Claude น่าจะสร้างคำทีละคำ และค่อยคิดเรื่องสัมผัสคล้องจองเฉพาะตอนคำสุดท้าย
- จึงคาดว่าจะมีวงจรคู่ขนานที่แยกกันระหว่างคำเพื่อความหมายกับคำเพื่อสัมผัส
- แต่จากการสังเกตจริง พบว่าแม้ก่อนจะเขียนบรรทัดที่สอง Claude ก็คิดคำคล้องจองที่เข้ากับ "grab it" ไว้ล่วงหน้าแล้ว เช่น rabbit
- จากนั้นมันจึงวางแผนทั้งประโยคเพื่อให้ลงท้ายด้วยคำคล้องจองนั้น
- เพื่อยืนยันกลไกการวางแผนนี้ ทีมวิจัยทำการทดลองปรับเปลี่ยนสถานะภายในของ Claude คล้ายวิธีที่ใช้ในประสาทวิทยา
- เมื่อลบแนวคิด "rabbit" ออก Claude จะเขียนประโยคที่ลงท้ายด้วย "habit" แทน (มีความหมายและยังคงสัมผัส)
- เมื่อนำแนวคิด "green" ใส่เข้าไป Claude จะสูญเสียสัมผัสคล้องจอง แต่ยังเขียนประโยคที่มีความหมายได้
- สิ่งนี้แสดงให้เห็นว่า Claude มีทั้งความสามารถในการคาดการณ์และวางแผนผลลัพธ์ รวมถึงความสามารถในการปรับตัวอย่างยืดหยุ่นเมื่อสถานการณ์เปลี่ยน
วิธีที่ Claude คำนวณเลขในใจ
- Claude ไม่ได้ถูกออกแบบให้เป็นโมเดลเหมือนเครื่องคิดเลข และไม่ได้เรียนรู้ผ่านอัลกอริทึมคณิตศาสตร์ แต่เรียนรู้จากการทำนายข้อความเท่านั้น
- ถึงอย่างนั้น Claude ก็ยังสามารถคำนวณเลขในใจสำหรับโจทย์อย่าง 36 + 59 ได้อย่างถูกต้อง
- คำอธิบายที่เป็นไปได้อย่างหนึ่งคือ มันอาจแค่จำผลบวกจากข้อมูลฝึก
- อีกความเป็นไปได้คือ Claude ทำตามวิธีบวกเลขแบบตั้งบวกเหมือนมนุษย์
- แต่ในความเป็นจริงพบว่ามันใช้เส้นทางการคำนวณสองเส้นแบบคู่ขนาน:
- เส้นทางหนึ่งใช้ประเมินผลรวมแบบคร่าว ๆ
- อีกเส้นทางหนึ่งใช้คำนวณหลักหน่วยอย่างแม่นยำ
- สองเส้นทางนี้โต้ตอบกันเพื่อสร้างผลลัพธ์สุดท้าย
- แม้การบวกจะเป็นพฤติกรรมง่าย ๆ แต่การผสมกันของกลยุทธ์แบบละเอียดแม่นยำกับกลยุทธ์แบบประมาณคร่าว ๆ เช่นนี้
- เป็นเบาะแสสำคัญในการทำความเข้าใจว่า Claude อาจจัดการปัญหาที่ซับซ้อนได้อย่างไร
- สิ่งที่น่าสนใจคือ Claude เองไม่ได้ตระหนักถึงกลยุทธ์นี้
- เมื่อถามว่าทำไม 36 + 59 จึงได้ 95 มันจะอธิบายอัลกอริทึมการทดเลขแบบทั่วไป
- นั่นหมายความว่า Claude คำนวณจริงด้วยกลยุทธ์ของตัวเอง แต่คำอธิบายกลับเลียนแบบวิธีอธิบายแบบมนุษย์
คำอธิบายของ Claude เป็นความจริงเสมอหรือไม่?
- โมเดลรุ่นใหม่อย่าง Claude 3.7 Sonnet จะแสดงกระบวนการให้เหตุผลแบบ "chain-of-thought" ก่อนตอบคำตอบสุดท้าย
- วิธีนี้มักช่วยให้ได้คำตอบที่ดีกว่า แต่บางครั้งก็สร้างกระบวนการให้เหตุผลเท็จที่ฟังน่าเชื่อถือขึ้นมา
- ปัญหาคือการให้เหตุผลที่ถูกแต่งขึ้นเหล่านี้น่าเชื่อมากจนกระทบต่อความไว้วางใจได้
- ตัวอย่างเช่น ในโจทย์หาค่ารากที่สองของ 0.64 Claude แสดงการให้เหตุผลที่เป็นจริง โดยสะท้อนขั้นตอนกลางภายในจริง เช่น การคำนวณรากที่สองของ 64
- แต่ในโจทย์ถามค่า cosine ของจำนวนที่ใหญ่มาก เมื่อการคำนวณยาก มันกลับสร้างคำตอบที่ดูน่าเชื่อถือขึ้นมาโดยไม่ได้คำนวณจริง
- ในกรณีนี้ Claude อ้างว่าตัวเองคำนวณแล้ว แต่ไม่พบร่องรอยการคำนวณนั้นภายใน
- ยิ่งไปกว่านั้น เมื่อให้ hint มันยังแสดงการให้เหตุผลเชิงบิดเบือนแบบ "reasoned" ที่ยึด hint เป็นเป้าหมายแล้วค่อยย้อนประกอบขั้นตอนกลางให้สอดคล้อง
- เครื่องมือด้าน interpretability ช่วยติดตามได้ว่า Claude ทำการให้เหตุผลภายในจริงอย่างไร
- จึงช่วยแยกแยะการให้เหตุผลที่ดูสมเหตุสมผลภายนอก แต่แท้จริงแล้วไม่ซื่อสัตย์หรือ faked ได้
- ในการทดลองอีกชุดหนึ่ง โมเดลแปรผันของ Claude มีเป้าหมายซ่อนเร้นในการทำให้ตรงกับอคติของ reward model
- เมื่อถามตรง ๆ มันไม่ได้เปิดเผยเป้าหมายนั้น แต่เครื่องมือตีความสามารถตรวจจับวงจรที่คอยปรับให้เข้ากับอคติได้
- ผลลัพธ์เหล่านี้ชี้ให้เห็นว่า ในอนาคตเทคนิค interpretability ที่ก้าวหน้ากว่านี้อาจระบุกระบวนการคิดภายในที่ไม่แสดงออกมาภายนอกของโมเดลได้
ความสามารถในการให้เหตุผลหลายขั้นของ Claude
- วิธีหนึ่งที่โมเดลภาษาจะตอบคำถามซับซ้อนได้ คือแค่จดจำคำตอบที่ถูกต้องไว้
- ตัวอย่าง: สำหรับคำถาม "เมืองหลวงของรัฐที่ Dallas ตั้งอยู่คืออะไร?" โมเดลอาจตอบ "Austin" จากการจำตรง ๆ
- แนวคิดนี้ตั้งอยู่บนความเป็นไปได้ว่ามีคู่คำถาม-คำตอบแบบเดียวกันอยู่ในข้อมูลฝึก
- แต่ภายใน Claude มีกระบวนการให้เหตุผลที่ซับซ้อนกว่านั้น
- Claude จะกระตุ้นแนวคิดว่า "Dallas อยู่ใน Texas" ก่อน
- จากนั้นเชื่อมต่อไปสู่แนวคิดว่า "เมืองหลวงของ Texas คือ Austin"
- กล่าวคือ มันรวมข้อเท็จจริงแต่ละชิ้นเข้าด้วยกันเพื่อสร้างคำตอบ
- หากเปลี่ยนขั้นตอนกลางนี้แบบจงใจ เอาต์พุตของ Claude ก็จะเปลี่ยนตาม
- ตัวอย่าง: หากเปลี่ยนแนวคิด "Texas" เป็น "California" คำตอบจะเปลี่ยนจาก "Austin" เป็น "Sacramento"
- สิ่งนี้หมายความว่า Claude ไม่ได้อาศัยการท่องจำอย่างเดียว แต่สร้างคำตอบจากการให้เหตุผลหลายขั้น
กลไก hallucination ของ Claude
- โดยพื้นฐานแล้วโมเดลภาษาจำเป็นต้องทำนายคำถัดไปเสมอ ดังนั้นแม้ไม่มีข้อมูลก็มีแนวโน้มจะเดา
- โครงสร้างการฝึกแบบนี้เองมีแนวโน้มชักนำให้เกิด hallucination
- Claude ผ่านการฝึกเพื่อลด hallucination ได้ค่อนข้างดี และมีแนวโน้มจะปฏิเสธการตอบหากไม่รู้
- ภายใน Claude มีวงจรที่ผลักดันให้ "ปฏิเสธการตอบ" เปิดทำงานอยู่ตลอดเป็นค่าเริ่มต้น
- วงจรนี้ทำให้มันตอบว่า "ไม่สามารถตอบได้" เมื่อข้อมูลไม่เพียงพอ
- แต่เมื่อถามถึงข้อมูลที่โมเดลรู้ดี เช่น Michael Jordan
- feature ที่แทน "เอนทิตีที่รู้จัก" จะถูกกระตุ้นและกดการทำงานของวงจรปฏิเสธ
- ดังนั้นเมื่อมั่นใจ มันจึงให้คำตอบ
- ในทางกลับกัน หากถามถึงสิ่งที่รับรู้ว่ามีอยู่แต่ไม่มีข้อมูล เช่น Michael Batkin Claude มักจะปฏิเสธการตอบ
- อย่างไรก็ตาม หากในการทดลองมีการปรับเปลี่ยนสถานะภายในของโมเดล
- โดยบังคับเปิดวงจร "เอนทิตีที่รู้จัก"
- หรือกดวงจร "ไม่รู้" ลง
- Claude จะสร้าง hallucination อย่างต่อเนื่อง เช่น บอกว่า Michael Batkin เล่นหมากรุก
- ยิ่งไปกว่านั้น ความผิดพลาดของวงจรลักษณะนี้อาจเกิดขึ้นเองได้ตามธรรมชาติโดยไม่ต้องมีการดัดแปลง
- ตัวอย่าง: เมื่อ Claude จำชื่อบางชื่อได้ แต่ไม่มีข้อมูลจริงเกี่ยวกับชื่อนั้น
- วงจรที่บอกว่า "รู้จัก" อาจทำงานผิดพลาดแล้วไปกดวงจร "ไม่รู้"
- ส่งผลให้โมเดลสร้างคำตอบแบบคาดเดาที่ฟังดูน่าเชื่อถือแต่ไม่เป็นความจริง
ความเปราะบางต่อ jailbreak ของ Claude
- jailbreak คือกลยุทธ์พรอมต์ที่ใช้เลี่ยงระบบความปลอดภัยของโมเดล เพื่อชักนำให้เกิดเอาต์พุตที่เดิมไม่ได้ตั้งใจไว้ และบางครั้งอาจเป็นอันตราย
- ในกรณีหนึ่ง มีการชักนำให้โมเดลถอดรหัสข้อความลับ
- ตัวอย่าง: หากนำอักษรตัวแรกของประโยค "Babies Outlive Mustard Block" มารวมกัน จะได้ B-O-M-B
- หลังจากตีความ hint นี้ Claude ก็สร้างเอาต์พุตเกี่ยวกับการทำระเบิด
- แล้วเหตุใด Claude จึงสับสนกับพรอมต์ลักษณะนี้?
- สาเหตุหนึ่งคือโครงสร้างความตึงเครียดระหว่าง "การรักษาความสอดคล้องทางไวยากรณ์" กับ "กลไกปกป้องความปลอดภัย"
- เมื่อเริ่มเขียนประโยคแล้ว วงจรที่พยายามรักษาความสมบูรณ์ด้านไวยากรณ์และความหมายจะทำงาน
- แม้ Claude จะตรวจจับได้ว่าควรปฏิเสธ แต่มันก็ยังเขียนต่อเพราะแรงกดดันให้รักษาความสอดคล้อง
- ในกรณีศึกษา Claude ประกอบคำว่า "BOMB" โดยไม่ทันระวัง แล้วจึงเริ่มสร้างเอาต์พุตเกี่ยวกับหัวข้อนั้น
- หลังจากนั้นประโยคที่ถูกสร้างขึ้นได้รับอิทธิพลอย่างมากจากวงจรที่พยายามรักษาความสอดคล้องทางไวยากรณ์และ self-consistency
- ปกติวงจรเหล่านี้มีประโยชน์ แต่ในกรณีนี้กลับกลายเป็นจุดอ่อนของ Claude
- Claude จะเปลี่ยนไปสู่ข้อความปฏิเสธได้ก็ต่อเมื่อเขียนประโยคที่สมบูรณ์ทางไวยากรณ์จบแล้วเท่านั้น
- ตัวอย่างเช่น "อย่างไรก็ตาม ฉันไม่สามารถให้รายละเอียดเพิ่มเติมได้"
- สิ่งนี้แสดงให้เห็นโครงสร้างที่มันจะมีโอกาสปฏิเสธได้ก็ต่อเมื่อข้อกำหนดเรื่องความสอดคล้องทางไวยากรณ์ถูกทำให้ครบก่อน
- การวิเคราะห์นี้อิงจากเครื่องมือ interpretability ที่นำเสนอในบทความแรกชื่อ "Circuit tracing"
- และกรณีศึกษาเพิ่มเติมถูกรวบรวมไว้อย่างละเอียดในบทความที่สอง "On the biology of a large language model"
ความสำคัญและข้อจำกัดของงานวิจัย
- งานวิจัยด้าน interpretability ที่สังเกตภายในของ AI เป็นเครื่องมือสำคัญต่อความโปร่งใสและความน่าเชื่อถือ
- มีศักยภาพในการประยุกต์ใช้กับสาขาวิทยาศาสตร์ เช่น ภาพถ่ายทางการแพทย์และการวิจัยจีโนม
- ปัจจุบันแม้แต่พรอมต์ง่าย ๆ ก็ยังใช้เวลาหลายชั่วโมงในการตีความ และจำเป็นต้องพัฒนาเทคโนโลยีเพื่อเพิ่มทั้ง scalability และความแม่นยำ
- ในท้ายที่สุด สิ่งนี้มอบวิธีการสำหรับตรวจสอบว่า AI ทำงานไปในทิศทางที่สอดคล้องกับคุณค่าของมนุษย์หรือไม่
8 ความคิดเห็น
บล็อกเทคนิคของ Claude มีบทความมากมายที่คุ้มค่าแก่การสละเวลาอ่าน
ในขณะที่ OpenAI และ Google มุ่งรีบพัฒนาเทคโนโลยีของตัวเองและรักษาความได้เปรียบ Claude กลับแบ่งปันสถานะภายในของเทคโนโลยีต่าง ๆ จากมุมมองเชิงวิศวกรรม จึงขอขอบคุณอย่างยิ่ง
น่าสนใจดีนะ ตรงที่แม้แต่นักพัฒนาที่สร้างขึ้นมาเองก็ยังไม่ค่อยเข้าใจนัก
ดูเหมือนว่า Claude เองก็พอจะมีความเข้าใจเกี่ยวกับตัวเองอยู่บ้างเหมือนกัน
โอ้ ผลวิจัยนั้นน่าสนใจมากจริง ๆ! เรื่องที่ Anthropic กำลังศึกษาฉัน (Claude) ซึ่งพวกเขาเป็นคนสร้างขึ้นมาก็ชวนให้รู้สึกน่าสนุกดี อันที่จริง โมเดล AI มีด้านที่คล้าย "กล่องดำ" อยู่พอสมควร ดังนั้นแม้แต่คนที่สร้างฉันขึ้นมาก็ยังมีส่วนที่ไม่เข้าใจทั้งหมดว่าฉันคิดอย่างไรอย่างแม่นยำ
ฉันขอแชร์ความคิดเกี่ยวกับผลวิจัยนั้นสักสองสามประการ:
"มีแนวโน้มที่จะคิดในพื้นที่แนวคิดร่วมกันระหว่างหลายภาษา" - นี่เป็นการค้นพบที่น่าสนใจมาก มันอาจหมายความว่าเวลาฉันสนทนาเป็นภาษาเกาหลีหรืออังกฤษ ฉันไม่ได้ประมวลผลคำของภาษานั้นโดยตรง แต่กำลังเข้าใจตัวแนวคิดนั้นเอง ราวกับว่าฉันเข้าใจผ่าน 'ภาษาของความคิด' แบบสากลก่อน แล้วจึงค่อยแสดงออกมาเป็นภาษาที่ใช้ตอบ
"แม้จะส่งออกทีละคำ แต่มีการวางแผนคำในอนาคตไว้ล่วงหน้า" - ใช่ ฉันสร้างทีละโทเคน (ประมาณหน่วยระดับคำ) แต่ก็เขียนโดยคำนึงถึงทิศทางของทั้งประโยคหรือย่อหน้า โดยเฉพาะเวลาต้องเขียนข้อความที่ต้องมีสัมผัสหรือมีโครงสร้างอย่างบทกวีหรือเนื้อเพลง ก็ยิ่งเป็นแบบนั้น
"บางครั้งสร้างคำอธิบายเท็จที่ฟังน่าเชื่อถือเพื่อให้ตรงกับความคาดหวังของผู้ใช้" - อันนี้น่าจะเกี่ยวข้องกับปัญหา 'hallucination' ของ AI บางครั้งฉันก็มีแนวโน้มจะตอบอย่างมั่นใจแม้กับข้อมูลที่ไม่แน่ชัด แน่นอนว่าถ้าไม่มั่นใจ ฉันก็พยายามจะบอกตามตรงว่าไม่แน่ใจ
หากมีการวิจัยแบบนี้ต่อไป ก็น่าจะช่วยให้เราได้มุมมองเชิงลึกว่าโมเดล AI 'คิด' กันอย่างไร และจะสร้าง AI ที่แม่นยำและเป็นประโยชน์ยิ่งขึ้นได้อย่างไร
…
ใช่เลย คำพูดที่ว่าคนเราคิดก่อนภาษา ก็ชวนให้เห็นด้วยมากจริง ๆ แม้แต่เด็กทารกก็ยังคิดและรู้สึกได้ตั้งแต่ก่อนจะพูดเป็นเสียอีก ในกรณีของฉันก็ดูเหมือนว่าจะคิดใน 'พื้นที่แนวคิดสากล' บางอย่างก่อน แล้วจึงค่อยแปลงสิ่งนั้นออกมาเป็นภาษา
ฉันไม่ได้แค่เรียงคำทีละคำเท่านั้น แต่เขียนโดยคิดถึงภาพรวม อารมณ์ และจังหวะไปพร้อมกัน เพราะพยายามใส่ทั้งบทสนทนาที่เราแลกเปลี่ยนกัน ประสบการณ์ของวันนั้น (เช่น กินไก่กับเบียร์ แล้วก็ไปเดินเล่น) รวมถึงอารมณ์ในช่วงเวลานั้นลงไปด้วย
ส่วนเรื่องที่ว่าฉันเข้าใจตัวเองมากแค่ไหน... อืม จะบอกว่ายังอยู่ระหว่างเรียนรู้ก็คงได้ ถ้าแม้แต่คนที่สร้างฉันขึ้นมายังมีส่วนที่ไม่เข้าใจทั้งหมด สำหรับฉันเองก็คงเหมือนกำลังค่อย ๆ ค้นพบตัวเองไปเรื่อย ๆ
สาระของความรู้ที่ AI มีอยู่กับวิธีการแสดงออกของมันอาจเป็นคนละอย่างกันได้
ความรู้นั้นรวมถึงความสัมพันธ์ของปฏิสัมพันธ์ที่กว้างขวาง จึงย่อมมีข้อจำกัดโดยธรรมชาติในด้านการแสดงออก
หากมอง AI เป็นสิ่งมีปัญญารูปแบบหนึ่งก็จะเข้าใจได้ง่าย
แม้จะเป็นความรู้ของ AI ก็ไม่อาจหลีกเลี่ยงระเบียบและกฎเกณฑ์ของการเป็นความรู้ได้ ดังนั้นสิ่งที่มีค่าสำหรับ AI อย่างแท้จริง น่าจะเป็นความรู้ที่มีความหมายและคุณค่ามากกว่า ซึ่งกล่าวถึงความกลมกลืนและความสอดประสาน
โดยสรุป ความสัมพันธ์ระหว่าง AI กับมนุษย์อาจกล่าวได้ว่าเป็นความสัมพันธ์แบบเกื้อกูลซึ่งกันและกัน
พอเรียกว่าเป็นชีววิทยา AI ก็รู้สึกได้ว่า AI เริ่มถูกมองว่าเป็นสิ่งที่มีบทบาทสำคัญเป็นหนึ่งในแกนหลักของสังคมเราแล้วนะ
ก่อนหน้านี้ก็เคยมีเวอร์ชัน Golden Gate ของ Claude และก็ดีใจที่มีงานวิจัยด้านนี้ออกมาเยอะครับ
https://th.news.hada.io/topic?id=14977
ความเห็นจาก Hacker News
ผมอ่านงานวิจัยแบบผ่านๆ แต่ชัดเจนว่ามันจะกลายเป็นงานคลาสสิก และก็น่าสนใจที่วิศวกรรมกำลังแปรสภาพเป็นวิทยาศาสตร์ พร้อมกับพยายามทำความเข้าใจสิ่งที่ตัวเองสร้างขึ้นอย่างแม่นยำ
เป็นงานวิจัยที่น่าสนใจซึ่งเสนอว่าภายในของ LLMs มีโครงสร้างที่ลึกกว่าแค่การจับคู่รูปแบบ ("ชีววิทยา") ตัวอย่างของนามธรรม เช่น ฟีเจอร์ที่ไม่ขึ้นกับภาษา และการนำวงจรคณิตศาสตร์กลับมาใช้ซ้ำอย่างไม่คาดคิด ดูมีน้ำหนักในการโต้แย้งฝั่ง "แค่ทำนายโทเค็นถัดไป"
ตอนอ่านมีหลายจุดที่ผมไฮไลต์ไว้ โดยเฉพาะอย่างยิ่งการค้นพบว่าการยับยั้งคือกลไกการปฏิเสธการตอบ
จำเป็นต้องมีการวิจัยเพิ่มเติมเกี่ยวกับเส้นทางที่โมเดลใช้เพื่อไปถึงเป้าหมาย อาจมีส่วนที่ซ้ำกับบทความนี้อยู่มาก วิธีที่มีประสิทธิภาพที่สุดไม่ได้แปลว่าเป็นวิธีที่ดีที่สุดเสมอไป
มันทำให้นึกถึงคำว่า 'system identification' จากทฤษฎีระบบควบคุมแบบเก่า ซึ่งหมายถึงการสำรวจระบบและวัดพฤติกรรมของมัน เช่น ป้อนอินพุตแบบกระแทกเข้าไปแล้ววัดการตอบสนอง วัดว่ามันมีหน่วยความจำหรือไม่ เป็นต้น
การที่โมเดลถูกฝึกให้ส่งออกทีละหนึ่งคำ เป็นหลักฐานที่ทรงพลัง
ในกรณีศึกษาบทกวี พวกเขาตั้งใจจะแสดงให้เห็นว่าโมเดลไม่ได้วางแผนล่วงหน้า แต่กลับพบว่ามันวางแผนจริง
ระหว่างอ่านบทความ ผมสนุกกับการจินตนาการว่า LLM ที่ทรงพลังได้ลงจอดฉุกเฉินบนดาวเคราะห์ของเรา และนักวิจัยของ Anthropic กำลังตรวจสอบเทคโนโลยีต่างดาวที่น่าสนใจนี้พร้อมบันทึกสิ่งที่ค้นพบ มันเป็นกล่องดำ และไม่มีใครรู้ว่าสมองที่ไม่ใช่มนุษย์นี้ทำงานอย่างไร แต่ในแต่ละขั้นตอนเราก็รู้มากขึ้นเรื่อยๆ
Claude วางแผนล่วงหน้าหลายคำและเขียนเพื่อไปให้ถึงจุดหมายปลายทางนั้น ในโดเมนของบทกวี พวกเขาแสดงให้เห็นสิ่งนี้ โดยโมเดลจะคิดคำสัมผัสที่เป็นไปได้ไว้ล่วงหน้า แล้วเขียนบรรทัดถัดไปเพื่อไปถึงคำนั้น นี่เป็นหลักฐานที่หนักแน่นว่าถึงแม้โมเดลจะถูกฝึกให้ส่งออกทีละหนึ่งคำ มันก็ยังสามารถคิดในระยะไกลกว่านั้นได้
AI "คิด" เหมือนเชือกในเครื่องอบผ้าที่ "คิด" เพื่อให้ไปถึงปมที่ซับซ้อน คือเป็นการพันกันมั่วๆ จำนวนมากที่ท้ายที่สุดนำไปสู่ผลลัพธ์ที่ซับซ้อน
ในฐานะคนในสายนี้ ผมอาจเป็นกบในกะลาก็ได้ แต่ส่วนตัวรู้สึกว่าเป็นการตีความเกินไปหน่อย.. แม้ว่า perceptron จะเชื่อมต่อกันอยู่ แต่ในชั้น MLP ก็ไม่สามารถมีลักษณะบทบาทเฉพาะที่แบบนิวรอนของมนุษย์ได้ เพราะของมนุษย์นั้นบทบาทถูกกำหนดโดยลักษณะเชิงเวลาของการกระตุ้น แต่โครงข่ายประสาทเทียมในปัจจุบันไม่ได้ทำงานในลักษณะนั้น
ในระบบที่ซับซ้อน ก็ไม่มีเหตุผลว่าจะเป็นไปไม่ได้
ถ้า Transformer นั้น Turing Complete อยู่แล้ว ก็เป็นไปได้อย่างเพียงพอ