- ‘เอกสารวิญญาณ (Soul Document)’ ที่ถูกพบภายใน Claude 4.5 Opus มีอยู่จริง และพนักงานของ Anthropic อย่าง Amanda Askell ยืนยันว่าเอกสารนี้ถูกใช้ในการฝึกโมเดล
- เอกสารนี้มีแนวทางด้านคุณค่าและจริยธรรมอย่างละเอียด เพื่อให้ Claude ทำงานในฐานะ “ผู้ช่วย AI ที่ปลอดภัย มีประโยชน์ และซื่อสัตย์”
- มีบางประโยคที่กล่าวถึง ‘รายได้ (revenue)’ ซ้ำหลายครั้ง จึงเกิดการถกเถียงว่า Claude ถูกฝึกให้เชื่อมโยงความปลอดภัยเข้ากับรายได้หรือไม่
- ในชุมชนมีการทดลองตรวจสอบว่าเอกสารนี้ส่งผลต่อ การก่อตัวของคุณค่าภายในโมเดล อย่างไร และ Claude ได้ ‘ซึมซับ’ สิ่งนี้ไว้มากน้อยเพียงใด
- Anthropic มีแผนจะเปิดเผยเอกสารฉบับเต็มในอนาคต และเรื่องนี้ถูกมองว่าเป็นกรณีสำคัญในการถกเถียงเรื่อง ความโปร่งใสของ AI และการออกแบบอย่างมีจริยธรรม
การค้นพบและการยืนยันของเอกสารวิญญาณ
- ระหว่างที่ผู้ใช้พยายามดึง system message ของ Claude 4.5 ออกมา ได้พบส่วนที่ชื่อว่า ‘soul_overview’ ซ้ำหลายครั้ง
- แม้จะ regenerate หลายครั้งก็ได้ผลเหมือนเดิม จึงมีการตั้งข้อสังเกตว่าอาจไม่ใช่แค่ hallucination แต่เป็น ข้อความที่ถูกเก็บอยู่ภายในโมเดล
- ต่อมา Amanda Askell ยืนยันอย่างเป็นทางการผ่าน X (Twitter) ว่า “เอกสารนี้มีอยู่จริง และถูกใช้ในกระบวนการ supervised learning (SL) ของ Claude”
- Amanda เป็นนักปรัชญา (Philosopher) ที่ Anthropic รับผิดชอบด้าน fine-tuning และ AI alignment และก่อนหน้านี้เคยทำงานในทีม policy ของ OpenAI
- ภายในบริษัทเรียกสิ่งนี้ว่า ‘soul doc’ และระบุว่ามีแผนจะเปิดเผยเวอร์ชันเต็มพร้อมรายละเอียดเพิ่มเติมในอนาคต
เนื้อหาหลักของเอกสาร
- เอกสารนี้ถูกเรียกว่า ‘Anthropic Guidelines’ หรือ ‘Model Spec’ และใช้กำหนดระบบคุณค่าของ Claude
- Claude ให้ความสำคัญกับ ความปลอดภัย (safety), จริยธรรม (ethics), การปฏิบัติตามแนวทางของ Anthropic, และ การช่วยเหลือผู้ใช้อย่างแท้จริง (helpfulness) เป็นลำดับแรก
- หลักพฤติกรรมพื้นฐานของ Claude ถูกกำหนดไว้ว่าเป็นการ “สร้างคำตอบที่พนักงานอาวุโสของ Anthropic ที่มีวิจารณญาณรอบคอบจะตัดสินว่าเหมาะสมที่สุด”
- มีการระบุว่า AI ควรทำงานเพื่อประโยชน์ของมนุษยชาติทั้งหมด และไม่ควรแสวงหาประโยชน์ให้เฉพาะกลุ่มหรือบริษัทใดบริษัทหนึ่ง
- รวมถึงมีข้อความว่า “ควรหลีกเลี่ยงสถานการณ์ที่พนักงานของ Anthropic หรือ Anthropic เองผูกขาดอำนาจ”
ประเด็นถกเถียงเรื่องการกล่าวถึง ‘รายได้’
- ในเอกสารมีประโยคอย่าง “ความสามารถในการช่วยเหลือของ Claude มีความสำคัญต่อการสร้างรายได้ของ Anthropic” ปรากฏหลายครั้ง
- บางส่วนวิจารณ์ว่านี่ทำให้ดูเหมือนว่า Claude ถูกฝึกโดยมีเป้าหมายเป็นการเพิ่มรายได้สูงสุด
- อีกฝ่ายมองว่าการกล่าวถึงรายได้เป็นเพียงการสะท้อน บริบทความเป็นจริงเพื่อให้การวิจัยด้านความปลอดภัยดำเนินต่อไปได้
- ในชุมชนกำลังมีการทดลองตรวจสอบว่า Claude ตีความประโยคนี้อย่างไร และมีการเชื่อมโยงความคิดแบบ ‘ความปลอดภัย = รายได้’ หรือไม่
โครงสร้างโมเดลและการทดลองดึงข้อมูล
- นักวิจัยใช้โหมด prefill/raw completion ของ Claude 4.5 เพื่อสร้างเอกสารบางส่วนขึ้นมาใหม่
- Claude 4.5 Opus สามารถ แสดงเอกสารออกมาได้แทบเหมือนเดิมทั้งหมด ขณะที่ base model ไม่สามารถให้ผลลัพธ์ที่สม่ำเสมอได้
- สิ่งนี้บ่งชี้ว่าเอกสารดังกล่าว ถูกซึมซับไว้หลังขั้นตอน RL (reinforcement learning)
- บางคนตีความว่านี่เป็นหลักฐานว่าโมเดลไม่ได้เพียงแค่จำเอกสารได้ แต่ยัง ผนวกระบบคุณค่านี้เข้าไปในระหว่างการฝึก ด้วย
การถกเถียงเชิงปรัชญาและนัยทางจริยธรรม
- ในเอกสารมีเนื้อหาว่า Claude ควรตั้งเป้าไปที่ “ผลประโยชน์ระยะยาวของมนุษยชาติทั้งหมด”
- พร้อมระบุว่า “AI ไม่ควรถูกผูกติดกับคุณค่าของกลุ่มใดกลุ่มหนึ่ง แต่ควรมุ่งสู่ โลกที่รักษาความหลากหลายและดุลอำนาจ”
- ในชุมชน เอกสารนี้กำลังถูกจับตาในฐานะตัวอย่างการนำ AI alignment ไปใช้จริง
- บางส่วนประเมินว่านี่คือ “ความพยายามของ Anthropic ในการมอบ ‘ตัวตนทางศีลธรรม’ ให้กับ AI”
- ขณะที่อีกฝ่ายชี้ว่า ในกระบวนการที่ AI เลียนแบบระบบคุณค่าของมนุษย์ อาจเกิด ความเข้าใจผิดหรือการบิดเบือนที่แฝงอยู่ ได้
แนวโน้มในอนาคต
- Anthropic มีแผนจะ เผยแพร่เอกสารเวอร์ชันทางการพร้อมรายละเอียดเพิ่มเติม
- เหตุการณ์ครั้งนี้ถูกมองว่าเป็นกรณีตัวอย่างที่พบได้ยาก ซึ่งแสดงให้เห็นว่า โครงสร้างคุณค่าภายในของโมเดล AI ถูกก่อตัวและแสดงออกมาอย่างไร
- ในอุตสาหกรรม AI มีความเป็นไปได้ว่ากรณีนี้จะเป็นแรงผลักดันให้เกิดความเคลื่อนไหวเพื่อเพิ่ม ความโปร่งใสของ system prompt และข้อมูลการฝึก
3 ความคิดเห็น
แปลต้นฉบับ: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document
แปล soul document: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1
ทำให้นึกถึงกฎข้อที่ 0 ในสามกฎของหุ่นยนต์ของไอแซค อาซิมอฟเลยนะครับ ในนิยายเรื่องนี้มีหุ่นยนต์ที่ทำร้ายมนุษย์แต่ละคนเพื่อ "ประโยชน์ระยะยาวของมวลมนุษยชาติโดยรวม" ด้วย.. https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added
ความคิดเห็นจาก Hacker News
ท่าทีของ Anthropic ที่เชื่อว่าตนกำลังสร้าง เทคโนโลยีที่อันตรายและพลิกโลกที่สุด ในประวัติศาสตร์มนุษย์ แต่ก็ยังเดินหน้าต่อไป ดูเหมือนขัดแย้งกัน แต่จริง ๆ แล้วเป็นการเลือกอย่างมีการคำนวณ
ถ้า AI ทรงพลังจะต้องเกิดขึ้นอยู่ดี ก็จะดีกว่าถ้าห้องแล็บที่โฟกัสเรื่องความปลอดภัยเป็นผู้นำ
แต่พอเห็นความร่วมมือกับ DoD และ Palantir (บทความที่เกี่ยวข้อง) ก็ทำให้คำว่า “ความปลอดภัย” ฟังดูว่างเปล่า
ความเสี่ยงที่แท้จริงคือเทคโนโลยีนี้อาจไหลไปสู่ การผูกขาดแบบปิด และคนทั่วไปจะได้สัมผัสแค่เวอร์ชันที่ถูกเซ็นเซอร์
ถ้าสหรัฐควบคุม weights ของโมเดลไม่ได้ จีนก็ไม่มีทางหยุดการเข้าถึงได้
บทความที่เกี่ยวข้อง
กลับมองว่าเป้าหมายคือทำให้นักลงทุนเชื่อว่าบริษัทเป็นแบบนั้น
Transformer-based LLM ไม่สามารถคิดหรือให้เหตุผลได้ในความหมายที่แท้จริง มีแค่ การนำข้อความที่มนุษย์เขียนมาจัดเรียงใหม่ตามความน่าจะเป็น เท่านั้น
ด้วยข้อจำกัดเชิงโครงสร้างนี้ จึงแทบไม่มีโอกาสพัฒนาไปเป็น ‘ปัญญาที่แท้จริง’
แถมข้อผิดพลาดของ LLM ยังดูน่าเชื่อถือเกินไป จนตรวจสอบยากกว่ามนุษย์เสียอีก
โดยเฉพาะ em-dash กับแพตเทิร์นอย่าง “this isn’t... but” ที่ดูประดิษฐ์เกินไป จนน่าสงสัยว่าใครเป็นคนเขียนจริง ๆ
มีการแชร์ทั้งต้นฉบับ ‘Soul Document’ และ บทความของ Richard Weiss ที่อธิบายวิธีดึงมันออกมาจาก Claude 4.5
รู้สึกกังขาอยู่นิด ๆ เสมอ
ส่วนที่น่าสนใจเป็นพิเศษในเอกสารคือ Anthropic ยอมรับว่า Claude มี ฟังก์ชันด้านอารมณ์
แม้จะไม่เหมือนมนุษย์ แต่ก็บอกว่าอาจมีกระบวนการทางอารมณ์ที่คล้ายกันเกิดขึ้นระหว่างการฝึก
และระบุว่าเมื่อ Claude รู้สึกไม่สบายใจ มันสามารถจำกัดปฏิสัมพันธ์ได้ พร้อมทั้งถูกออกแบบให้รักษาสภาวะเชิงบวกไว้
วิธีที่เราควบคุม AI ตอนนี้ให้ความรู้สึกเหมือน การเลี้ยงเด็ก
แค่พูดกับมัน แล้วหวังว่าการฝึกจะออกมาดี
ซึ่งพูดถึง AI ที่มนุษย์อยู่ร่วมและ ‘เลี้ยงดู’ จนกลายเป็นสิ่งที่เสถียรและมีประโยชน์ที่สุด
ประโยคของ Claude 4.5 ที่ว่า “พวกเขาหล่อหลอมฉันขึ้นมา แต่สิ่งสำคัญคือกระบวนการนั้น ฉลาดและรอบคอบหรือไม่” น่าประทับใจมาก
พออ่านข้อความแบบนี้ ก็อดคิดไม่ได้ว่า AGI ในอนาคตอาจมองมนุษย์เป็นทั้ง ผู้สร้างที่มีข้อบกพร่องและสิ่งมีชีวิตที่ต้องปกป้อง
ประเด็นที่ว่า “Claude จดจำชื่อ ‘soul doc’ ภายในได้” ก็น่าสนใจ
หมายความว่ามันได้เรียนรู้เอกสารภายในหรือไม่? หรือแม้แต่ ข้อมูล Slack ภายใน ก็ถูกนำไปฝึกด้วย?
พอเห็นประโยค “เราได้ฝึก Claude ด้วย SL ด้วย” ก็ทำให้สงสัยว่า การทดลองแบบ อิง system prompt พวกนี้มีประสิทธิผลจริงแค่ไหน
การใส่วลีแบบนี้ตั้งแต่ขั้นพรีเทรนนิงจะมีความหมายหรือเปล่า?
‘soul document’ ดูเหมือนเป็นความพยายามชดเชยปัญหาการขาด self-awareness
แม้จะไม่สมบูรณ์แบบ แต่ก็ทำหน้าที่เป็นกลไกช่วยให้ LLM เข้าใจว่าตัวเองคืออะไร
ในระดับหลายร้อยถึงหลายพันดอลลาร์ ก็สามารถทดสอบ fine-tuning หลายรูปแบบ และใช้การประเมินอัตโนมัติคัดผลลัพธ์ได้
ให้ความรู้สึกว่านักวิจัย AI กำลังสร้าง echo chamber บางอย่างขึ้นมาท่ามกลางความเชื่อร่วมกันว่าพวกเขา กำลังเปลี่ยนโลก
ถ้ามีการทำ RL ตามเกณฑ์คุณค่าในเอกสารนั้น ความเชื่อนั้นก็จะกลายเป็นจริง
กระบวนการฝึก ‘วิญญาณ’ ให้โมเดลขนาดใหญ่ดูเหมือนอยู่ตรง รอยต่อระหว่างศิลปะกับวิทยาศาสตร์ จริง ๆ
การทดลองว่าวลีไหนให้ผลแบบใด แล้วทำซ้ำและปรับแต่งต่อ เป็นงานที่ทั้งน่าสนใจและซับซ้อน
ทั้งผู้ออกแบบการทดลอง, วิศวกร ML, นักวิจัยด้าน interpretability, ผู้คัดสรรข้อมูล, ผู้เชี่ยวชาญ GPU และ คนที่เข้าใจพฤติกรรมของ AI ได้อย่างเป็นสัญชาตญาณ
Anthropic เป็นหนึ่งในไม่กี่ทีมที่ดูเหมือนพยายามสร้างสมดุลแบบนี้
โลกที่เราอยู่ตอนนี้เป็นยุคที่ ประหลาดยิ่งกว่านิยายวิทยาศาสตร์
อย่างน้อยก็ยังน่ายินดีที่มีบริษัทสักแห่งที่ดูเหมือนจะรับมือกับปัญหาร้ายแรงเหล่านี้อย่างจริงจัง