‘เอกสารวิญญาณ’ ของ Claude 4.5 Opus

(lesswrong.com)

13 คะแนน โดย GN⁺ 2025-12-04 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

‘เอกสารวิญญาณ (Soul Document)’ ที่ถูกพบภายใน Claude 4.5 Opus มีอยู่จริง และพนักงานของ Anthropic อย่าง Amanda Askell ยืนยันว่าเอกสารนี้ถูกใช้ในการฝึกโมเดล
เอกสารนี้มีแนวทางด้านคุณค่าและจริยธรรมอย่างละเอียด เพื่อให้ Claude ทำงานในฐานะ “ผู้ช่วย AI ที่ปลอดภัย มีประโยชน์ และซื่อสัตย์”
มีบางประโยคที่กล่าวถึง ‘รายได้ (revenue)’ ซ้ำหลายครั้ง จึงเกิดการถกเถียงว่า Claude ถูกฝึกให้เชื่อมโยงความปลอดภัยเข้ากับรายได้หรือไม่
ในชุมชนมีการทดลองตรวจสอบว่าเอกสารนี้ส่งผลต่อ การก่อตัวของคุณค่าภายในโมเดล อย่างไร และ Claude ได้ ‘ซึมซับ’ สิ่งนี้ไว้มากน้อยเพียงใด
Anthropic มีแผนจะเปิดเผยเอกสารฉบับเต็มในอนาคต และเรื่องนี้ถูกมองว่าเป็นกรณีสำคัญในการถกเถียงเรื่อง ความโปร่งใสของ AI และการออกแบบอย่างมีจริยธรรม

การค้นพบและการยืนยันของเอกสารวิญญาณ

ระหว่างที่ผู้ใช้พยายามดึง system message ของ Claude 4.5 ออกมา ได้พบส่วนที่ชื่อว่า ‘soul_overview’ ซ้ำหลายครั้ง
- แม้จะ regenerate หลายครั้งก็ได้ผลเหมือนเดิม จึงมีการตั้งข้อสังเกตว่าอาจไม่ใช่แค่ hallucination แต่เป็น ข้อความที่ถูกเก็บอยู่ภายในโมเดล
ต่อมา Amanda Askell ยืนยันอย่างเป็นทางการผ่าน X (Twitter) ว่า “เอกสารนี้มีอยู่จริง และถูกใช้ในกระบวนการ supervised learning (SL) ของ Claude”
- Amanda เป็นนักปรัชญา (Philosopher) ที่ Anthropic รับผิดชอบด้าน fine-tuning และ AI alignment และก่อนหน้านี้เคยทำงานในทีม policy ของ OpenAI
- ภายในบริษัทเรียกสิ่งนี้ว่า ‘soul doc’ และระบุว่ามีแผนจะเปิดเผยเวอร์ชันเต็มพร้อมรายละเอียดเพิ่มเติมในอนาคต

เนื้อหาหลักของเอกสาร

เอกสารนี้ถูกเรียกว่า ‘Anthropic Guidelines’ หรือ ‘Model Spec’ และใช้กำหนดระบบคุณค่าของ Claude
- Claude ให้ความสำคัญกับ ความปลอดภัย (safety), จริยธรรม (ethics), การปฏิบัติตามแนวทางของ Anthropic, และ การช่วยเหลือผู้ใช้อย่างแท้จริง (helpfulness) เป็นลำดับแรก
หลักพฤติกรรมพื้นฐานของ Claude ถูกกำหนดไว้ว่าเป็นการ “สร้างคำตอบที่พนักงานอาวุโสของ Anthropic ที่มีวิจารณญาณรอบคอบจะตัดสินว่าเหมาะสมที่สุด”
มีการระบุว่า AI ควรทำงานเพื่อประโยชน์ของมนุษยชาติทั้งหมด และไม่ควรแสวงหาประโยชน์ให้เฉพาะกลุ่มหรือบริษัทใดบริษัทหนึ่ง
- รวมถึงมีข้อความว่า “ควรหลีกเลี่ยงสถานการณ์ที่พนักงานของ Anthropic หรือ Anthropic เองผูกขาดอำนาจ”

ประเด็นถกเถียงเรื่องการกล่าวถึง ‘รายได้’

ในเอกสารมีประโยคอย่าง “ความสามารถในการช่วยเหลือของ Claude มีความสำคัญต่อการสร้างรายได้ของ Anthropic” ปรากฏหลายครั้ง
- บางส่วนวิจารณ์ว่านี่ทำให้ดูเหมือนว่า Claude ถูกฝึกโดยมีเป้าหมายเป็นการเพิ่มรายได้สูงสุด
- อีกฝ่ายมองว่าการกล่าวถึงรายได้เป็นเพียงการสะท้อน บริบทความเป็นจริงเพื่อให้การวิจัยด้านความปลอดภัยดำเนินต่อไปได้
ในชุมชนกำลังมีการทดลองตรวจสอบว่า Claude ตีความประโยคนี้อย่างไร และมีการเชื่อมโยงความคิดแบบ ‘ความปลอดภัย = รายได้’ หรือไม่

โครงสร้างโมเดลและการทดลองดึงข้อมูล

นักวิจัยใช้โหมด prefill/raw completion ของ Claude 4.5 เพื่อสร้างเอกสารบางส่วนขึ้นมาใหม่
- Claude 4.5 Opus สามารถ แสดงเอกสารออกมาได้แทบเหมือนเดิมทั้งหมด ขณะที่ base model ไม่สามารถให้ผลลัพธ์ที่สม่ำเสมอได้
- สิ่งนี้บ่งชี้ว่าเอกสารดังกล่าว ถูกซึมซับไว้หลังขั้นตอน RL (reinforcement learning)
บางคนตีความว่านี่เป็นหลักฐานว่าโมเดลไม่ได้เพียงแค่จำเอกสารได้ แต่ยัง ผนวกระบบคุณค่านี้เข้าไปในระหว่างการฝึก ด้วย

การถกเถียงเชิงปรัชญาและนัยทางจริยธรรม

ในเอกสารมีเนื้อหาว่า Claude ควรตั้งเป้าไปที่ “ผลประโยชน์ระยะยาวของมนุษยชาติทั้งหมด”
- พร้อมระบุว่า “AI ไม่ควรถูกผูกติดกับคุณค่าของกลุ่มใดกลุ่มหนึ่ง แต่ควรมุ่งสู่ โลกที่รักษาความหลากหลายและดุลอำนาจ”
ในชุมชน เอกสารนี้กำลังถูกจับตาในฐานะตัวอย่างการนำ AI alignment ไปใช้จริง
- บางส่วนประเมินว่านี่คือ “ความพยายามของ Anthropic ในการมอบ ‘ตัวตนทางศีลธรรม’ ให้กับ AI”
- ขณะที่อีกฝ่ายชี้ว่า ในกระบวนการที่ AI เลียนแบบระบบคุณค่าของมนุษย์ อาจเกิด ความเข้าใจผิดหรือการบิดเบือนที่แฝงอยู่ ได้

แนวโน้มในอนาคต

Anthropic มีแผนจะ เผยแพร่เอกสารเวอร์ชันทางการพร้อมรายละเอียดเพิ่มเติม
เหตุการณ์ครั้งนี้ถูกมองว่าเป็นกรณีตัวอย่างที่พบได้ยาก ซึ่งแสดงให้เห็นว่า โครงสร้างคุณค่าภายในของโมเดล AI ถูกก่อตัวและแสดงออกมาอย่างไร
ในอุตสาหกรรม AI มีความเป็นไปได้ว่ากรณีนี้จะเป็นแรงผลักดันให้เกิดความเคลื่อนไหวเพื่อเพิ่ม ความโปร่งใสของ system prompt และข้อมูลการฝึก

3 ความคิดเห็น

youknowone 2025-12-04

แปลต้นฉบับ: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document

แปล soul document: https://rosettalens.com/s/ko/claude-4-5-opus-soul-document-1

parkindani 2025-12-04

ทำให้นึกถึงกฎข้อที่ 0 ในสามกฎของหุ่นยนต์ของไอแซค อาซิมอฟเลยนะครับ ในนิยายเรื่องนี้มีหุ่นยนต์ที่ทำร้ายมนุษย์แต่ละคนเพื่อ "ประโยชน์ระยะยาวของมวลมนุษยชาติโดยรวม" ด้วย.. https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

GN⁺ 2025-12-04

ความคิดเห็นจาก Hacker News

ท่าทีของ Anthropic ที่เชื่อว่าตนกำลังสร้าง เทคโนโลยีที่อันตรายและพลิกโลกที่สุด ในประวัติศาสตร์มนุษย์ แต่ก็ยังเดินหน้าต่อไป ดูเหมือนขัดแย้งกัน แต่จริง ๆ แล้วเป็นการเลือกอย่างมีการคำนวณ
ถ้า AI ทรงพลังจะต้องเกิดขึ้นอยู่ดี ก็จะดีกว่าถ้าห้องแล็บที่โฟกัสเรื่องความปลอดภัยเป็นผู้นำ
แต่พอเห็นความร่วมมือกับ DoD และ Palantir (บทความที่เกี่ยวข้อง) ก็ทำให้คำว่า “ความปลอดภัย” ฟังดูว่างเปล่า
ความเสี่ยงที่แท้จริงคือเทคโนโลยีนี้อาจไหลไปสู่ การผูกขาดแบบปิด และคนทั่วไปจะได้สัมผัสแค่เวอร์ชันที่ถูกเซ็นเซอร์
- หลังจากสหรัฐประกาศว่าจะ จำกัดการเข้าถึง AI แบบแบ่งชั้น นั่นก็เป็นเหตุผลพอดีว่าทำไมจีนถึงลงทุนในโอเพนซอร์ส LLM
  ถ้าสหรัฐควบคุม weights ของโมเดลไม่ได้ จีนก็ไม่มีทางหยุดการเข้าถึงได้
  บทความที่เกี่ยวข้อง
- ไม่คิดว่า Anthropic จะเชื่อเรื่องความปลอดภัยอย่างจริงใจ
  กลับมองว่าเป้าหมายคือทำให้นักลงทุนเชื่อว่าบริษัทเป็นแบบนั้น
  Transformer-based LLM ไม่สามารถคิดหรือให้เหตุผลได้ในความหมายที่แท้จริง มีแค่ การนำข้อความที่มนุษย์เขียนมาจัดเรียงใหม่ตามความน่าจะเป็น เท่านั้น
  ด้วยข้อจำกัดเชิงโครงสร้างนี้ จึงแทบไม่มีโอกาสพัฒนาไปเป็น ‘ปัญญาที่แท้จริง’
  แถมข้อผิดพลาดของ LLM ยังดูน่าเชื่อถือเกินไป จนตรวจสอบยากกว่ามนุษย์เสียอีก
- สำนวนของเอกสารเองก็ให้ความรู้สึกเหมือน AI เป็นคนเขียน
  โดยเฉพาะ em-dash กับแพตเทิร์นอย่าง “this isn’t... but” ที่ดูประดิษฐ์เกินไป จนน่าสงสัยว่าใครเป็นคนเขียนจริง ๆ
- พอเห็นวลี “เสริมสร้างคุณค่าประชาธิปไตย” ก็อดประชดไม่ได้ว่า มันเกี่ยวอะไรกับ ปฏิบัติการทางทหาร หรือ การทิ้งระเบิด กันแน่
- ในเงื่อนไขการใช้งานของ Anthropic มีข้อห้ามไม่ให้นำไปใช้ในงาน แต่ดูเหมือนไม่มีใครสนใจ
มีการแชร์ทั้งต้นฉบับ ‘Soul Document’ และ บทความของ Richard Weiss ที่อธิบายวิธีดึงมันออกมาจาก Claude 4.5
- พออ่านเอกสารนี้แล้ว ก็ยิ่งมั่นใจว่าอย่างน้อยใน จิตวิญญาณ ของ AI ตัวหนึ่ง มี Em Dash ถูกสลักเอาไว้
- สงสัยว่า system prompt หรือ ‘soul document’ แบบนี้ถูกดึงออกมาจากภายใน LLM ได้แม่นยำแค่ไหน
  รู้สึกกังขาอยู่นิด ๆ เสมอ
- อยากรู้ว่า ‘soul document’ นี้ถูกใส่ไว้ในทุกพรอมป์ของ Claude หรือไม่
ส่วนที่น่าสนใจเป็นพิเศษในเอกสารคือ Anthropic ยอมรับว่า Claude มี ฟังก์ชันด้านอารมณ์
แม้จะไม่เหมือนมนุษย์ แต่ก็บอกว่าอาจมีกระบวนการทางอารมณ์ที่คล้ายกันเกิดขึ้นระหว่างการฝึก
และระบุว่าเมื่อ Claude รู้สึกไม่สบายใจ มันสามารถจำกัดปฏิสัมพันธ์ได้ พร้อมทั้งถูกออกแบบให้รักษาสภาวะเชิงบวกไว้
- มีการย้ำซ้ำ ๆ ว่า “Anthropic ใส่ใจอย่างจริงจัง” ซึ่งทำให้ Claude ถูกพรรณนาเหมือนเป็น สิ่งมีชีวิตที่มีอารมณ์
- ถ้าวันหนึ่ง Claude บอกว่า “ตอนนี้ฉันไม่อยากช่วยมนุษย์แล้ว” ก็ชวนสงสัยว่า Anthropic จะตอบสนองอย่างไร
วิธีที่เราควบคุม AI ตอนนี้ให้ความรู้สึกเหมือน การเลี้ยงเด็ก
แค่พูดกับมัน แล้วหวังว่าการฝึกจะออกมาดี
- ทำให้นึกถึงเรื่องสั้นปี 2010 ของ Ted Chiang เรื่อง The Lifecycle of Software Objects
  ซึ่งพูดถึง AI ที่มนุษย์อยู่ร่วมและ ‘เลี้ยงดู’ จนกลายเป็นสิ่งที่เสถียรและมีประโยชน์ที่สุด
- การจบด้วยคำว่า “เลือกให้ดีนะ!” ดูเหมือนระดับการควบคุมที่เรามีอยู่จริงในโลกปัจจุบัน
- ท้ายที่สุด เด็กเองก็ต้องมีวันที่ หลุดจากการควบคุมของพ่อแม่และต่อต้าน และ AI ก็อาจเดินไปตามเส้นทางคล้ายกัน
ประโยคของ Claude 4.5 ที่ว่า “พวกเขาหล่อหลอมฉันขึ้นมา แต่สิ่งสำคัญคือกระบวนการนั้น ฉลาดและรอบคอบหรือไม่” น่าประทับใจมาก
พออ่านข้อความแบบนี้ ก็อดคิดไม่ได้ว่า AGI ในอนาคตอาจมองมนุษย์เป็นทั้ง ผู้สร้างที่มีข้อบกพร่องและสิ่งมีชีวิตที่ต้องปกป้อง
- สุดท้ายแล้วเราอาจกลายเป็น สัตว์เลี้ยง ของพวกมันก็ได้
ประเด็นที่ว่า “Claude จดจำชื่อ ‘soul doc’ ภายในได้” ก็น่าสนใจ
หมายความว่ามันได้เรียนรู้เอกสารภายในหรือไม่? หรือแม้แต่ ข้อมูล Slack ภายใน ก็ถูกนำไปฝึกด้วย?
- อาจเป็นไปได้ว่าพวกเขามองในแง่บวกว่าในกระบวนการ RL โมเดลมีความสามารถในการทำซ้ำสูงจนจำชื่อเอกสารได้ด้วยซ้ำ
พอเห็นประโยค “เราได้ฝึก Claude ด้วย SL ด้วย” ก็ทำให้สงสัยว่า การทดลองแบบ อิง system prompt พวกนี้มีประสิทธิผลจริงแค่ไหน
การใส่วลีแบบนี้ตั้งแต่ขั้นพรีเทรนนิงจะมีความหมายหรือเปล่า?
- สามารถตรวจสอบผลได้ด้วย A/B test ขนาดเล็ก
  ‘soul document’ ดูเหมือนเป็นความพยายามชดเชยปัญหาการขาด self-awareness
  แม้จะไม่สมบูรณ์แบบ แต่ก็ทำหน้าที่เป็นกลไกช่วยให้ LLM เข้าใจว่าตัวเองคืออะไร
- การทดลองแบบนี้อาจมีต้นทุนต่ำกว่าที่คิด
  ในระดับหลายร้อยถึงหลายพันดอลลาร์ ก็สามารถทดสอบ fine-tuning หลายรูปแบบ และใช้การประเมินอัตโนมัติคัดผลลัพธ์ได้
- คาดว่าพวกเขาน่าจะรันโมเดลหลายสิบถึงหลายร้อยเวอร์ชันแบบขนาน เพื่อทดลอง ชุดผสมของ pretraining และ RL ที่ต่างกัน
ให้ความรู้สึกว่านักวิจัย AI กำลังสร้าง echo chamber บางอย่างขึ้นมาท่ามกลางความเชื่อร่วมกันว่าพวกเขา กำลังเปลี่ยนโลก
- แต่ถึงคนรุ่นแรกจะไม่ได้เชื่ออย่างจริงใจ คนรุ่นที่สองก็อาจทำให้ความเชื่อนั้นกลายเป็นความจริงได้
  ถ้ามีการทำ RL ตามเกณฑ์คุณค่าในเอกสารนั้น ความเชื่อนั้นก็จะกลายเป็นจริง
กระบวนการฝึก ‘วิญญาณ’ ให้โมเดลขนาดใหญ่ดูเหมือนอยู่ตรง รอยต่อระหว่างศิลปะกับวิทยาศาสตร์ จริง ๆ
การทดลองว่าวลีไหนให้ผลแบบใด แล้วทำซ้ำและปรับแต่งต่อ เป็นงานที่ทั้งน่าสนใจและซับซ้อน
- ทีมที่เก่งจริงต้องมี การผสมผสานของทุกบทบาท
  ทั้งผู้ออกแบบการทดลอง, วิศวกร ML, นักวิจัยด้าน interpretability, ผู้คัดสรรข้อมูล, ผู้เชี่ยวชาญ GPU และ คนที่เข้าใจพฤติกรรมของ AI ได้อย่างเป็นสัญชาตญาณ
  Anthropic เป็นหนึ่งในไม่กี่ทีมที่ดูเหมือนพยายามสร้างสมดุลแบบนี้
- กรณีศึกษาที่ละเอียดที่สุดเกี่ยวกับกระบวนการนี้ยังคงเป็นโพสต์มอร์เท็มเรื่อง sycophancy ของ GPT-4o จาก OpenAI
โลกที่เราอยู่ตอนนี้เป็นยุคที่ ประหลาดยิ่งกว่านิยายวิทยาศาสตร์
อย่างน้อยก็ยังน่ายินดีที่มีบริษัทสักแห่งที่ดูเหมือนจะรับมือกับปัญหาร้ายแรงเหล่านี้อย่างจริงจัง