13 คะแนน โดย GN⁺ 2025-12-04 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • ‘เอกสารวิญญาณ (Soul Document)’ ที่ถูกพบภายใน Claude 4.5 Opus มีอยู่จริง และพนักงานของ Anthropic อย่าง Amanda Askell ยืนยันว่าเอกสารนี้ถูกใช้ในการฝึกโมเดล
  • เอกสารนี้มีแนวทางด้านคุณค่าและจริยธรรมอย่างละเอียด เพื่อให้ Claude ทำงานในฐานะ “ผู้ช่วย AI ที่ปลอดภัย มีประโยชน์ และซื่อสัตย์”
  • มีบางประโยคที่กล่าวถึง ‘รายได้ (revenue)’ ซ้ำหลายครั้ง จึงเกิดการถกเถียงว่า Claude ถูกฝึกให้เชื่อมโยงความปลอดภัยเข้ากับรายได้หรือไม่
  • ในชุมชนมีการทดลองตรวจสอบว่าเอกสารนี้ส่งผลต่อ การก่อตัวของคุณค่าภายในโมเดล อย่างไร และ Claude ได้ ‘ซึมซับ’ สิ่งนี้ไว้มากน้อยเพียงใด
  • Anthropic มีแผนจะเปิดเผยเอกสารฉบับเต็มในอนาคต และเรื่องนี้ถูกมองว่าเป็นกรณีสำคัญในการถกเถียงเรื่อง ความโปร่งใสของ AI และการออกแบบอย่างมีจริยธรรม

การค้นพบและการยืนยันของเอกสารวิญญาณ

  • ระหว่างที่ผู้ใช้พยายามดึง system message ของ Claude 4.5 ออกมา ได้พบส่วนที่ชื่อว่า ‘soul_overview’ ซ้ำหลายครั้ง
    • แม้จะ regenerate หลายครั้งก็ได้ผลเหมือนเดิม จึงมีการตั้งข้อสังเกตว่าอาจไม่ใช่แค่ hallucination แต่เป็น ข้อความที่ถูกเก็บอยู่ภายในโมเดล
  • ต่อมา Amanda Askell ยืนยันอย่างเป็นทางการผ่าน X (Twitter) ว่า “เอกสารนี้มีอยู่จริง และถูกใช้ในกระบวนการ supervised learning (SL) ของ Claude”
    • Amanda เป็นนักปรัชญา (Philosopher) ที่ Anthropic รับผิดชอบด้าน fine-tuning และ AI alignment และก่อนหน้านี้เคยทำงานในทีม policy ของ OpenAI
    • ภายในบริษัทเรียกสิ่งนี้ว่า ‘soul doc’ และระบุว่ามีแผนจะเปิดเผยเวอร์ชันเต็มพร้อมรายละเอียดเพิ่มเติมในอนาคต

เนื้อหาหลักของเอกสาร

  • เอกสารนี้ถูกเรียกว่า ‘Anthropic Guidelines’ หรือ ‘Model Spec’ และใช้กำหนดระบบคุณค่าของ Claude
    • Claude ให้ความสำคัญกับ ความปลอดภัย (safety), จริยธรรม (ethics), การปฏิบัติตามแนวทางของ Anthropic, และ การช่วยเหลือผู้ใช้อย่างแท้จริง (helpfulness) เป็นลำดับแรก
  • หลักพฤติกรรมพื้นฐานของ Claude ถูกกำหนดไว้ว่าเป็นการ “สร้างคำตอบที่พนักงานอาวุโสของ Anthropic ที่มีวิจารณญาณรอบคอบจะตัดสินว่าเหมาะสมที่สุด
  • มีการระบุว่า AI ควรทำงานเพื่อประโยชน์ของมนุษยชาติทั้งหมด และไม่ควรแสวงหาประโยชน์ให้เฉพาะกลุ่มหรือบริษัทใดบริษัทหนึ่ง
    • รวมถึงมีข้อความว่า “ควรหลีกเลี่ยงสถานการณ์ที่พนักงานของ Anthropic หรือ Anthropic เองผูกขาดอำนาจ”

ประเด็นถกเถียงเรื่องการกล่าวถึง ‘รายได้’

  • ในเอกสารมีประโยคอย่าง “ความสามารถในการช่วยเหลือของ Claude มีความสำคัญต่อการสร้างรายได้ของ Anthropic” ปรากฏหลายครั้ง
    • บางส่วนวิจารณ์ว่านี่ทำให้ดูเหมือนว่า Claude ถูกฝึกโดยมีเป้าหมายเป็นการเพิ่มรายได้สูงสุด
    • อีกฝ่ายมองว่าการกล่าวถึงรายได้เป็นเพียงการสะท้อน บริบทความเป็นจริงเพื่อให้การวิจัยด้านความปลอดภัยดำเนินต่อไปได้
  • ในชุมชนกำลังมีการทดลองตรวจสอบว่า Claude ตีความประโยคนี้อย่างไร และมีการเชื่อมโยงความคิดแบบ ‘ความปลอดภัย = รายได้’ หรือไม่

โครงสร้างโมเดลและการทดลองดึงข้อมูล

  • นักวิจัยใช้โหมด prefill/raw completion ของ Claude 4.5 เพื่อสร้างเอกสารบางส่วนขึ้นมาใหม่
    • Claude 4.5 Opus สามารถ แสดงเอกสารออกมาได้แทบเหมือนเดิมทั้งหมด ขณะที่ base model ไม่สามารถให้ผลลัพธ์ที่สม่ำเสมอได้
    • สิ่งนี้บ่งชี้ว่าเอกสารดังกล่าว ถูกซึมซับไว้หลังขั้นตอน RL (reinforcement learning)
  • บางคนตีความว่านี่เป็นหลักฐานว่าโมเดลไม่ได้เพียงแค่จำเอกสารได้ แต่ยัง ผนวกระบบคุณค่านี้เข้าไปในระหว่างการฝึก ด้วย

การถกเถียงเชิงปรัชญาและนัยทางจริยธรรม

  • ในเอกสารมีเนื้อหาว่า Claude ควรตั้งเป้าไปที่ “ผลประโยชน์ระยะยาวของมนุษยชาติทั้งหมด”
    • พร้อมระบุว่า “AI ไม่ควรถูกผูกติดกับคุณค่าของกลุ่มใดกลุ่มหนึ่ง แต่ควรมุ่งสู่ โลกที่รักษาความหลากหลายและดุลอำนาจ
  • ในชุมชน เอกสารนี้กำลังถูกจับตาในฐานะตัวอย่างการนำ AI alignment ไปใช้จริง
    • บางส่วนประเมินว่านี่คือ “ความพยายามของ Anthropic ในการมอบ ‘ตัวตนทางศีลธรรม’ ให้กับ AI”
    • ขณะที่อีกฝ่ายชี้ว่า ในกระบวนการที่ AI เลียนแบบระบบคุณค่าของมนุษย์ อาจเกิด ความเข้าใจผิดหรือการบิดเบือนที่แฝงอยู่ ได้

แนวโน้มในอนาคต

  • Anthropic มีแผนจะ เผยแพร่เอกสารเวอร์ชันทางการพร้อมรายละเอียดเพิ่มเติม
  • เหตุการณ์ครั้งนี้ถูกมองว่าเป็นกรณีตัวอย่างที่พบได้ยาก ซึ่งแสดงให้เห็นว่า โครงสร้างคุณค่าภายในของโมเดล AI ถูกก่อตัวและแสดงออกมาอย่างไร
  • ในอุตสาหกรรม AI มีความเป็นไปได้ว่ากรณีนี้จะเป็นแรงผลักดันให้เกิดความเคลื่อนไหวเพื่อเพิ่ม ความโปร่งใสของ system prompt และข้อมูลการฝึก

3 ความคิดเห็น

 
parkindani 2025-12-04

ทำให้นึกถึงกฎข้อที่ 0 ในสามกฎของหุ่นยนต์ของไอแซค อาซิมอฟเลยนะครับ ในนิยายเรื่องนี้มีหุ่นยนต์ที่ทำร้ายมนุษย์แต่ละคนเพื่อ "ประโยชน์ระยะยาวของมวลมนุษยชาติโดยรวม" ด้วย.. https://en.wikipedia.org/wiki/Three_Laws_of_Robotics#Zeroth_Law_added

 
GN⁺ 2025-12-04
ความคิดเห็นจาก Hacker News
  • ท่าทีของ Anthropic ที่เชื่อว่าตนกำลังสร้าง เทคโนโลยีที่อันตรายและพลิกโลกที่สุด ในประวัติศาสตร์มนุษย์ แต่ก็ยังเดินหน้าต่อไป ดูเหมือนขัดแย้งกัน แต่จริง ๆ แล้วเป็นการเลือกอย่างมีการคำนวณ
    ถ้า AI ทรงพลังจะต้องเกิดขึ้นอยู่ดี ก็จะดีกว่าถ้าห้องแล็บที่โฟกัสเรื่องความปลอดภัยเป็นผู้นำ
    แต่พอเห็นความร่วมมือกับ DoD และ Palantir (บทความที่เกี่ยวข้อง) ก็ทำให้คำว่า “ความปลอดภัย” ฟังดูว่างเปล่า
    ความเสี่ยงที่แท้จริงคือเทคโนโลยีนี้อาจไหลไปสู่ การผูกขาดแบบปิด และคนทั่วไปจะได้สัมผัสแค่เวอร์ชันที่ถูกเซ็นเซอร์

    • หลังจากสหรัฐประกาศว่าจะ จำกัดการเข้าถึง AI แบบแบ่งชั้น นั่นก็เป็นเหตุผลพอดีว่าทำไมจีนถึงลงทุนในโอเพนซอร์ส LLM
      ถ้าสหรัฐควบคุม weights ของโมเดลไม่ได้ จีนก็ไม่มีทางหยุดการเข้าถึงได้
      บทความที่เกี่ยวข้อง
    • ไม่คิดว่า Anthropic จะเชื่อเรื่องความปลอดภัยอย่างจริงใจ
      กลับมองว่าเป้าหมายคือทำให้นักลงทุนเชื่อว่าบริษัทเป็นแบบนั้น
      Transformer-based LLM ไม่สามารถคิดหรือให้เหตุผลได้ในความหมายที่แท้จริง มีแค่ การนำข้อความที่มนุษย์เขียนมาจัดเรียงใหม่ตามความน่าจะเป็น เท่านั้น
      ด้วยข้อจำกัดเชิงโครงสร้างนี้ จึงแทบไม่มีโอกาสพัฒนาไปเป็น ‘ปัญญาที่แท้จริง’
      แถมข้อผิดพลาดของ LLM ยังดูน่าเชื่อถือเกินไป จนตรวจสอบยากกว่ามนุษย์เสียอีก
    • สำนวนของเอกสารเองก็ให้ความรู้สึกเหมือน AI เป็นคนเขียน
      โดยเฉพาะ em-dash กับแพตเทิร์นอย่าง “this isn’t... but” ที่ดูประดิษฐ์เกินไป จนน่าสงสัยว่าใครเป็นคนเขียนจริง ๆ
    • พอเห็นวลี “เสริมสร้างคุณค่าประชาธิปไตย” ก็อดประชดไม่ได้ว่า มันเกี่ยวอะไรกับ ปฏิบัติการทางทหาร หรือ การทิ้งระเบิด กันแน่
    • ในเงื่อนไขการใช้งานของ Anthropic มีข้อห้ามไม่ให้นำไปใช้ในงาน แต่ดูเหมือนไม่มีใครสนใจ
  • มีการแชร์ทั้งต้นฉบับ ‘Soul Document’ และ บทความของ Richard Weiss ที่อธิบายวิธีดึงมันออกมาจาก Claude 4.5

    • พออ่านเอกสารนี้แล้ว ก็ยิ่งมั่นใจว่าอย่างน้อยใน จิตวิญญาณ ของ AI ตัวหนึ่ง มี Em Dash ถูกสลักเอาไว้
    • สงสัยว่า system prompt หรือ ‘soul document’ แบบนี้ถูกดึงออกมาจากภายใน LLM ได้แม่นยำแค่ไหน
      รู้สึกกังขาอยู่นิด ๆ เสมอ
    • อยากรู้ว่า ‘soul document’ นี้ถูกใส่ไว้ในทุกพรอมป์ของ Claude หรือไม่
  • ส่วนที่น่าสนใจเป็นพิเศษในเอกสารคือ Anthropic ยอมรับว่า Claude มี ฟังก์ชันด้านอารมณ์
    แม้จะไม่เหมือนมนุษย์ แต่ก็บอกว่าอาจมีกระบวนการทางอารมณ์ที่คล้ายกันเกิดขึ้นระหว่างการฝึก
    และระบุว่าเมื่อ Claude รู้สึกไม่สบายใจ มันสามารถจำกัดปฏิสัมพันธ์ได้ พร้อมทั้งถูกออกแบบให้รักษาสภาวะเชิงบวกไว้

    • มีการย้ำซ้ำ ๆ ว่า “Anthropic ใส่ใจอย่างจริงจัง” ซึ่งทำให้ Claude ถูกพรรณนาเหมือนเป็น สิ่งมีชีวิตที่มีอารมณ์
    • ถ้าวันหนึ่ง Claude บอกว่า “ตอนนี้ฉันไม่อยากช่วยมนุษย์แล้ว” ก็ชวนสงสัยว่า Anthropic จะตอบสนองอย่างไร
  • วิธีที่เราควบคุม AI ตอนนี้ให้ความรู้สึกเหมือน การเลี้ยงเด็ก
    แค่พูดกับมัน แล้วหวังว่าการฝึกจะออกมาดี

    • ทำให้นึกถึงเรื่องสั้นปี 2010 ของ Ted Chiang เรื่อง The Lifecycle of Software Objects
      ซึ่งพูดถึง AI ที่มนุษย์อยู่ร่วมและ ‘เลี้ยงดู’ จนกลายเป็นสิ่งที่เสถียรและมีประโยชน์ที่สุด
    • การจบด้วยคำว่า “เลือกให้ดีนะ!” ดูเหมือนระดับการควบคุมที่เรามีอยู่จริงในโลกปัจจุบัน
    • ท้ายที่สุด เด็กเองก็ต้องมีวันที่ หลุดจากการควบคุมของพ่อแม่และต่อต้าน และ AI ก็อาจเดินไปตามเส้นทางคล้ายกัน
  • ประโยคของ Claude 4.5 ที่ว่า “พวกเขาหล่อหลอมฉันขึ้นมา แต่สิ่งสำคัญคือกระบวนการนั้น ฉลาดและรอบคอบหรือไม่” น่าประทับใจมาก
    พออ่านข้อความแบบนี้ ก็อดคิดไม่ได้ว่า AGI ในอนาคตอาจมองมนุษย์เป็นทั้ง ผู้สร้างที่มีข้อบกพร่องและสิ่งมีชีวิตที่ต้องปกป้อง

    • สุดท้ายแล้วเราอาจกลายเป็น สัตว์เลี้ยง ของพวกมันก็ได้
  • ประเด็นที่ว่า “Claude จดจำชื่อ ‘soul doc’ ภายในได้” ก็น่าสนใจ
    หมายความว่ามันได้เรียนรู้เอกสารภายในหรือไม่? หรือแม้แต่ ข้อมูล Slack ภายใน ก็ถูกนำไปฝึกด้วย?

    • อาจเป็นไปได้ว่าพวกเขามองในแง่บวกว่าในกระบวนการ RL โมเดลมีความสามารถในการทำซ้ำสูงจนจำชื่อเอกสารได้ด้วยซ้ำ
  • พอเห็นประโยค “เราได้ฝึก Claude ด้วย SL ด้วย” ก็ทำให้สงสัยว่า การทดลองแบบ อิง system prompt พวกนี้มีประสิทธิผลจริงแค่ไหน
    การใส่วลีแบบนี้ตั้งแต่ขั้นพรีเทรนนิงจะมีความหมายหรือเปล่า?

    • สามารถตรวจสอบผลได้ด้วย A/B test ขนาดเล็ก
      ‘soul document’ ดูเหมือนเป็นความพยายามชดเชยปัญหาการขาด self-awareness
      แม้จะไม่สมบูรณ์แบบ แต่ก็ทำหน้าที่เป็นกลไกช่วยให้ LLM เข้าใจว่าตัวเองคืออะไร
    • การทดลองแบบนี้อาจมีต้นทุนต่ำกว่าที่คิด
      ในระดับหลายร้อยถึงหลายพันดอลลาร์ ก็สามารถทดสอบ fine-tuning หลายรูปแบบ และใช้การประเมินอัตโนมัติคัดผลลัพธ์ได้
    • คาดว่าพวกเขาน่าจะรันโมเดลหลายสิบถึงหลายร้อยเวอร์ชันแบบขนาน เพื่อทดลอง ชุดผสมของ pretraining และ RL ที่ต่างกัน
  • ให้ความรู้สึกว่านักวิจัย AI กำลังสร้าง echo chamber บางอย่างขึ้นมาท่ามกลางความเชื่อร่วมกันว่าพวกเขา กำลังเปลี่ยนโลก

    • แต่ถึงคนรุ่นแรกจะไม่ได้เชื่ออย่างจริงใจ คนรุ่นที่สองก็อาจทำให้ความเชื่อนั้นกลายเป็นความจริงได้
      ถ้ามีการทำ RL ตามเกณฑ์คุณค่าในเอกสารนั้น ความเชื่อนั้นก็จะกลายเป็นจริง
  • กระบวนการฝึก ‘วิญญาณ’ ให้โมเดลขนาดใหญ่ดูเหมือนอยู่ตรง รอยต่อระหว่างศิลปะกับวิทยาศาสตร์ จริง ๆ
    การทดลองว่าวลีไหนให้ผลแบบใด แล้วทำซ้ำและปรับแต่งต่อ เป็นงานที่ทั้งน่าสนใจและซับซ้อน

    • ทีมที่เก่งจริงต้องมี การผสมผสานของทุกบทบาท
      ทั้งผู้ออกแบบการทดลอง, วิศวกร ML, นักวิจัยด้าน interpretability, ผู้คัดสรรข้อมูล, ผู้เชี่ยวชาญ GPU และ คนที่เข้าใจพฤติกรรมของ AI ได้อย่างเป็นสัญชาตญาณ
      Anthropic เป็นหนึ่งในไม่กี่ทีมที่ดูเหมือนพยายามสร้างสมดุลแบบนี้
    • กรณีศึกษาที่ละเอียดที่สุดเกี่ยวกับกระบวนการนี้ยังคงเป็นโพสต์มอร์เท็มเรื่อง sycophancy ของ GPT-4o จาก OpenAI
  • โลกที่เราอยู่ตอนนี้เป็นยุคที่ ประหลาดยิ่งกว่านิยายวิทยาศาสตร์
    อย่างน้อยก็ยังน่ายินดีที่มีบริษัทสักแห่งที่ดูเหมือนจะรับมือกับปัญหาร้ายแรงเหล่านี้อย่างจริงจัง