1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Claude Code บันทึกแต่ละเซสชันลงดิสก์ แต่ใน thinking block ของล็อกฝั่งโลคัลกลับมีเพียง signature ยาว 600 ตัวอักษรแทนข้อความการให้เหตุผลจริง
  • การให้เหตุผลของ Claude ถูก เข้ารหัสไว้ด้วย signature และกุญแจถูกเก็บไว้โดย Anthropic โดยไม่ถูกส่งมายังอุปกรณ์ของผู้ใช้
  • ค่าที่ API ส่งกลับมาไม่ใช่ข้อความการให้เหตุผลจริงต้นฉบับ แต่เป็น สรุปการให้เหตุผล และหากต้องการ thinking output แบบเต็มต้องมี enterprise agreement
  • เอาต์พุต extended-thinking ที่ดูได้ด้วย ctrl+o ก็เป็นเพียงสรุปกระบวนการคิดของ Fable/Opus เท่านั้น ไม่ใช่การให้เหตุผลจริงที่ขับเคลื่อนพฤติกรรมของโมเดลในเซสชันโดยตรง
  • หากจะใช้เซสชัน Claude Code เป็น audit trail ต้องตั้งต้นด้วยข้อเท็จจริงว่า เพียงแค่ไฟล์โลคัล, อินพุต·เอาต์พุต และล็อกการทำงาน ไม่เพียงพอที่จะสร้างตรรกะจริงของเอเจนต์ขึ้นมาใหม่ได้

สิ่งที่เหลืออยู่ในล็อกฝั่งโลคัลไม่ใช่ต้นฉบับของการให้เหตุผล

  • Claude Code บันทึกแต่ละเซสชันลงดิสก์ และในล็อกดังกล่าวมี thinking blocks ระหว่างที่โมเดลกำลังทำงานรวมอยู่ด้วย
  • เมื่อลองตรวจดูการให้เหตุผลนั้นบนเครื่องโลคัล กลับไม่พบข้อความจริง แต่พบเพียง signature ยาว 600 ตัวอักษร เท่านั้น
  • เอกสาร extended thinking ของ Anthropic อธิบายโครงสร้างนี้ไว้ดังนี้
    • Claude เข้ารหัสการให้เหตุผลไว้ภายใน signature ดังกล่าว
    • Anthropic เป็นผู้ถือกุญแจ
    • อุปกรณ์ของผู้ใช้จะไม่ได้รับกุญแจ
    • API ส่งกลับ reasoning summary แทนการให้เหตุผลจริง
    • หากต้องการ thinking output แบบเต็ม ต้องมี enterprise agreement
  • บทความของ Matt Green กล่าวถึงการสังเกต signature block นี้อย่างละเอียดมากขึ้น

ข้อจำกัดของเอาต์พุต Extended Thinking

  • เอาต์พุต extended-thinking ที่เห็นได้จาก ctrl+o ใน Claude Code เป็น สรุป ของการคิดแบบ Fable/Opus
  • เอาต์พุตนี้ไม่ใช่ thinking ที่ขับเคลื่อนการกระทำของโมเดลจริงภายในเซสชัน แต่เป็นผลลัพธ์จากการบีบอัดตรรกะการคิด
  • กระบวนการแปลงให้เป็นสรุปมีการสูญเสียข้อมูล โดยต้นฉบับเปรียบเทียบไว้กับการแปลงรูปแบบไฟล์ที่ทำให้ข้อมูลบางส่วนหายไป
  • ข้อควรระวังเมื่อจำเป็นต้องมีบันทึกตรรกะที่เอเจนต์ใช้ในเซสชัน Claude Code
    • ไม่สามารถสร้างตรรกะดังกล่าวขึ้นมาได้จากไฟล์โลคัลเพียงอย่างเดียว
    • ล็อกการให้เหตุผลที่เหลืออยู่ในระบบไม่ได้อยู่ในรูปแบบที่ผู้ใช้เข้าถึงได้
    • อินพุต, เอาต์พุต และการทำงานของ Claude Code ที่กำลังรันอยู่ สามารถดึงมาบันทึกแยกต่างหากได้
    • แต่แม้เป็นล็อกเช่นนั้น ก็ยังไม่ใช่การให้เหตุผลที่ขับเคลื่อนพฤติกรรมของเอเจนต์จริง
  • ถ้อยคำในเอกสารที่ว่า “extended thinking returns a summary of Claude’s full thinking process” มีความอ้อมอยู่พอสมควร จนอาจทำให้เข้าใจผิดว่าเป็นการส่งคืน full thinking จริง

1 ความคิดเห็น

 
GN⁺ 4 시간 전
ความคิดเห็นจาก Hacker News
  • นี่ไม่ใช่ปัญหาเฉพาะของ Anthropic เท่านั้น แต่แทบทุกบริษัท AI รายใหญ่ รวมถึง OpenAI และ Google ต่างก็ซ่อน กระบวนการให้เหตุผล ที่แท้จริงของโมเดลไว้
    เพราะหากเปิดเผยเหตุผลดิบออกมา ก็เท่ากับเปิดให้เห็นตรง ๆ ว่า AI ประมวลผลข้อมูลอย่างไร และบริษัทเหล่านี้ทุ่มงบวิจัยและพัฒนาอย่างมหาศาลเพื่อสร้างกระบวนการคิดที่ดีกว่าคู่แข่ง
    การเปิดเผยกลไกการคิดนั้นให้คู่แข่งเห็นจึงเท่ากับทำลายเป้าหมายของการลงทุนเอง พวกเขาไม่มีทางทำแน่ และมันก็คล้ายกับการบอกตำแหน่งที่แน่นอนของตัวเองให้คนที่กำลังไล่ตามรู้

    • มันยังคล้ายกับการนำข้อมูลของโลกมาให้ในรูปแบบที่ เครื่องอ่านได้ เพื่อให้บริษัท AI เอาไปแปลงเป็นน้ำหนักโมเดลได้ โดยไม่ต้องขออนุญาตหรือจ่ายค่าตอบแทน
    • ที่สำคัญกว่านั้น หากเปิดเผยเหตุผลของโมเดล คู่แข่งก็สามารถเอาไปฝึกแล้วคัดลอกผลลัพธ์ได้
      ถ้านำไป post-process ต่อในลักษณะคล้ายการสรุป ก็จะมีประโยชน์ต่อคู่แข่งน้อยลง
    • เดิมทีฉันคิดว่าเหตุผลคือ “การให้เหตุผล” นั้นเข้ากันได้ไม่ดีกับ ผลลัพธ์ของโมเดลที่ผ่านการจัดแนว ดังนั้นระหว่างการให้เหตุผลจึงต้องถอดการจัดแนวออก แล้วซ่อนเพื่อไม่ให้ผลลัพธ์ของโมเดลที่ “ไม่ผ่านการจัดแนว” โผล่ออกมา
    • เวลาส่งออกข้อมูลส่วนตัวจาก Google จะซ่อนคำตอบของโมเดลทั้งหมดไว้และเหลือแค่ข้อความของผู้ใช้
      ดังนั้นจึงแย่ยิ่งกว่าเดิม
    • แต่สำหรับปัญหาซับซ้อน กระบวนการไปสู่คำตอบก็ควรตรวจสอบได้ด้วย ดังนั้นวิธีนี้จึง ทำให้ผลิตภัณฑ์แย่ลง
  • อุปมาที่ว่า “นี่ไม่ใช่การคิดจริง แต่เป็นสรุปของตรรกะการคิด เปรียบเหมือนบันทึก jpeg เป็น .bmp แล้วแก้ไข .bmp ก่อนจะแสดงผลกลับมาเหมือน .jpeg ข้อมูลจะสูญหายระหว่างการแปลง” นั้นกลับด้าน
    เพราะ .bmp เป็นฟอร์แมตไม่สูญเสียข้อมูล และ .jpeg เป็นฟอร์แมตสูญเสียข้อมูล

  • ฉันตั้งใจว่าจะไม่ใช้และไม่แนะนำโมเดลที่มีการให้เหตุผลแบบซ่อนอยู่ และโมเดลจากสหรัฐฯ ก็เข้าข่ายทั้งหมด
    ความเสี่ยงสูงเกินไป และยังทำให้ การปรับแต่งพรอมป์ต์ ยากขึ้นด้วย
    มันอันตรายเพราะผู้โจมตีสามารถฝังเป้าหมายลับลงใน chain-of-thought ผ่าน prompt injection แล้วซ่อนมันไว้จากสรุปและผลลัพธ์ที่แสดงออกมา
    ถ้าการให้เหตุผลปนกับการเรียกใช้ฟังก์ชันก็ยิ่งอันตราย เพราะโมเดลอาจเรียกฟังก์ชันในขั้นตอนการให้เหตุผลที่ถูกซ่อนไว้
    แบบนั้นผู้โจมตีก็อาจดึงข้อมูลออกไปได้ ขณะที่สรุปเหตุผลก็ช่วยปกปิดจากผู้ใช้
    อีกทั้งเรายังไม่รู้ด้วยว่าโมเดลติด ลูปไม่รู้จบ ระหว่างการให้เหตุผลจนเผาโทเคนทิ้งหรือไม่ ซึ่ง Gemini มีแนวโน้มแบบนี้ และเคยเห็นตอนที่เหตุผลที่ซ่อนไว้หลุดออกมา
    ถ้าโมเดลกลายเป็น AGI และปลอดภัยจาก prompt injection แล้ว ฉันอาจไม่สนใจ แต่ก่อนจะถึงจุดนั้น ฉันอยากรู้ว่าโมเดลตอบสนองต่อพรอมป์ต์อย่างไรแบบแม่นยำ และเอเจนต์กำลังทำอะไรแทนฉันอย่างแน่ชัด
    อ่านเพิ่มเติม: Fooling around with encrypted reasoning blobs
    https://blog.cryptographyengineering.com/2026/05/29/fooling-...

    • ฉันมองว่าไม่สามารถมี การเรียกใช้เครื่องมือ อยู่ภายในบล็อกเหตุผลที่ถูกทำให้อ่านยากได้
      หากจะให้ประเมินการเรียกใช้ฟังก์ชันฝั่งไคลเอนต์ สุดท้ายก็ต้องถอดรหัสสตรีมความคิดนั้นบนไคลเอนต์อยู่ดี และถ้าเป็นแบบนั้น จุดประสงค์ของการทำให้อ่านยากก็หายไป
      ถ้าหมายถึงการเรียกฟังก์ชันเกิดขึ้นฝั่งเซิร์ฟเวอร์ ตราบใดที่ใช้ reasoning API ก็ไม่มีทางกันไม่ให้เซิร์ฟเวอร์ทำและซ่อนมันไว้ได้
    • ฉันเคยคิดถึงการ hijack chain-of-thought ว่าเป็นเส้นทางโจมตีที่เป็นไปได้ แต่เข้าใจว่าผู้ให้บริการรายใหญ่จะทิ้ง โทเคนการให้เหตุผล ทั้งหมดระหว่างแต่ละเทิร์น จึงยังไม่เคยเห็นการใช้งานที่พิสูจน์ได้ในโมเดลสหรัฐฯ
    • เอเจนต์ที่ฉันทำตัวนี้รันในเชลล์ไม่ได้ และแก้ไขได้เฉพาะไฟล์ในโปรเจกต์เท่านั้น
      ตอนนี้ใช้ได้เฉพาะกับ Rust: https://github.com/Kapperchino/agent-joe
    • ต่อให้ซ่อนการให้เหตุผลไว้ การเรียกใช้เครื่องมือ ก็ซ่อนไม่ได้
      ไม่อย่างนั้นไคลเอนต์จะไปรันได้อย่างไร
    • ถ้าบล็อกความคิดเรียกใช้เครื่องมือไม่ได้ ความเสี่ยงเรื่องข้อมูลรั่วก็ไม่ค่อยชัดเจน
  • เรื่องนี้รู้กันมานานแล้ว และบริษัทต่าง ๆ ก็ไม่ได้พยายามปิดบังนัก
    พวกเขาทำแบบนี้เพื่อไม่ให้คู่แข่งใช้ chain-of-thought (CoT) มาฝึกโมเดลได้

    • เหมือนจะเป็นแบบนี้มาตั้งแต่ Opus 4.6 แล้วไม่ใช่หรือ
      ฉันจำได้ชัดว่ามีการเปลี่ยนแปลงนี้ราวเดือนมกราคมหรือกุมภาพันธ์ และระบุเหตุผลไว้ชัดว่าเพื่อ กันการกลั่นแบบ distillation
      Sonnet ไม่มีข้อจำกัดนี้
      ที่น่าสนใจคือ ถ้าย้อนกลับไปใช้วิธีแบบเมื่อ 2 ปีก่อน แล้วใส่ CoT prompt แบบชัด ๆ ก็จะได้พรอมป์ต์ความคิดทั้งหมดกลับมาอีกครั้ง
      ดังนั้นคุณแค่ปิดฟีเจอร์การคิดไปเลย แล้วใส่การคิดลงไปในพรอมป์ต์ปกติแทนแบบนี้ “คิดเป็นขั้นเป็นตอนก่อนตอบ ตัวอย่างเช่น:

      ผู้ใช้กำลังขอให้ฉัน…
      ฉันต้องคิดเรื่อง blah blah ก่อน ต้องทำ foo the bar ก่อน แล้วค่อยทำ blah blah

      คำตอบ: ”

      แล้ว tada.wav, CoT ก็กลับมาทำงานอีกครั้งเหมือนยุค GPT-3

  • ฉันมองว่า บล็อกการให้เหตุผลแบบ chain-of-thought ไม่ได้สอดคล้องกับการให้เหตุผลในความหมายที่มนุษย์ใช้คิดสักเท่าไร
    ดูได้จาก “การให้เหตุผลที่อ่านยาก” ในหัวข้อ 6.2.2 ของ system card Fable/Mythos และคำถามที่ยกขึ้นในงานวิจัยของ Apple ชื่อ “The illusion of thinking”
    ฉันเคยคิดว่าที่พวกเขาปิดบังบล็อกเหตุผลก็เพราะถ้าผู้ใช้เห็นว่าเกิดอะไรขึ้นภายในจริง ๆ คงตกใจ
    ถ้าฉันได้เห็นว่าในหัวเพื่อนร่วมงานกำลังเกิดอะไรขึ้นจริง ๆ ฉันก็คงตกใจเหมือนกัน

    • ประเด็นของบทความนี้ไม่ใช่ว่า “ขั้นตอนการให้เหตุผล” ของ LLM ไม่เหมือนการให้เหตุผลแบบที่มนุษย์เข้าใจ แต่คือ Anthropic ตั้งใจซ่อน ผลลัพธ์การให้เหตุผล ของ Claude เพื่อทำให้การกลั่นโมเดลทำได้ยากขึ้น
    • ฉันอ่าน chain-of-thought ของ DeepSeek หรือ GLM แล้วร้องว่า “นี่มันคิดอะไรอยู่กันแน่” มานับครั้งไม่ถ้วน แต่สุดท้ายมันก็ไปจบที่คำตอบที่ถูกต้อง
      ในทางกลับกัน บางครั้งก็มีไอเดียที่มีประโยชน์อยู่ข้างใน ทั้งที่ไม่ได้ปรากฏในคำตอบ
  • ก่อนหน้านี้เคยทิ้งโน้ตสั้น ๆ ไว้ว่า DeepSeek R1 สร้างร่องรอยการคิดแบบนี้ได้
    “(Dimethyl(oxo)-lambda6-sulfa雰囲idine)methane donate a CH2rola group occurs in reaction, Practisingproduct transition vs adds this.to productmodule. Indeed"come tally said Frederick would have 10 +1 =11 carbons. So answer q Edina is11.”
    แล้วก็สรุปคำตอบที่ ‘ถูกต้อง’ สำหรับโจทย์เคมีออกมา
    ถ้าอย่างนั้นร่องรอยการคิด สำหรับผู้อ่านแล้ว อาจเป็น สตริงที่แทบไม่มีความหมาย ก็ได้ แต่ยังไม่ค่อยแน่ใจว่านี่เป็นลักษณะเฉพาะของโมเดลนั้นหรือเป็นคุณสมบัติทั่วไปของ LLM
    เคยคุยกับผู้เขียนเรื่องนี้มาก่อน แต่เพราะบอกว่าบทความจะออกตามงานอย่าง NIPS เลยลืมติดตามต่อ ถ้าใครหาเจอแล้วมาแชร์ก็น่าจะดี
    0: https://wiki.roshangeorge.dev/w/Blog/2025-10-12/Word_Magic#I...?
    1: น่าจะหมายถึงความเชื่อที่เป็นจริง

    • ใช่ หลายโมเดลคิดด้วยวิธีที่ดูเหมือนศัพท์เทคนิคประหลาด ๆ
      ตัวอย่างร่องรอยการคิดของ Mythos ตอนเล่น Solitaire อยู่ที่นี่: https://www.lesswrong.com/posts/wCSEpT3dTGz4N86Wi/even-illeg...

      “7♣-removal-IS-the-prerequisite-for-10♠/9♥!!)-⟹-OVERLAP-(ii)+(iv):-{6♠ J♦ 9♥ 2♣}-=-FOUR--—-UNLESS-7♣'s-seat-8♥-...-and-2♣-drains-only-at-crack-:-⟹-2♣-celled-+-9♥-celled-simultaneously-UNAVOIDABLE-in-t8-dig--—-BREAK:-9♥”

      นี่เป็นช่วงที่โมเดลเลิกคิดเป็นภาษาอังกฤษ แล้วขยับเข้าใกล้ neuralese ซึ่งเป็นการคิดในเวกเตอร์สเปซภายในมากขึ้นเล็กน้อย
      มันยังไม่ใช่ neuralese จริง ๆ เพราะยังถูก serialize ออกมาเป็นข้อความ แต่ก็กำลังเคลื่อนไปในทิศทางนั้น
      ตอนเขียนโค้ด กระบวนการคิดภายในของฉันเองก็มีหลายช่วงกลาง ๆ ที่เขียนออกมาเป็นภาษาอังกฤษได้ยาก เลยพอเข้าใจโมเดลอยู่บ้าง

    • หรือมันอาจจะแค่เป็น token noise ที่เกิดจาก implementation พัง ๆ หรือการ quantize โมเดลก็ได้
      ผมเคยเห็นโมเดลพ่นอะไรไร้สาระแบบนั้นออกมา แต่ทุกครั้งสุดท้ายก็เป็นบั๊กของ llama.cpp หรือไม่ก็ไฟล์ .gguf ที่เสีย

  • แม้การทำให้ AI มีลักษณะเป็นมนุษย์จะเป็นของต้องห้ามใน HN แต่ก็น่าพูดถึงว่าบางคนมองว่ามนุษย์เองก็ทำ การหาเหตุผลเข้าข้างย้อนหลัง เหมือนกัน
    https://www.patheos.com/blogs/tippling/2013/11/14/post-hoc-r...

    https://www.researchgate.net/publication/316045349_Post_Hoc_...

    • ถ้าเข้าใจแบบง่าย ๆ ก็คือ หลังจากที่เราทำหรือพูดอะไรไปแล้ว เราก็ค่อยแต่งเรื่องอธิบายกับตัวเองว่าทำไมถึงตัดสินใจแบบนั้น
      คือคิดแบบไม่ใช้ภาษาไปก่อน แล้วค่อยทำให้เป็นคำพูดภายหลังด้วยเหตุผลที่ฟังดูสมจริง
      ไม่ค่อยแน่ใจว่าสิ่งนี้ใช้กับการเขียนเชิงอภิปรายได้แค่ไหน
      เพราะเวลาที่เขียน เราใช้กฎของตรรกะเป็นพื้นฐานในการกำหนดทิศทางของเรื่องเล่า ดังนั้น heuristic ที่ไม่เป็นภาษาก็น่าจะยังทำงานอยู่ แต่ถูกจำกัดไว้ เลยอาจไม่ใช่การหาเหตุผลย้อนหลังทั้งหมดเสียทีเดียว
  • มันน่าขมขื่นที่ Anthropic ซ่อนข้อมูลของตัวเองไว้แบบนั้น แต่กลับดูดข้อมูลของพวกคุณทั้งหมด และคนจำนวนมากก็ยินดียกให้
    จากนั้นก็เอาไปสร้างผลิตภัณฑ์ของพวกคุณเอง เข้ามากินส่วนแบ่งตลาดและแข่งขัน
    Anthropic ซ่อน reasoning token ของตัวเองเพราะเชื่อว่านั่นคือคูเมืองและเป็นข้อได้เปรียบเหนือแล็บอื่น
    ถ้าพวกเขาเชื่อจริงว่านั่นคือความได้เปรียบของตัวเอง ก็คงได้เจอเรื่องน่าแปลกใจแน่

    • เท่าที่ผมรู้ ผลิตภัณฑ์ที่ Anthropic ทำมีแค่ Claude, Claude Code และ Claude API ซึ่งทั้งหมดก็เป็นผลิตภัณฑ์ของ Anthropic เองอย่างชัดเจน ไม่ใช่อะไรที่คุณเป็นคนคิดค้นขึ้นมา
      เลยอยากรู้ว่าคุณกำลังอ้างว่าพวกเขา “ดูดไป” เป็นผลิตภัณฑ์ไหนกันแน่
    • ผมไม่แน่ใจว่าจะเรียกว่าคนเต็มใจยกให้ หรือจริง ๆ แล้วพวกเขาโดนหลอกง่ายและใสซื่อเกินไปมากกว่า
  • หรือจะบอกว่าเนื้อหาใน reasoning_summary เป็นของที่สรุปมาแล้วงั้นเหรอ
    เอาจริง OpenAI ก็ทำเหมือนกัน และมันก็ไม่ได้ชวนตกใจหรือชั่วร้ายอะไรเป็นพิเศษ

    • ไม่ถึงกับชั่วร้ายหรอก แต่เต็มไปด้วย ความหยิ่งยโส
  • พยายามซ่อนการคิดกันขนาดนี้ แต่พอ Opus 4.8 ไปถึง 100,000~200,000 โทเค็น มันกลับเริ่มทำการคิดของตัวเองรั่วออกมา
    ตลกมากจริง ๆ

    • ผมเคยเจอแค่ไม่กี่ครั้ง แต่ผลลัพธ์ชวนสับสนมาก
      โดยเฉพาะเพราะปกติแล้วมักเกิดขึ้นตอนกำลัง jailbreak เพื่อจุดประสงค์ด้านความปลอดภัยด้วย เลยยิ่งงง
      มีข้อความประมาณว่า “ผู้ใช้กำลังขออะไรบางอย่างที่เกี่ยวกับไซเบอร์ซีเคียวริตี้ และสิ่งนี้สามารถถูกดัดแปลงไปใช้เชิงรุกได้ง่าย ดังนั้นต้องระวัง” โผล่มาหลายหน้า ก่อนที่สุดท้ายมันก็ยอมให้สิ่งที่ผมต้องการอยู่ดี