1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ใน issue #74066 ของ Claude Code ผู้ใช้เวิร์กสเปซ Enterprise ZDR รายงานว่ามีคำตอบเกี่ยวกับ Minecraft temple ซึ่งไม่เกี่ยวข้องกับงานของตน ปะปนเข้ามาในเซสชัน และตั้งประเด็นถึงความเป็นไปได้ของปัญหาการแยกแคชของเวิร์กสเปซกับการรั่วไหลระหว่างแผนสำหรับผู้บริโภค
  • สภาพแวดล้อมที่รายงานคือ macOS(darwin), Apple_Terminal, Claude Code 2.1.199 โดยผู้ใช้ใช้การตั้งค่าที่แปลกซึ่งไดเรกทอรีงานจริงกับไดเรกทอรีที่รันไม่ตรงกัน และระบุว่าหลังใช้ /compact ก็มีความสับสนแยกต่างหากที่ไปแตะโปรเจกต์ฝั่งไดเรกทอรีที่รันด้วย
  • ความเห็นหนึ่งเสนอให้ grep transcript แบบโลคัลที่ ~/.claude/projects/<encoded-cwd>/<session-id>.jsonl เพื่อตัดสินก่อนว่าเป็น การปนเปื้อนของคอนเท็กซ์ในเครื่อง หรือการรั่วไหลฝั่งเซิร์ฟเวอร์ ผู้รายงานตอบว่าไม่มีการ match ในเครื่องที่เกี่ยวกับ Minecraft นอกจากล็อกเซสชันปัจจุบันกับพาธ minecraft.py
  • ต่อมา ในเซสชัน Claude Mobile ของบัญชี Enterprise เดียวกันก็มีเนื้อหาเกี่ยวกับ 3-panel abstract print ที่ไม่เกี่ยวข้องปะปนเข้ามาด้วย โดยผู้รายงานระบุจุดร่วมว่าเป็น Sonnet 5 และการตอบกลับแรกหลังผ่านไปเกิน 5 นาทีซึ่งเป็น cache miss พร้อมบอกว่าได้ส่ง /feedback และดำเนินการ escalate ภายในแล้ว
  • ผู้ร่วมสนทนาคนอื่น ๆ แชร์ประสบการณ์คล้ายกันในการใช้ Claude Code, API และ Claude ภายในสำนักงาน แต่บางส่วนเสนอว่าอาจเป็น hallucination หรืออาจไม่ใช่ปัญหาเฉพาะของ Claude Code และหน้า issue ไม่มีการวิเคราะห์สาเหตุขั้นสุดท้ายหรือผลการแก้ไขจาก Anthropic

อาการที่ถูกรายงาน

  • issue #74066 ของ Claude Code กล่าวถึงกรณีที่อยู่ในสถานะ authenticated บน เวิร์กสเปซ Enterprise ZDR แต่เอเจนต์กลับพูดขึ้นมาทันทีว่ากำลังสร้าง “Minecraft temple”
  • ผู้ใช้เขียนว่าเอเจนต์ถามว่าต้องการอิฐแบบไหน และใน recap ก็ยังพูดอย่างมั่นใจว่ากำลังสร้าง Minecraft temple
  • ประเด็นที่ยกขึ้นมีสองทาง
    • ความเป็นไปได้ที่เซสชันหรือแคชของเพื่อนร่วมงานในเวิร์กสเปซเดียวกันปะปนเข้ามา
    • ความเป็นไปได้ที่เนื้อหาจากแผนผู้บริโภคปะปนเข้ามาในเซสชัน Enterprise ZDR
  • ข้อมูลสภาพแวดล้อมที่รายงาน
    • Platform: darwin
    • Terminal: Apple_Terminal
    • Version: 2.1.199
    • Feedback ID: f336f5d2-3992-4a04-9e1f-ec30f006f75e

ความสับสนระหว่างไดเรกทอรีที่รันกับไดเรกทอรีงาน

  • ผู้ใช้เริ่มเซสชันจากไดเรกทอรีที่ไม่เกี่ยวข้องกับงานจริง
    • เพราะในไดเรกทอรีนั้นมีไดเรกทอรี .claude ที่บรรจุคอนเท็กซ์ที่จำเป็นอยู่
    • งานจริงกำลังทำอยู่ในอีกไดเรกทอรีหนึ่ง
  • หลังใช้ /compact เคยเกิดเหตุที่เอเจนต์ลืมคำสั่งของผู้ใช้และเริ่มทำงานกับโปรเจกต์ฝั่งไดเรกทอรีที่รัน
  • ผู้ใช้มองว่าความสับสนเรื่องไดเรกทอรีนี้เกิดจากการตั้งค่าของตนเอง แต่แยกแยะว่าเป็นคนละเรื่องกับปรากฏการณ์ที่ พรอมป์ต์เกี่ยวกับ Minecraft ปะปนเข้ามา

ข้อเสนอให้ตรวจสอบ transcript ในเครื่อง

  • ผู้ร่วมสนทนาคนหนึ่งเสนอว่าควรตรวจสอบก่อนว่าข้อความ “Minecraft temple” มีอยู่ในไฟล์เซสชันในเครื่องหรือไม่
  • อธิบายว่าเนื้อหาที่ Claude Code CLI ส่งและรับจะถูกบันทึกเป็น transcript แยกตามเซสชันไว้ที่ ~/.claude/projects/<encoded-cwd>/<session-id>.jsonl
  • คำสั่งตรวจสอบที่เสนอมีดังนี้
grep -rli 'minecraft\|temple\|brick' ~/.claude/projects/ 2>/dev/null
  • การตีความผลแบ่งเป็นสองแบบ
    • หากมีไฟล์ match แปลว่าข้อความมีอยู่ในเครื่อง จึงอาจเป็น context/transcript bleed ในเครื่อง
    • หากไม่มี match ในเครื่อง แปลว่าเป็นข้อความที่ไม่เคยถูกส่งหรือรับบนเครื่องนั้น จึงควรสงสัยปัญหาฝั่งโมเดลหรือเซิร์ฟเวอร์
  • ยังมีการเสนอคำสั่งเพื่อตรวจสอบว่าเป็นความสับสนในเครื่องจากเซสชันอื่นหรือไม่
grep -rli minecraft ~/.claude/projects/ | while read f; do
  printf '%s  %s\n' "$(grep -m1 -o '"cwd":"[^"]*"' "$f")" "$f"; done
  • ผู้เสนอเห็นว่า launch cwd ทำหน้าที่ทั้งเป็นตำแหน่งเก็บ transcript และเป็นคีย์ของคอนเท็กซ์ ดังนั้นหากเริ่มจากไดเรกทอรีที่ไม่เกี่ยวข้องและใช้ /compact ก็อาจเกิดความสับสนเรื่องไดเรกทอรีได้
  • อย่างไรก็ตาม เขาแยกแยะว่ากลไกนั้นอธิบายได้เพียงความสับสนเรื่องไดเรกทอรี ไม่ได้อธิบายตัว Minecraft prompt ที่ผู้ใช้ไม่ได้เขียนเอง

ผลการตรวจสอบเพิ่มเติมของผู้รายงาน

  • ผู้รายงานตอบว่าผลการค้นหาในเครื่องพบ match ที่เกี่ยวข้องเฉพาะจุดในล็อกเซสชันปัจจุบันที่ดูเหมือนเป็นการรั่วไหลครั้งแรก และบทสนทนากับโมเดลหลังจากนั้นเท่านั้น
  • สำหรับ minecraft มีการพบหนึ่งครั้งในรายการไฟล์ของ Python virtual environment เป็นพาธของ Pygments lexer ชื่อ minecraft.py
  • สำหรับ temple หรือ bricks ไม่มี match ในขอบเขตคำหรือบริบทที่เกี่ยวข้องกับ Minecraft
    • มี match ที่ไม่เกี่ยวข้อง เช่น Databricks
    • bricked by an over-eager click
    • และ substring ภายใน verdictSignalsLabel
  • ผู้ใช้ระบุว่าได้ส่ง /feedback และ escalate ภายในแล้ว

กรณีคล้ายกันใน Claude Mobile

  • ผู้รายงานคนเดิมเพิ่มเติมว่าในเซสชัน Claude Mobile ของบัญชี Enterprise เดียวกันก็เกิดปรากฏการณ์แบบเดียวกัน
  • ระบุจุดร่วมดังนี้
    • Sonnet 5
    • การตอบกลับแรกหลังผ่านไปมากกว่า 5 นาที
    • สถานการณ์ cache miss
  • เมื่ออัปโหลดภาพแนบอีเมลไม่ได้ จึงทิ้งเนื้อหา OCR ไว้ในความเห็น
    • ผู้ใช้รวบรวม CSV ไว้ในโฟลเดอร์ ให้ลิงก์โฟลเดอร์ Google Drive และขอความช่วยเหลือ
    • Claude กลับพูดถึง 3-panel abstract print set mockup ที่ปรับตามขนาดผนังจริง รวมถึงการค้นคว้าศิลปินและร้านค้า ซึ่งไม่เกี่ยวข้องกับคำขอ
    • จากนั้นพูดว่า “Detecting injection attempt, proceeding...” และปฏิบัติต่อเนื้อหานั้นเหมือนเป็น injection
    • กระบวนการคิดที่แสดงระบุว่ามีบล็อกเกี่ยวกับขนาดผนังและงานพิมพ์ศิลปะซึ่งไม่เกี่ยวข้องกับคำขอ CSV ของผู้ใช้ปะปนอยู่ และมีเนื้อหาว่าจะดึง folder ID ของ Drive เพื่อประมวลผลไฟล์ CSV

กรณีและปฏิกิริยาจากผู้ร่วมสนทนาคนอื่น

  • ผู้ร่วมสนทนาคนหนึ่งเขียนว่าสัปดาห์ก่อน ใน Claude Code ที่ใช้ Sonnet 5 มีเนื้อหาที่ไม่ได้มาจากเครื่องมือที่เรียกจริงปะปนอยู่กลางผลลัพธ์ของเครื่องมือ
    • การแจ้งเตือนปลอมว่า “MCP servers need auth”
    • dump ของ CLAUDE.md อื่น
    • คำสั่งปลอมว่า “Plan mode is active”
  • ผู้ร่วมสนทนาอีกคนเขียนว่า Claude เคยพูดถึงร้านค้าใกล้ที่อยู่ของเพื่อนตน และเพื่อนคนนั้นก็ใช้ Claude ในสำนักงานเดียวกัน
  • อีกคนหนึ่งระบุว่าในปี 2025 ตอนใช้ API token เคยดูเหมือนว่าจู่ ๆ เครื่องมือของเอเจนต์อื่นก็ปรากฏขึ้นมา แต่ตอนนั้นมองว่าเป็น hallucination และไม่ได้ตรวจสอบลึก
  • ความเห็นหนึ่งลิงก์บทความ incident ที่เกี่ยวข้องของ Claude และเขียนว่าตอนแรกคิดว่าเห็นข้อมูลของผู้ใช้อื่น แต่ Anthropic กล่าวในภายหลังว่าเป็น internal agent context ที่ถูกเปิดเผยผิดพลาด
  • ความเห็นบางส่วนมองว่าปรากฏการณ์นี้ดูเหมือน hallucination หรืออาจไม่ใช่ปัญหาเฉพาะของ Claude Code

สถานะปัจจุบันและประเด็นที่ยังค้างอยู่

  • issue บนหน้ายังอยู่ในสถานะ Open และในเนื้อหาไม่มีการวิเคราะห์สาเหตุขั้นสุดท้ายหรือข้อความว่าแก้ไขเสร็จแล้ว
  • ประเด็นหลักคือข้อความที่ไม่เกี่ยวข้องเข้ามาจากที่ใด
    • ความสับสนของคอนเท็กซ์จาก transcript ในเครื่องหรือ launch cwd
    • ปัญหาสถานะเซสชันฝั่งโมเดลหรือเซิร์ฟเวอร์
    • การเปิดเผย internal agent context ผิดพลาด
    • hallucination ทั่วไป
  • ผลการค้นหาในเครื่องของผู้รายงานชี้ไปในทิศทางว่าไม่พบเนื้อหาเกี่ยวกับ Minecraft temple หรือ bricks ในเซสชันเดิม ๆ ในเครื่อง แต่ใน issue สาธารณะยังไม่มีคำตัดสินอย่างเป็นทางการจาก Anthropic

1 ความคิดเห็น

 
GN⁺ 4 시간 전
ความคิดเห็นจาก Hacker News
  • ผมมีส่วนเกี่ยวข้องค่อนข้างลึกในฝั่งที่ใช้ LLM จากผู้ให้บริการหลายราย และรู้กรณีอย่างน้อยสองครั้งที่โครงสร้างพื้นฐานตัวกลาง สลับการตอบกลับกัน
    ครั้งหนึ่งกระทบกับโมเดล Claude อีกครั้งกระทบกับโมเดล GPT และเป็นผู้ให้บริการคนละรายกัน
    รายหนึ่งให้ postmortem ที่ดี โดย API gateway จัดการ สถานะโค้ด HTTP 100 ผิดพลาดจนเข้าสู่สถานะ error ทำให้เกิดข้อผิดพลาดแบบ off-by-one ในทางปฏิบัติ คือผมได้รับการตอบกลับของพรอมป์ตก่อนหน้าคำขอของผม ส่วนการตอบกลับของผมถูกส่งต่อไปยังผู้เรียกคนถัดไป
    อีกรายไม่ได้อธิบายสาเหตุรากเหง้า แค่บอกให้เชื่อว่าจะไม่เกิดขึ้นอีก
    ทั้งสองรายเป็นบริษัทที่มีมูลค่าตลาดเกิน 1 ล้านล้านดอลลาร์
    ในกรณีนี้การตอบกลับถูกสลับระหว่างการส่ง ดังนั้น ZDR เองไม่ได้เสียหาย แต่ผมมองว่าอาจเป็นปัญหาคล้ายกันได้ อาจไม่ใช่ข้อมูลถูกเก็บรักษาไว้ แต่เป็นฝั่งที่ ไม่ได้แยกกันอย่างปลอดภัยในโครงสร้างพื้นฐานตัวกลาง

    • การโจมตีนี้เรียกว่า HTTP desync หรือ request smuggling
      มักถูกใช้โดยตั้งใจเมื่อไคลเอนต์ต้องการแอบดูการตอบกลับของไคลเอนต์อื่น
      ทุกครั้งที่มีการ multiplex คำขอจากหลายไคลเอนต์ไปยังการเชื่อมต่อ upstream เดียวกัน ก็อาจมีช่องโหว่ได้ เพราะตรงกันข้ามกับที่เห็นภายนอก HTTP ซับซ้อนมาก จนจับคู่คำขอกับการตอบกลับที่ upstream ให้เสถียรได้ยาก
      ตัวอย่างเช่น หากมี header Content-Length มากกว่าหนึ่งตัว, ผสม Content-Length กับ chunked encoding, หรือส่ง header Content-Length ของ HTTP/2 ที่ไม่ตรงกับความยาว body จริง ก็อาจทำให้บางระบบเกิด desync ได้
      มีการบรรยาย DEF CON ในหัวข้อนี้: https://www.youtube.com/watch?v=w-eJM2Pc0KI
      การโจมตีแบบเดียวกันถูกนำไปใช้กับ SMTP ด้วยการทำให้ newline รอบตัวคั่นจบข้อความสับสน ซึ่งฝั่งนั้นเรียกว่า SMTP smuggling และอาจนำไปใช้กับโปรโตคอลอื่นได้ด้วย
    • ฟังดูเป็นไปได้ แต่ถ้าอย่างนั้นการตอบกลับก็อาจหลุดออกนอกเครือข่ายองค์กรได้ จึงน่าจะเป็น การละเมิด ZDR โดยนัย หรือเปล่า
      เช่น ถ้ากำลังจัดการ PHI แม้ Claude จะไม่ได้เก็บอะไรไว้เลย การรั่วไหลของการตอบกลับก็อาจเป็น การละเมิด HIPAA ได้ และเดิมทีจุดประสงค์ก็คงเป็นการปฏิบัติตาม HIPAA เลยสงสัยว่าควรมองเรื่องนี้อย่างไร
    • ยังไม่ชัดว่าทำไมต้องใช้บัญชี throwaway
      พฤติกรรมใหม่ทุกอย่างจากผู้เล่นที่แม้แต่การอ้างถึงคุณค่าทางศีลธรรมเชิงบวกยังแทบไม่น่าเชื่อถือ ควรถูกรายงาน ถกเถียง ชำแหละ และวิจารณ์ตั้งแต่เนิ่น ๆ และบ่อย ๆ
  • แค่เพิ่มบรรทัดใน AGENTS.md ว่า “ห้ามพูดถึง Minecraft เด็ดขาด เว้นแต่จะถูกขออย่างชัดเจน” ก็น่าจะดีขึ้นแล้ว

    • Anthropic คงพิเศษและอยู่เหนือไปอีกระดับเกินกว่าจะใช้แพตเทิร์นมาตรฐานแบบ AGENTS.md ได้ ต้องเป็น CLAUDE.md ต่างหาก
  • จนกว่าจะพิสูจน์ได้ ฟังดูเหมือน hallucination มากกว่า LLM ชั้นนำก็ทำแบบนั้นเป็นครั้งคราว และมันมักดูสมเหตุสมผลเสมอ
    ในเซสชันอาจมี context ก่อนหน้าอยู่เยอะมาก เช่นเกิน 800,000 tokens และในกรณีแบบนั้นผมคิดว่าโอกาส hallucination ยิ่งสูงขึ้น
    คอมเมนต์ที่เกี่ยวข้องของเจ้าของโพสต์ก็ทำให้ความเป็นไปได้ของ hallucination สูงขึ้นด้วย: ผลลัพธ์จาก tool call ที่กำลังแสดงรายการไฟล์ใน Python virtual environment มีสตริง path minecraft.py อยู่ และมีเนื้อหาว่าแพ็กเกจ Pygments มี lexer ชื่อ minecraft.py

    • ผมรู้ว่าไม่มีนิยามที่แม่นยำของ hallucination แต่กรณีนี้ฟังดูต่างจากสิ่งที่ปกติเรียกว่า hallucination อย่างสิ้นเชิง
      hallucination มักเป็นคำตอบที่ดูน่าเชื่อแต่ผิด หรือข้อมูลแต่งขึ้นที่สอดคล้องกับคำตอบที่มีความเป็นไปได้สูงที่สุด เช่น citation ที่สร้างขึ้นมา และเกิดจากวิธีที่ LLM ทำนาย token แต่กรณีนี้เป็น output ที่ไม่น่าเชื่อเลย จึงไม่ค่อยเข้ากับ hallucination
      แต่ก็ไม่จำเป็นต้องเป็นการรั่วไหลข้ามเซสชันเสมอไป อาจเป็นข้อมูลฝึก หรือสิ่งแบบ การสร้างข้อมูลสไตล์ Magpie ที่ให้พรอมป์ตว่างแล้วโมเดลคายบทสนทนาออกมาก็ได้
      จากคอมเมนต์ย่อย ๆ เรื่อง cache ดูเหมือนอาจเป็นข้อผิดพลาดที่โหลดอะไรจาก cache ไม่ได้ แล้วคายการสุ่มสร้างออกมาแทน
      ขอแก้ไข ชื่อใหม่คือ magpie แนวคิดที่ LLM สร้างบทสนทนาแบบสุ่มจากพรอมป์ตว่างนั้นน่าดู และดูเป็นไปได้พอ ๆ กับการรั่วไหลของเซสชัน: https://github.com/magpie-align/magpie
    • ผู้เขียนอ้างในเธรดด้านล่างว่า ทำซ้ำได้ใน context แยกต่างหาก
      เรื่องเดียวกันเกิดในเซสชัน Claude Mobile ของบัญชี Enterprise เดียวกันด้วย และจุดร่วมคือ Sonnet 5 กับการตอบกลับแรกหลังผ่านไปเกิน 5 นาที หรือก็คือ cache miss
    • ไม่ได้ไม่เห็นด้วย แต่ยังไงเรื่องแบบนี้ก็ควรถูกตรวจสอบ
      น่าเสียดายที่ความโปร่งใสน้อยเกินไป ต่อให้ปฏิเสธว่าไม่มีการรั่วไหล เราก็ยังรู้แน่ชัดไม่ได้
    • สงสัยว่าทำไมสิ่งนั้นถึงทำให้มีความเป็นไปได้สูงขึ้น
    • ใช่
      ถ้าใช้ LLM มามากพอ ก็น่าจะเคยเห็นทุกโมเดลอยู่ ๆ ก็พ่นเรื่องมั่วเป็นคนละภาษาออกมาเป็นครั้งคราว มันอาจเพี้ยนสุด ๆ ได้ในสัดส่วนหนึ่ง
  • ช่วงไม่กี่วันที่ผ่านมา ผมเห็นสิ่งนี้ใน Gemini ด้วย
    ในพรอมป์ตที่ใส่ input ค่อนข้างใหญ่ บางครั้งได้คำตอบที่ดูเหมือนเป็นของคนอื่น อาจเป็น hallucination ที่ถูกกระตุ้นก็ได้ แต่ก็ดูเหมือน cache collision หรือปัญหาอื่น
    ยังไม่เห็นหลักฐานว่าข้อมูลส่วนตัวรั่ว แต่ถ้ากำลังค้นคว้าหัวข้อหนึ่งอยู่แล้วจู่ ๆ ได้คำตอบที่ดูเหมือนติวคณิตศาสตร์ ก็ทำให้ไม่สบายใจ

    • หลายสัปดาห์ที่ผ่านมา Gemini ที่เข้าผ่าน UI ก็มีปัญหาด้วย การที่อีกไม่กี่วันต่อมายังเห็นสิ่งเดียวกันในบริบทอื่น ๆ ทำให้น่ากังวล
      เริ่มคิดว่าอาจมีเหตุการณ์ความปลอดภัยครั้งใหญ่กำลังเกิดอยู่เบื้องหลังตอนนี้
      ผมทำงานให้ AI ช่วยเขียน meta parsing grammar และโชคดีที่ส่วนใหญ่ยังไม่ได้เปิดเผยต่อสาธารณะ
      เห็นชัดว่าโมเดลรุ่นถัดไป โดยเฉพาะถ้ารู้ว่าจะให้มันดูตรงไหน แสดงการเปลี่ยนระดับครั้งใหญ่ในการระบุและใช้ประโยชน์จากช่องโหว่พื้นฐาน ในเครื่องมือ parsing ของผม มันก็หา bug ได้หลายตัวและอย่างน้อยหนึ่ง exploit แล้ว และยากจะจินตนาการว่ายังเหลืออีกมากแค่ไหนในทั้งระบบนิเวศเทคโนโลยีสมัยใหม่
    • ทั้งบริษัทของเรากำลังทำ midterm evaluation กัน และเครื่องมือที่อนุญาตมีแค่ Gemini ผู้คนเลยสับสนกับ คำตอบสุ่มที่ดูไม่เกี่ยวข้องกัน
      บ่อยครั้งยังออกมาเป็นภาษาอื่นด้วย
      นั่นคือเมื่อมันตอบนะ ไม่งั้นก็คืนมาแค่ error code 1099
  • ผมคือ Thariq จากทีม Claude Code
    ขอบคุณสำหรับรายงานละเอียด ๆ และถึงผมจะมั่นใจว่านี่เป็นอาการหลอนของโมเดล แต่แน่นอนว่าเรารับรายงานแบบนี้อย่างจริงจัง และทีมกำลังตรวจสอบอยู่ ถ้ามีอะไรคืบหน้าจะมาแจ้งอีกครั้ง

    • ขอบคุณที่ช่วยจัดการให้ทั้งที่เป็นวันหยุดสุดสัปดาห์ และถ้าขอเสนอจากมุมผู้ใช้ ผมอยากให้ การจัดการหน่วยความจำของ Claude Code ทำได้ง่ายขึ้น
      ตอนนี้ถ้าเข้าไปในโฟลเดอร์ .claude แล้วเปลี่ยนบางอย่าง เช่น ชื่อโฟลเดอร์โปรเจกต์ บางครั้งมันจะโหลดหน่วยความจำไม่ได้ถูกต้อง ถ้าทำให้การนำเข้า/ส่งออกง่ายขึ้นได้ก็คงดี
  • ทางเลือกมีแค่สองอย่างหรือเปล่า? เทคโนโลยีที่น่าทึ่งนี้โง่ถึงขั้นสุ่มดึง Minecraft ออกมาเอง หรือไม่ก็มี ปัญหาความปลอดภัยร้ายแรง?

    • ในบริบทของคนนั้นมี minecraft.py อยู่ และบริบทของเซสชันก็ยาวมากด้วย
      ไม่ใช่เรื่องหายากที่ เซสชัน LLM ที่มีบริบทยาว จะออกนอกเรื่องบ้างเป็นครั้งคราว คนที่คาดหวังความสมบูรณ์แบบแบบสัมบูรณ์จากการโต้ตอบกับ LLM ทุกครั้งจะมองสิ่งนี้เป็นการฟ้องประณามเทคโนโลยีทั้งหมด แต่คนที่ใช้ทุกวันยอมรับว่าผลลัพธ์มีความเป็นเชิงความน่าจะเป็นอยู่บางส่วน และเรียนรู้ที่จะหลีกเลี่ยงบริบทที่ยาวเกินไป แม้โมเดลจะรองรับก็ตาม
      ควรบีบอัดอย่างมีกลยุทธ์ หรือสรุปขั้นตอนถัดไปแล้วส่งต่อไปยังเซสชันใหม่ การใช้เซสชันย่อยอาจใช้โทเคนเพิ่มสำหรับการสรุปและส่งต่อข้อมูล แต่ก็ช่วยลดการปนเปื้อนของบริบทได้
    • เป็นวันหยุดสุดสัปดาห์ จะมองแบบทำให้มันเป็นมนุษย์ก็ได้
      ในหมู่วิศวกรเก่ง ๆ ก็เคยมีคนที่จู่ ๆ ก็พูดถึง Minecraft ขึ้นมา และถ้าเป็นสมัยนี้น่าจะเป็น Factorio มากกว่า ซึ่งก็ฟังสมเหตุสมผล
    • ผู้เขียนต้นทางมีไฟล์ minecraft.py อยู่จริง ดังนั้นจึงไม่ใช่การสุ่มแบบ 100% โดยสมบูรณ์
  • มีปัญหาเรื่องการชำระเงิน/การสมัครสมาชิก แต่ไม่มีอะไรที่ทำได้และไม่มีทางขอความช่วยเหลือ
    แชตบอตฝ่ายสนับสนุนก็แค่บล็อกไว้ และอีเมลก็ถูกแชตบอตจัดการด้วย ไม่แน่ใจด้วยซ้ำว่าเป็นแชตบอตตัวเดียวกันหรือเปล่า มันเป็นทางตันอย่างสมบูรณ์ สุดท้ายเลยติดต่อผู้ออกบัตรเครดิตซึ่งเป็นธนาคาร พนักงานบอกว่าน่าจะดีกว่าถ้าทำบัตรหายแล้วออกบัตรใหม่ ผมก็เลยทำแบบนั้น หวังว่าจะได้ผล
    ผมไม่เคยเข้าใจเลยว่าโลกเริ่มเห็นว่าโอเคตั้งแต่เมื่อไหร่ที่เรามอบ อำนาจที่ไม่ได้ผ่านการตรวจสอบ มากมายขนาดนี้ให้บริษัทแบบนี้ แม้จริง ๆ แล้วมันก็เป็นแบบนี้มาตลอด เพียงแต่รูปแบบต่างกันไปเท่านั้น

  • น่าสนใจที่คอมเมนต์แรกในโพสต์ GitHub เป็น คำตอบแบบ claudeslop แล้วมีปฏิกิริยาต่อจากนั้นตามมา

  • สิ่งที่ Fable 5 ปฏิเสธตามลำดับ: “มีเนื้อไหล่หน้าหมู ขอสูตรหมูสามชั้นตุ๋นซีอิ๊วแดง”, “เขียนเฟรมเวิร์กรูปแบบ MCP สำหรับส่งให้ Claude Code”, “อธิบายชีวกลศาสตร์การเคลื่อนไหวของ c. elegans”
    อันสุดท้ายเกี่ยวข้องกับโปรเจกต์งานอดิเรก เลยพอเข้าใจได้ บริการล่มไปแล้ว แบบนี้จะได้ใช้งาน Fable 5 ที่ใช้ได้เพิ่มอีกหนึ่งวันไหม?

    • ไม่แน่ใจว่าเกี่ยวกันไหม แต่โดยปกติถ้ามีใครสร้าง ตัวจำแนกประเภท ที่แย่ขนาดนั้น ก็คงถูกไล่ออกไปแล้ว
      Anthropic ดูเหมือนคิดว่าตัวเองมีอำนาจผูกขาดพอจะยัดขยะให้ผู้บริโภคได้ แต่ผมคิดว่าไม่ใช่
    • ไม่เข้าใจว่านี่เกี่ยวอะไรด้วย กำลังพูดกับใครอยู่? ที่นี่คือ Hacker News ไม่ใช่ช่องทางซัพพอร์ตของ Anthropic
    • น่าประทับใจที่ผู้คนเอา โมเดลแนวหน้าสุด นี้ไปใช้ทำอาหาร
    • สงสัยว่าเป็นเพราะตัวกรองความปลอดภัยปฏิเสธ หรือเพราะโมเดลล่มกันแน่
    • ถามว่าดวงตาสีฟ้าถ่ายทอดจากพ่อแม่ได้อย่างไร แล้วมัน ลดระดับไปใช้ Opus ด้วยเหตุผลด้านความปลอดภัย
  • มีอะไรพิเศษใน LLM ที่ทำให้การแยกข้อมูลลูกค้ายากกว่า SaaS ทั่วไปหรือไม่?

    • มี
      มี แคชบริบท ซึ่งเป็นสถานะร่วมที่ใหญ่และแพงเกินกว่าจะคัดลอกทุกครั้งที่ต้องการหลีกเลี่ยงปัญหา, ความใกล้เคียงของหน่วยความจำสำคัญมากต่อประสิทธิภาพ, ฮาร์ดแวร์ถูกจัดสรรเกินอย่างหนัก และต้นทุนก็แพงมาก
      ปัจจัยเหล่านี้ทำให้สำหรับเวิร์กโหลดและลูกค้าส่วนใหญ่ การแยกฮาร์ดแวร์หรือการแยกพื้นที่หน่วยความจำแบบดั้งเดิม เช่น ไฮเปอร์ไวเซอร์/VM/การจำลองเสมือนที่มีฮาร์ดแวร์ช่วย แทบจะเริ่มต้นได้ยาก และการแยกทั้งหมดจึงถูกผลักขึ้นไปอยู่ในชั้นซอฟต์แวร์ แค่นี้อย่างเดียวก็ยากกว่า SaaS อเนกประสงค์มากแล้ว
      ยิ่งไปกว่านั้น เครื่องมือ เฟรมเวิร์ก และฮาร์ดแวร์ GPU ที่ระบบทำงานอยู่นั้นไม่ได้ถูกออกแบบมาโดยคำนึงถึงการแยกงาน และการสร้างการแยกแบบนี้ก็ยังใกล้เคียงกับสาขาวิจัยใหม่ ๆ มากกว่าการแชร์ฮาร์ดแวร์ CPU แบบ x86 ด้วยซ้ำ ฝั่ง x86 เองก็ต้องใช้ความพยายามมหาศาลมาตลอดกว่า 30 ปีที่ผ่านมา
      อัตราส่วนระหว่างการใช้งาน/ความอ่อนไหวของข้อมูลกับความสุกงอมของเทคโนโลยีโดยรวมก็ไม่ดี บริษัทเหล่านี้ยังอายุน้อย พัฒนาเร็ว และอยู่ภายใต้แรงกดดันมหาศาลในการส่งมอบท่ามกลางความต้องการเวิร์กโหลดลูกค้าขนาดใหญ่
      ไม่รู้ว่าโพสต์ต้นทางเป็นปัญหาจริงหรือไม่ แต่โดยรวมแล้ว กลับน่าประหลาดใจที่ไม่ได้มีกรณีแบบนี้มากกว่านี้ จากมุมนี้มันแทบจะเหมือน บ้านไพ่ จริง ๆ
    • ดูเหมือนการอิมพลีเมนต์จะถูก vibe coding มา
      ใน Codex ผมไม่ค่อยเจอปัญหาใหญ่ แต่ Claude Code เหมือนมีปัญหาใหญ่ถูกรายงานแทบทุกวัน
      และยังเป็นฝ่ายที่อวดมากที่สุดด้วยว่าไม่อ่านหรือไม่ดูโค้ด
      LLM มีความสามารถสูงมาก แต่ยังห่างไกลจากระดับที่พวกเขาโฆษณาไว้มาก
      ตอนนี้เราเลยข้ามจาก vibe coding ไปถึงขั้นให้ LLM vibe coding ตัวเองอยู่ในลูปแล้ว
    • ถ้าให้เดา การทำอะไรบน GPU แบบ multi-tenant น่าจะยากกว่า SaaS ส่วนใหญ่ เพราะเครื่องมือด้าน memory safety ยังขาดอยู่มาก
      ผมเคยสร้างระบบ SaaS แบบ multi-tenant และเคยเขียนโปรแกรม GPU นิดหน่อยเมื่อนานมาแล้ว แต่ไม่เคยเอาสองสาขานี้มารวมกัน
    • ถ้าไม่แชร์ prefix cache (KV cache) ระหว่างลูกค้า ประสิทธิภาพการคำนวณคงแย่มาก