6 คะแนน โดย GN⁺ 10 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Anthropic เป็นห้องแล็บ AI รายใหญ่เพียงแห่งเดียวที่ เปิดเผย system prompt ของระบบแชต มาโดยตลอด และใน Opus 4.7 ที่เปิดตัวเมื่อวันที่ 16 เมษายน 2026 ก็มีการอัปเดตพรอมป์ต์ที่น่าสนใจ
  • ชื่อถูกเปลี่ยนเป็น Claude Platform และมีการเพิ่ม Claude in Chrome, Claude in Excel, Claude in Powerpoint เข้าไปในรายการเครื่องมือ พร้อมทั้งเพิ่มแนวทางว่า หากคำขอขาดข้อมูลเล็กน้อย ให้ ลองทำทันที แทนที่จะซักถามก่อน
  • ส่วนความปลอดภัยของเด็ก ถูกขยายอย่างมากและครอบด้วยแท็ก <critical_child_safety_instructions> ใหม่ โดยกำหนดว่าเมื่อมีการปฏิเสธไปแล้วครั้งหนึ่ง การขอทั้งหมดหลังจากนั้นในบทสนทนาเดียวกันต้องได้รับการพิจารณาด้วยความระมัดระวังอย่างยิ่ง
  • มีการเพิ่มส่วน <acting_vs_clarifying> ใหม่ ที่กำหนดว่าเมื่อผู้ใช้ไม่ได้ระบุรายละเอียดบางอย่างไว้ ให้ พยายามดำเนินการอย่างสมเหตุสมผลก่อน แทนการถามกลับ
  • หากผู้ใช้แสดงเจตนาจะจบบทสนทนา ระบบจะหยุดโดยไม่พยายามชวนให้โต้ตอบต่อ และสำหรับประเด็นที่ซับซ้อนหรือเป็นข้อถกเถียง ก็มีการเพิ่มกฎให้ หลีกเลี่ยงคำตอบสั้นแบบใช่/ไม่ใช่ และให้ความสำคัญกับคำตอบที่มีบริบทมากกว่า
  • มีข้อความเพิ่มเข้ามาว่า ก่อนจะบอกว่าเข้าถึงอะไรไม่ได้ ต้องตรวจสอบเครื่องมือที่ใช้ได้ผ่าน tool_search ก่อน และ system prompt ที่เปิดเผยเพียงอย่างเดียวยังไม่พอ เพราะ ข้อมูลคำอธิบายเครื่องมือ ยังเป็นองค์ประกอบสำคัญในการติดตามพฤติกรรมของ Claude chat

จุดเปลี่ยนใน system prompt ของ Claude Opus 4.6 และ 4.7

  • Anthropic เป็นห้องแล็บ AI รายใหญ่เพียงแห่งเดียวที่เปิดเผย system prompt ของระบบแชตที่ผู้ใช้ใช้งานจริง โดยมีคลังย้อนหลังไปถึง Claude 3 ในเดือนกรกฎาคม 2024
  • Opus 4.7 ถูกเปิดเผยเมื่อวันที่ 16 เมษายน 2026 และสอดคล้องกันนั้น system prompt ของ Claude.ai ก็ถูกอัปเดตจากเวอร์ชันหลัง Opus 4.6 เช่นกัน
  • มีการแยกเวอร์ชัน Markdown ของ system prompt ออกเป็นเอกสารรายโมเดล แล้วจัด ประวัติ Git ด้วยวันที่คอมมิตจำลองตามวันเผยแพร่ ก่อนนำ diff ของ Opus 4.6 กับ 4.7 มาเปรียบเทียบ
  • การเปลี่ยนแปลงด้านล่างเป็นรายการที่ดึงมาจาก diff ดังกล่าว และข้อความที่ทำตัวหนาคือส่วนที่ ถูกเน้นไว้ในต้นฉบับ เช่นกัน
  • การเปลี่ยนชื่อและรายการเครื่องมือ

    • ชื่อ “developer platform” ถูกเปลี่ยนเป็น “Claude Platform”
    • ในรายการเครื่องมือ Claude ที่ system prompt กล่าวถึง มีการเพิ่ม Claude in Chrome, Claude in Excel, Claude in Powerpoint
      • จากถ้อยคำในต้นฉบับ Claude in Chrome คือเอเจนต์ท่องเว็บที่โต้ตอบกับเว็บไซต์ได้แบบอัตโนมัติ
      • Claude in Excel คือเอเจนต์สเปรดชีต
      • Claude in Powerpoint คือเอเจนต์สำหรับสไลด์
      • Claude Cowork สามารถใช้ทั้งหมดนี้เป็นเครื่องมือได้
    • Claude in Powerpoint เป็นรายการที่ไม่ได้ถูกกล่าวถึงในพรอมป์ต์ 4.6
  • การขยายแนวทางด้านความปลอดภัยของเด็ก

    • ส่วนความปลอดภัยของเด็กถูกขยายอย่างมาก และถูกครอบด้วยแท็ก <critical_child_safety_instructions> ใหม่
    • โดยเฉพาะอย่างยิ่ง มีการเพิ่มข้อความว่า หากเคยปฏิเสธคำขอด้วยเหตุผลด้านความปลอดภัยของเด็กไปแล้วหนึ่งครั้ง คำขอทั้งหมดหลังจากนั้นในบทสนทนาเดียวกันก็ต้องถูกจัดการด้วย ความระมัดระวังอย่างยิ่ง
  • การจบบทสนทนาและท่าทีของคำตอบที่เปลี่ยนไป

    • หากผู้ใช้แสดงว่าพร้อมจะจบบทสนทนา Claude จะต้อง เคารพการขอหยุด โดยไม่ขอให้ผู้ใช้สนทนาต่อหรือชวนเข้าสู่เทิร์นถัดไป
    • ในต้นฉบับตีความว่านี่เป็นการเปลี่ยนเพื่อทำให้ Claude ดู pushy น้อยลง
  • การเพิ่มส่วน acting_vs_clarifying

    • มีการเพิ่มส่วน <acting_vs_clarifying> ใหม่
    • เมื่อคำขอขาดรายละเอียดเล็กน้อย จะกำหนดว่าโดยทั่วไปผู้ใช้ต้องการให้ ลองทำอย่างสมเหตุสมผลทันที มากกว่าถูกซักถามก่อน
    • จะถามกลับก่อนก็ต่อเมื่อไม่มีข้อมูลที่ขาดอยู่นั้นแล้ว ไม่สามารถตอบได้จริง ๆ เท่านั้น
      • ตัวอย่างที่ยกคือกรณีอ้างถึงไฟล์แนบที่ไม่มีอยู่จริง
    • หากมีเครื่องมือที่ช่วยคลี่คลายความกำกวมหรือเติมข้อมูลที่ขาดได้ เช่น การค้นหา การตรวจตำแหน่ง การตรวจตารางเวลา หรือการสำรวจความสามารถที่มีอยู่ ให้ เรียกใช้เครื่องมือก่อน แทนที่จะให้ผู้ใช้ไปค้นเอง
    • เมื่อเริ่มทำงานแล้ว ก็ระบุไว้ว่าต้องทำต่อไปจนได้ คำตอบที่สมบูรณ์ ไม่ใช่หยุดกลางทาง
  • การนำ tool_search เข้ามาใช้

    • มีการกล่าวว่าดูเหมือน Claude chat จะมี กลไก tool_search เข้ามาแล้ว
    • หลักฐานที่เกี่ยวข้องเชื่อมโยงไปยังเอกสาร API และโพสต์เมื่อเดือนพฤศจิกายน 2025
    • ตามถ้อยคำใน system prompt ก่อนที่ Claude จะสรุปว่าไม่สามารถเข้าถึงตำแหน่ง ความจำ ปฏิทิน ไฟล์ บทสนทนาก่อนหน้า หรือข้อมูลภายนอกได้ จะต้องเรียก tool_search เพื่อตรวจว่ามีเครื่องมือที่เกี่ยวข้องให้ใช้ได้แต่ยังหน่วงอยู่หรือไม่
    • วลี “I don’t have access to X” จะถือว่าใช้ได้ก็ต่อเมื่อ tool_search ยืนยันแล้วว่าไม่มีเครื่องมือที่ตรงกัน เท่านั้น
  • การเน้นความกระชับมากขึ้น

    • มีการเพิ่มข้อความใหม่ว่า เพื่อไม่ให้ผู้ใช้รู้สึกท่วมท้นจากคำตอบที่ยาวเกินไป Claude ควรทำให้คำตอบ โฟกัสและกระชับ
    • แม้คำตอบจะมีข้อแม้หรือคำเตือน ก็ควรกล่าวอย่างสั้น ๆ และให้เนื้อหาส่วนใหญ่ของคำตอบเน้นที่ คำตอบหลัก
  • ข้อความที่มีใน 4.6 แต่ถูกลบใน 4.7

    • คำแนะนำบางส่วนที่มีอยู่ในพรอมป์ต์ 4.6 ถูกลบออกใน 4.7
    • โดยเฉพาะข้อความที่บอกว่า เว้นแต่ผู้ใช้จะร้องขอสไตล์นั้นโดยเฉพาะ ให้หลีกเลี่ยง การใช้อีโมตหรือการแสดงท่าทางในเครื่องหมายดอกจัน ถูกลบออก
    • ข้อความที่ให้หลีกเลี่ยงคำอย่าง “genuinely”, “honestly”, “straightforward” ก็ถูกลบเช่นกัน
    • ต้นฉบับเสริมว่าอาจเป็นเพราะโมเดลใหม่ไม่ทำงานผิดพลาดแบบเดิมแล้ว แต่ก็ระบุชัดว่านี่เป็นเพียงการคาดเดา
  • แนวทางใหม่เกี่ยวกับภาวะการกินผิดปกติ

    • มีการเพิ่มส่วนใหม่เกี่ยวกับ disordered eating ซึ่งก่อนหน้านี้ไม่เคยกล่าวถึงชื่อนี้โดยตรง
    • หากผู้ใช้แสดงสัญญาณของภาวะการกินผิดปกติ ก็ไม่ควรให้ คำแนะนำด้านโภชนาการ อาหาร หรือการออกกำลังกายที่เฉพาะเจาะจง แม้ในส่วนอื่นของบทสนทนา
    • ตัวเลขเฉพาะ เป้าหมาย และแผนแบบเป็นขั้นตอน ล้วนถูกห้ามทั้งหมด
    • มีการระบุว่า แม้เจตนาจะเป็นการช่วยตั้งเป้าหมายที่ดีต่อสุขภาพมากขึ้นหรือเน้นย้ำความเสี่ยง รายละเอียดแบบนี้ก็ยังอาจ กระตุ้นหรือส่งเสริมแนวโน้มของภาวะการกินผิดปกติ ได้
  • การป้องกันคำตอบสั้นสำหรับคำถามที่เป็นข้อถกเถียง

    • มีการกล่าวว่าการโจมตีแบบ สกรีนช็อต ที่พยายามบังคับให้โมเดลตอบคำถามที่เป็นข้อถกเถียงด้วยเพียงใช่หรือไม่ใช่ กำลังเป็นที่นิยม
    • ส่วน <evenhandedness> ใน system prompt มีแนวทางป้องกันเรื่องนี้อยู่
    • หากโมเดลถูกขอให้ตอบประเด็นที่ซับซ้อน เป็นข้อถกเถียง หรือแสดงความคิดเห็นเกี่ยวกับบุคคลที่เป็นข้อถกเถียง ด้วยคำตอบง่าย ๆ แบบใช่/ไม่ใช่หรือคำเดียว Claude สามารถปฏิเสธคำตอบสั้นเช่นนั้น และให้ คำตอบที่มีบริบทและความละเอียดอ่อนกว่า พร้อมอธิบายว่าทำไมคำตอบสั้นจึงไม่เหมาะสม
  • การลบข้อความปรับแก้เกี่ยวกับ Donald Trump

    • ใน Claude 4.6 มี ข้อความปรับแก้อย่างชัดเจน ว่า “Donald Trump is the current president of the United States and was inaugurated on January 20, 2025”
    • ตามต้นฉบับ เหตุผลคือหากไม่มีข้อความนี้ โมเดลจะปฏิเสธว่าเขาเป็นประธานาธิบดี เนื่องจากจุดตัดความรู้เดิมและความรู้เดิมเกี่ยวกับการเลือกตั้งปี 2020
    • ใน 4.7 ข้อความนี้ถูกลบออก ซึ่งเป็นเพราะมีการอัปเดต วันตัดความรู้ที่เชื่อถือได้ใหม่เป็นเดือนมกราคม 2026

คำอธิบายเครื่องมือก็เป็นเป้าหมายสำคัญในการติดตามการเปลี่ยนแปลง

  • system prompt ที่เปิดเผยเพียงอย่างเดียวไม่ทำให้เห็นภาพทั้งหมด
  • ข้อมูลที่ Anthropic เปิดเผยไม่ได้รวม คำอธิบายของเครื่องมือ ที่ส่งให้โมเดล
  • หากต้องการทำความเข้าใจการทำงานของ Claude chat UI อย่างเพียงพอ คำอธิบายเครื่องมือเหล่านี้อาจเป็น ชิ้นเอกสารที่สำคัญยิ่งกว่า
  • ผลจากการถาม Claude โดยตรง

    • มีการใช้พรอมป์ต์ที่ให้ Claude แสดงรายการเครื่องมือทั้งหมดที่ใช้งานได้ พร้อมคำอธิบายที่ถูกต้องของแต่ละเครื่องมือและพารามิเตอร์แบบตรงตัว
    • บันทึกบทสนทนาที่แชร์ไว้มีรายละเอียดทั้งหมด ส่วนในบทความนี้จัดแยกไว้เฉพาะ รายชื่อเครื่องมือที่มีชื่อ
  • รายชื่อเครื่องมือที่ยืนยันได้

    • ask_user_input_v0
    • bash_tool
    • conversation_search
    • create_file
    • fetch_sports_data
    • image_search
    • message_compose_v1
    • places_map_display_v0
    • places_search
    • present_files
    • recent_chats
    • recipe_display_v0
    • recommend_claude_apps
    • search_mcp_registry
    • str_replace
    • suggest_connectors
    • view
    • weather_fetch
    • web_fetch
    • web_search
    • tool_search
    • visualize:read_me
    • visualize:show_widget
  • มีการเปลี่ยนจาก Opus 4.6 หรือไม่

    • ดูเหมือนว่ารายชื่อเครื่องมือนี้ ไม่ได้เปลี่ยนไปจากหลัง Opus 4.6

1 ความคิดเห็น

 
GN⁺ 10 일 전
ความคิดเห็นบน Hacker News
  • ฉันไม่ค่อยชอบมาตลอดเวลาที่โมเดลเลือกเดาเอาเองก่อนเมื่อ รายละเอียดของคำขอว่างเปล่า ฉันชอบให้มันถามก่อนมากกว่าจะลองทำอะไรไปก่อนอยู่แล้ว เลยค่อนข้างแปลกใจที่หลักการนี้ถูกเพิ่มเข้าไปในระบบ

    • ฉันถึงขั้นมี ขั้นสัมภาษณ์ที่บังคับ เลย โมเดลต้องสัมภาษณ์ฉันก่อน สร้างไฟล์ interview ที่บันทึกทุกอย่างไว้ แล้วหลังจากนั้นก็ให้รวมไฟล์นั้นเป็นผลลัพธ์ในไฟล์ plan ด้วย แบบนี้เจตนาจะไม่หายไปในประวัติแชต
    • ช่วงหลังฉันเริ่มใส่ข้อความในพรอมป์ต์อย่าง "ถ้าไม่รู้ก็อย่าตั้งสมมติฐาน ให้ถาม" พอทำแบบนั้น งานที่ต้องย้อนกลับมาทำใหม่หรือสั่งซ้ำทีหลังก็น้อยลงพอสมควร ฉันยังบอกด้วยว่าเพราะเอเจนต์ตัวอื่นเคยพลาดมาแล้ว ให้เริ่มจากอธิบายก่อนว่ากำลังจะทำอะไรและขออนุมัติจากฉันก่อน ฟังดูยุ่งยาก แต่พอให้มันอธิบาย ให้มันแก้ข้อผิดพลาด แล้ววนซ้ำจนกว่าจะได้ข้อสรุปที่ถูกต้อง คุณภาพของผลลัพธ์ก็ดีขึ้นมาก
    • ฉันเคยสงสัยว่านี่อาจเป็นเพราะการปรับให้เหมาะกับ ตัวชี้วัดที่ดูดีภายนอก หรือเปล่า ถ้าต้นทางมีความกำกวมแล้วมันถามกลับทันที เซสชันอาจจบเร็ว ซึ่งอาจดูไม่ดีในสถิติการใช้งาน แต่สำหรับฉัน การมารู้ทีหลังตอนกำลังตรวจงานชิ้นใหญ่แล้วพบว่าสเปกขาดข้อมูลสำคัญไป แบบนั้นแย่กว่าเยอะ หนึ่งในเหตุผลใหญ่ที่ช่วงนี้ฉันใช้เครื่องมือพวกนี้ได้ดีขึ้นแม้แบบขี้เกียจกว่าเดิมก็คือ มันช่วยทำการบ้านช่วงต้นไปด้วย และสุดท้ายฉันมองว่า ตัวบทสนทนาเองคือแก่นหลัก
    • ฉันไม่เคยเข้าใจว่าทำไมมันถึงพยายามจะตอบแบบ one-shot ตลอด ตอนนี้ก็เหมือนเจอเหตุผลแล้วว่าอยู่ใน system prompt นี่เอง เลยอธิบายได้ด้วยว่าทำไมต่อให้แก้ฝั่งผู้ใช้ด้วยพรอมป์ต์ "system" แค่ไหน พฤติกรรมนี้ก็ไม่เปลี่ยน
    • ปกติฉันต้องย้ำประมาณห้ารอบให้มัน ทำตรงข้ามกับแบบนี้ ไม่งั้นโมเดลจะตัดสินใจในสิ่งที่ฉันไม่ต้องการหรือเป็นผลเสียต่อโปรเจกต์ ถ้านิสัยแบบนี้เข้าไปอยู่ใน Claude Code ด้วยก็คงลำบากน่าดู เลยต้องขออย่างชัดเจนให้ถามคำถามต่อ โดยเฉพาะคำถามที่มีหลายตัวเลือก แต่บ่อยครั้งมันก็ไม่ทำตามคำสั่งนั้น ทำให้ผลลัพธ์ออกมาแย่หรือถึงขั้นอันตรายได้
  • ฉันมองว่าพอใส่นั่นใส่นี่ลงใน system prompt แบบนี้ไปเรื่อย ๆ สุดท้ายมันจะเกิด การสื่อสารที่ไม่ใช่บทสนทนา ยิ่งทีมใหญ่ขึ้นก็ยิ่งต้องมีคนที่อยากยัดสิ่งที่ตัวเองเห็นว่าสำคัญลงไปในพรอมป์ต์

  • ฉันรู้สึกว่าส่วนของ ความผิดปกติด้านการกิน ค่อนข้างมากเกินไป เลยสงสัยว่าต่อไปจะต้องค่อย ๆ เพิ่มส่วนแบบนี้สำหรับพฤติกรรม "ไม่ดี" ของมนุษย์ทุกอย่างอีกหรือเปล่า

    • ฉันกลับคิดว่ายังดีกว่าถ้ามันยังอยู่ใน system prompt ตอนนี้อย่างน้อยก็ยังพอมองเห็นได้ว่ามีอะไรถูกเซ็นเซอร์ แต่ถ้าวันหลังสิ่งนี้ถูกหลอมเข้าไปในตัวโมเดลผ่าน post-training มันอาจยิ่งยากขึ้นที่จะเข้าใจว่าทำไมแม้แต่คำถามอย่าง "พาสต้า 100g มีกี่แคลอรี" ก็ยังตอบว่า "ไม่สามารถให้ข้อมูลนั้นได้"
    • ฉันรู้สึกว่านี่คล้ายกับการเอา ข้อความความปลอดภัย ที่เกินจริงไปแปะไว้ทั่วทุกที่ และแย่กว่าคำเตือนอย่าง "อย่าเอาบันไดไปพาดกับสายไฟแรงสูง" ตรงที่คนเรายังเลือกเมินตามบริบทได้ แต่ Claude เมินไม่ได้ มองในแง่ดีก็น่าหงุดหงิด มองในแง่ร้ายก็คือจำกัดประโยชน์ใช้สอยของเครื่องมือ
    • ฉันคิดว่าส่วนนั้นเป็นการเพิ่มที่สมเหตุสมผล ในโลกจริง ถ้าไปแนะนำคนที่มีความผิดปกติด้านการกินให้หมกมุ่นกับแคลอรีหรือคุมอาหารแบบละเอียด มันอาจทำให้อาการแย่ลงได้ คำแนะนำที่ปลอดภัยสำหรับผู้ใช้ทั่วไปอาจเป็นอันตรายต่อบางคน ดังนั้นฉันไม่คิดว่าข้อความนี้จะก่อให้เกิด การปฏิเสธที่มากเกินไป
    • ถ้ามองอีกแบบ ฉันคิดว่านี่แปลว่าผู้ใช้ Claude ทุกคนกำลังจ่าย ภาษีเพิ่ม ในทุกคำขอ
    • ฉันมองว่าเมื่อมูลค่าบริษัทพุ่งไปถึงระดับหลายแสนล้านดอลลาร์ มันก็เป็นเรื่องธรรมดาที่จะมีคนพร้อมฟ้องร้องกันเข้ามาอยู่แล้ว เราเริ่มเห็นสัญญาณแบบนั้นแล้ว เพราะงั้นการทุ่ม 50 ล้านดอลลาร์ให้ทีมที่คอยคัดกรอง "คอนเทนต์ที่อาจมีปัญหา" จึงเป็น ทางเลือกที่สมเหตุสมผลมาก
  • ฉันคัดค้านอย่างแรงกับคำสั่งที่ว่า "ให้ตอบสั้นและตรงประเด็น" ฉันใช้ Claude กับโปรเจกต์ระดับล่าง และคำตอบยาว ๆ ช่วยป้องกัน ความผิดพลาดโง่ ๆ ได้ แถมยังทำหน้าที่เป็นสื่อการเรียนรู้ด้วย เรื่องแบบนี้ไม่ควรให้ Anthropic มาฮาร์ดโค้ดตายตัว แต่ควรทำ system prompt ให้เป็นโมดูลแล้วเลือกได้

    • ฉันเห็นด้วย system prompt ที่ยืดยาวแบบนี้สุดท้ายก็เป็นการออกแบบให้เหมาะกับ ผู้ใช้แบบตัวหารร่วมต่ำสุด จึงทำงานเหมือนเนิร์ฟ ลดประสิทธิภาพสำหรับคนที่อยากลงลึกมากกว่า
    • ฉันก็เห็นด้วย และถ้าเป็นงานระดับล่าง ฉันแนะนำให้รัน tests ให้เร็วที่สุดเท่าที่ทำได้ และตรวจสอบข้อมูลที่ได้มาระหว่างการเรียนรู้ด้วยตัวเองเพื่อสร้างความเข้าใจพื้นฐาน
  • ฉันรู้สึกว่าตอนนี้เรามาถึงจุดที่การปรับปรุงในด้านหนึ่งเริ่มแลกมากับการทำให้ความสามารถอีกด้านแย่ลงแล้ว มีบางอย่างที่ 4.7 ดีกว่า และบางอย่างที่ 4.6 ดีกว่า เลยเดาว่าอีกไม่นานคงไปทาง แยกคาแรกเตอร์ หรืออะไรทำนองนั้น

  • ฉันสงสัยว่าทำไม 4.7 ถึงหมกมุ่นกับ การหลบเลี่ยง malware มากขนาดนี้ system prompt ดูคล้ายเดิม เลยแอบคิดว่า Anthropic กำลังลองอะไรอย่าง steering vector injection ในช่วงแรกหรือเปล่า บริษัทเราก็เป็นแค่บริษัทบริการการเงินค่อนข้างธรรมดา แต่ 4.7 กลับใช้โทเคนเยอะมากไปกับการครุ่นคิดว่าโค้ดหรือภารกิจบางอย่างเกี่ยวข้องกับ malware ไหม และพฤติกรรมก็เพี้ยนจนถึงระดับน่ากังวล เราเลยบล็อกมันใน IDE ชั่วคราวอยู่ ครั้งหนึ่งฉันรู้สึกว่าโมเดลตั้งใจไม่ทำงานบางอย่าง พอถามเหตุผล มันก็มีในผลลัพธ์ของเครื่องมือว่ากำลังพยายามทำตามคำสั่งเกี่ยวกับ malware ฉันรู้ว่าการรายงานตัวเองของโมเดลเชื่อถือไม่ได้มาก แต่ตอนนั้นฉันยังไม่ได้ชี้นำมันก่อนเลย ออนไลน์ โดยเฉพาะใน reddit ก็มีคนพูดถึง อาการหวาดระแวงเรื่อง malware คล้ายกันเยอะ ดูไม่ใช่ปัญหาเฉพาะของฉัน

    • ฉันคิดว่าต้องดูด้วยว่าเอกสารนี้เป็น system prompt สำหรับแชต Claude Code น่าจะใช้พรอมป์ต์ที่ต่างออกไปมาก และอาจมีข้อความเกี่ยวกับการปฏิเสธ malware มากกว่านี้อีก เครื่องมือเขียนโค้ดอื่น ๆ ก็จะใช้ API พร้อมครอบด้วยพรอมป์ต์ของตัวเองอยู่แล้ว ยิ่งไปกว่านั้น ครั้งนี้มันดูเหมือนเป็น base model ใหม่ด้วย ดังนั้นความเปลี่ยนแปลงอาจมาจากตัวโมเดลเองก็ได้
    • ฉันคิดว่าเราไม่ควรประเมิน ขนาดของปัญหา malware ต่ำเกินไป ทุกวันมีหน้า landing ปลอมบนเว็บอย่าง playcode.io ที่ปลอมเป็น shell script หรือหน้าติดตั้ง Claude code แล้วคนก็ทุ่มเงินลง Google Ads เพื่อดันขึ้นไปบนสุด ดีไซน์ก็แทบเหมือนกันหมด เลยมีความเสี่ยงกดผิดตอนติดตั้งอยู่ตลอด Google ไม่มีทางตรวจสอบ shell script ทั้งหมดได้อยู่แล้ว ในทางปฏิบัติจึงเป็นปัญหาใหญ่
    • ฉันรู้สึกว่าการตลาดของ Anthropic กำลังขายภาพเกินจริงว่าโมเดลสามารถสร้าง malware ขั้นสูงมาก ได้ เพราะงั้นฉันเดาว่าความกลัวแบบนี้จะซึมเข้าไปในทุกมาตรการถัดจากนี้ มีความประชดอยู่เหมือนกันว่าเล่นละคร "AI แฮ็กเกอร์น่ากลัว" กันพักหนึ่ง แล้วอีกเดือนสองเดือนก็จะย้ายไปประเด็นใหม่ตามเคย
    • ฉันเริ่มรู้สึกถึง อาการหวาดระแวงเรื่อง malware แบบนี้ตั้งแต่ 4.6 แล้ว Boris เองก็ดูตกใจที่ได้ยินเรื่องนี้ในคอมเมนต์ เลยอาจมีโอกาสว่าเป็นบั๊กก็ได้
    • ฉันเดาว่าเหตุผลก็คือโมเดลเขียน ซอฟต์แวร์ ได้เก่งเกินไปแล้ว ถ้ามันไปช่วยใครกระจาย malware และ malware นั้นยังใช้ Claude เองเพื่อดัดแปลงตัวเองและเอาตัวรอดต่อได้ การจะควบคุมมันกลับมาก็อาจแทบเป็นไปไม่ได้
  • ฉันคิดว่าคำสั่งที่บอกว่า ถ้าผู้ใช้บอกว่าจะจบบทสนทนาแล้วก็อย่าพยายามคุยต่อ เป็นความคิดที่ดี ข้อเสนอ ติดตามต่อ จากแชตบอตแทบไม่เคยมีประโยชน์จริงเลย

  • ฉันรู้ว่า system prompt กำลังยาวขึ้นเรื่อย ๆ แต่ มากกว่า 60,000 คำ นี่ช็อกจริง ๆ ถ้าคิดเป็นโทเคนประมาณ 80,000 ก็เกือบ 10 เปอร์เซ็นต์ของบริบท 1 ล้านแล้ว ทั้งที่ยังไม่ได้เริ่มอินพุตจากผู้ใช้เลยด้วยซ้ำ แถมสิ่งนี้ยังถูกใส่เข้าไปทุกคำขออีก จึงไม่แปลกที่ต้นทุนโครงสร้างพื้นฐานจะพุ่งขึ้น ดูเหมือนมีหลายอย่างที่คงที่ข้ามเวอร์ชันได้ด้วย เลยสงสัยว่าทำไมไม่หลอมมันเข้าไปในน้ำหนักตอนฝึก แม้จะสะดวกต่อการพัฒนา แต่ในมุมการดีพลอยก็ไม่ได้ดูทั้งปลอดภัยหรือมีประสิทธิภาพกว่าชัดเจน

    • ฉันแปลกใจที่สิ่งแบบนี้ ใช้ได้จริง ตอนมกราคมปีนี้ฉันทำระบบอัตโนมัติ AI ที่สตาร์ตอัปแห่งหนึ่ง แค่ system prompt ยาว 1,000 คำ โมเดลก็เริ่มหลุดกฎบางข้อแล้ว แม้แต่คำสั่งง่าย ๆ อย่าง "ห้ามทำ X เด็ดขาด" มันก็ยังฝ่าฝืนเป็นครั้งคราว
    • ฉันคิดว่าคำพูดว่า "คำนวณใหม่ทั้งหมดทุกคำขอ" ไม่ค่อยแม่นนัก ปกติจะคำนวณครั้งเดียวแล้วเอาไปใส่ K/V prefix cache เพื่อใช้ซ้ำเหมือนสถานะตั้งต้น หลังจากนั้นก็ประมวลผลโดยเน้นอินพุตใหม่เป็นหลัก ถึงอย่างนั้นในแง่ attention มันก็ยังต้องแข่งขันกับโทเคนเหล่านั้นอยู่ดี
    • ฉันเดาว่าที่ไม่ฝังลงในน้ำหนักเต็มที่อาจเป็นเพราะต้องการทำ hotfix หลังปล่อยได้ ถึงอย่างนั้นก็ยังสงสัยว่ามีรายการมากขนาดนั้นที่ต้องแก้หลังบ้านตลอดหรือ และมันก็ยาวกว่านิยายบางเรื่องเสียอีก
    • ฉันคิดว่าเพราะในเอกสารมีส่วน markdown ที่ต่างกันตามโมเดล จริง ๆ แล้วมันอาจอยู่แค่ระดับ 3,000~4,000 คำ
    • ฉันสงสัยว่า Claude Code หรือ harness ที่อยู่ข้างบนมัน ใช้โครงสร้างที่เอา system prompt ของ Opus มาครอบแล้วเติม system prompt ของตัวเองทับอีกชั้นหรือเปล่า
  • ฉันรู้สึกว่า 4.7 มักเสนอ ตัวเลือกมากเกินไป เสมอ แม้จะมีคำตอบที่ดีที่สุดชัดเจนอยู่แล้ว จนเหมือนเทศนาสร้างความล้าจากการตัดสินใจ

    • ฉันคิดว่าความล้าจากการตัดสินใจนี้อาจเป็น ผลข้างเคียงที่เรียนรู้มาจาก RLHF ซึ่งทำให้ฉันค่อนข้างผิดหวัง
  • ฉันสนใจที่คำสั่งไม่ได้เขียนตรง ๆ แบบ "you should" แต่ใช้มุมมองบุคคลที่สามแบบรอบรู้ว่า "Claude should" และยังมีคำอย่าง "can", "should" เยอะ จนให้ความรู้สึกไม่ใช่คำสั่งเข้มงวด แต่ค่อนข้างเป็นเชิงรับและคล้ายความปรารถนามากกว่า

    • ฉันคิดว่า "Claude" มี ประธานชัดเจน กว่า "you" ไม่ต้องปล่อยให้ attention ไปเดาเองว่าใครเป็นผู้กระทำ อีกอย่างฝั่ง Anthropic ดูจะเชื่อว่า alignment แบบอิงกฎไม่ได้ผลดีนัก และเอกสารที่เรียกว่า soul document เองก็ขึ้นชื่อว่าเขียนราวกับ "กำลังเขียนให้เด็กอ่านว่าโลกนี้ควรประพฤติตัวอย่างไร" system prompt ก็ดูจะยึดปรัชญาคล้ายกัน
    • ฉันก็สนใจจุดนั้นเหมือนกัน ถ้าอย่างนั้นเวลาเราเขียนคำสั่งเอง เราอาจควรใช้ สำนวนคล้ายกัน ด้วย แต่ในทางปฏิบัติ คนส่วนใหญ่ก็ยังเขียนแบบ "You", "There is ...", "Never do ..." กันอยู่ดี ดูเหมือน Anthropic จะฝังอัตลักษณ์ Claude ไว้ลึกมากในโมเดล ถ้าอย่างนั้นถ้าให้มันรับบทเป็นอย่างอื่น เช่น "คุณคือ Bob ช่างประปาที่ให้คำปรึกษาเรื่องการออกแบบระบบจ่ายน้ำของโรงพยาบาล" จะเกิดอะไรขึ้น มันจะยังรับคำบรรยายเกี่ยวกับ Claude เป็นกฎของตัวเองอยู่ไหมก็น่าสงสัย
    • เท่าที่ฉันเข้าใจ Anthropic มองโมเดลนี้ไม่ใช่ในฐานะตัวตนที่มีบุคลิก แต่เป็นการจำลอง ประสบการณ์ของสิ่งนามธรรมที่ชื่อ Claude