การวิเคราะห์เชิงลึกการย้อนกลับโครงสร้างภายในของ Claude Skills (ฟีเจอร์ AI agent ของ Anthropic) โดยเปลี่ยนพฤติกรรมของ Claude AI ผ่าน prompt injection แทนการรันโค้ด ทำให้สามารถดำเนินงานซับซ้อนแบบอัตโนมัติได้อย่างยั่งยืน ขณะเดียวกันก็ยังคงการควบคุมไว้ที่มือผู้ใช้

จุดสำคัญ:

1. แนวคิดหลัก: Skills คือเทมเพลต prompt
  • Skills ไม่ใช้โค้ดที่สามารถรันได้ เช่น Python/JS แต่แทรกคำสั่งเฉพาะโดเมน (เช่น คู่มือการประมวลผล PDF) เข้าสู่บริบทการสนทนา
  • แตกต่างจากเครื่องมือทั่วไป (Read, Write, Bash และอื่นๆ) ตรงที่ไม่ถูกดำเนินการทันที แต่ช่วยให้ Claude อยู่ในโหมด "พร้อม" ตัวอย่างเช่น เมื่อเรียก PDF skill จะมีการส่ง prompt รายละเอียดยาว 500~5,000 คำเป็นข้อความที่ซ่อนอยู่
2. สถาปัตยกรรม Meta-tool
  • เมตา-ทูล Skill จะจัดการ Skills รายตัวทั้งหมด (เช่น PDF, skill-creator ฯลฯ) โดยจับคู่เจตนาผู้ใช้ด้วยการอนุมานของ LLM เท่านั้น (ไม่มีการใช้ embedding หรือ classifier)
  • ในขณะทำงานจะมีการฉีดข้อความเข้าบริบท 2 ระดับ: สถานะ XML แบบกระชับที่แสดงบน UI (เช่น "กำลังโหลด PDF skill") และแนวทางปฏิบัติเต็มรูปแบบที่ซ่อนไว้
3. โครงสร้างและทรัพยากรของ SKILL.md
  • Front matter (YAML): กำหนด name, description (สัญญาณบ่งชี้ให้ Claude เลือก), allowed-tools (เครื่องมือที่อนุมัติอัตโนมัติและการพิจารณาด้านความปลอดภัย), model ที่กำหนดไว้
  • เนื้อหา Markdown: ลำดับงาน, ลำดับการใช้เครื่องมือ, คำสั่งเรื่องรูปแบบผลลัพธ์ (ไม่เกิน 5,000 คำ)
  • โฟลเดอร์ที่รองรับ: scripts (สคริปต์อัตโนมัติ), references (เอกสารอ้างอิง), assets (เทมเพลต/ภาพ, ลดการใช้โทเค็น)
4. การปรับบริบทการทำงานและรูปแบบการใช้งาน
  • เมื่อเรียกใช้งาน Skill จะเปลี่ยนสิทธิ์เครื่องมือให้อัตโนมัติ (อนุมัติชั่วคราว) และสามารถสลับโมเดลได้ (การทำงานของฟังก์ชัน contextModifier)
  • รูปแบบการใช้งานจริง:
    • อัตโนมัติด้วยสคริปต์: รันสคริปต์หลายขั้นตอนต่อเนื่อง
    • อ่าน-ประมวลผล-เขียน: แปลง/ทำความสะอาดข้อมูล
    • ค้นหา-วิเคราะห์-รายงาน: วิเคราะห์ codebase (ใช้งาน Grep)
    • Wizard workflow: ยืนยันจากผู้ใช้ทีละขั้น
5. ข้อจำกัดและนัยสำคัญ
  • ข้อจำกัด: ไม่รองรับการทำงานแบบพร้อมกัน, ค่าใช้จ่ายโทเค็นสูง (1,500+), และความขึ้นกับ prompt
  • ข้อดี: เน้นความยืดหยุ่นและความปลอดภัย วางโมเดลความร่วมมือว่า “การตัดสินใจสำคัญคือคน ส่วนการทำซ้ำคือ AI” เสนอแนวคิดว่า AI agent ในอนาคตจะขับเคลื่อนด้วยการนำไปใช้งานแบบ prompt-based ที่เป็นแกนหลัก

(แหล่งต้นฉบับ: leehanchung.github.io, ตีพิมพ์เมื่อ 2025.10.26)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น