การรื้อโครงสร้าง Claude Skills: ตั้งแต่ prompt สู่การใช้งานจริง, การวิเคราะห์ AI workflow โดยนักพัฒนา
(aisparkup.com)การวิเคราะห์เชิงลึกการย้อนกลับโครงสร้างภายในของ Claude Skills (ฟีเจอร์ AI agent ของ Anthropic) โดยเปลี่ยนพฤติกรรมของ Claude AI ผ่าน prompt injection แทนการรันโค้ด ทำให้สามารถดำเนินงานซับซ้อนแบบอัตโนมัติได้อย่างยั่งยืน ขณะเดียวกันก็ยังคงการควบคุมไว้ที่มือผู้ใช้
จุดสำคัญ:
1. แนวคิดหลัก: Skills คือเทมเพลต prompt
- Skills ไม่ใช้โค้ดที่สามารถรันได้ เช่น Python/JS แต่แทรกคำสั่งเฉพาะโดเมน (เช่น คู่มือการประมวลผล PDF) เข้าสู่บริบทการสนทนา
- แตกต่างจากเครื่องมือทั่วไป (Read, Write, Bash และอื่นๆ) ตรงที่ไม่ถูกดำเนินการทันที แต่ช่วยให้ Claude อยู่ในโหมด "พร้อม" ตัวอย่างเช่น เมื่อเรียก PDF skill จะมีการส่ง prompt รายละเอียดยาว 500~5,000 คำเป็นข้อความที่ซ่อนอยู่
2. สถาปัตยกรรม Meta-tool
- เมตา-ทูล
Skillจะจัดการ Skills รายตัวทั้งหมด (เช่น PDF, skill-creator ฯลฯ) โดยจับคู่เจตนาผู้ใช้ด้วยการอนุมานของ LLM เท่านั้น (ไม่มีการใช้ embedding หรือ classifier) - ในขณะทำงานจะมีการฉีดข้อความเข้าบริบท 2 ระดับ: สถานะ XML แบบกระชับที่แสดงบน UI (เช่น "กำลังโหลด PDF skill") และแนวทางปฏิบัติเต็มรูปแบบที่ซ่อนไว้
3. โครงสร้างและทรัพยากรของ SKILL.md
- Front matter (YAML): กำหนด
name,description(สัญญาณบ่งชี้ให้ Claude เลือก),allowed-tools(เครื่องมือที่อนุมัติอัตโนมัติและการพิจารณาด้านความปลอดภัย),modelที่กำหนดไว้ - เนื้อหา Markdown: ลำดับงาน, ลำดับการใช้เครื่องมือ, คำสั่งเรื่องรูปแบบผลลัพธ์ (ไม่เกิน 5,000 คำ)
- โฟลเดอร์ที่รองรับ:
scripts(สคริปต์อัตโนมัติ),references(เอกสารอ้างอิง),assets(เทมเพลต/ภาพ, ลดการใช้โทเค็น)
4. การปรับบริบทการทำงานและรูปแบบการใช้งาน
- เมื่อเรียกใช้งาน Skill จะเปลี่ยนสิทธิ์เครื่องมือให้อัตโนมัติ (อนุมัติชั่วคราว) และสามารถสลับโมเดลได้ (การทำงานของฟังก์ชัน
contextModifier) - รูปแบบการใช้งานจริง:
- อัตโนมัติด้วยสคริปต์: รันสคริปต์หลายขั้นตอนต่อเนื่อง
- อ่าน-ประมวลผล-เขียน: แปลง/ทำความสะอาดข้อมูล
- ค้นหา-วิเคราะห์-รายงาน: วิเคราะห์ codebase (ใช้งาน Grep)
- Wizard workflow: ยืนยันจากผู้ใช้ทีละขั้น
5. ข้อจำกัดและนัยสำคัญ
- ข้อจำกัด: ไม่รองรับการทำงานแบบพร้อมกัน, ค่าใช้จ่ายโทเค็นสูง (1,500+), และความขึ้นกับ prompt
- ข้อดี: เน้นความยืดหยุ่นและความปลอดภัย วางโมเดลความร่วมมือว่า “การตัดสินใจสำคัญคือคน ส่วนการทำซ้ำคือ AI” เสนอแนวคิดว่า AI agent ในอนาคตจะขับเคลื่อนด้วยการนำไปใช้งานแบบ prompt-based ที่เป็นแกนหลัก
(แหล่งต้นฉบับ: leehanchung.github.io, ตีพิมพ์เมื่อ 2025.10.26)
ยังไม่มีความคิดเห็น