"Skillify" ของ Garry Tan — วิธีเปลี่ยนความล้มเหลวของ AI เอเจนต์ให้กลายเป็นการแก้โครงสร้างแบบถาวร
(x.com/garrytan)บทความนี้ว่าด้วยแนวทางจัดการคุณภาพเอเจนต์ชื่อว่า "Skillify" ที่ Garry Tan ประธานของ Y Combinator เสนอขึ้นจากประสบการณ์ในการใช้งาน AI เอเจนต์ของตนเอง โดยเริ่มจากข้อสังเกตว่าเฟรมเวิร์กอย่าง LangChain ที่ระดมทุนได้ 160 ล้านดอลลาร์นั้นมีเครื่องมือสำหรับการทดสอบก็จริง แต่ยังขาดเวิร์กโฟลว์ว่า "ควรทดสอบอะไร และทดสอบตามลำดับใด" Tan จึงเสนอเช็กลิสต์ 10 ขั้นตอนที่เปลี่ยนความผิดพลาดของเอเจนต์จากการแก้พรอมป์ต์แบบชั่วครั้งชั่วคราว ไปเป็นโครงสร้างถาวรที่ประกอบด้วยไฟล์ทักษะแบบ Markdown, สคริปต์เชิงกำหนดแน่นอน และการทดสอบอัตโนมัติ
แนวคิดหลัก
- Skillify คืออะไร: เมื่อเกิดความล้มเหลวของเอเจนต์ ให้เปลี่ยนความล้มเหลวนั้นเป็น "สกิล" ที่ทำให้ข้อผิดพลาดเดิมไม่อาจเกิดซ้ำได้ (คู่มือขั้นตอนแบบ Markdown + สคริปต์เชิงกำหนดแน่นอน + การทดสอบ) หากพูดระหว่างบทสนทนาว่า "skillify it" เอเจนต์จะดำเนินกระบวนการ 10 ขั้นตอนโดยอัตโนมัติ
- การแยก Latent กับ Deterministic: แยกงานที่ต้องใช้การตัดสินใจ (latent, พื้นที่การให้เหตุผลของ LLM) ออกจากงานที่ต้องการความแม่นยำสูง (deterministic, พื้นที่การรันโค้ด) อย่างชัดเจน เขามองว่าบั๊กสำคัญคือกรณีที่ LLM พยายามทำสิ่งที่โค้ดตอบได้ทันทีอย่างการคำนวณเขตเวลา หรือการค้นหาปฏิทิน "ในหัว" แล้วตอบผิด
- เช็กลิสต์ 10 ขั้นตอน: ต้องผ่านทั้งหมดจึงจะนับเป็น "สกิล" ได้แก่ การเขียน
SKILL.md, เขียนสคริปต์เชิงกำหนดแน่นอน, ยูนิตเทสต์ (vitest), อินทิเกรชันเทสต์, การประเมิน LLM (LLM-as-judge), การลงทะเบียน resolver trigger, การประเมิน resolver, การตรวจสอบการเข้าถึงได้/ความซ้ำซ้อน, E2E smoke test และกฎการจัดแฟ้มสมอง
กรณีจริง
- เมื่อถามกำหนดการเดินทางไปทำงานที่สิงคโปร์เมื่อ 10 ปีก่อน เอเจนต์กลับเรียกใช้ live API นาน 5 นาที ก่อนจะมาพบภายหลังว่าข้อมูลนั้นค้นหาได้ทันทีจากไฟล์ปฏิทิน 3,146 ไฟล์ที่ถูกทำดัชนีไว้ในเครื่องอยู่แล้ว
- กรณีที่ตอบว่า "อีก 28 นาทีจะมีประชุมครั้งถัดไป" แต่ความจริงคืออีก 88 นาที — LLM คำนวณแปลงเขตเวลาจาก UTC เป็น PT ในหัวแล้วพลาดไปเต็ม ๆ 1 ชั่วโมง
- ทั้งสองกรณีต่างมีสคริปต์เดิมอยู่แล้วซึ่งให้คำตอบที่ถูกต้องได้ภายใน 100ms แต่สาเหตุคือเอเจนต์เลือกใช้การให้เหตุผลแทนที่จะรันสคริปต์
จุดแตกต่าง
- หาก LangChain เป็นเพียง "ชุดเครื่องมือทดสอบ" Skillify จะเสนอเวิร์กโฟลว์แบบมีจุดยืนชัดเจนว่า "ความล้มเหลว → สกิล → การทดสอบ → การแก้ถาวร" เปรียบได้ว่าในขณะที่เฟรมเวิร์กให้แค่สมาชิกฟิตเนส Skillify ให้ตารางออกกำลังกายมาด้วย
- เขาชี้ว่า Hermes Agent ของ Nous Research เก่งเรื่องการสร้างสกิลอัตโนมัติ แต่เมื่อไม่มีการทดสอบ สกิลก็จะเสื่อมสภาพไปตามเวลา จึงย้ำว่าจำเป็นต้องมีทั้ง "การสร้าง" และ "การตรวจสอบ" ควบคู่กัน
นัยสำคัญ
- ในสายซอฟต์แวร์เอนจิเนียริง หลักการที่ว่า "ทุกบั๊กต้องมี regression test กำกับ" ถูกวางไว้ตั้งแต่ปี 2005 แล้ว แต่โลกของ AI เอเจนต์ยังไปไม่ถึงระดับนั้น มุมมองที่ว่าสกิลของเอเจนต์ก็เหมือนโค้ดเบส คือหากไม่มีการทดสอบก็จะเสื่อมสภาพ เป็นคำเตือนที่ใช้ได้กับทั้งอุตสาหกรรม
- กรณีที่มีการดูแลสกิลมากกว่า 40 รายการ แต่ 15% ไม่ได้ถูกลงทะเบียนใน resolver จนกลายเป็น "ฟังก์ชันในความมืด" สะท้อนว่าเมื่อระบบเอเจนต์ขยายขนาด การจัดการเรื่อง discoverability จะกลายเป็นงานสำคัญที่หลีกเลี่ยงไม่ได้
2 ความคิดเห็น
ตรงนั้นสิ
> ถ้าระหว่างบทสนทนาพูดว่า "skillify it" เอเจนต์จะดำเนินกระบวนการ 10 ขั้นตอนโดยอัตโนมัติ
แล้วสกิลที่รันสิ่งนี้ให้ได้ไปรับมาจากไหนครับ?
ฟีเจอร์
skillify skillเป็นความสามารถที่รวมอยู่ใน gbrainhttps://github.com/garrytan/gbrain/…