"Skillify" ของ Garry Tan — วิธีเปลี่ยนความล้มเหลวของ AI เอเจนต์ให้กลายเป็นการแก้โครงสร้างแบบถาวร

(x.com/garrytan)

36 คะแนน โดย ragingwind 7 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

บทความนี้ว่าด้วยแนวทางจัดการคุณภาพเอเจนต์ชื่อว่า "Skillify" ที่ Garry Tan ประธานของ Y Combinator เสนอขึ้นจากประสบการณ์ในการใช้งาน AI เอเจนต์ของตนเอง โดยเริ่มจากข้อสังเกตว่าเฟรมเวิร์กอย่าง LangChain ที่ระดมทุนได้ 160 ล้านดอลลาร์นั้นมีเครื่องมือสำหรับการทดสอบก็จริง แต่ยังขาดเวิร์กโฟลว์ว่า "ควรทดสอบอะไร และทดสอบตามลำดับใด" Tan จึงเสนอเช็กลิสต์ 10 ขั้นตอนที่เปลี่ยนความผิดพลาดของเอเจนต์จากการแก้พรอมป์ต์แบบชั่วครั้งชั่วคราว ไปเป็นโครงสร้างถาวรที่ประกอบด้วยไฟล์ทักษะแบบ Markdown, สคริปต์เชิงกำหนดแน่นอน และการทดสอบอัตโนมัติ

แนวคิดหลัก

Skillify คืออะไร: เมื่อเกิดความล้มเหลวของเอเจนต์ ให้เปลี่ยนความล้มเหลวนั้นเป็น "สกิล" ที่ทำให้ข้อผิดพลาดเดิมไม่อาจเกิดซ้ำได้ (คู่มือขั้นตอนแบบ Markdown + สคริปต์เชิงกำหนดแน่นอน + การทดสอบ) หากพูดระหว่างบทสนทนาว่า "skillify it" เอเจนต์จะดำเนินกระบวนการ 10 ขั้นตอนโดยอัตโนมัติ
การแยก Latent กับ Deterministic: แยกงานที่ต้องใช้การตัดสินใจ (latent, พื้นที่การให้เหตุผลของ LLM) ออกจากงานที่ต้องการความแม่นยำสูง (deterministic, พื้นที่การรันโค้ด) อย่างชัดเจน เขามองว่าบั๊กสำคัญคือกรณีที่ LLM พยายามทำสิ่งที่โค้ดตอบได้ทันทีอย่างการคำนวณเขตเวลา หรือการค้นหาปฏิทิน "ในหัว" แล้วตอบผิด
เช็กลิสต์ 10 ขั้นตอน: ต้องผ่านทั้งหมดจึงจะนับเป็น "สกิล" ได้แก่ การเขียน SKILL.md, เขียนสคริปต์เชิงกำหนดแน่นอน, ยูนิตเทสต์ (vitest), อินทิเกรชันเทสต์, การประเมิน LLM (LLM-as-judge), การลงทะเบียน resolver trigger, การประเมิน resolver, การตรวจสอบการเข้าถึงได้/ความซ้ำซ้อน, E2E smoke test และกฎการจัดแฟ้มสมอง

กรณีจริง

เมื่อถามกำหนดการเดินทางไปทำงานที่สิงคโปร์เมื่อ 10 ปีก่อน เอเจนต์กลับเรียกใช้ live API นาน 5 นาที ก่อนจะมาพบภายหลังว่าข้อมูลนั้นค้นหาได้ทันทีจากไฟล์ปฏิทิน 3,146 ไฟล์ที่ถูกทำดัชนีไว้ในเครื่องอยู่แล้ว
กรณีที่ตอบว่า "อีก 28 นาทีจะมีประชุมครั้งถัดไป" แต่ความจริงคืออีก 88 นาที — LLM คำนวณแปลงเขตเวลาจาก UTC เป็น PT ในหัวแล้วพลาดไปเต็ม ๆ 1 ชั่วโมง
ทั้งสองกรณีต่างมีสคริปต์เดิมอยู่แล้วซึ่งให้คำตอบที่ถูกต้องได้ภายใน 100ms แต่สาเหตุคือเอเจนต์เลือกใช้การให้เหตุผลแทนที่จะรันสคริปต์

จุดแตกต่าง

หาก LangChain เป็นเพียง "ชุดเครื่องมือทดสอบ" Skillify จะเสนอเวิร์กโฟลว์แบบมีจุดยืนชัดเจนว่า "ความล้มเหลว → สกิล → การทดสอบ → การแก้ถาวร" เปรียบได้ว่าในขณะที่เฟรมเวิร์กให้แค่สมาชิกฟิตเนส Skillify ให้ตารางออกกำลังกายมาด้วย
เขาชี้ว่า Hermes Agent ของ Nous Research เก่งเรื่องการสร้างสกิลอัตโนมัติ แต่เมื่อไม่มีการทดสอบ สกิลก็จะเสื่อมสภาพไปตามเวลา จึงย้ำว่าจำเป็นต้องมีทั้ง "การสร้าง" และ "การตรวจสอบ" ควบคู่กัน

นัยสำคัญ

ในสายซอฟต์แวร์เอนจิเนียริง หลักการที่ว่า "ทุกบั๊กต้องมี regression test กำกับ" ถูกวางไว้ตั้งแต่ปี 2005 แล้ว แต่โลกของ AI เอเจนต์ยังไปไม่ถึงระดับนั้น มุมมองที่ว่าสกิลของเอเจนต์ก็เหมือนโค้ดเบส คือหากไม่มีการทดสอบก็จะเสื่อมสภาพ เป็นคำเตือนที่ใช้ได้กับทั้งอุตสาหกรรม
กรณีที่มีการดูแลสกิลมากกว่า 40 รายการ แต่ 15% ไม่ได้ถูกลงทะเบียนใน resolver จนกลายเป็น "ฟังก์ชันในความมืด" สะท้อนว่าเมื่อระบบเอเจนต์ขยายขนาด การจัดการเรื่อง discoverability จะกลายเป็นงานสำคัญที่หลีกเลี่ยงไม่ได้

2 ความคิดเห็น

tested 7 일 전

ตรงนั้นสิ
> ถ้าระหว่างบทสนทนาพูดว่า "skillify it" เอเจนต์จะดำเนินกระบวนการ 10 ขั้นตอนโดยอัตโนมัติ

แล้วสกิลที่รันสิ่งนี้ให้ได้ไปรับมาจากไหนครับ?

heyjude 7 일 전

ฟีเจอร์ skillify skill เป็นความสามารถที่รวมอยู่ใน gbrain
https://github.com/garrytan/gbrain/…

"Skillify" ของ Garry Tan — วิธีเปลี่ยนความล้มเหลวของ AI เอเจนต์ให้กลายเป็นการแก้โครงสร้างแบบถาวร

บทความที่เกี่ยวข้อง

2 ความคิดเห็น