ระดับความเป็นอิสระของเอเจนต์
(addyo.substack.com)- วิศวกรรมแบบเอเจนต์กำลังขยับจากการเขียนพรอมป์ไปใกล้เคียงกับ การออกแบบการปฏิบัติการ มากขึ้น และต้องกำหนดทั้งระดับความเป็นอิสระที่อนุญาตสำหรับแต่ละงาน รวมถึง วิธีตรวจสอบ ที่รองรับระดับนั้น
- โมเดลแบบบันไดแกนเดียวมีประโยชน์ในการแทนความเชื่อมั่นต่อเอเจนต์หนึ่งตัวด้วยตัวเลข แต่ความสามารถในการจัดการเอเจนต์หลายตัวพร้อมกันควรมองแยกเป็นสองแกนคือ agency และ orchestration
- โมเดลระดับ 0~5 ไล่ตั้งแต่ Assist ที่ให้เพียงข้อเสนอ ไปจนถึง Managed-by-exception orchestration ที่มนุษย์เข้าแทรกแซงเฉพาะเมื่อเกิดกรณียกเว้น และยิ่งระดับสูงขึ้น เป้าหมาย ขอบเขต หลักฐาน สิทธิ์ และงบประมาณยิ่งต้องชัดเจน
- จากการวิเคราะห์ Claude Code ของ Anthropic พบแนวโน้มว่ามนุษย์รับผิดชอบการตัดสินใจด้านการวางแผนราว 70% และ Claude รับผิดชอบการลงมือทำราว 80% โดยอิงจากข้อมูลผู้ใช้ประมาณ 235,000 คน และประมาณ 400,000 เซสชัน
- การใช้เอเจนต์อย่างมีวุฒิภาวะไม่ได้อยู่ที่การอวดว่ามีความเป็นอิสระสูง แต่อยู่ที่การใช้ calibrated autonomy ให้เหมาะกับความเสี่ยงและระดับที่ย้อนกลับได้ พร้อมจัดการคอขวดด้านการตรวจสอบ
วิศวกรรมแบบเอเจนต์ที่ย้ายจากการเขียนพรอมป์สู่การออกแบบการปฏิบัติการ
- จุดศูนย์กลางของวิศวกรรมแบบเอเจนต์กำลังย้ายจากการเขียนพรอมป์ไปสู่ การออกแบบการปฏิบัติการ
- software factory, เป้าหมาย, loop, background session, subagent, hook, sandbox และวิธีที่เอเจนต์อนุมัติเอเจนต์ด้วยกันเอง กำลังขึ้นมาอยู่แถวหน้า
- Claude Code และ Codex ถูกยกเป็นผลิตภัณฑ์ตัวแทนที่แสดงให้เห็นการเปลี่ยนแปลงนี้
- วิศวกรอาจใช้ความเป็นอิสระระดับต่ำเพื่อลดความเสี่ยงและทำให้ย้อนกลับได้ง่าย และใช้ความเป็นอิสระที่สูงขึ้นกับ fleet ของเอเจนต์แบบขนานสำหรับกิจกรรมที่ชัดเจนหรือการ refactor codebase ขนาดใหญ่
- คำถามหลักคือควรอนุญาต ความเป็นอิสระระดับใด สำหรับแต่ละงาน และการตรวจสอบแบบใดจะปกป้องระดับนั้นได้
มองความเป็นอิสระเป็นสองแกนแทนบันไดแกนเดียว
- บันไดแกนเดียวที่กล่าวถึงใน “Welcome to Gas Town” ของ Steve Yegge มีประโยชน์ในการแทนความเชื่อมั่นต่อเอเจนต์หนึ่งตัวด้วยตัวเลข
- ในช่วงต้นปี 2026 แม้ในสถานการณ์ที่งานย้ายจากการมอบหมายไปสู่ orchestration แกนเดียวก็ยังทำหน้าที่เป็นตัวชี้วัดแทนโดยคร่าว ๆ สำหรับการวัดความเสี่ยงได้
- เมื่อสามารถรันเอเจนต์หลายตัวพร้อมกันได้ ลำดับขั้นเดียวไม่เพียงพอที่จะอธิบาย ความสามารถแบบหลายเอเจนต์
- การถกเถียงเรื่องความเป็นอิสระมักปนคำถามสองข้อที่ต่างกัน
- สามารถส่งเอเจนต์เดี่ยวออกไปไกลจากมนุษย์ได้แค่ไหน
- สามารถประสานงานเอเจนต์หลายตัวได้ดีแค่ไหน
- หากจะแยกสองเรื่องนี้ จำเป็นต้องมีสองแกน
- agency: เอเจนต์หนึ่งตัวสามารถเสนอ ลงมือทำงานที่จำกัดขอบเขต หรือทำเป้าหมายให้สำเร็จได้อย่างอิสระแค่ไหน
- orchestration: สามารถประสานงานได้ตั้งแต่เธรดเดียว ไปจนถึง tree ของงานหลายชุด และงานต่อเนื่องที่อิง backlog, issue tracker และ schedule ได้แค่ไหน
ความหมายของ agency และ orchestration
- ในระดับต่ำของแกน agency เอเจนต์จะเสนอ candidate action แล้วรอการตัดสินใจจากมนุษย์
- ในระดับกลาง เอเจนต์จะทำงานเฉพาะอย่างโดยจำกัดขอบเขต และรายงานสิ่งที่ทำพร้อมหลักฐานอย่างต่อเนื่องเพื่อให้มนุษย์ปรับทิศทางได้
- ในระดับ agency สูง เอเจนต์จะทดลอง เรียนรู้ ทดสอบ รับมือกับสถานการณ์ติดขัด ตั้งคำถาม และลองแนวทางอื่นเพื่อไปสู่เป้าหมาย แล้วส่งกลับมาพร้อม หลักฐาน
- ระดับต่ำของแกน orchestration คือเอเจนต์หนึ่งตัวกับเธรดหนึ่งเส้น
- ในระดับกลาง เอเจนต์หลายตัวจะทำเป้าหมายต่างกันใน worktree ที่แยกจากกัน
- ในระดับสูง orchestrator จะเปลี่ยน backlog, issue tracker, schedule และ queue ให้เป็นงานต่อเนื่อง โดยมนุษย์จะเข้าแทรกแซงเฉพาะเมื่อเกิดความล้มเหลว ในรูปแบบ management by exception
- ตัวอย่างฟีเจอร์และผลิตภัณฑ์ที่เกี่ยวข้องมีดังนี้
- Claude Code:
/plan,/goal,/loop,/background,/batch,/code-review,/security-review, subagent, hook, checkpoint, วิธีมอบหมายและจัดการเอเจนต์, background session, agent team pattern, อาร์กิวเมนต์/schedule - Codex: เธรดแบบ local และ cloud, Goal mode, worktree, Automations, subagent, review panel, GitHub code review, hook, sandbox, Auto-review, rerun
- Claude Code:
สามยุคและหกระดับ
- หากอ่านบันไดจากล่างขึ้นบน จะดูเหมือนเป็นการเพิ่มทั้ง agency และ orchestration ไปพร้อมกัน
- หกระดับแบ่งออกเป็นสามยุค
- ยุคที่มนุษย์อยู่หลังพวงมาลัย เอเจนต์ทำหน้าที่ช่วยเหลือ และรอการควบคุมจากมนุษย์
- ยุคที่เอเจนต์รับงานหรือเป้าหมายที่จำกัดขอบเขต แต่มนุษย์ยังปรับทิศทางและตรวจสอบ
- ยุค orchestration ที่ระบบกระจายงานให้เอเจนต์หลายตัว และมนุษย์มักเข้าแทรกแซงเมื่อเกิดปัญหา
- ในงานวิศวกรรมจริง เป็นเรื่องธรรมชาติที่จะสลับไปมาระหว่างหลายระดับภายในวันเดียว
Level 0: Assist
- เอเจนต์มักให้ข้อเสนอที่ดี และบางครั้งก็สมบูรณ์แบบ แต่การตัดสินใจว่าจะลงมือทำหรือไม่เป็นของมนุษย์เสมอ
- ตัวอย่างคือ autocomplete, ข้อเสนอแก้ไขแบบ inline และสถานการณ์ที่พูดคุยเรื่องการเปลี่ยนแปลงที่ยังไม่มีใครเป็นเจ้าของในแชต
- เหมาะกับข้อผิดพลาดที่มีต้นทุนสูง การเปลี่ยนแปลงที่เล็กมาก และงานที่ยังอยู่ระหว่างสร้างดุลยพินิจ
- การตรวจสอบส่วนใหญ่เกิดขึ้นแบบ local
Level 1: Supervised action
- เอเจนต์แก้ไขหรือรันคำสั่งแทน แต่ก่อนการดำเนินการสำคัญจะขออนุญาตจากมนุษย์
- ใกล้เคียงกับท่าทีพื้นฐานที่คนส่วนใหญ่ใช้งาน
- สามารถทำได้ใน local sandbox โดยขออนุมัติก่อนใช้การเปลี่ยนแปลง หรือทำใน session แบบโต้ตอบ
- การอนุมัติแต่ละครั้งทำหน้าที่เป็นการตรวจสอบอิสระว่าเปลี่ยนแปลงนั้นนำไปใช้ได้หรือไม่
- โหมดความล้มเหลวหลักคือ ความล้าจากการอนุมัติ
- ไม่ว่าจะอนุมัติอะไร การอนุมัติทุกอย่างอาจเริ่มรู้สึกคล้ายกัน
- อาจรับมือด้วยการกวาดตาดู diff แบบคร่าว ๆ ทำตาม heuristic ให้คนอื่นช่วยตรวจ หรืออนุญาตให้เอเจนต์รับผิดชอบ
- Codex Auto-review จัดการปัญหานี้ด้วยการมอบหมายการอนุมัติสุดท้ายของเงื่อนไขขอบเขตให้เอเจนต์ reviewer แยกต่างหาก
Level 2: Scoped task delegation
- เป็นระดับที่ส่งงานจำกัดขอบเขตให้เอเจนต์
- งานต้องมีเป้าหมาย ข้อจำกัด และนิยามของสภาพงานเมื่อเสร็จที่ชัดเจน
- มนุษย์ยังอยู่ใกล้และสามารถหยุดได้ แต่ส่วนใหญ่ไม่เข้าไปเกี่ยวข้องโดยตรง
- ในวิศวกรรมซอฟต์แวร์ ระดับนี้ถูกมองว่าใกล้จุดศูนย์กลาง
- การตรวจสอบย้ายจากการตรวจโดยตรงของมนุษย์ไปสู่ หลักฐาน ที่เอเจนต์สร้างได้
- automated test ที่ผ่าน
- type ที่เหมาะสม
- ข้อเสนอจาก lint
- screenshot
- ขั้นตอนการทำซ้ำ
- แหล่งอ้างอิงที่อิงตัวอย่าง
Level 3: Goal-driven autonomy
- เอเจนต์ทำสิ่งที่จำเป็นเพื่อบรรลุเป้าหมายจนกว่าเงื่อนไขที่กำหนดจะเป็นจริง
- ใน prompt mode ตัวพรอมป์เองจะกลายเป็นเป้าหมาย
- ตัวอย่าง: “สามารถลด time-to-interactive ของหน้านี้ให้ต่ำกว่า 1 วินาทีได้หรือไม่?”
- ใน Codex สิ่งนี้คือ Goal mode โดยเอเจนต์จะวนซ้ำขั้นตอน
plan -> act -> test -> reviewและหยุดเมื่อไม่สามารถทำให้เป็นไปตามเกณฑ์ความสำเร็จได้อีก - ใน Claude Code คำสั่ง
/goal,/loop,/scheduleสอดคล้องกับระดับนี้ - เพื่อให้ระดับนี้มีประโยชน์ เงื่อนไขการหยุดต้อง วัดได้ ในแบบที่ทำอัตโนมัติได้
- เป้าหมายคลุมเครืออย่าง “ปรับปรุงประสบการณ์ผู้ใช้โดยรวม” หรือ “ทำให้ codebase ทดสอบได้มากขึ้น” ไม่เหมาะ
- เป้าหมายที่เหมาะกว่าควรเฉพาะเจาะจง วัดได้ และทำอัตโนมัติได้
- ค้นหา production bug ที่หลุดจาก static analysis
- ลดเวลาโหลด
- รับประกัน strict TypeScript build ที่ไม่มี
anyแบบ explicit - จัดหมวดหมู่ dependency ทั้งหมดให้เหลือเฉพาะ dependency ที่เข้าใจได้และผ่านการทดสอบ
- หากต้องการค้นหา production bug เอเจนต์ต้องอยู่ใน สภาพแวดล้อมที่คล้าย production
Level 4: Parallel delegation
- เป็นระดับที่เอเจนต์หลายตัวทำงานแบบขนาน
- เอเจนต์แต่ละตัวรับชิ้นส่วนของงานที่แยกจากกัน
- คอขวดที่ใหญ่ที่สุดคือ การแยกย่อย ว่าจะมอบหมายชิ้นส่วนใด
- ฟีเจอร์ที่รองรับ ได้แก่ subagent, background session,
/batch, worktree และ agent team - โหมดความล้มเหลวหลักคือความขนานแบบปลอม
- หากเอเจนต์หลายตัวจัดการชิ้นส่วนที่ซ้อนทับกันพร้อมกัน อาจสร้าง merge conflict และการตัดสินใจซ้ำซ้อนแทนที่จะได้งานเพิ่ม
- หากจะดำเนินงานให้ดี เอเจนต์ต้องถูกแยกออกจากกัน
- แต่ละตัวควรมีไฟล์และสถานะที่ตนเองเป็นเจ้าของ
- แต่ละตัวควรมี review queue ของตนเองด้วย
- เอเจนต์แต่ละตัวมีต้นทุน token และแปรผันตามจำนวนเอเจนต์ที่รันพร้อมกัน
- ฝั่งมนุษย์ หลังจากจำนวนหนึ่ง ต้นทุนส่วนเพิ่มของการเพิ่มเอเจนต์จะสูงขึ้นเพราะ ภาษี orchestration
Level 5: Managed-by-exception orchestration
- มนุษย์กำหนดนิยามของความสำเร็จและนโยบายที่จะใช้ จากนั้น manager agent จะตื่นขึ้นมาตาม trigger และกระจายงาน
- ตัวอย่าง trigger คือ issue ใหม่ งานใหม่ และเวลา
- manager agent จะจัดวาง worker agent, monitor ความคืบหน้า, ตรวจสอบผลลัพธ์ และ retry เมื่อเกิดความล้มเหลว
- เมื่อเงื่อนไขเป็นจริง จะ escalate ไปยังเอเจนต์ที่มีความสามารถสูงกว่าหรือมนุษย์ และรวบรวมผลลัพธ์กลับไปยังระบบภายนอกในรูปของผลงานอย่าง PR พร้อมหลักฐาน
- ระดับนี้เปรียบได้กับ factory
- input คือ issue tracker หรือ backlog
- output คือ issue หรือ bug หลายรายการที่ถูกแก้แล้ว
- เอเจนต์ทำงานในสภาพแวดล้อมที่แยกออกและมีขอบเขตเพียงพอ พร้อมทางออกเมื่อจำเป็น
- สิ่งที่ factory นี้ควรทำถูกกำหนดโดย operating system ที่ manager agent นิยามไว้
- OpenAI เสนอ spec สำหรับ Symphony โดยมีบอร์ด Linear เป็นศูนย์กลาง
- แต่ละ issue มี agent workspace ของตนเอง
- เอเจนต์ตรวจสอบว่าตนเองกำลังก้าวหน้าไปสู่เป้าหมายที่กำหนดไว้ในไฟล์ spec ของ workspace ตนเองหรือไม่
- แนวหน้าของ orchestration คือการสร้าง agent factory ต่อเนื่องที่มีเอเจนต์หลายร้อยหรือหลายพันตัวทำงาน
- ในระดับนี้ การตรวจสอบอิสระยิ่งสำคัญขึ้น
- แยก implementer กับ reviewer
- แยก test runner กับ QA
- แยก security check
- แยก process gate สำหรับการยอมรับ
ความเสี่ยงและระดับที่ย้อนกลับได้กำหนดเพดานของความเป็นอิสระ
- ใน งานวิจัย ของ Anthropic เกี่ยวกับ Claude Code พบว่าในงานบางส่วนที่ยากที่สุด Claude Code ถามคำถามเพื่อความชัดเจนบ่อยกว่าการถูกผู้ใช้หยุดมากกว่าสองเท่า
- ผู้ใช้ที่มีประสบการณ์ ซึ่งหมายถึงผู้ใช้ที่มีประมาณ 750 session มีแนวโน้มใช้การอนุมัติอัตโนมัติและการหยุดบ่อยกว่าผู้ใช้ที่มีน้อยกว่า 50 session พร้อมกับเฝ้าดูความคืบหน้า
- การวิเคราะห์ ที่กว้างขึ้นของ Anthropic ครอบคลุมประมาณ 400,000 session จากผู้ใช้ประมาณ 235,000 คน ตั้งแต่เดือนตุลาคม 2025 ถึงเมษายน 2026
- ในแต่ละ session สามารถระบุการตัดสินใจอย่างจำนวนการกระทำที่ผู้ใช้ร้องขอต่อหนึ่งพรอมป์ รายการที่อนุมัติอัตโนมัติ และความถี่ในการหยุดได้
- มนุษย์ตัดสินใจด้านการวางแผนประมาณ 70% และ Claude ทำการลงมือปฏิบัติประมาณ 80%
- ความเป็นอิสระสูงไม่ได้หมายถึงการเอามนุษย์ออกจาก loop แต่เป็นการย้ายจากการที่มนุษย์ทำทุกขั้นตอนไปสู่การกำหนดทิศทางถัดไป
- หากจะตัดสินว่าระบบ AI ขนาดใหญ่ทำงานด้วยความเป็นอิสระสูงหรือไม่ ต้องถามสามคำถาม
- รู้ได้เร็วแค่ไหนว่ากำลังทำอะไรผิด
- ย้อนกลับสิ่งที่กำลังทำได้สะอาดแค่ไหน
- อะไรพิสูจน์ว่าสิ่งที่ทำอยู่นั้นถูกต้อง
- หากคำตอบคือ “รู้เร็วไม่ได้ ย้อนกลับยาก และต้องเชื่อสรุป” นั่นไม่ใช่ความเป็นอิสระสูง
รายการที่ควรอยู่ในสัญญาก่อนรันเอเจนต์
- ก่อนรันเอเจนต์ทุกครั้งต้องมี สัญญา ที่นิยามว่าจะทำอะไร
- สัญญาควรมีรายการต่อไปนี้
- เป้าหมาย: ผลลัพธ์ที่ต้องการบรรลุ ไม่ใช่กิจกรรมหรือเทคนิค
- ขอบเขต: โดเมนที่จะทำงานและเทคนิคที่อนุญาต
- สิ่งที่ไม่ใช่เป้าหมาย: สิ่งที่ไม่รวมอยู่ในวัตถุประสงค์
- เครื่องมือและสิทธิ์: วิธีที่เอเจนต์โต้ตอบกับโลกภายนอก
- เงื่อนไขการหยุด: จะหยุดเมื่อใด และถ้าเป็นไปได้ให้เป็นตัวแปรที่วัดได้
- หลักฐาน: test, screenshot, log, database record ฯลฯ ที่ยืนยันการเสร็จงานได้อย่างอิสระ
- การ escalate: ในสถานการณ์ใด ใครจะเข้ามาเกี่ยวข้อง และใครเป็นผู้รันเอเจนต์
- งบประมาณ: เวลา ความพยายาม และขีดจำกัด token
- token คือ budget ของโมเดล AI ขนาดใหญ่ และอาจรวมถึงข้อจำกัดด้านจำนวนครั้งที่ลองและระดับความขนานด้วย
เมตริกทำให้ความเป็นอิสระน่าเชื่อถือขึ้นอีกเล็กน้อย
- การกำหนดเมตริกหลังจบงานอย่างเดียวอาจไม่เพียงพอ
- เมตริกสามารถวางไว้ล่วงหน้าในเอกสารสั้น ๆ และทำให้ความเป็นอิสระน่าเชื่อถือขึ้น
- ตัวอย่างเมตริกที่ติดตามได้ตามระดับความเป็นอิสระมีดังนี้
- เวลาเฉลี่ยระหว่างการแทรกแซง
- เวลารันแบบไม่มีคนดูแลที่ยาวที่สุดตามเกณฑ์งานที่ได้รับการยอมรับ
- สัดส่วนของ action ที่รันใน sandbox ต่อ action ที่ถูก escalate
- สัดส่วนของ action ที่อนุมัติอัตโนมัติต่อ action ที่ถูกปฏิเสธ
- จำนวน action เฉลี่ยของเอเจนต์ต่อหนึ่งคำสั่งจากมนุษย์
- อัตราการขอความชัดเจน
- อัตราการขอหยุด
- เวลารีวิวต่อการเปลี่ยนแปลงที่ได้รับการยอมรับ
- อัตราการทำงานซ้ำตามระดับความเชื่อมั่น
- อัตราข้อบกพร่องที่หลุดรอดตามระดับความเชื่อมั่น
- ต้นทุน token ต่อการเปลี่ยนแปลงที่ได้รับการยอมรับ
- เอเจนต์เดี่ยวที่ยุ่งอยู่ตลอดกับงานที่มนุษย์ส่งต่อให้นั้นใกล้กับ Level 4 ที่มี dashboard ติดอยู่ ส่วนเอเจนต์เชิงอนุรักษ์ที่มีการรับงานอัตโนมัติ retry อัตโนมัติ และไม่เดินหน้าหากไม่มีหลักฐานเพียงพอ จะใกล้กับ Level 5 ที่มี gate จริง
ความพร้อมและการเลือกระดับความเป็นอิสระ
- งานควรถูกจัดประเภทตามความเสี่ยงและระดับที่ย้อนกลับได้
- ควรใช้ความเป็นอิสระอย่างระมัดระวัง และเพิ่มระดับเมื่อมีหลักฐานสะสมที่รองรับระดับสูงขึ้นเท่านั้น
- การ refactor payment engine ที่มี test แข็งแรง reviewer agent และเส้นทาง rollback ที่สะอาด อาจรองรับความเป็นอิสระสูงกว่างาน document automation ที่ไม่มีเกณฑ์คำตอบที่ถูกต้อง
- ระดับความเป็นอิสระควรตาม กระบวนการตรวจสอบ ไม่ใช่ชื่อของงาน
แอนติแพตเทิร์นของความเป็นอิสระสี่แบบ
-
Autonomy as status
- ระดับความเป็นอิสระของเอเจนต์ทำตัวเหมือนเครื่องหมายสถานะที่ไม่มีความหมาย
- ความเป็นอิสระสูงถูกปฏิบัติเหมือนหลักฐานของความสามารถ ไม่ใช่ความปลอดภัย และเอเจนต์ถูกรันในระดับที่การตรวจสอบรองรับไม่ได้
- ควรชื่นชมและให้รางวัลคนที่เลือกระดับความเป็นอิสระที่ถูกต้องและไม่ข้ามเส้น
-
Permission laundering
- เพราะความล้าจากการอนุมัติ จึงมอบสิทธิ์เข้าถึงให้ AI agent และเครื่องมือกว้างเกินจำเป็น
- ควรเสริมขอบเขตให้แข็งแรงขึ้น เช่น sandbox profile, write root ที่จำกัดขอบเขต, allowlist ของคำสั่ง, hook และ Auto-review
-
Summary substitution
- สรุปงานของเอเจนต์เข้ามาแทนการรีวิว
- ควรผูก evidence packet แบบเดียวกับการรีวิวด้วยตนเองเข้าไว้ด้วยกัน
- อาจรวม diff, test, log, screenshot, สิ่งที่ reviewer พบ, ความเสี่ยง และช่องโหว่
-
Fleet cosplay
- รันเอเจนต์หลายสิบตัวแบบขนาน แต่มนุษย์ยังต้องประสาน dependency ทั้งหมดด้วยมืออยู่ตลอด
- shared state, กฎ ownership และการติดตาม dependency ที่ดีขึ้นช่วยลดความจำเป็นในการประสานงานด้วยมือ
- WIP limit ที่เล็กลงช่วยให้มุ่งเน้นการ encode และจัดทำเอกสารขั้นตอนการประสานงาน ซึ่งอาจนำไปสู่ automation ของ orchestration
วิธีไต่ระดับอย่างปลอดภัย
- มีการเสนอแบบฝึกปรับเทียบโดยทบทวนงาน 10 งานล่าสุดที่ได้รับความช่วยเหลือจากเอเจนต์
- ระดับความเป็นอิสระของแต่ละงาน
- ความเสี่ยง
- ระดับที่ย้อนกลับได้ง่าย
- หลักฐานที่สร้างขึ้นเพื่อตอบโจทย์ข้อกำหนดการตรวจสอบ
- เวลารีวิว
- มีการทำงานซ้ำหรือไม่
- ครั้งต่อไป ระดับความเป็นอิสระเดิมยังเหมาะสมหรือไม่
- ควรไต่ขึ้นทีละแกน
- จุดเริ่มต้นคือเอเจนต์ supervised ตัวเดียวทำงานจำกัดขอบเขตหนึ่งงานที่สร้างหลักฐานความสำเร็จที่ปกป้องได้
- จากนั้นค่อย ๆ ขยายในสามทิศทาง
- ทำให้งานสำรวจที่เน้นการอ่านเป็นแบบขนาน
- เพิ่มเอเจนต์เขียนใน worktree แยกต่างหากที่มีกฎ ownership ของไฟล์จำกัดขอบเขต
- เพิ่ม automation แบบวนซ้ำ แล้วเพิ่ม orchestration ที่เอเจนต์ขับเคลื่อนโดยอิง issue หรือเสียง เป็นต้น
- การเพิ่มระดับแต่ละครั้งต้องมี guardrail ใหม่เพื่อรับมือโหมดความล้มเหลวใหม่
- โหมดความล้มเหลวมีดังนี้
- การรันเอเจนต์เดี่ยวนาน ๆ: drift, context corruption, การสื่อสารที่ตกหล่น, การหลุดจากเป้าหมาย
- background task: สมมติฐานเก่า, handoff ที่อ่อน
- งานขนานมากเกินไป: merge conflict, การตัดสินใจซ้ำซ้อน
- งานวนซ้ำมากเกินไป: การใช้ token อย่างเงียบ ๆ, พรอมป์ที่ล้าสมัย
- managed-by-exception: review queue ยาว, ความล้าจากการแจ้งเตือน
- ไม่ควรใช้วิธีเชื่อใจมากขึ้น แต่ควรจำกัดขอบเขตให้แคบลง หาหลักฐานที่ดีกว่า สร้างเส้นทาง rollback ที่ถูกกว่า เสริม gate ให้แข็งแรง และทำให้กฎ ownership ชัดเจนขึ้น
การใช้งานที่เหมาะตามแต่ละระดับ
- Level 0 เหมาะที่สุดกับงานละเอียดอ่อนและสถานการณ์ที่ยังอยู่ระหว่างสร้างดุลยพินิจ
- Level 1 เหมาะกับการสำรวจส่วนใหญ่ที่อยู่ใกล้ขอบเขตซึ่งเข้าใจดีแล้ว
- Level 2 เหมาะกับงานจำกัดขอบเขตส่วนใหญ่ที่อาจมี dependency ที่ยังไม่รู้และปัญหาที่คาดไม่ถึง
- Level 3 เหมาะเมื่อสามารถบอกเงื่อนไขความสำเร็จได้ชัดเจนเพียงพอ
- Level 4 เหมาะเมื่อสามารถแบ่งงานได้สะอาดตามเงื่อนไขความสำเร็จ
- Level 5 เหมาะหลังจากการประสานงานและการสื่อสารที่จำเป็นระหว่างเงื่อนไขความสำเร็จหลายข้อถูก encode ไว้อย่างครบถ้วนแล้ว
การตรวจสอบยังคงเป็นคอขวด
- แม้จะมีระดับความมั่นใจและเครื่องมือในปัจจุบัน ท่าทีของทีมวิศวกรรมที่มีวุฒิภาวะในการทำงานกับ AI agent คือ calibrated autonomy
- ในอนาคตอันใกล้ ต้องออกแบบ loop ที่รู้ว่าเมื่อใดควรทำงาน เมื่อใดควรตรวจสอบ และเมื่อใดควรถาม
- ความสามารถของวิศวกรยังคงอยู่ที่การเลือกระดับความเป็นอิสระที่เหมาะสม และสร้างแพตเทิร์นกับหลักฐานที่ปกป้องได้เพื่อป้องกันด้านมืดของระดับนั้น
ยังไม่มีความคิดเห็น