- ทุกอาชีพสามารถมองได้ว่าเป็นชุดของงานที่มนุษย์และเครื่องจักรแบ่งกันทำ
- แม้ว่าซอฟต์แวร์จะจัดการงานได้มากขึ้นเรื่อย ๆ แต่กระบวนการทางธุรกิจส่วนใหญ่ยังคงอยู่ภายใต้การดูแลของมนุษย์
- คาดว่า AI agent จะเปลี่ยนสมดุลของงานเหล่านี้อย่างมีนัยสำคัญ
- ต่างจากซอฟต์แวร์รุ่นก่อน ๆ เพราะสามารถทำระบบอัตโนมัติให้กับกระบวนการแบบ end-to-end ได้อย่างไดนามิกผ่านสถาปัตยกรรมการรับรู้แบบใหม่
- นี่ไม่ใช่แค่ AI ที่อ่านและเขียนได้ แต่เป็น AI ที่สามารถตัดสินทิศทางของลอจิกแอปพลิเคชันและลงมือทำแทนผู้ใช้ได้ ซึ่งเป็นโอกาสที่ใหญ่ที่สุดของ LLM ในภาคองค์กร
นี่ก็แค่ RPA ไม่ใช่เหรอ? : ข้อจำกัดและปัญหาของ RPA
- ฟังดูคุ้น ๆ เพราะตลอด 10 ปีที่ผ่านมา UiPath และ Zapier ขายวิสัยทัศน์ที่คล้ายกันภายใต้ชื่อ "bot automation"
- UiPath เป็นยักษ์ใหญ่ด้าน RPA ที่ใช้การ screen scraping และ GUI automation เพื่อบันทึกพฤติกรรมผู้ใช้และเลียนแบบลำดับขั้นตอน เพื่อทำระบบอัตโนมัติให้กับกระบวนการอย่างการดึงข้อมูลจากเอกสาร ย้ายโฟลเดอร์ กรอกแบบฟอร์ม และอัปเดตฐานข้อมูล
- ต่อมา ผู้ให้บริการ iPaaS อย่าง Zapier ได้นำเสนอแนวทาง "API automation" ที่เบากว่า แต่ต่างจาก UiPath ตรงที่ขอบเขตจำกัดอยู่ที่การทำงานอัตโนมัติบนเว็บแอป
- UiPath และ Zapier ได้พิสูจน์ตลาดของแพลตฟอร์มระบบอัตโนมัติแนวนอนแบบอิงกฎที่ประกอบต่อกันได้ เพื่อรองรับ long tail ของกระบวนการองค์กรที่อยู่ภายในและระหว่างระบบซอฟต์แวร์เฉพาะแผนกหรืออุตสาหกรรม
- แต่เมื่อองค์กรพยายามขยายการทำงานอัตโนมัติแบบบอทให้กว้างขึ้น ช่องว่างระหว่างความสามารถของสถาปัตยกรรมเดิมกับความเป็นอิสระที่สัญญาไว้ก็เริ่มชัดเจน
- ยังต้องใช้คนและแรงงานแบบแมนนวลจำนวนมาก กระบวนการสร้างและดูแลระบบอัตโนมัติยังเจ็บปวดจากความเป็นงานทำมืออย่างมาก
- UI automation เปราะบาง หรือ API integration มีข้อจำกัด UI automation มักพังเมื่อ UI ของซอฟต์แวร์เปลี่ยน ส่วน API แม้เสถียรกว่า แต่ก็มีการเชื่อมต่อกับซอฟต์แวร์แบบ legacy หรือ on-premise น้อยกว่ามาก
- ไม่สามารถจัดการข้อมูลไม่มีโครงสร้างได้ ข้อมูลขององค์กร 80% เป็นข้อมูลไม่มีโครงสร้างหรือกึ่งมีโครงสร้าง แต่ระบบอัตโนมัติแบบอิงลำดับขั้นไม่สามารถทำงานกับข้อมูลเหล่านี้อย่างชาญฉลาดได้
- โซลูชัน RPA และ iPaaS แบบเดิมยังคงถูกล่ามไว้กับสถาปัตยกรรมแบบกำหนดแน่นอน แม้จะพยายามผสาน LLM เข้าไปแล้วก็ตาม
- Autopilot ของ UiPath และ AI Actions ของ Zapier ใช้ LLM แค่กับแพตเทิร์นการออกแบบ agent ย่อย เช่น text-to-action หรือโหนดสำหรับ semantic search, synthesis และ one-shot generation
- ความสามารถ AI เหล่านี้อาจทรงพลัง แต่ก็ยังพลาดกรณีใช้งาน LLM ที่พลิกโฉมได้มากกว่านั้นในงาน process automation
AI agent แตกต่างโดยพื้นฐานในฐานะเอนจินการตัดสินใจ
- ต่างจากบอท RPA หรือแอป RAG ในปัจจุบัน, agent อยู่ตรงศูนย์กลางของ control flow ของแอปพลิเคชันในฐานะเอนจินการตัดสินใจ
- เป็นครั้งแรกที่ทำให้เกิดความสามารถด้านการปรับตัว การกระทำหลายขั้นตอน การให้เหตุผลที่ซับซ้อน และการจัดการข้อยกเว้นอย่างแข็งแรง
- หากอธิบายผ่านตัวอย่างการกระทบยอดใบแจ้งหนี้ (Invoice Reconciliation) ความซับซ้อนของเวิร์กโฟลว์จะเพิ่มจนจัดการได้ยากอย่างรวดเร็ว แม้ในแผนภาพกระบวนการแบบย่อที่จับคู่ PDF ใบแจ้งหนี้ใหม่กับบัญชีแยกประเภททั่วไปของบริษัท
- แม้แต่ในชุดการตัดสินใจ 3 ชุดแรก ก็แทบเป็นไปไม่ได้แล้วที่จะพิจารณาสถานการณ์ข้อยกเว้นที่เกี่ยวข้องทั้งหมด
- บอท RPA ที่ทำเวิร์กโฟลว์นี้แบบหุ่นยนต์มักเกิดข้อผิดพลาด และมัก escalate กรณีที่จับคู่ได้เพียงบางส่วนหรือมีรายการขาดหายไปให้มนุษย์จัดการ
- แต่เมื่อใช้ agent กับเวิร์กโฟลว์เดียวกัน จะทำผลงานได้ดีกว่ามาก
- ปรับตัวกับสถานการณ์ใหม่: สามารถรับรู้และปรับตัวอย่างชาญฉลาดต่อแหล่งข้อมูลใหม่ รูปแบบใบแจ้งหนี้ กฎการตั้งชื่อ หมายเลขบัญชี การเปลี่ยนแปลงนโยบาย ฯลฯ โดยอาศัยการให้เหตุผลพื้นฐานและบริบทธุรกิจที่เกี่ยวข้อง
- ทำงานหลายขั้นตอนได้: หากยอดเงินในใบแจ้งหนี้ไม่ตรงกัน ก็สามารถตรวจอีเมลล่าสุดของผู้ขายเพื่อดูว่ามีการเปลี่ยนราคาเกิดขึ้นหรือไม่ เป็นการสืบค้นหลายขั้นตอน
- แสดงการให้เหตุผลที่ซับซ้อน: หากต้องกระทบยอดใบแจ้งหนี้ของผู้ขายต่างประเทศกับบัญชีแยกประเภท ต้องค้นหาและคำนวณหลายปัจจัยร่วมกัน เช่น สกุลเงินในใบแจ้งหนี้ สกุลเงินในบัญชี วันที่ทำธุรกรรม ความผันผวนของอัตราแลกเปลี่ยน ค่าธรรมเนียมข้ามพรมแดน และค่าธรรมเนียมธนาคาร Agent สามารถทำงานลักษณะนี้ได้ ในขณะที่บอท RPA อาจต้องส่งต่อให้มนุษย์
- คำนึงถึงความไม่แน่นอน: สำหรับข้อยกเว้นอย่างความคลาดเคลื่อนจากการปัดเศษของแต่ละรายการ หรือตัวเลขที่อ่านไม่ออก ก็สามารถจัดการได้อย่างแข็งแรงโดยอาศัยบริบท เช่น ความตรงกันของยอดสั่งซื้อรวม รวมถึงช่วงเวลาและความถี่ของใบแจ้งหนี้ในอดีต
ภูมิทัศน์ตลาด AI agent
- AI agent ไม่ใช่นิยายวิทยาศาสตร์อีกต่อไปแล้ว ตั้งแต่สตาร์ตอัปไปจนถึงบริษัทใน Fortune 500 ต่างก็ซื้อและใช้งานระบบลักษณะนี้ในระดับใหญ่แล้ว
- ปัจจุบันตลาด agent สามารถมองภาพผ่าน 2 มิติหลัก คือ ความเฉพาะทางของโดเมน และระดับความเป็นอิสระของ LLM
- ความเฉพาะทางของโดเมน: มีตั้งแต่ agent เฉพาะทางสำหรับอุตสาหกรรมหรือแผนกแนวตั้ง เช่น การแพทย์หรือการสนับสนุนลูกค้า ไปจนถึงแพลตฟอร์ม agent แนวนอนที่มีความสามารถกว้างและทั่วไป
- ระดับความเป็นอิสระของ LLM: หมายถึงระดับที่โมเดลภาษาสามารถวางแผนและกำกับลอจิกของแอปพลิเคชันได้อย่างอิสระ
- มุมขวาบนของแผนที่ตลาดประกอบด้วย agent ที่เป็นแนวนอนและมีศักยภาพในการทำให้ทั่วไปได้มากที่สุด
- Enterprise agent: แพลตฟอร์มที่ขยายได้สำหรับสร้างและจัดการ agent ข้ามหลายฟังก์ชันและเวิร์กโฟลว์ โดยใช้ SOP ภาษาธรรมชาติหรือกฎที่คล้ายกับสิ่งที่มอบให้พนักงานใหม่ ส่วนใหญ่ใช้สถาปัตยกรรมแบบ "agent on rails" โดยสำหรับแต่ละกระบวนการใหม่ จะต้องยึด agent ไว้กับชุดของงาน บริบทธุรกิจ และ guardrails ที่กำหนดไว้ล่วงหน้า
- Browser agent: ใช้แนวทางออกแบบ "general AI agent" โดยอาศัย vision transformer ที่ฝึกกับอินเทอร์เฟซซอฟต์แวร์หลากหลายและ codebase พื้นฐาน เพื่อทำเว็บบราวซ์ งาน UI เชิงภาพ การป้อนข้อความ ฯลฯ แบบอัตโนมัติ โดยมักแลกความสม่ำเสมอเพื่อให้ได้ความสามารถในการทำให้ทั่วไป
- บริการที่ขับเคลื่อนด้วย AI: เนื่องจากการทำให้แนวทาง "agent on rails" ใช้งานได้จริงต้องอาศัยโครงสร้างพื้นฐานข้อมูลและ guardrails อย่างกว้างขวาง บริษัทอย่าง Distyl และ Agnetic จึงให้บริการวิศวกรรมแบบ forward-deployed เพื่ออุดช่องว่างกับลูกค้าในโมเดล "Palantir for AI"
- อย่างไรก็ตาม ไม่ใช่ทุก agent จะมุ่งสู่ความเป็นแนวนอนและการทำให้ทั่วไปได้เสมอไป ปัจจุบันมี agent เฉพาะโดเมนและเวิร์กโฟลว์เพิ่มขึ้นเรื่อย ๆ ซึ่งจำกัดประเภทปัญหาเพื่อเพิ่มความน่าเชื่อถือ
- Vertical agent: โอกาสที่น่าสนใจที่สุดอยู่ในกระบวนการที่มนุษย์ทำแบบแมนนวลและเน้นขั้นตอนตาม SOP หรือกฎ เช่น การสนับสนุนลูกค้า การสรรหาบุคลากร งานพัฒนาซอฟต์แวร์อย่าง code review/testing/maintenance การขายเชิงรุก และงานปฏิบัติการด้านความปลอดภัย
- AI assistant: อีกวิธีหนึ่งในการทำให้ agent มีโฟกัสแคบลง คือเน้นความเฉพาะของงานแทนความเฉพาะของโดเมน ต่างจาก enterprise และ vertical agent ที่จัดการกระบวนการ end-to-end ที่ซับซ้อน กลุ่มนี้ทำงานที่เรียบง่ายกว่าและเน้นผลิตภาพ
- แม้จะไม่ใช่ agent โดยตรง แต่โซลูชัน generative AI ที่สร้างบนสถาปัตยกรรม RAG ก็แข่งขันกับโซลูชันแบบ agent เพื่อแย่งงบประมาณและเวิร์กโฟลว์เดียวกันอยู่บ่อยครั้ง
- Vertical AI: แพลตฟอร์มระบบอัตโนมัติด้านการแพทย์ Tennr ช่วยขับเคลื่อนการประมวลผลการส่งต่อผู้ป่วย โดยดึงข้อมูลไม่มีโครงสร้างจากแหล่งต่าง ๆ เช่น แฟกซ์ PDF และโทรศัพท์ แล้วป้อนเข้า EHR ของคลินิก เพื่อลดความจำเป็นในการป้อนข้อมูลด้วยมือของพนักงาน
- RAG-as-a-Service: บริษัทอย่าง Danswer และ Gradient ช่วยให้ลูกค้าสามารถ query แหล่งข้อมูลไม่มีโครงสร้าง เช่น PDF ดึงข้อมูลออกมา แล้วป้อนเข้าสู่ฐานข้อมูลหรือระบบที่มีโครงสร้างมากกว่า
- Enterprise search: Glean, Perplexity, Sana และรายอื่น ๆ ให้ semantic query เพื่อจัดทำดัชนีและค้นหาเอกสารที่เกี่ยวข้องกันในเชิงแนวคิด ช่วยให้จัดการความรู้ทั่วทั้งองค์กรได้ดีขึ้นและลด data silo
อนาคตของระบบอัตโนมัติในองค์กร
- คลื่นลูกที่สองของ generative AI จะถูกนิยามโดย agent ที่ไม่เพียงอ่านและเขียนได้ แต่ยังคิดและลงมือทำแทนผู้ใช้ได้
- เมื่อสถาปัตยกรรมเหล่านี้เติบโตเต็มที่ ก็จะเป็นตัวเร่งสำคัญให้ AI เข้ายึดครองเศรษฐกิจภาคบริการ
ยังไม่มีความคิดเห็น