ก้าวข้ามบอท: AI Agent กำลังขับเคลื่อนคลื่นลูกถัดไปของระบบอัตโนมัติในองค์กร

xguru · 2024-10-07T11:21:01+09:00

ทุกอาชีพสามารถมองได้ว่าเป็นชุดของงานที่มนุษย์และเครื่องจักรแบ่งกันทำ แม้ว่าซอฟต์แวร์จะจัดการงานได้มากขึ้นเรื่อย ๆ แต่กระบวนการทางธุรกิจส่วนใหญ่ยังคงอยู่ภายใต้การดูแลของมนุษย์ คาดว่า AI agent จะเปลี่ยนสมดุลของงานเหล่านี้อย่างมีนัยสำคัญ ต่างจากซอฟต์แวร์รุ่นก่อน ๆ เพราะสามารถทำระบบอัตโนมัติให้กับกระบวนการแบบ end-to-end ได้อย่างไดนามิกผ่านสถาปัตยกรรมการรับรู้แบบใหม่ นี่ไม่ใช่แค่ AI ที่อ่านและเขียนได้ แต่เป็น AI ที่สามารถตัดสินทิศทางของลอจิกแอปพลิเคชันและลงมือทำแทนผู้ใช้ได้ ซึ่งเป็นโอกาสที่ใหญ่ที่สุดของ LLM ในภาคองค์กร นี่ก็แค่ RPA ไม่ใช่เหรอ? : ข้อจำกัดและปัญหาของ RPA ฟังดูคุ้น ๆ เพราะตลอด 10 ปีที่ผ่านมา UiPath และ Zapier ขายวิสัยทัศน์ที่คล้ายกันภายใต้ชื่อ "bot automation" UiPath เป็นยักษ์ใหญ่ด้าน RPA ที่ใช้การ screen scraping และ GUI automation เพื่อบันทึกพฤติกรรมผู้ใช้และเลียนแบบลำดับขั้นตอน เพื่อทำระบบอัตโนมัติให้กับกระบวนการอย่างการดึงข้อมูลจากเอกสาร ย้ายโฟลเดอร์ กรอกแบบฟอร์ม และอัปเดตฐานข้อมูล ต่อมา ผู้ให้บริการ iPaaS อย่าง Zapier ได้นำเสนอแนวทาง "API automation" ที่เบากว่า แต่ต่างจาก UiPath ตรงที่ขอบเขตจำกัดอยู่ที่การทำงานอัตโนมัติบนเว็บแอป UiPath และ Zapier ได้พิสูจน์ตลาดของแพลตฟอร์มระบบอัตโนมัติแนวนอนแบบอิงกฎที่ประกอบต่อกันได้ เพื่อรองรับ long tail ของกระบวนการองค์กรที่อยู่ภายในและระหว่างระบบซอฟต์แวร์เฉพาะแผนกหรืออุตสาหกรรม แต่เมื่อองค์กรพยายามขยายการทำงานอัตโนมัติแบบบอทให้กว้างขึ้น ช่องว่างระหว่างความสามารถของสถาปัตยกรรมเดิมกับความเป็นอิสระที่สัญญาไว้ก็เริ่มชัดเจน ยังต้องใช้คนและแรงงานแบบแมนนวลจำนวนมาก กระบวนการสร้างและดูแลระบบอัตโนมัติยังเจ็บปวดจากความเป็นงานทำมืออย่างมาก UI automation เปราะบาง หรือ API integration มีข้อจำกัด UI automation มักพังเมื่อ UI ของซอฟต์แวร์เปลี่ยน ส่วน API แม้เสถียรกว่า แต่ก็มีการเชื่อมต่อกับซอฟต์แวร์แบบ legacy หรือ on-premise น้อยกว่ามาก ไม่สามารถจัดการข้อมูลไม่มีโครงสร้างได้ ข้อมูลขององค์กร 80% เป็นข้อมูลไม่มีโครงสร้างหรือกึ่งมีโครงสร้าง แต่ระบบอัตโนมัติแบบอิงลำดับขั้นไม่สามารถทำงานกับข้อมูลเหล่านี้อย่างชาญฉลาดได้ โซลูชัน RPA และ iPaaS แบบเดิมยังคงถูกล่ามไว้กับสถาปัตยกรรมแบบกำหนดแน่นอน แม้จะพยายามผสาน LLM เข้าไปแล้วก็ตาม Autopilot ของ UiPath และ AI Actions ของ Zapier ใช้ LLM แค่กับแพตเทิร์นการออกแบบ agent ย่อย เช่น text-to-action หรือโหนดสำหรับ semantic search, synthesis และ one-shot generation ความสามารถ AI เหล่านี้อาจทรงพลัง แต่ก็ยังพลาดกรณีใช้งาน LLM ที่พลิกโฉมได้มากกว่านั้นในงาน process automation AI agent แตกต่างโดยพื้นฐานในฐานะเอนจินการตัดสินใจ ต่างจากบอท RPA หรือแอป RAG ในปัจจุบัน, agent อยู่ตรงศูนย์กลางของ control flow ของแอปพลิเคชันในฐานะเอนจินการตัดสินใจ เป็นครั้งแรกที่ทำให้เกิดความสามารถด้านการปรับตัว การกระทำหลายขั้นตอน การให้เหตุผลที่ซับซ้อน และการจัดการข้อยกเว้นอย่างแข็งแรง หากอธิบายผ่านตัวอย่างการกระทบยอดใบแจ้งหนี้ (Invoice Reconciliation) ความซับซ้อนของเวิร์กโฟลว์จะเพิ่มจนจัดการได้ยากอย่างรวดเร็ว แม้ในแผนภาพกระบวนการแบบย่อที่จับคู่ PDF ใบแจ้งหนี้ใหม่กับบัญชีแยกประเภททั่วไปของบริษัท แม้แต่ในชุดการตัดสินใจ 3 ชุดแรก ก็แทบเป็นไปไม่ได้แล้วที่จะพิจารณาสถานการณ์ข้อยกเว้นที่เกี่ยวข้องทั้งหมด บอท RPA ที่ทำเวิร์กโฟลว์นี้แบบหุ่นยนต์มักเกิดข้อผิดพลาด และมัก escalate กรณีที่จับคู่ได้เพียงบางส่วนหรือมีรายการขาดหายไปให้มนุษย์จัดการ แต่เมื่อใช้ agent กับเวิร์กโฟลว์เดียวกัน จะทำผลงานได้ดีกว่ามาก ปรับตัวกับสถานการณ์ใหม่: สามารถรับรู้และปรับตัวอย่างชาญฉลาดต่อแหล่งข้อมูลใหม่ รูปแบบใบแจ้งหนี้ กฎการตั้งชื่อ หมายเลขบัญชี การเปลี่ยนแปลงนโยบาย ฯลฯ โดยอาศัยการให้เหตุผลพื้นฐานและบริบทธุรกิจที่เกี่ยวข้อง ทำงานหลายขั้นตอนได้: หากยอดเงินในใบแจ้งหนี้ไม่ตรงกัน ก็สามารถตรวจอีเมลล่าสุดของผู้ขายเพื่อดูว่ามีการเปลี่ยนราคาเกิดขึ้นหรือไม่ เป็นการสืบค้นหลายขั้นตอน แสดงการให้เหตุผลที่ซับซ้อน: หากต้องกระทบยอดใบแจ้งหนี้ของผู้ขายต่างประเทศกับบัญชีแยกประเภท ต้องค้นหาและคำนวณหลายปัจจัยร่วมกัน เช่น สกุลเงินในใบแจ้งหนี้ สกุลเงินในบัญชี วันที่ทำธุรกรรม ความผันผวนของอัตราแลกเปลี่ยน ค่าธรรมเนียมข้ามพรมแดน และค่าธรรมเนียมธนาคาร Agent สามารถทำงานลักษณะนี้ได้ ในขณะที่บอท RPA อาจต้องส่งต่อให้มนุษย์ คำนึงถึงความไม่แน่นอน: สำหรับข้อยกเว้นอย่างความคลาดเคลื่อนจากการปัดเศษของแต่ละรายการ หรือตัวเลขที่อ่านไม่ออก ก็สามารถจัดการได้อย่างแข็งแรงโดยอาศัยบริบท เช่น ความตรงกันของยอดสั่งซื้อรวม รวมถึงช่วงเวลาและความถี่ของใบแจ้งหนี้ในอดีต ภูมิทัศน์ตลาด AI agent AI agent ไม่ใช่นิยายวิทยาศาสตร์อีกต่อไปแล้ว ตั้งแต่สตาร์ตอัปไปจนถึงบริษัทใน Fortune 500 ต่างก็ซื้อและใช้งานระบบลักษณะนี้ในระดับใหญ่แล้ว ปัจจุบันตลาด agent สามารถมองภาพผ่าน 2 มิติหลัก คือ ความเฉพาะทางของโดเมน และระดับความเป็นอิสระของ LLM ความเฉพาะทางของโดเมน: มีตั้งแต่ agent เฉพาะทางสำหรับอุตสาหกรรมหรือแผนกแนวตั้ง เช่น การแพทย์หรือการสนับสนุนลูกค้า ไปจนถึงแพลตฟอร์ม agent แนวนอนที่มีความสามารถกว้างและทั่วไป ระดับความเป็นอิสระของ LLM: หมายถึงระดับที่โมเดลภาษาสามารถวางแผนและกำกับลอจิกของแอปพลิเคชันได้อย่างอิสระ มุมขวาบนของแผนที่ตลาดประกอบด้วย agent ที่เป็นแนวนอนและมีศักยภาพในการทำให้ทั่วไปได้มากที่สุด Enterprise agent: แพลตฟอร์มที่ขยายได้สำหรับสร้างและจัดการ agent ข้ามหลายฟังก์ชันและเวิร์กโฟลว์ โดยใช้ SOP ภาษาธรรมชาติหรือกฎที่คล้ายกับสิ่งที่มอบให้พนักงานใหม่ ส่วนใหญ่ใช้สถาปัตยกรรมแบบ "agent on rails" โดยสำหรับแต่ละกระบวนการใหม่ จะต้องยึด agent ไว้กับชุดของงาน บริบทธุรกิจ และ guardrails ที่กำหนดไว้ล่วงหน้า Browser agent: ใช้แนวทางออกแบบ "general AI agent" โดยอาศัย vision transformer ที่ฝึกกับอินเทอร์เฟซซอฟต์แวร์หลากหลายและ codebase พื้นฐาน เพื่อทำเว็บบราวซ์ งาน UI เชิงภาพ การป้อนข้อความ ฯลฯ แบบอัตโนมัติ โดยมักแลกความสม่ำเสมอเพื่อให้ได้ความสามารถในการทำให้ทั่วไป บริการที่ขับเคลื่อนด้วย AI: เนื่องจากการทำให้แนวทาง "agent on rails" ใช้งานได้จริงต้องอาศัยโครงสร้างพื้นฐานข้อมูลและ guardrails อย่างกว้างขวาง บริษัทอย่าง Distyl และ Agnetic จึงให้บริการวิศวกรรมแบบ forward-deployed เพื่ออุดช่องว่างกับลูกค้าในโมเดล "Palantir for AI" อย่างไรก็ตาม ไม่ใช่ทุก agent จะมุ่งสู่ความเป็นแนวนอนและการทำให้ทั่วไปได้เสมอไป ปัจจุบันมี agent เฉพาะโดเมนและเวิร์กโฟลว์เพิ่มขึ้นเรื่อย ๆ ซึ่งจำกัดประเภทปัญหาเพื่อเพิ่มความน่าเชื่อถือ Vertical agent: โอกาสที่น่าสนใจที่สุดอยู่ในกระบวนการที่มนุษย์ทำแบบแมนนวลและเน้นขั้นตอนตาม SOP หรือกฎ เช่น การสนับสนุนลูกค้า การสรรหาบุคลากร งานพัฒนาซอฟต์แวร์อย่าง code review/testing/maintenance การขายเชิงรุก และงานปฏิบัติการด้านความปลอดภัย AI assistant: อีกวิธีหนึ่งในการทำให้ agent มีโฟกัสแคบลง คือเน้นความเฉพาะของงานแทนความเฉพาะของโดเมน ต่างจาก enterprise และ vertical agent ที่จัดการกระบวนการ end-to-end ที่ซับซ้อน กลุ่มนี้ทำงานที่เรียบง่ายกว่าและเน้นผลิตภาพ แม้จะไม่ใช่ agent โดยตรง แต่โซลูชัน generative AI ที่สร้างบนสถาปัตยกรรม RAG ก็แข่งขันกับโซลูชันแบบ agent เพื่อแย่งงบประมาณและเวิร์กโฟลว์เดียวกันอยู่บ่อยครั้ง Vertical AI: แพลตฟอร์มระบบอัตโนมัติด้านการแพทย์ Tennr ช่วยขับเคลื่อนการประมวลผลการส่งต่อผู้ป่วย โดยดึงข้อมูลไม่มีโครงสร้างจากแหล่งต่าง ๆ เช่น แฟกซ์ PDF และโทรศัพท์ แล้วป้อนเข้า EHR ของคลินิก เพื่อลดความจำเป็นในการป้อนข้อมูลด้วยมือของพนักงาน RAG-as-a-Service: บริษัทอย่าง Danswer และ Gradient ช่วยให้ลูกค้าสามารถ query แหล่งข้อมูลไม่มีโครงสร้าง เช่น PDF ดึงข้อมูลออกมา แล้วป้อนเข้าสู่ฐานข้อมูลหรือระบบที่มีโครงสร้างมากกว่า Enterprise search: Glean, Perplexity, Sana และรายอื่น ๆ ให้ semantic query เพื่อจัดทำดัชนีและค้นหาเอกสารที่เกี่ยวข้องกันในเชิงแนวคิด ช่วยให้จัดการความรู้ทั่วทั้งองค์กรได้ดีขึ้นและลด data silo อนาคตของระบบอัตโนมัติในองค์กร คลื่นลูกที่สองของ generative AI จะถูกนิยามโดย agent ที่ไม่เพียงอ่านและเขียนได้ แต่ยังคิดและลงมือทำแทนผู้ใช้ได้ เมื่อสถาปัตยกรรมเหล่านี้เติบโตเต็มที่ ก็จะเป็นตัวเร่งสำคัญให้ AI เข้ายึดครองเศรษฐกิจภาคบริการ

(menlovc.com)

9 คะแนน โดย xguru 2024-10-07 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ทุกอาชีพสามารถมองได้ว่าเป็นชุดของงานที่มนุษย์และเครื่องจักรแบ่งกันทำ
แม้ว่าซอฟต์แวร์จะจัดการงานได้มากขึ้นเรื่อย ๆ แต่กระบวนการทางธุรกิจส่วนใหญ่ยังคงอยู่ภายใต้การดูแลของมนุษย์
คาดว่า AI agent จะเปลี่ยนสมดุลของงานเหล่านี้อย่างมีนัยสำคัญ
ต่างจากซอฟต์แวร์รุ่นก่อน ๆ เพราะสามารถทำระบบอัตโนมัติให้กับกระบวนการแบบ end-to-end ได้อย่างไดนามิกผ่านสถาปัตยกรรมการรับรู้แบบใหม่
นี่ไม่ใช่แค่ AI ที่อ่านและเขียนได้ แต่เป็น AI ที่สามารถตัดสินทิศทางของลอจิกแอปพลิเคชันและลงมือทำแทนผู้ใช้ได้ ซึ่งเป็นโอกาสที่ใหญ่ที่สุดของ LLM ในภาคองค์กร

นี่ก็แค่ RPA ไม่ใช่เหรอ? : ข้อจำกัดและปัญหาของ RPA

ฟังดูคุ้น ๆ เพราะตลอด 10 ปีที่ผ่านมา UiPath และ Zapier ขายวิสัยทัศน์ที่คล้ายกันภายใต้ชื่อ "bot automation"
UiPath เป็นยักษ์ใหญ่ด้าน RPA ที่ใช้การ screen scraping และ GUI automation เพื่อบันทึกพฤติกรรมผู้ใช้และเลียนแบบลำดับขั้นตอน เพื่อทำระบบอัตโนมัติให้กับกระบวนการอย่างการดึงข้อมูลจากเอกสาร ย้ายโฟลเดอร์ กรอกแบบฟอร์ม และอัปเดตฐานข้อมูล
ต่อมา ผู้ให้บริการ iPaaS อย่าง Zapier ได้นำเสนอแนวทาง "API automation" ที่เบากว่า แต่ต่างจาก UiPath ตรงที่ขอบเขตจำกัดอยู่ที่การทำงานอัตโนมัติบนเว็บแอป
UiPath และ Zapier ได้พิสูจน์ตลาดของแพลตฟอร์มระบบอัตโนมัติแนวนอนแบบอิงกฎที่ประกอบต่อกันได้ เพื่อรองรับ long tail ของกระบวนการองค์กรที่อยู่ภายในและระหว่างระบบซอฟต์แวร์เฉพาะแผนกหรืออุตสาหกรรม
แต่เมื่อองค์กรพยายามขยายการทำงานอัตโนมัติแบบบอทให้กว้างขึ้น ช่องว่างระหว่างความสามารถของสถาปัตยกรรมเดิมกับความเป็นอิสระที่สัญญาไว้ก็เริ่มชัดเจน
- ยังต้องใช้คนและแรงงานแบบแมนนวลจำนวนมาก กระบวนการสร้างและดูแลระบบอัตโนมัติยังเจ็บปวดจากความเป็นงานทำมืออย่างมาก
- UI automation เปราะบาง หรือ API integration มีข้อจำกัด UI automation มักพังเมื่อ UI ของซอฟต์แวร์เปลี่ยน ส่วน API แม้เสถียรกว่า แต่ก็มีการเชื่อมต่อกับซอฟต์แวร์แบบ legacy หรือ on-premise น้อยกว่ามาก
- ไม่สามารถจัดการข้อมูลไม่มีโครงสร้างได้ ข้อมูลขององค์กร 80% เป็นข้อมูลไม่มีโครงสร้างหรือกึ่งมีโครงสร้าง แต่ระบบอัตโนมัติแบบอิงลำดับขั้นไม่สามารถทำงานกับข้อมูลเหล่านี้อย่างชาญฉลาดได้
โซลูชัน RPA และ iPaaS แบบเดิมยังคงถูกล่ามไว้กับสถาปัตยกรรมแบบกำหนดแน่นอน แม้จะพยายามผสาน LLM เข้าไปแล้วก็ตาม
- Autopilot ของ UiPath และ AI Actions ของ Zapier ใช้ LLM แค่กับแพตเทิร์นการออกแบบ agent ย่อย เช่น text-to-action หรือโหนดสำหรับ semantic search, synthesis และ one-shot generation
ความสามารถ AI เหล่านี้อาจทรงพลัง แต่ก็ยังพลาดกรณีใช้งาน LLM ที่พลิกโฉมได้มากกว่านั้นในงาน process automation

AI agent แตกต่างโดยพื้นฐานในฐานะเอนจินการตัดสินใจ

ต่างจากบอท RPA หรือแอป RAG ในปัจจุบัน, agent อยู่ตรงศูนย์กลางของ control flow ของแอปพลิเคชันในฐานะเอนจินการตัดสินใจ
เป็นครั้งแรกที่ทำให้เกิดความสามารถด้านการปรับตัว การกระทำหลายขั้นตอน การให้เหตุผลที่ซับซ้อน และการจัดการข้อยกเว้นอย่างแข็งแรง
หากอธิบายผ่านตัวอย่างการกระทบยอดใบแจ้งหนี้ (Invoice Reconciliation) ความซับซ้อนของเวิร์กโฟลว์จะเพิ่มจนจัดการได้ยากอย่างรวดเร็ว แม้ในแผนภาพกระบวนการแบบย่อที่จับคู่ PDF ใบแจ้งหนี้ใหม่กับบัญชีแยกประเภททั่วไปของบริษัท
- แม้แต่ในชุดการตัดสินใจ 3 ชุดแรก ก็แทบเป็นไปไม่ได้แล้วที่จะพิจารณาสถานการณ์ข้อยกเว้นที่เกี่ยวข้องทั้งหมด
- บอท RPA ที่ทำเวิร์กโฟลว์นี้แบบหุ่นยนต์มักเกิดข้อผิดพลาด และมัก escalate กรณีที่จับคู่ได้เพียงบางส่วนหรือมีรายการขาดหายไปให้มนุษย์จัดการ
แต่เมื่อใช้ agent กับเวิร์กโฟลว์เดียวกัน จะทำผลงานได้ดีกว่ามาก
- ปรับตัวกับสถานการณ์ใหม่: สามารถรับรู้และปรับตัวอย่างชาญฉลาดต่อแหล่งข้อมูลใหม่ รูปแบบใบแจ้งหนี้ กฎการตั้งชื่อ หมายเลขบัญชี การเปลี่ยนแปลงนโยบาย ฯลฯ โดยอาศัยการให้เหตุผลพื้นฐานและบริบทธุรกิจที่เกี่ยวข้อง
- ทำงานหลายขั้นตอนได้: หากยอดเงินในใบแจ้งหนี้ไม่ตรงกัน ก็สามารถตรวจอีเมลล่าสุดของผู้ขายเพื่อดูว่ามีการเปลี่ยนราคาเกิดขึ้นหรือไม่ เป็นการสืบค้นหลายขั้นตอน
- แสดงการให้เหตุผลที่ซับซ้อน: หากต้องกระทบยอดใบแจ้งหนี้ของผู้ขายต่างประเทศกับบัญชีแยกประเภท ต้องค้นหาและคำนวณหลายปัจจัยร่วมกัน เช่น สกุลเงินในใบแจ้งหนี้ สกุลเงินในบัญชี วันที่ทำธุรกรรม ความผันผวนของอัตราแลกเปลี่ยน ค่าธรรมเนียมข้ามพรมแดน และค่าธรรมเนียมธนาคาร Agent สามารถทำงานลักษณะนี้ได้ ในขณะที่บอท RPA อาจต้องส่งต่อให้มนุษย์
- คำนึงถึงความไม่แน่นอน: สำหรับข้อยกเว้นอย่างความคลาดเคลื่อนจากการปัดเศษของแต่ละรายการ หรือตัวเลขที่อ่านไม่ออก ก็สามารถจัดการได้อย่างแข็งแรงโดยอาศัยบริบท เช่น ความตรงกันของยอดสั่งซื้อรวม รวมถึงช่วงเวลาและความถี่ของใบแจ้งหนี้ในอดีต

ภูมิทัศน์ตลาด AI agent

AI agent ไม่ใช่นิยายวิทยาศาสตร์อีกต่อไปแล้ว ตั้งแต่สตาร์ตอัปไปจนถึงบริษัทใน Fortune 500 ต่างก็ซื้อและใช้งานระบบลักษณะนี้ในระดับใหญ่แล้ว
ปัจจุบันตลาด agent สามารถมองภาพผ่าน 2 มิติหลัก คือ ความเฉพาะทางของโดเมน และระดับความเป็นอิสระของ LLM
- ความเฉพาะทางของโดเมน: มีตั้งแต่ agent เฉพาะทางสำหรับอุตสาหกรรมหรือแผนกแนวตั้ง เช่น การแพทย์หรือการสนับสนุนลูกค้า ไปจนถึงแพลตฟอร์ม agent แนวนอนที่มีความสามารถกว้างและทั่วไป
- ระดับความเป็นอิสระของ LLM: หมายถึงระดับที่โมเดลภาษาสามารถวางแผนและกำกับลอจิกของแอปพลิเคชันได้อย่างอิสระ
มุมขวาบนของแผนที่ตลาดประกอบด้วย agent ที่เป็นแนวนอนและมีศักยภาพในการทำให้ทั่วไปได้มากที่สุด
- Enterprise agent: แพลตฟอร์มที่ขยายได้สำหรับสร้างและจัดการ agent ข้ามหลายฟังก์ชันและเวิร์กโฟลว์ โดยใช้ SOP ภาษาธรรมชาติหรือกฎที่คล้ายกับสิ่งที่มอบให้พนักงานใหม่ ส่วนใหญ่ใช้สถาปัตยกรรมแบบ "agent on rails" โดยสำหรับแต่ละกระบวนการใหม่ จะต้องยึด agent ไว้กับชุดของงาน บริบทธุรกิจ และ guardrails ที่กำหนดไว้ล่วงหน้า
- Browser agent: ใช้แนวทางออกแบบ "general AI agent" โดยอาศัย vision transformer ที่ฝึกกับอินเทอร์เฟซซอฟต์แวร์หลากหลายและ codebase พื้นฐาน เพื่อทำเว็บบราวซ์ งาน UI เชิงภาพ การป้อนข้อความ ฯลฯ แบบอัตโนมัติ โดยมักแลกความสม่ำเสมอเพื่อให้ได้ความสามารถในการทำให้ทั่วไป
- บริการที่ขับเคลื่อนด้วย AI: เนื่องจากการทำให้แนวทาง "agent on rails" ใช้งานได้จริงต้องอาศัยโครงสร้างพื้นฐานข้อมูลและ guardrails อย่างกว้างขวาง บริษัทอย่าง Distyl และ Agnetic จึงให้บริการวิศวกรรมแบบ forward-deployed เพื่ออุดช่องว่างกับลูกค้าในโมเดล "Palantir for AI"
โฆษณา
อย่างไรก็ตาม ไม่ใช่ทุก agent จะมุ่งสู่ความเป็นแนวนอนและการทำให้ทั่วไปได้เสมอไป ปัจจุบันมี agent เฉพาะโดเมนและเวิร์กโฟลว์เพิ่มขึ้นเรื่อย ๆ ซึ่งจำกัดประเภทปัญหาเพื่อเพิ่มความน่าเชื่อถือ
- Vertical agent: โอกาสที่น่าสนใจที่สุดอยู่ในกระบวนการที่มนุษย์ทำแบบแมนนวลและเน้นขั้นตอนตาม SOP หรือกฎ เช่น การสนับสนุนลูกค้า การสรรหาบุคลากร งานพัฒนาซอฟต์แวร์อย่าง code review/testing/maintenance การขายเชิงรุก และงานปฏิบัติการด้านความปลอดภัย
- AI assistant: อีกวิธีหนึ่งในการทำให้ agent มีโฟกัสแคบลง คือเน้นความเฉพาะของงานแทนความเฉพาะของโดเมน ต่างจาก enterprise และ vertical agent ที่จัดการกระบวนการ end-to-end ที่ซับซ้อน กลุ่มนี้ทำงานที่เรียบง่ายกว่าและเน้นผลิตภาพ
แม้จะไม่ใช่ agent โดยตรง แต่โซลูชัน generative AI ที่สร้างบนสถาปัตยกรรม RAG ก็แข่งขันกับโซลูชันแบบ agent เพื่อแย่งงบประมาณและเวิร์กโฟลว์เดียวกันอยู่บ่อยครั้ง
- Vertical AI: แพลตฟอร์มระบบอัตโนมัติด้านการแพทย์ Tennr ช่วยขับเคลื่อนการประมวลผลการส่งต่อผู้ป่วย โดยดึงข้อมูลไม่มีโครงสร้างจากแหล่งต่าง ๆ เช่น แฟกซ์ PDF และโทรศัพท์ แล้วป้อนเข้า EHR ของคลินิก เพื่อลดความจำเป็นในการป้อนข้อมูลด้วยมือของพนักงาน
- RAG-as-a-Service: บริษัทอย่าง Danswer และ Gradient ช่วยให้ลูกค้าสามารถ query แหล่งข้อมูลไม่มีโครงสร้าง เช่น PDF ดึงข้อมูลออกมา แล้วป้อนเข้าสู่ฐานข้อมูลหรือระบบที่มีโครงสร้างมากกว่า
- Enterprise search: Glean, Perplexity, Sana และรายอื่น ๆ ให้ semantic query เพื่อจัดทำดัชนีและค้นหาเอกสารที่เกี่ยวข้องกันในเชิงแนวคิด ช่วยให้จัดการความรู้ทั่วทั้งองค์กรได้ดีขึ้นและลด data silo

อนาคตของระบบอัตโนมัติในองค์กร

คลื่นลูกที่สองของ generative AI จะถูกนิยามโดย agent ที่ไม่เพียงอ่านและเขียนได้ แต่ยังคิดและลงมือทำแทนผู้ใช้ได้
เมื่อสถาปัตยกรรมเหล่านี้เติบโตเต็มที่ ก็จะเป็นตัวเร่งสำคัญให้ AI เข้ายึดครองเศรษฐกิจภาคบริการ