Generative AI’s Act o1 - การเปิดฉากยุคแห่งการให้เหตุผลของเอเจนต์
(sequoiacap.com)- เมื่อการปฏิวัติ Generative AI ก้าวเข้าสู่ปีที่ 2 งานวิจัยกำลังวิวัฒน์จาก "การคิดแบบเร็ว" ไปสู่ "การคิดแบบช้า"
- "การคิดแบบเร็ว" หมายถึงการตอบสนองอย่างรวดเร็วจากการพรีเทรนไว้ล่วงหน้า ส่วน "การคิดแบบช้า" หมายถึงการให้เหตุผลในช่วง Inference
- วิวัฒนาการนี้กำลังก่อให้เกิดแอปพลิเคชันเอเจนต์รูปแบบใหม่
- เมื่อเลเยอร์พื้นฐานของตลาด Generative AI เริ่มมีเสถียรภาพ ผู้เล่นรายใหญ่อย่าง Microsoft/OpenAI, AWS/Anthropic, Meta และ Google/DeepMind เพียงไม่กี่รายกำลังเป็นผู้นำตลาด
- มีเพียงผู้เล่นรายใหญ่ที่มีเครื่องยนต์ทางเศรษฐกิจและเงินทุนมหาศาลเท่านั้นที่ยังคงอยู่ในการแข่งขัน
- โครงสร้างตลาดเองกำลังแข็งแกร่งขึ้น และการคาดการณ์ next-token ที่ราคาถูกและมีอย่างอุดมสมบูรณ์จะเป็นไปได้
- เมื่อโครงสร้างตลาด LLM มีเสถียรภาพ ก็เกิดแนวหน้าใหม่ขึ้น
- โฟกัสกำลังมุ่งไปที่การพัฒนาและขยายเลเยอร์การให้เหตุผล ซึ่งให้ความสำคัญกับแนวคิดแบบ "System 2"
- ได้แรงบันดาลใจจากโมเดลอย่าง AlphaGo เลเยอร์นี้มีเป้าหมายที่จะมอบการให้เหตุผลอย่างรอบคอบ การแก้ปัญหา และกระบวนการรับรู้แก่ระบบ AI ให้ก้าวข้ามการจับคู่รูปแบบอย่างง่าย
- สถาปัตยกรรมการรับรู้และส่วนติดต่อผู้ใช้แบบใหม่กำลังกำหนดรูปแบบว่าความสามารถในการให้เหตุผลเหล่านี้จะถูกส่งต่อถึงผู้ใช้และโต้ตอบกันอย่างไร
Strawberry Fields Forever
- อัปเดตโมเดลที่สำคัญที่สุดของปี 2024 คือ o1 ของ OpenAI (ก่อนหน้านี้รู้จักกันในชื่อ Q* และเรียกอีกชื่อว่า Strawberry)
- นี่ไม่ได้หมายถึงแค่ OpenAI กลับขึ้นไปอยู่แถวหน้าของกระดานจัดอันดับคุณภาพโมเดลเท่านั้น แต่ยังนำมาซึ่งการปรับปรุงอย่างมีนัยสำคัญต่อสถาปัตยกรรมแบบเดิมด้วย
- โดยเฉพาะอย่างยิ่ง นี่คือโมเดลแรกที่มี "ความสามารถในการให้เหตุผลทั่วไป" อย่างแท้จริง ซึ่งได้มาจากการประมวลผลขณะให้เหตุผล
- โมเดลพรีเทรน vs การประมวลผลขณะให้เหตุผล
- โมเดลพรีเทรนทำ next token prediction โดยใช้ข้อมูลจำนวนมหาศาล
- คุณสมบัติเกิดใหม่ตามขนาด (emergent property) อย่างหนึ่งคือการให้เหตุผลขั้นพื้นฐาน แต่การให้เหตุผลนี้ยังมีข้อจำกัดมาก
- การประมวลผลขณะให้เหตุผลหมายถึงการขอให้โมเดลหยุดและคิดก่อนจะให้คำตอบ
- สิ่งนี้ต้องใช้การประมวลผลมากขึ้นในช่วง Inference
- ส่วนของการ "หยุดและคิด" นี่เองคือการให้เหตุผล (reasoning)
การเปรียบเทียบ AlphaGo กับ LLM
- AlphaGo สร้างหนึ่งในช่วงเวลาที่สำคัญที่สุดในประวัติศาสตร์ deep learning เมื่อเดือนมีนาคม 2016 ที่กรุงโซล ด้วยการเผชิญหน้ากับตำนานหมากล้อม อีเซดล
- AlphaGo แสดงให้โลกเห็นภาพของ "AI ที่คิดได้" ซึ่งเป็นมากกว่าการเลียนแบบรูปแบบอย่างเดียว
- ความแตกต่างระหว่าง AlphaGo กับระบบ AI สำหรับเล่นเกมยุคก่อน
- เช่นเดียวกับ LLM, AlphaGo ถูกพรีเทรนให้เลียนแบบผู้เชี่ยวชาญมนุษย์ผ่านฐานข้อมูลการเดินเกมก่อนหน้าราว 30 ล้านตา และการเล่นกับตัวเอง
- แต่แทนที่จะให้ปฏิกิริยาทันทีแบบที่ออกมาจากโมเดลพรีเทรน AlphaGo ใช้เวลาหยุดและคิด
- ในช่วง Inference AlphaGo จะทำการค้นหาหรือจำลองสถานการณ์อนาคตที่เป็นไปได้จำนวนมาก ประเมินสถานการณ์เหล่านั้น แล้วตอบสนองด้วยสถานการณ์ (หรือคำตอบ) ที่มีค่าคาดหวังสูงสุด
- ยิ่ง AlphaGo ได้เวลามากเท่าไร ประสิทธิภาพก็ยิ่งดีขึ้นเท่านั้น
- หากไม่มีการประมวลผลขณะให้เหตุผลเลย AlphaGo จะไม่สามารถเอาชนะผู้เล่นมนุษย์ระดับสูงสุดได้
- เหตุใดการทำซ้ำ AlphaGo ใน LLM จึงยาก
- เป็นเรื่องยากที่จะสร้าง value function สำหรับประเมินคำตอบ
- ในหมากล้อม เราสามารถจำลองเกมไปจนจบ ดูว่าใครชนะ แล้วคำนวณค่าคาดหวังของตาถัดไปได้
- ในงานเขียนโค้ด เราสามารถทดสอบโค้ดและดูได้ว่ามันทำงานหรือไม่
- แต่สิ่งอย่างร่างบทความ แผนการเดินทาง หรือสรุปคำสำคัญจากเอกสารยาวนั้นประเมินได้ยาก
- นี่คือเหตุผลว่าทำไมการให้เหตุผลจึงยังยากภายใต้วิธีวิทยาปัจจุบัน และทำไม Strawberry จึงค่อนข้างแข็งแกร่งในโดเมนที่ใกล้กับตรรกะ (เช่น การเขียนโค้ด คณิตศาสตร์ วิทยาศาสตร์) แต่ไม่มากนักในโดเมนที่เปิดกว้างและไม่มีโครงสร้างชัดเจน (เช่น การเขียน)
- งานวิจัยเพื่อปรับปรุงความสามารถในการให้เหตุผลของโมเดล Strawberry
- แม้การนำ Strawberry ไปใช้งานจริงจะถูกปกป้องอย่างเข้มงวด แต่แนวคิดหลักเกี่ยวข้องกับการเสริมกำลังการเรียนรู้บนสายโซ่ความคิดที่โมเดลสร้างขึ้น
- การตรวจสอบสายโซ่ความคิดของโมเดลบ่งชี้ว่ามีบางสิ่งที่พื้นฐานและน่าสนใจเกิดขึ้น ซึ่งคล้ายกับวิธีคิดและการให้เหตุผลของมนุษย์
- ตัวอย่างเช่น o1 แสดงความสามารถในการย้อนกลับเมื่อเจอทางตัน ในฐานะคุณสมบัติเกิดใหม่ของการสเกลการให้เหตุผลตามเวลา
- มันยังแสดงทั้งความสามารถในการคิดเกี่ยวกับปัญหาแบบมนุษย์ (เช่น จินตนาการจุดบนทรงกลมเพื่อแก้ปัญหาเรขาคณิต) และความสามารถในการคิดเกี่ยวกับปัญหาในรูปแบบใหม่ (เช่น แก้โจทย์การแข่งขันเขียนโปรแกรมด้วยวิธีที่ต่างจากมนุษย์)
- ทีมวิจัยมีไอเดียมากมายในการพัฒนาการประมวลผลขณะให้เหตุผล เช่น วิธีใหม่ในการคำนวณ reward function และวิธีใหม่ในการลดช่องว่างระหว่าง generator/verifier เพื่อยกระดับความสามารถในการให้เหตุผลของโมเดล
- กล่าวอีกนัยหนึ่งคือ deep reinforcement learning กำลังกลับมาได้รับความสนใจอีกครั้ง และโดยรวมแล้วกำลังทำให้เลเยอร์การให้เหตุผลแบบใหม่เกิดขึ้นได้
การก้าวกระโดดจาก System 1 ไปสู่ System 2 Thinking
- การก้าวจากปฏิกิริยาโดยสัญชาตญาณที่พรีเทรนไว้ ("System 1") ไปสู่การให้เหตุผลที่ลึกและรอบคอบกว่า ("System 2") คือแนวหน้าถัดไปของ AI
- การที่โมเดลเพียงแค่รู้บางอย่างนั้นไม่เพียงพอ
- โมเดลจำเป็นต้องหยุดชั่วคราว ประเมิน และให้เหตุผล เพื่อตัดสินใจแบบเรียลไทม์
- การพรีเทรนสอดคล้องกับเลเยอร์ System 1
- ไม่ว่าจะเป็นการเรียนรู้ตาหมากล้อมนับล้านตาใน AlphaGo หรือการเรียนรู้ข้อความระดับเพตะไบต์จากอินเทอร์เน็ตใน LLM เป้าหมายของการพรีเทรนคือการเลียนแบบรูปแบบอย่างการเล่นเกมหรือภาษาของมนุษย์
- แต่การเลียนแบบ ต่อให้ทรงพลังเพียงใด ก็ไม่ใช่การให้เหตุผลที่แท้จริง
- โดยเฉพาะอย่างยิ่ง มันไม่สามารถคิดได้อย่างถูกต้องในสถานการณ์ที่ซับซ้อนและใหม่ ซึ่งอยู่นอกชุดข้อมูลการฝึก
- การคิดแบบ System 2 คือจุดโฟกัสของงานวิจัย AI ยุคปัจจุบัน
- เมื่อโมเดล "หยุดและคิด" มันไม่ได้เพียงสร้างรูปแบบที่เรียนรู้ไว้หรือพ่นคำทำนายจากข้อมูลในอดีตออกมา
- แต่มันสร้างช่วงของความเป็นไปได้ พิจารณาผลลัพธ์ที่อาจเกิดขึ้น และตัดสินใจบนพื้นฐานของการให้เหตุผล
- การใช้การคิดแบบ System 1 และ System 2 อย่างเหมาะสม
- ในหลายงาน การคิดแบบ System 1 ก็เพียงพอแล้ว (เช่น การคิดนานขึ้นก็ไม่ได้ช่วยให้ตอบได้ดีขึ้นว่าเมืองหลวงของภูฏานคืออะไร)
- แต่ในปัญหาที่ซับซ้อนกว่านั้น เช่น ความก้าวหน้าเชิงพลิกโฉมในคณิตศาสตร์หรือชีววิทยา การตอบสนองที่รวดเร็วและเป็นสัญชาตญาณเพียงอย่างเดียวไม่เพียงพอ
- ความก้าวหน้าเหล่านี้ต้องการการคิดอย่างลึกซึ้ง การแก้ปัญหาอย่างสร้างสรรค์ และเหนือสิ่งอื่นใดคือเวลา
- AI ก็เช่นกัน เพื่อแก้ปัญหาที่ยากและมีความหมายที่สุด มันจำเป็นต้องใช้เวลาเพื่อก้าวข้ามการตอบสนองจากชุดข้อมูลที่เรียนรู้อย่างรวดเร็ว และสร้างการให้เหตุผลอย่างรอบคอบซึ่งเป็นตัวกำหนดความก้าวหน้าของมนุษย์
กฎการสเกลแบบใหม่: จุดเริ่มต้นของการแข่งขันด้านการให้เหตุผล
- ข้อค้นพบที่สำคัญที่สุดจากบทความ o1 ของ OpenAI คือกฎการสเกลแบบใหม่ได้ปรากฏขึ้นแล้ว
- กฎการสเกลของการพรีเทรน LLM
- การพรีเทรน LLM เป็นไปตามกฎการสเกลที่เข้าใจกันดี
- ยิ่งใช้การประมวลผลและข้อมูลมากขึ้นในการพรีเทรนโมเดล ประสิทธิภาพก็ยิ่งดีขึ้น
- กฎการสเกลแบบใหม่ของการประมวลผลขณะให้เหตุผล
- บทความ o1 ได้เปิดมิติใหม่สำหรับการขยายการประมวลผล
- ยิ่งให้เวลาในการให้เหตุผล (หรือการประมวลผลช่วง "test time") กับโมเดลมากขึ้น ความสามารถในการให้เหตุผลก็ยิ่งดีขึ้น
- จะเกิดอะไรขึ้นหากโมเดลสามารถคิดได้เป็นชั่วโมง เป็นวัน หรือเป็นหลายสิบปี?
- มันจะสามารถแก้สมมติฐานรีมันน์ได้หรือไม่?
- มันจะตอบคำถามสุดท้ายของอาซิมอฟได้หรือไม่?
- การเปลี่ยนผ่านจากคลัสเตอร์พรีเทรนขนาดใหญ่ไปสู่ inference cloud
- การเปลี่ยนแปลงนี้จะพาเราย้ายจากโลกของคลัสเตอร์พรีเทรนขนาดใหญ่ไปสู่ inference cloud
- inference cloud คือสภาพแวดล้อมที่สามารถขยายการประมวลผลแบบไดนามิกตามความซับซ้อนของงานได้
โมเดลเดียวจะครองทุกสิ่งหรือไม่?
- จะเกิดอะไรขึ้นเมื่อ OpenAI, Anthropic, Google, Meta และรายอื่น ๆ ขยายเลเยอร์การให้เหตุผลและพัฒนาเครื่องจักรการให้เหตุผลที่ทรงพลังยิ่งขึ้น?
- โมเดลเดียวจะครองทุกสิ่งหรือไม่?
- สมมติฐานหนึ่งคือบริษัทโมเดลเพียงรายเดียวจะทรงพลังมากจนดูดซับแอปพลิเคชันอื่นทั้งหมดเข้าไป
- แต่จนถึงตอนนี้ คำทำนายนี้พิสูจน์แล้วว่าผิดอยู่ 2 ด้าน
- ประการแรก ในชั้นโมเดลมีผู้เล่นจำนวนมากที่แข่งขันกันอย่างต่อเนื่องเพื่อความสามารถระดับ SOTA
- แม้อาจเป็นไปได้ว่าจะมีใครสักคนบรรลุการพัฒนาตนเองอย่างต่อเนื่องผ่านการเรียนรู้ด้วยตนเองข้ามโดเมนในวงกว้างและทะยานขึ้นไปได้ แต่ยังไม่มีหลักฐานเช่นนั้น
- ตรงกันข้าม เลเยอร์โมเดลกลับเป็นสนามแข่งขันที่ดุเดือด และราคาต่อโทเค็นของ GPT-4 ก็ลดลง 98% นับตั้งแต่งาน Developer Day ครั้งก่อน
- ประการที่สอง โมเดลกำลังประสบความยากลำบากในการรุกเข้าสู่ชั้นแอปพลิเคชัน
- นอกเหนือจาก ChatGPT แล้ว โดยทั่วไปโมเดลยังไม่ประสบความสำเร็จในการกลายเป็นผลิตภัณฑ์พลิกเกมในชั้นแอปพลิเคชัน
- เพราะโลกแห่งความเป็นจริงนั้นซับซ้อน
- นักวิจัยชั้นยอดไม่ได้อยากทำความเข้าใจเวิร์กโฟลว์แบบ end-to-end อย่างละเอียดของทุกฟังก์ชันในทุกตลาดแนวดิ่งที่เป็นไปได้
- การที่นักวิจัยหยุดไว้ที่ API และปล่อยให้ระบบนิเวศนักพัฒนาจัดการกับความซับซ้อนของโลกจริงนั้นทั้งน่าดึงดูดและสมเหตุสมผลทางเศรษฐกิจ
- นี่เป็นข่าวดีสำหรับชั้นแอปพลิเคชัน
โลกจริงที่ซับซ้อน: ความจำเป็นของสถาปัตยกรรมการรับรู้แบบปรับแต่ง
- วิธีที่นักวิทยาศาสตร์วางแผนและลงมือทำเพื่อบรรลุเป้าหมายนั้นแตกต่างอย่างมากจากวิธีทำงานของวิศวกรซอฟต์แวร์
- และแม้แต่วิธีทำงานของวิศวกรซอฟต์แวร์ในบริษัทต่าง ๆ ก็ยังแตกต่างกัน
- แม้ห้องแล็บจะยังคงผลักขอบเขตของการให้เหตุผลทั่วไปในแนวนอนให้ไกลออกไป แต่การมอบ AI agent ที่ใช้งานได้จริงก็ยังต้องอาศัยการให้เหตุผลเฉพาะแอปพลิเคชันหรือเฉพาะโดเมน
- โลกจริงที่ซับซ้อนต้องการการให้เหตุผลเฉพาะโดเมนและเฉพาะแอปพลิเคชันจำนวนมาก ซึ่งไม่สามารถเข้ารหัสลงในโมเดลทั่วไปได้อย่างมีประสิทธิภาพ
- การมาถึงของสถาปัตยกรรมการรับรู้
- สถาปัตยกรรมการรับรู้หมายถึงวิธีคิดของระบบ กล่าวคือ ลำดับการทำงานของโค้ดและปฏิสัมพันธ์กับโมเดลที่รับอินพุตจากผู้ใช้แล้วลงมือทำหรือสร้างคำตอบ
- ตัวอย่างเช่น ในกรณีของ Factory ผลิตภัณฑ์ "droid" แต่ละตัวมีสถาปัตยกรรมการรับรู้แบบปรับแต่งที่เลียนแบบวิธีคิดของมนุษย์เพื่อแก้โจทย์เฉพาะ เช่น การรีวิว pull request หรือการเขียนและดำเนินแผน migration สำหรับการอัปเดตบริการระหว่างแบ็กเอนด์
- Factory droid จะวิเคราะห์ dependency ทั้งหมด เสนอการเปลี่ยนแปลงโค้ดที่เกี่ยวข้อง เพิ่ม unit test และดึงมนุษย์เข้ามาตรวจทาน
- จากนั้น เมื่อได้รับการอนุมัติ ก็จะดำเนินการเปลี่ยนแปลงกับทุกไฟล์ในสภาพแวดล้อมการพัฒนา และหากผ่านการทดสอบทั้งหมดก็จะ merge โค้ด
- สิ่งนี้คล้ายกับวิธีคิดของมนุษย์ที่ประกอบด้วยงานย่อยแยกกันเป็นลำดับ ไม่ใช่คำตอบเดียวแบบทั่วไปและเป็น black box
เกิดอะไรขึ้นใน App?
- หากต้องการเริ่มธุรกิจ AI ควรเล็งไปที่เลเยอร์ไหน?
- หากจะแข่งขันในชั้นอินฟราต้องเอาชนะ NVIDIA และ hyperscaler ให้ได้
- หากจะแข่งขันในชั้นโมเดลต้องเอาชนะ OpenAI และ Mark Zuckerberg ให้ได้
- หากจะแข่งขันในชั้นแอปพลิเคชันต้องเอาชนะ IT องค์กรและผู้ให้บริการ system integration ระดับโลกให้ได้
- การแข่งขันในชั้นแอปพลิเคชันดูเป็นไปได้มากที่สุด
- โอกาสของชั้นแอปพลิเคชัน
- foundation model นั้นเหมือนเวทมนตร์ แต่ก็ซับซ้อนด้วย
- องค์กรกระแสหลักรับมือกับ black box, hallucination และเวิร์กโฟลว์ที่ไม่เรียบร้อยไม่ได้
- ผู้บริโภคมองเห็นพรอมป์ต์ว่าง ๆ แล้วไม่รู้ว่าควรขออะไร
- นี่คือโอกาสของชั้นแอปพลิเคชัน
- เมื่อ 2 ปีก่อน บริษัทในชั้นแอปพลิเคชันจำนวนมากถูกวิจารณ์ว่า "ก็แค่ wrapper บน GPT-3"
- แต่วันนี้ wrapper เหล่านั้นได้พิสูจน์แล้วว่าเป็นหนึ่งในไม่กี่วิธีที่แข็งแรงในการสร้างมูลค่าที่ยั่งยืน
- สิ่งที่เริ่มต้นจาก "wrapper" ได้วิวัฒน์เป็น "สถาปัตยกรรมการรับรู้"
- ลักษณะของบริษัท AI ในชั้นแอปพลิเคชัน
- ไม่ใช่แค่เอา UI ไปวางทับบน foundation model
- โดยทั่วไปจะมีสถาปัตยกรรมการรับรู้ที่ซับซ้อนซึ่งรวมถึง:
- foundation model หลายตัวพร้อมกลไก routing บางรูปแบบอยู่ด้านบน
- vector และ/หรือ graph database สำหรับ RAG
- guardrail เพื่อให้มั่นใจเรื่อง compliance
- ตรรกะแอปพลิเคชันที่เลียนแบบวิธีการให้เหตุผลผ่านเวิร์กโฟลว์
Service-as-a-Software
- การเปลี่ยนผ่านสู่คลาวด์คือ "Software-as-a-Service" บริษัทซอฟต์แวร์กลายเป็นผู้ให้บริการคลาวด์ และนี่คือโอกาสมูลค่า 3.5 แสนล้านดอลลาร์
- ด้วย agentic reasoning การเปลี่ยนผ่านด้าน AI คือ "Service-as-a-Software" บริษัทซอฟต์แวร์กำลังเปลี่ยนแรงงานให้กลายเป็นซอฟต์แวร์
- นี่หมายความว่าตลาดเป้าหมายไม่ใช่ตลาดซอฟต์แวร์ แต่เป็นตลาดบริการมูลค่าหลายล้านล้านดอลลาร์
- การขายงานหมายความว่าอย่างไร
- บริษัทชื่อ Sierra เป็นตัวอย่างที่ดี
- บริษัท B2C นำ Sierra ไปวางบนเว็บไซต์ของตนเพื่อสนทนากับลูกค้า
- job-to-be-done คือการแก้ปัญหาให้ลูกค้า
- Sierra คิดค่าบริการตามจำนวนเคสที่แก้ได้
- ไม่มีสิ่งอย่าง "seat" คุณมีงานที่ต้องทำ และ Sierra ก็จัดการงานนั้นพร้อมคิดค่าบริการตามนั้น
- นี่คือดาวเหนือที่แท้จริงของบริษัท AI จำนวนมาก
- ข้อได้เปรียบของ Sierra และความท้าทายของบริษัทอื่น
- Sierra มีข้อได้เปรียบจากโหมดล้มเหลวที่สวยงาม คือการ escalte ไปยังเจ้าหน้าที่มนุษย์
- ไม่ใช่ทุกบริษัทจะโชคดีแบบนั้น
- แพตเทิร์นใหม่คือเริ่มต้นด้วยการนำไปใช้งานแบบ human-in-the-loop ก่อน แล้วค่อยใช้ประสบการณ์นั้นเพื่อคว้าโอกาสในการนำไปใช้งานแบบ autopilot (human-out-of-the-loop)
- GitHub Copilot เป็นตัวอย่างที่ดีของเรื่องนี้
แอปพลิเคชันเอเจนต์รูปแบบใหม่เริ่มปรากฏขึ้น
- ด้วยความสามารถด้านการให้เหตุผลแบบใหม่ของ Generative AI แอปพลิเคชันเอเจนต์ประเภทใหม่เริ่มปรากฏขึ้น
- ที่น่าสนใจคือ บริษัทในชั้นแอปพลิเคชันเหล่านี้มีหน้าตาแตกต่างจากบริษัทคลาวด์ในอดีต:
- บริษัทคลาวด์มุ่งเป้ารายได้จากซอฟต์แวร์ แต่บริษัท AI มุ่งเป้ารายได้จากบริการ
- บริษัทคลาวด์ขายซอฟต์แวร์ ($/seat) แต่บริษัท AI ขายงาน ($/ผลลัพธ์)
- บริษัทคลาวด์นิยมแนวทาง bottom-up ด้วยการกระจายที่ไร้แรงเสียดทาน แต่บริษัท AI กำลังหันไปใช้แนวทาง top-down มากขึ้น ผ่านโมเดลการส่งมอบแบบ high-touch, high-trust
- ตัวอย่างของแอปพลิเคชันเอเจนต์ที่เกิดขึ้นในทุกภาคส่วนของเศรษฐกิจฐานความรู้
- Harvey: ทนายความ AI
- Glean: ผู้ช่วยงาน AI
- Factory: วิศวกรซอฟต์แวร์ AI
- Abridge: นักจดบันทึกเวชระเบียน AI
- XBOW: ผู้ทดสอบเจาะระบบ AI
- Sierra: เอเจนต์สนับสนุนลูกค้า AI
- ด้วยการลดต้นทุนส่วนเพิ่มของการให้บริการเหล่านี้ลงมาใกล้เคียงกับระดับเดียวกับการร่วงลงอย่างรวดเร็วของต้นทุนการให้เหตุผล แอปพลิเคชันเอเจนต์จึงกำลังขยายและสร้างตลาดใหม่
- XBOW เป็นตัวอย่างที่ดี:
- XBOW กำลังสร้าง AI "pentester"
- "pentest" หรือการทดสอบเจาะระบบ คือการจำลองการโจมตีทางไซเบอร์ต่อระบบคอมพิวเตอร์ที่องค์กรใช้เพื่อประเมินระบบความปลอดภัยของตนเอง
- ก่อนยุค Generative AI การทำ pentest โดยมนุษย์มีราคาแพงมาก (เพราะเป็นงานแมนนวลโดยผู้เชี่ยวชาญ) ทำให้องค์กรจ้าง pentester เฉพาะในสถานการณ์จำกัดเท่านั้น (เช่น เมื่อจำเป็นต่อ compliance)
- แต่ตอนนี้ XBOW กำลังสาธิตการทำ pentest แบบอัตโนมัติบนพื้นฐานของ reasoning LLM รุ่นล่าสุด ซึ่งมีประสิทธิภาพทัดเทียมกับ pentester มนุษย์ที่ชำนาญที่สุด
- สิ่งนี้กำลังขยายตลาด pentesting และเปิดทางสู่การทำ pentest อย่างต่อเนื่องสำหรับองค์กรทุกขนาดและทุกรูปแบบ
สิ่งนี้ส่งผลต่ออุตสาหกรรม SaaS อย่างไร?
- เมื่อต้นปีนี้ตอนที่เราได้พบกับ LPs คำถามที่ถูกถามมากที่สุดคือ “การเปลี่ยนผ่านสู่ AI จะทำลายบริษัทคลาวด์เดิมหรือไม่?”
- เราเริ่มต้นจากสมมติฐานพื้นฐานที่หนักแน่นว่า “ไม่”
- การต่อสู้แบบคลาสสิกระหว่างสตาร์ตอัปกับบริษัทเดิมก็เหมือนการแข่งขันที่สตาร์ตอัปสร้างการจัดจำหน่าย ส่วนบริษัทเดิมสร้างผลิตภัณฑ์
- บริษัทหน้าใหม่ที่มีผลิตภัณฑ์เจ๋ง ๆ จะเข้าถึงลูกค้าได้ก่อนที่บริษัทเดิมซึ่งครองความสัมพันธ์กับลูกค้าจะออกผลิตภัณฑ์เจ๋ง ๆ ได้หรือไม่?
- เมื่อพิจารณาว่าความมหัศจรรย์ของ AI ส่วนใหญ่มาจาก foundation model สมมติฐานพื้นฐานของเราจึงเป็น “ไม่”
- บริษัทเดิมเข้าถึง foundation model ได้พอ ๆ กับสตาร์ตอัป และยังมีข้อได้เปรียบเดิมด้านข้อมูลและการจัดจำหน่าย จึงน่าจะทำได้ดี
- โอกาสหลักของสตาร์ตอัปไม่ใช่การแทนที่บริษัทซอฟต์แวร์เดิม แต่เป็นการเจาะกลุ่มงานที่สามารถทำให้เป็นอัตโนมัติได้
- แต่ตอนนี้เราไม่ได้มั่นใจเช่นนั้นอีกต่อไป
- โปรดอ้างอิงสิ่งที่กล่าวไว้ข้างต้นเกี่ยวกับ cognitive architecture
- การเปลี่ยนความสามารถดิบของโมเดลให้กลายเป็นโซลูชันธุรกิจแบบ end-to-end ที่น่าเชื่อถือและน่าไว้วางใจ ต้องอาศัยงานวิศวกรรมจำนวนมหาศาล
- เรากำลังประเมินต่ำเกินไปอย่างมากหรือไม่ว่าคำว่า “AI native” หมายถึงอะไร?
- เมื่อ 20 ปีก่อน บริษัทซอฟต์แวร์แบบ on-premise เคยหัวเราะเยาะแนวคิด SaaS
- “ไม่เห็นจะมีอะไรยาก เราก็รันเซิร์ฟเวอร์เองแล้วให้บริการผ่านอินเทอร์เน็ตได้เหมือนกัน!”
- ในเชิงแนวคิดมันเรียบง่าย แต่สิ่งที่ตามมาคือการสร้างธุรกิจขึ้นใหม่ทั้งระบบ:
- EPD เปลี่ยนจากโมเดล waterfall และ PRD ไปสู่การพัฒนาแบบ agile และการทำ AB testing
- GTM เปลี่ยนจากการขายองค์กรแบบ top-down และดินเนอร์กับผู้บริหาร ไปสู่ PLG แบบ bottom-up และ product analytics
- โมเดลธุรกิจเปลี่ยนจาก ASP สูงและรายได้จาก maintenance stream ไปสู่ NDR สูงและการตั้งราคาแบบ usage-based
- มีบริษัท on-premise เพียงไม่กี่แห่งที่เปลี่ยนผ่านได้สำเร็จ
- AI อาจเป็นจุดเปลี่ยนแบบเดียวกับ SaaS หรือไม่? โอกาสของ AI อาจเป็นการขาย “งาน” ไปพร้อมกับการแทนที่ซอฟต์แวร์หรือไม่?
- ผ่าน Day.ai เราได้เห็นภาพอนาคตล่วงหน้า
- Day คือ CRM แบบ AI native
- เหล่า system integrator สร้างรายได้หลายพันล้านดอลลาร์จากการปรับแต่ง Salesforce ให้เข้ากับความต้องการของลูกค้า
- Day สามารถสร้าง CRM ที่ปรับเข้ากับธุรกิจของลูกค้าได้อย่างสมบูรณ์แบบโดยอัตโนมัติ เพียงแค่เข้าถึงอีเมลและปฏิทิน รวมถึงคำตอบจากแบบสอบถามความยาวหนึ่งหน้า
- แม้จะยังไม่ได้มีฟีเจอร์ครบทั้งหมด แต่ความมหัศจรรย์ของ CRM ที่ถูกสร้างขึ้นอัตโนมัติและอัปเดตอยู่เสมอโดยไม่ต้องมีมนุษย์เข้ามาเกี่ยวข้อง ก็เพียงพอแล้วที่จะทำให้ผู้คนตัดสินใจย้ายมาใช้งาน
วงการการลงทุน
- นักลงทุนกำลังใช้เวลาและทุ่มเงินไปกับที่ไหน?
- Infrastructure
- พื้นที่นี้เป็นอาณาเขตของเหล่า hyperscaler
- ขับเคลื่อนด้วยพฤติกรรมเชิง game theory มากกว่าการวิเคราะห์เชิงเศรษฐศาสตร์
- ไม่ใช่พื้นที่ที่เหมาะกับนักลงทุน venture
- Model
- เป็นพื้นที่ที่ hyperscaler และนักลงทุนการเงิน (FI) เคลื่อนไหวอยู่
- hyperscaler ลงทุนโดยใช้ประโยชน์จากงบดุลสินทรัพย์เพื่อสร้างผลตอบแทน และให้เงินนั้นไหลกลับมาเป็นต้นทุนคอมพิวต์ในธุรกิจคลาวด์
- nักลงทุนการเงินได้รับอิทธิพลจากอคติแบบ “หลงใหลในวิทยาศาสตร์”
- โมเดลเหล่านี้น่าสนใจมากและทีมก็ยอดเยี่ยม แต่ตรรกะทางเศรษฐกิจกลับถูกมองข้าม
- เครื่องมือสำหรับนักพัฒนาและซอฟต์แวร์อินฟราสตรักเจอร์
- น่าสนใจน้อยกว่าสำหรับนักลงทุนเชิงกลยุทธ์ แต่ดึงดูดนักลงทุน venture มากกว่า
- ในช่วงการเปลี่ยนผ่านสู่คลาวด์ มีบริษัทประมาณ 15 แห่งที่เกิดขึ้นในเลเยอร์นี้และทำรายได้เกิน 1 พันล้านดอลลาร์
- คาดว่าจะเกิดปรากฏการณ์คล้ายกันในการเปลี่ยนผ่านสู่ AI
- Application
- เป็นเลเยอร์ที่น่าสนใจที่สุดสำหรับนักลงทุน venture
- ระหว่างการเปลี่ยนผ่านสู่คลาวด์ มีบริษัทในเลเยอร์แอปพลิเคชันประมาณ 20 แห่งที่ทำรายได้เกิน 1 พันล้านดอลลาร์
- ช่วงการเปลี่ยนผ่านสู่มือถือก็มีบริษัทเกิดขึ้นจำนวนใกล้เคียงกัน และคาดว่าในการเปลี่ยนผ่านสู่ AI ครั้งนี้ก็จะมีแนวโน้มคล้ายกัน
ความคิดส่งท้าย
- ในระยะถัดไปของ generative AI คาดว่าอิทธิพลของ งานวิจัยและพัฒนา (R&D) ด้าน reasoning จะแพร่กระจายสู่เลเยอร์แอปพลิเคชันอย่างรวดเร็วและลึกซึ้ง
- cognitive architecture แบบเดิมส่วนใหญ่ประกอบด้วยเทคนิค “unhobbling” แต่ตอนนี้ความสามารถเหล่านี้กำลังถูกหลอมรวมเข้าไปในตัวโมเดลเอง จึงคาดว่าแอปพลิเคชันแบบ agent จะยิ่งซับซ้อนและแข็งแกร่งขึ้น
- ในห้องวิจัย ประเด็นเรื่อง Reasoning และการคำนวณในช่วง Inference-Time จะยังคงเป็นหัวข้อสำคัญต่อไป และเมื่อกฎการสเกลแบบใหม่ได้ปรากฏขึ้น การแข่งขันครั้งถัดไปก็เริ่มต้นแล้ว
- อย่างไรก็ตาม ในบางโดเมน การเก็บข้อมูลจากโลกจริงและการเข้ารหัส cognitive architecture ที่เฉพาะกับโดเมนและแอปพลิเคชันยังคงเป็นเรื่องยาก
- ผู้ให้บริการแอปในช่วง last mile อาจได้เปรียบในการแก้ปัญหาเหล่านี้
- ในอนาคต มีความเป็นไปได้ที่ระบบหลายเอเจนต์อย่าง Droid ของ Factory จะเกิดขึ้นและแพร่หลาย โดยจำลองกระบวนการ reasoning และ social learning
- คาดว่าระบบหลายเอเจนต์จะสามารถบรรลุงานได้มากขึ้นด้วยการจัดทีมที่ประมวลผลงานหลายอย่างพร้อมกัน
- ช่วงเวลาที่หลายคนเฝ้ารอคือ ‘Move 37’ ของ generative AI ซึ่งหมายถึงช่วงเวลาที่ระบบ AI ทั่วไปแสดงพฤติกรรมเหนือมนุษย์อย่างไม่คาดคิด เหมือนที่ AlphaGo เคยแสดงให้เห็นในการแข่งกับ Lee Sedol
- แม้เมื่อช่วงเวลานั้นมาถึง จะไม่ได้หมายความว่า AI “มีจิตสำนึก” แต่ AI อาจมีความสามารถในการจำลองกระบวนการรับรู้ การให้เหตุผล และการกระทำ เพื่อสำรวจสิ่งต่าง ๆ ในรูปแบบที่แปลกใหม่และเป็นประโยชน์
- สิ่งนี้อาจเป็น AGI (ความเป็นอัตโนมัติเต็มรูปแบบของปัญญาประดิษฐ์) และมันจะไม่ใช่เหตุการณ์เพียงครั้งเดียว แต่จะนำไปสู่ขั้นถัดไปของเทคโนโลยี
4 ความคิดเห็น
คาดหวังได้ว่า AI ที่ฉลาดขึ้นเรื่อย ๆ จะช่วยแก้ปัญหาอะไรได้บ้าง
ถ้าโมเดลสามารถคิดอยู่นาน ๆ แล้วแก้สมมติฐานรีมันน์ได้ ผลกระทบก็คงมหาศาลเลยนะครับ
ที่พูดถึง Zuckerberg แทนที่จะเป็น Meta นี่มันตลกดีนะ 555
ในบทความสรุปไม่ได้ระบุไว้อย่างชัดเจน เลยขอเขียนเผื่อไว้ เผื่อบางคนยังไม่ทราบว่า System 1 และ System 2 เป็นแนวคิดที่มาจากหนังสือ Thinking, Fast and Slow
System 1: การคิดแบบรวดเร็วที่ลงมือทำโดยไม่ต้องคิดลึก เป็นไปโดยไม่รู้ตัวหรืออาศัยสัญชาตญาณ เช่น ขับรถ, เดิน
System 2: การคิดแบบช้าที่ต้องใช้เหตุผลและครุ่นคิดอย่างจริงจัง เช่น คิดเลขในใจ