Generative AI’s Act o1 - การเปิดฉากยุคแห่งการให้เหตุผลของเอเจนต์

xguru · 2024-10-21T11:06:01+09:00

เมื่อการปฏิวัติ Generative AI ก้าวเข้าสู่ปีที่ 2 งานวิจัยกำลังวิวัฒน์จาก "การคิดแบบเร็ว" ไปสู่ "การคิดแบบช้า" "การคิดแบบเร็ว" หมายถึงการตอบสนองอย่างรวดเร็วจากการพรีเทรนไว้ล่วงหน้า ส่วน "การคิดแบบช้า" หมายถึงการให้เหตุผลในช่วง Inference วิวัฒนาการนี้กำลังก่อให้เกิดแอปพลิเคชันเอเจนต์รูปแบบใหม่ เมื่อเลเยอร์พื้นฐานของตลาด Generative AI เริ่มมีเสถียรภาพ ผู้เล่นรายใหญ่อย่าง Microsoft/OpenAI, AWS/Anthropic, Meta และ Google/DeepMind เพียงไม่กี่รายกำลังเป็นผู้นำตลาด มีเพียงผู้เล่นรายใหญ่ที่มีเครื่องยนต์ทางเศรษฐกิจและเงินทุนมหาศาลเท่านั้นที่ยังคงอยู่ในการแข่งขัน โครงสร้างตลาดเองกำลังแข็งแกร่งขึ้น และการคาดการณ์ next-token ที่ราคาถูกและมีอย่างอุดมสมบูรณ์จะเป็นไปได้ เมื่อโครงสร้างตลาด LLM มีเสถียรภาพ ก็เกิดแนวหน้าใหม่ขึ้น โฟกัสกำลังมุ่งไปที่การพัฒนาและขยายเลเยอร์การให้เหตุผล ซึ่งให้ความสำคัญกับแนวคิดแบบ "System 2" ได้แรงบันดาลใจจากโมเดลอย่าง AlphaGo เลเยอร์นี้มีเป้าหมายที่จะมอบการให้เหตุผลอย่างรอบคอบ การแก้ปัญหา และกระบวนการรับรู้แก่ระบบ AI ให้ก้าวข้ามการจับคู่รูปแบบอย่างง่าย สถาปัตยกรรมการรับรู้และส่วนติดต่อผู้ใช้แบบใหม่กำลังกำหนดรูปแบบว่าความสามารถในการให้เหตุผลเหล่านี้จะถูกส่งต่อถึงผู้ใช้และโต้ตอบกันอย่างไร Strawberry Fields Forever อัปเดตโมเดลที่สำคัญที่สุดของปี 2024 คือ o1 ของ OpenAI (ก่อนหน้านี้รู้จักกันในชื่อ Q* และเรียกอีกชื่อว่า Strawberry) นี่ไม่ได้หมายถึงแค่ OpenAI กลับขึ้นไปอยู่แถวหน้าของกระดานจัดอันดับคุณภาพโมเดลเท่านั้น แต่ยังนำมาซึ่งการปรับปรุงอย่างมีนัยสำคัญต่อสถาปัตยกรรมแบบเดิมด้วย โดยเฉพาะอย่างยิ่ง นี่คือโมเดลแรกที่มี "ความสามารถในการให้เหตุผลทั่วไป" อย่างแท้จริง ซึ่งได้มาจากการประมวลผลขณะให้เหตุผล โมเดลพรีเทรน vs การประมวลผลขณะให้เหตุผล โมเดลพรีเทรนทำ next token prediction โดยใช้ข้อมูลจำนวนมหาศาล คุณสมบัติเกิดใหม่ตามขนาด (emergent property) อย่างหนึ่งคือการให้เหตุผลขั้นพื้นฐาน แต่การให้เหตุผลนี้ยังมีข้อจำกัดมาก การประมวลผลขณะให้เหตุผลหมายถึงการขอให้โมเดลหยุดและคิดก่อนจะให้คำตอบ สิ่งนี้ต้องใช้การประมวลผลมากขึ้นในช่วง Inference ส่วนของการ "หยุดและคิด" นี่เองคือการให้เหตุผล (reasoning) การเปรียบเทียบ AlphaGo กับ LLM AlphaGo สร้างหนึ่งในช่วงเวลาที่สำคัญที่สุดในประวัติศาสตร์ deep learning เมื่อเดือนมีนาคม 2016 ที่กรุงโซล ด้วยการเผชิญหน้ากับตำนานหมากล้อม อีเซดล AlphaGo แสดงให้โลกเห็นภาพของ "AI ที่คิดได้" ซึ่งเป็นมากกว่าการเลียนแบบรูปแบบอย่างเดียว ความแตกต่างระหว่าง AlphaGo กับระบบ AI สำหรับเล่นเกมยุคก่อน เช่นเดียวกับ LLM, AlphaGo ถูกพรีเทรนให้เลียนแบบผู้เชี่ยวชาญมนุษย์ผ่านฐานข้อมูลการเดินเกมก่อนหน้าราว 30 ล้านตา และการเล่นกับตัวเอง แต่แทนที่จะให้ปฏิกิริยาทันทีแบบที่ออกมาจากโมเดลพรีเทรน AlphaGo ใช้เวลาหยุดและคิด ในช่วง Inference AlphaGo จะทำการค้นหาหรือจำลองสถานการณ์อนาคตที่เป็นไปได้จำนวนมาก ประเมินสถานการณ์เหล่านั้น แล้วตอบสนองด้วยสถานการณ์ (หรือคำตอบ) ที่มีค่าคาดหวังสูงสุด ยิ่ง AlphaGo ได้เวลามากเท่าไร ประสิทธิภาพก็ยิ่งดีขึ้นเท่านั้น หากไม่มีการประมวลผลขณะให้เหตุผลเลย AlphaGo จะไม่สามารถเอาชนะผู้เล่นมนุษย์ระดับสูงสุดได้ เหตุใดการทำซ้ำ AlphaGo ใน LLM จึงยาก เป็นเรื่องยากที่จะสร้าง value function สำหรับประเมินคำตอบ ในหมากล้อม เราสามารถจำลองเกมไปจนจบ ดูว่าใครชนะ แล้วคำนวณค่าคาดหวังของตาถัดไปได้ ในงานเขียนโค้ด เราสามารถทดสอบโค้ดและดูได้ว่ามันทำงานหรือไม่ แต่สิ่งอย่างร่างบทความ แผนการเดินทาง หรือสรุปคำสำคัญจากเอกสารยาวนั้นประเมินได้ยาก นี่คือเหตุผลว่าทำไมการให้เหตุผลจึงยังยากภายใต้วิธีวิทยาปัจจุบัน และทำไม Strawberry จึงค่อนข้างแข็งแกร่งในโดเมนที่ใกล้กับตรรกะ (เช่น การเขียนโค้ด คณิตศาสตร์ วิทยาศาสตร์) แต่ไม่มากนักในโดเมนที่เปิดกว้างและไม่มีโครงสร้างชัดเจน (เช่น การเขียน) งานวิจัยเพื่อปรับปรุงความสามารถในการให้เหตุผลของโมเดล Strawberry แม้การนำ Strawberry ไปใช้งานจริงจะถูกปกป้องอย่างเข้มงวด แต่แนวคิดหลักเกี่ยวข้องกับการเสริมกำลังการเรียนรู้บนสายโซ่ความคิดที่โมเดลสร้างขึ้น การตรวจสอบสายโซ่ความคิดของโมเดลบ่งชี้ว่ามีบางสิ่งที่พื้นฐานและน่าสนใจเกิดขึ้น ซึ่งคล้ายกับวิธีคิดและการให้เหตุผลของมนุษย์ ตัวอย่างเช่น o1 แสดงความสามารถในการย้อนกลับเมื่อเจอทางตัน ในฐานะคุณสมบัติเกิดใหม่ของการสเกลการให้เหตุผลตามเวลา มันยังแสดงทั้งความสามารถในการคิดเกี่ยวกับปัญหาแบบมนุษย์ (เช่น จินตนาการจุดบนทรงกลมเพื่อแก้ปัญหาเรขาคณิต) และความสามารถในการคิดเกี่ยวกับปัญหาในรูปแบบใหม่ (เช่น แก้โจทย์การแข่งขันเขียนโปรแกรมด้วยวิธีที่ต่างจากมนุษย์) ทีมวิจัยมีไอเดียมากมายในการพัฒนาการประมวลผลขณะให้เหตุผล เช่น วิธีใหม่ในการคำนวณ reward function และวิธีใหม่ในการลดช่องว่างระหว่าง generator/verifier เพื่อยกระดับความสามารถในการให้เหตุผลของโมเดล กล่าวอีกนัยหนึ่งคือ deep reinforcement learning กำลังกลับมาได้รับความสนใจอีกครั้ง และโดยรวมแล้วกำลังทำให้เลเยอร์การให้เหตุผลแบบใหม่เกิดขึ้นได้ การก้าวกระโดดจาก System 1 ไปสู่ System 2 Thinking การก้าวจากปฏิกิริยาโดยสัญชาตญาณที่พรีเทรนไว้ ("System 1") ไปสู่การให้เหตุผลที่ลึกและรอบคอบกว่า ("System 2") คือแนวหน้าถัดไปของ AI การที่โมเดลเพียงแค่รู้บางอย่างนั้นไม่เพียงพอ โมเดลจำเป็นต้องหยุดชั่วคราว ประเมิน และให้เหตุผล เพื่อตัดสินใจแบบเรียลไทม์ การพรีเทรนสอดคล้องกับเลเยอร์ System 1 ไม่ว่าจะเป็นการเรียนรู้ตาหมากล้อมนับล้านตาใน AlphaGo หรือการเรียนรู้ข้อความระดับเพตะไบต์จากอินเทอร์เน็ตใน LLM เป้าหมายของการพรีเทรนคือการเลียนแบบรูปแบบอย่างการเล่นเกมหรือภาษาของมนุษย์ แต่การเลียนแบบ ต่อให้ทรงพลังเพียงใด ก็ไม่ใช่การให้เหตุผลที่แท้จริง โดยเฉพาะอย่างยิ่ง มันไม่สามารถคิดได้อย่างถูกต้องในสถานการณ์ที่ซับซ้อนและใหม่ ซึ่งอยู่นอกชุดข้อมูลการฝึก การคิดแบบ System 2 คือจุดโฟกัสของงานวิจัย AI ยุคปัจจุบัน เมื่อโมเดล "หยุดและคิด" มันไม่ได้เพียงสร้างรูปแบบที่เรียนรู้ไว้หรือพ่นคำทำนายจากข้อมูลในอดีตออกมา แต่มันสร้างช่วงของความเป็นไปได้ พิจารณาผลลัพธ์ที่อาจเกิดขึ้น และตัดสินใจบนพื้นฐานของการให้เหตุผล การใช้การคิดแบบ System 1 และ System 2 อย่างเหมาะสม ในหลายงาน การคิดแบบ System 1 ก็เพียงพอแล้ว (เช่น การคิดนานขึ้นก็ไม่ได้ช่วยให้ตอบได้ดีขึ้นว่าเมืองหลวงของภูฏานคืออะไร) แต่ในปัญหาที่ซับซ้อนกว่านั้น เช่น ความก้าวหน้าเชิงพลิกโฉมในคณิตศาสตร์หรือชีววิทยา การตอบสนองที่รวดเร็วและเป็นสัญชาตญาณเพียงอย่างเดียวไม่เพียงพอ ความก้าวหน้าเหล่านี้ต้องการการคิดอย่างลึกซึ้ง การแก้ปัญหาอย่างสร้างสรรค์ และเหนือสิ่งอื่นใดคือเวลา AI ก็เช่นกัน เพื่อแก้ปัญหาที่ยากและมีความหมายที่สุด มันจำเป็นต้องใช้เวลาเพื่อก้าวข้ามการตอบสนองจากชุดข้อมูลที่เรียนรู้อย่างรวดเร็ว และสร้างการให้เหตุผลอย่างรอบคอบซึ่งเป็นตัวกำหนดความก้าวหน้าของมนุษย์ กฎการสเกลแบบใหม่: จุดเริ่มต้นของการแข่งขันด้านการให้เหตุผล ข้อค้นพบที่สำคัญที่สุดจากบทความ o1 ของ OpenAI คือกฎการสเกลแบบใหม่ได้ปรากฏขึ้นแล้ว กฎการสเกลของการพรีเทรน LLM การพรีเทรน LLM เป็นไปตามกฎการสเกลที่เข้าใจกันดี ยิ่งใช้การประมวลผลและข้อมูลมากขึ้นในการพรีเทรนโมเดล ประสิทธิภาพก็ยิ่งดีขึ้น กฎการสเกลแบบใหม่ของการประมวลผลขณะให้เหตุผล บทความ o1 ได้เปิดมิติใหม่สำหรับการขยายการประมวลผล ยิ่งให้เวลาในการให้เหตุผล (หรือการประมวลผลช่วง "test time") กับโมเดลมากขึ้น ความสามารถในการให้เหตุผลก็ยิ่งดีขึ้น จะเกิดอะไรขึ้นหากโมเดลสามารถคิดได้เป็นชั่วโมง เป็นวัน หรือเป็นหลายสิบปี? มันจะสามารถแก้สมมติฐานรีมันน์ได้หรือไม่? มันจะตอบคำถามสุดท้ายของอาซิมอฟได้หรือไม่? การเปลี่ยนผ่านจากคลัสเตอร์พรีเทรนขนาดใหญ่ไปสู่ inference cloud การเปลี่ยนแปลงนี้จะพาเราย้ายจากโลกของคลัสเตอร์พรีเทรนขนาดใหญ่ไปสู่ inference cloud inference cloud คือสภาพแวดล้อมที่สามารถขยายการประมวลผลแบบไดนามิกตามความซับซ้อนของงานได้ โมเดลเดียวจะครองทุกสิ่งหรือไม่? จะเกิดอะไรขึ้นเมื่อ OpenAI, Anthropic, Google, Meta และรายอื่น ๆ ขยายเลเยอร์การให้เหตุผลและพัฒนาเครื่องจักรการให้เหตุผลที่ทรงพลังยิ่งขึ้น? โมเดลเดียวจะครองทุกสิ่งหรือไม่? สมมติฐานหนึ่งคือบริษัทโมเดลเพียงรายเดียวจะทรงพลังมากจนดูดซับแอปพลิเคชันอื่นทั้งหมดเข้าไป แต่จนถึงตอนนี้ คำทำนายนี้พิสูจน์แล้วว่าผิดอยู่ 2 ด้าน ประการแรก ในชั้นโมเดลมีผู้เล่นจำนวนมากที่แข่งขันกันอย่างต่อเนื่องเพื่อความสามารถระดับ SOTA แม้อาจเป็นไปได้ว่าจะมีใครสักคนบรรลุการพัฒนาตนเองอย่างต่อเนื่องผ่านการเรียนรู้ด้วยตนเองข้ามโดเมนในวงกว้างและทะยานขึ้นไปได้ แต่ยังไม่มีหลักฐานเช่นนั้น ตรงกันข้าม เลเยอร์โมเดลกลับเป็นสนามแข่งขันที่ดุเดือด และราคาต่อโทเค็นของ GPT-4 ก็ลดลง 98% นับตั้งแต่งาน Developer Day ครั้งก่อน ประการที่สอง โมเดลกำลังประสบความยากลำบากในการรุกเข้าสู่ชั้นแอปพลิเคชัน นอกเหนือจาก ChatGPT แล้ว โดยทั่วไปโมเดลยังไม่ประสบความสำเร็จในการกลายเป็นผลิตภัณฑ์พลิกเกมในชั้นแอปพลิเคชัน เพราะโลกแห่งความเป็นจริงนั้นซับซ้อน นักวิจัยชั้นยอดไม่ได้อยากทำความเข้าใจเวิร์กโฟลว์แบบ end-to-end อย่างละเอียดของทุกฟังก์ชันในทุกตลาดแนวดิ่งที่เป็นไปได้ การที่นักวิจัยหยุดไว้ที่ API และปล่อยให้ระบบนิเวศนักพัฒนาจัดการกับความซับซ้อนของโลกจริงนั้นทั้งน่าดึงดูดและสมเหตุสมผลทางเศรษฐกิจ นี่เป็นข่าวดีสำหรับชั้นแอปพลิเคชัน โลกจริงที่ซับซ้อน: ความจำเป็นของสถาปัตยกรรมการรับรู้แบบปรับแต่ง วิธีที่นักวิทยาศาสตร์วางแผนและลงมือทำเพื่อบรรลุเป้าหมายนั้นแตกต่างอย่างมากจากวิธีทำงานของวิศวกรซอฟต์แวร์ และแม้แต่วิธีทำงานของวิศวกรซอฟต์แวร์ในบริษัทต่าง ๆ ก็ยังแตกต่างกัน แม้ห้องแล็บจะยังคงผลักขอบเขตของการให้เหตุผลทั่วไปในแนวนอนให้ไกลออกไป แต่การมอบ AI agent ที่ใช้งานได้จริงก็ยังต้องอาศัยการให้เหตุผลเฉพาะแอปพลิเคชันหรือเฉพาะโดเมน โลกจริงที่ซับซ้อนต้องการการให้เหตุผลเฉพาะโดเมนและเฉพาะแอปพลิเคชันจำนวนมาก ซึ่งไม่สามารถเข้ารหัสลงในโมเดลทั่วไปได้อย่างมีประสิทธิภาพ การมาถึงของสถาปัตยกรรมการรับรู้ สถาปัตยกรรมการรับรู้หมายถึงวิธีคิดของระบบ กล่าวคือ ลำดับการทำงานของโค้ดและปฏิสัมพันธ์กับโมเดลที่รับอินพุตจากผู้ใช้แล้วลงมือทำหรือสร้างคำตอบ ตัวอย่างเช่น ในกรณีของ Factory ผลิตภัณฑ์ "droid" แต่ละตัวมีสถาปัตยกรรมการรับรู้แบบปรับแต่งที่เลียนแบบวิธีคิดของมนุษย์เพื่อแก้โจทย์เฉพาะ เช่น การรีวิว pull request หรือการเขียนและดำเนินแผน migration สำหรับการอัปเดตบริการระหว่างแบ็กเอนด์ Factory droid จะวิเคราะห์ dependency ทั้งหมด เสนอการเปลี่ยนแปลงโค้ดที่เกี่ยวข้อง เพิ่ม unit test และดึงมนุษย์เข้ามาตรวจทาน จากนั้น เมื่อได้รับการอนุมัติ ก็จะดำเนินการเปลี่ยนแปลงกับทุกไฟล์ในสภาพแวดล้อมการพัฒนา และหากผ่านการทดสอบทั้งหมดก็จะ merge โค้ด สิ่งนี้คล้ายกับวิธีคิดของมนุษย์ที่ประกอบด้วยงานย่อยแยกกันเป็นลำดับ ไม่ใช่คำตอบเดียวแบบทั่วไปและเป็น black box เกิดอะไรขึ้นใน App? หากต้องการเริ่มธุรกิจ AI ควรเล็งไปที่เลเยอร์ไหน? หากจะแข่งขันในชั้นอินฟราต้องเอาชนะ NVIDIA และ hyperscaler ให้ได้ หากจะแข่งขันในชั้นโมเดลต้องเอาชนะ OpenAI และ Mark Zuckerberg ให้ได้ หากจะแข่งขันในชั้นแอปพลิเคชันต้องเอาชนะ IT องค์กรและผู้ให้บริการ system integration ระดับโลกให้ได้ การแข่งขันในชั้นแอปพลิเคชันดูเป็นไปได้มากที่สุด โอกาสของชั้นแอปพลิเคชัน foundation model นั้นเหมือนเวทมนตร์ แต่ก็ซับซ้อนด้วย องค์กรกระแสหลักรับมือกับ black box, hallucination และเวิร์กโฟลว์ที่ไม่เรียบร้อยไม่ได้ ผู้บริโภคมองเห็นพรอมป์ต์ว่าง ๆ แล้วไม่รู้ว่าควรขออะไร นี่คือโอกาสของชั้นแอปพลิเคชัน เมื่อ 2 ปีก่อน บริษัทในชั้นแอปพลิเคชันจำนวนมากถูกวิจารณ์ว่า "ก็แค่ wrapper บน GPT-3" แต่วันนี้ wrapper เหล่านั้นได้พิสูจน์แล้วว่าเป็นหนึ่งในไม่กี่วิธีที่แข็งแรงในการสร้างมูลค่าที่ยั่งยืน สิ่งที่เริ่มต้นจาก "wrapper" ได้วิวัฒน์เป็น "สถาปัตยกรรมการรับรู้" ลักษณะของบริษัท AI ในชั้นแอปพลิเคชัน ไม่ใช่แค่เอา UI ไปวางทับบน foundation model โดยทั่วไปจะมีสถาปัตยกรรมการรับรู้ที่ซับซ้อนซึ่งรวมถึง: foundation model หลายตัวพร้อมกลไก routing บางรูปแบบอยู่ด้านบน vector และ/หรือ graph database สำหรับ RAG guardrail เพื่อให้มั่นใจเรื่อง compliance ตรรกะแอปพลิเคชันที่เลียนแบบวิธีการให้เหตุผลผ่านเวิร์กโฟลว์ Service-as-a-Software การเปลี่ยนผ่านสู่คลาวด์คือ "Software-as-a-Service" บริษัทซอฟต์แวร์กลายเป็นผู้ให้บริการคลาวด์ และนี่คือโอกาสมูลค่า 3.5 แสนล้านดอลลาร์ ด้วย agentic reasoning การเปลี่ยนผ่านด้าน AI คือ "Service-as-a-Software" บริษัทซอฟต์แวร์กำลังเปลี่ยนแรงงานให้กลายเป็นซอฟต์แวร์ นี่หมายความว่าตลาดเป้าหมายไม่ใช่ตลาดซอฟต์แวร์ แต่เป็นตลาดบริการมูลค่าหลายล้านล้านดอลลาร์ การขายงานหมายความว่าอย่างไร บริษัทชื่อ Sierra เป็นตัวอย่างที่ดี บริษัท B2C นำ Sierra ไปวางบนเว็บไซต์ของตนเพื่อสนทนากับลูกค้า job-to-be-done คือการแก้ปัญหาให้ลูกค้า Sierra คิดค่าบริการตามจำนวนเคสที่แก้ได้ ไม่มีสิ่งอย่าง "seat" คุณมีงานที่ต้องทำ และ Sierra ก็จัดการงานนั้นพร้อมคิดค่าบริการตามนั้น นี่คือดาวเหนือที่แท้จริงของบริษัท AI จำนวนมาก ข้อได้เปรียบของ Sierra และความท้าทายของบริษัทอื่น Sierra มีข้อได้เปรียบจากโหมดล้มเหลวที่สวยงาม คือการ escalte ไปยังเจ้าหน้าที่มนุษย์ ไม่ใช่ทุกบริษัทจะโชคดีแบบนั้น แพตเทิร์นใหม่คือเริ่มต้นด้วยการนำไปใช้งานแบบ human-in-the-loop ก่อน แล้วค่อยใช้ประสบการณ์นั้นเพื่อคว้าโอกาสในการนำไปใช้งานแบบ autopilot (human-out-of-the-loop) GitHub Copilot เป็นตัวอย่างที่ดีของเรื่องนี้ แอปพลิเคชันเอเจนต์รูปแบบใหม่เริ่มปรากฏขึ้น ด้วยความสามารถด้านการให้เหตุผลแบบใหม่ของ Generative AI แอปพลิเคชันเอเจนต์ประเภทใหม่เริ่มปรากฏขึ้น ที่น่าสนใจคือ บริษัทในชั้นแอปพลิเคชันเหล่านี้มีหน้าตาแตกต่างจากบริษัทคลาวด์ในอดีต: บริษัทคลาวด์มุ่งเป้ารายได้จากซอฟต์แวร์ แต่บริษัท AI มุ่งเป้ารายได้จากบริการ บริษัทคลาวด์ขายซอฟต์แวร์ ($/seat) แต่บริษัท AI ขายงาน ($/ผลลัพธ์) บริษัทคลาวด์นิยมแนวทาง bottom-up ด้วยการกระจายที่ไร้แรงเสียดทาน แต่บริษัท AI กำลังหันไปใช้แนวทาง top-down มากขึ้น ผ่านโมเดลการส่งมอบแบบ high-touch, high-trust ตัวอย่างของแอปพลิเคชันเอเจนต์ที่เกิดขึ้นในทุกภาคส่วนของเศรษฐกิจฐานความรู้ Harvey: ทนายความ AI Glean: ผู้ช่วยงาน AI Factory: วิศวกรซอฟต์แวร์ AI Abridge: นักจดบันทึกเวชระเบียน AI XBOW: ผู้ทดสอบเจาะระบบ AI Sierra: เอเจนต์สนับสนุนลูกค้า AI ด้วยการลดต้นทุนส่วนเพิ่มของการให้บริการเหล่านี้ลงมาใกล้เคียงกับระดับเดียวกับการร่วงลงอย่างรวดเร็วของต้นทุนการให้เหตุผล แอปพลิเคชันเอเจนต์จึงกำลังขยายและสร้างตลาดใหม่ XBOW เป็นตัวอย่างที่ดี: XBOW กำลังสร้าง AI "pentester" "pentest" หรือการทดสอบเจาะระบบ คือการจำลองการโจมตีทางไซเบอร์ต่อระบบคอมพิวเตอร์ที่องค์กรใช้เพื่อประเมินระบบความปลอดภัยของตนเอง ก่อนยุค Generative AI การทำ pentest โดยมนุษย์มีราคาแพงมาก (เพราะเป็นงานแมนนวลโดยผู้เชี่ยวชาญ) ทำให้องค์กรจ้าง pentester เฉพาะในสถานการณ์จำกัดเท่านั้น (เช่น เมื่อจำเป็นต่อ compliance) แต่ตอนนี้ XBOW กำลังสาธิตการทำ pentest แบบอัตโนมัติบนพื้นฐานของ reasoning LLM รุ่นล่าสุด ซึ่งมีประสิทธิภาพทัดเทียมกับ pentester มนุษย์ที่ชำนาญที่สุด สิ่งนี้กำลังขยายตลาด pentesting และเปิดทางสู่การทำ pentest อย่างต่อเนื่องสำหรับองค์กรทุกขนาดและทุกรูปแบบ สิ่งนี้ส่งผลต่ออุตสาหกรรม SaaS อย่างไร? เมื่อต้นปีนี้ตอนที่เราได้พบกับ LPs คำถามที่ถูกถามมากที่สุดคือ “การเปลี่ยนผ่านสู่ AI จะทำลายบริษัทคลาวด์เดิมหรือไม่?” เราเริ่มต้นจากสมมติฐานพื้นฐานที่หนักแน่นว่า “ไม่” การต่อสู้แบบคลาสสิกระหว่างสตาร์ตอัปกับบริษัทเดิมก็เหมือนการแข่งขันที่สตาร์ตอัปสร้างการจัดจำหน่าย ส่วนบริษัทเดิมสร้างผลิตภัณฑ์ บริษัทหน้าใหม่ที่มีผลิตภัณฑ์เจ๋ง ๆ จะเข้าถึงลูกค้าได้ก่อนที่บริษัทเดิมซึ่งครองความสัมพันธ์กับลูกค้าจะออกผลิตภัณฑ์เจ๋ง ๆ ได้หรือไม่? เมื่อพิจารณาว่าความมหัศจรรย์ของ AI ส่วนใหญ่มาจาก foundation model สมมติฐานพื้นฐานของเราจึงเป็น “ไม่” บริษัทเดิมเข้าถึง foundation model ได้พอ ๆ กับสตาร์ตอัป และยังมีข้อได้เปรียบเดิมด้านข้อมูลและการจัดจำหน่าย จึงน่าจะทำได้ดี โอกาสหลักของสตาร์ตอัปไม่ใช่การแทนที่บริษัทซอฟต์แวร์เดิม แต่เป็นการเจาะกลุ่มงานที่สามารถทำให้เป็นอัตโนมัติได้ แต่ตอนนี้เราไม่ได้มั่นใจเช่นนั้นอีกต่อไป โปรดอ้างอิงสิ่งที่กล่าวไว้ข้างต้นเกี่ยวกับ cognitive architecture การเปลี่ยนความสามารถดิบของโมเดลให้กลายเป็นโซลูชันธุรกิจแบบ end-to-end ที่น่าเชื่อถือและน่าไว้วางใจ ต้องอาศัยงานวิศวกรรมจำนวนมหาศาล เรากำลังประเมินต่ำเกินไปอย่างมากหรือไม่ว่าคำว่า “AI native” หมายถึงอะไร? เมื่อ 20 ปีก่อน บริษัทซอฟต์แวร์แบบ on-premise เคยหัวเราะเยาะแนวคิด SaaS “ไม่เห็นจะมีอะไรยาก เราก็รันเซิร์ฟเวอร์เองแล้วให้บริการผ่านอินเทอร์เน็ตได้เหมือนกัน!” ในเชิงแนวคิดมันเรียบง่าย แต่สิ่งที่ตามมาคือการสร้างธุรกิจขึ้นใหม่ทั้งระบบ: EPD เปลี่ยนจากโมเดล waterfall และ PRD ไปสู่การพัฒนาแบบ agile และการทำ AB testing GTM เปลี่ยนจากการขายองค์กรแบบ top-down และดินเนอร์กับผู้บริหาร ไปสู่ PLG แบบ bottom-up และ product analytics โมเดลธุรกิจเปลี่ยนจาก ASP สูงและรายได้จาก maintenance stream ไปสู่ NDR สูงและการตั้งราคาแบบ usage-based มีบริษัท on-premise เพียงไม่กี่แห่งที่เปลี่ยนผ่านได้สำเร็จ AI อาจเป็นจุดเปลี่ยนแบบเดียวกับ SaaS หรือไม่? โอกาสของ AI อาจเป็นการขาย “งาน” ไปพร้อมกับการแทนที่ซอฟต์แวร์หรือไม่? ผ่าน Day.ai เราได้เห็นภาพอนาคตล่วงหน้า Day คือ CRM แบบ AI native เหล่า system integrator สร้างรายได้หลายพันล้านดอลลาร์จากการปรับแต่ง Salesforce ให้เข้ากับความต้องการของลูกค้า Day สามารถสร้าง CRM ที่ปรับเข้ากับธุรกิจของลูกค้าได้อย่างสมบูรณ์แบบโดยอัตโนมัติ เพียงแค่เข้าถึงอีเมลและปฏิทิน รวมถึงคำตอบจากแบบสอบถามความยาวหนึ่งหน้า แม้จะยังไม่ได้มีฟีเจอร์ครบทั้งหมด แต่ความมหัศจรรย์ของ CRM ที่ถูกสร้างขึ้นอัตโนมัติและอัปเดตอยู่เสมอโดยไม่ต้องมีมนุษย์เข้ามาเกี่ยวข้อง ก็เพียงพอแล้วที่จะทำให้ผู้คนตัดสินใจย้ายมาใช้งาน วงการการลงทุน นักลงทุนกำลังใช้เวลาและทุ่มเงินไปกับที่ไหน? Infrastructure พื้นที่นี้เป็นอาณาเขตของเหล่า hyperscaler ขับเคลื่อนด้วยพฤติกรรมเชิง game theory มากกว่าการวิเคราะห์เชิงเศรษฐศาสตร์ ไม่ใช่พื้นที่ที่เหมาะกับนักลงทุน venture Model เป็นพื้นที่ที่ hyperscaler และนักลงทุนการเงิน (FI) เคลื่อนไหวอยู่ hyperscaler ลงทุนโดยใช้ประโยชน์จากงบดุลสินทรัพย์เพื่อสร้างผลตอบแทน และให้เงินนั้นไหลกลับมาเป็นต้นทุนคอมพิวต์ในธุรกิจคลาวด์ nักลงทุนการเงินได้รับอิทธิพลจากอคติแบบ “หลงใหลในวิทยาศาสตร์” โมเดลเหล่านี้น่าสนใจมากและทีมก็ยอดเยี่ยม แต่ตรรกะทางเศรษฐกิจกลับถูกมองข้าม เครื่องมือสำหรับนักพัฒนาและซอฟต์แวร์อินฟราสตรักเจอร์ น่าสนใจน้อยกว่าสำหรับนักลงทุนเชิงกลยุทธ์ แต่ดึงดูดนักลงทุน venture มากกว่า ในช่วงการเปลี่ยนผ่านสู่คลาวด์ มีบริษัทประมาณ 15 แห่งที่เกิดขึ้นในเลเยอร์นี้และทำรายได้เกิน 1 พันล้านดอลลาร์ คาดว่าจะเกิดปรากฏการณ์คล้ายกันในการเปลี่ยนผ่านสู่ AI Application เป็นเลเยอร์ที่น่าสนใจที่สุดสำหรับนักลงทุน venture ระหว่างการเปลี่ยนผ่านสู่คลาวด์ มีบริษัทในเลเยอร์แอปพลิเคชันประมาณ 20 แห่งที่ทำรายได้เกิน 1 พันล้านดอลลาร์ ช่วงการเปลี่ยนผ่านสู่มือถือก็มีบริษัทเกิดขึ้นจำนวนใกล้เคียงกัน และคาดว่าในการเปลี่ยนผ่านสู่ AI ครั้งนี้ก็จะมีแนวโน้มคล้ายกัน ความคิดส่งท้าย ในระยะถัดไปของ generative AI คาดว่าอิทธิพลของ งานวิจัยและพัฒนา (R&D) ด้าน reasoning จะแพร่กระจายสู่เลเยอร์แอปพลิเคชันอย่างรวดเร็วและลึกซึ้ง cognitive architecture แบบเดิมส่วนใหญ่ประกอบด้วยเทคนิค “unhobbling” แต่ตอนนี้ความสามารถเหล่านี้กำลังถูกหลอมรวมเข้าไปในตัวโมเดลเอง จึงคาดว่าแอปพลิเคชันแบบ agent จะยิ่งซับซ้อนและแข็งแกร่งขึ้น ในห้องวิจัย ประเด็นเรื่อง Reasoning และการคำนวณในช่วง Inference-Time จะยังคงเป็นหัวข้อสำคัญต่อไป และเมื่อกฎการสเกลแบบใหม่ได้ปรากฏขึ้น การแข่งขันครั้งถัดไปก็เริ่มต้นแล้ว อย่างไรก็ตาม ในบางโดเมน การเก็บข้อมูลจากโลกจริงและการเข้ารหัส cognitive architecture ที่เฉพาะกับโดเมนและแอปพลิเคชันยังคงเป็นเรื่องยาก ผู้ให้บริการแอปในช่วง last mile อาจได้เปรียบในการแก้ปัญหาเหล่านี้ ในอนาคต มีความเป็นไปได้ที่ระบบหลายเอเจนต์อย่าง Droid ของ Factory จะเกิดขึ้นและแพร่หลาย โดยจำลองกระบวนการ reasoning และ social learning คาดว่าระบบหลายเอเจนต์จะสามารถบรรลุงานได้มากขึ้นด้วยการจัดทีมที่ประมวลผลงานหลายอย่างพร้อมกัน ช่วงเวลาที่หลายคนเฝ้ารอคือ ‘Move 37’ ของ generative AI ซึ่งหมายถึงช่วงเวลาที่ระบบ AI ทั่วไปแสดงพฤติกรรมเหนือมนุษย์อย่างไม่คาดคิด เหมือนที่ AlphaGo เคยแสดงให้เห็นในการแข่งกับ Lee Sedol แม้เมื่อช่วงเวลานั้นมาถึง จะไม่ได้หมายความว่า AI “มีจิตสำนึก” แต่ AI อาจมีความสามารถในการจำลองกระบวนการรับรู้ การให้เหตุผล และการกระทำ เพื่อสำรวจสิ่งต่าง ๆ ในรูปแบบที่แปลกใหม่และเป็นประโยชน์ สิ่งนี้อาจเป็น AGI (ความเป็นอัตโนมัติเต็มรูปแบบของปัญญาประดิษฐ์) และมันจะไม่ใช่เหตุการณ์เพียงครั้งเดียว แต่จะนำไปสู่ขั้นถัดไปของเทคโนโลยี

(sequoiacap.com)

30 คะแนน โดย xguru 2024-10-21 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อการปฏิวัติ Generative AI ก้าวเข้าสู่ปีที่ 2 งานวิจัยกำลังวิวัฒน์จาก "การคิดแบบเร็ว" ไปสู่ "การคิดแบบช้า"
- "การคิดแบบเร็ว" หมายถึงการตอบสนองอย่างรวดเร็วจากการพรีเทรนไว้ล่วงหน้า ส่วน "การคิดแบบช้า" หมายถึงการให้เหตุผลในช่วง Inference
- วิวัฒนาการนี้กำลังก่อให้เกิดแอปพลิเคชันเอเจนต์รูปแบบใหม่
เมื่อเลเยอร์พื้นฐานของตลาด Generative AI เริ่มมีเสถียรภาพ ผู้เล่นรายใหญ่อย่าง Microsoft/OpenAI, AWS/Anthropic, Meta และ Google/DeepMind เพียงไม่กี่รายกำลังเป็นผู้นำตลาด
- มีเพียงผู้เล่นรายใหญ่ที่มีเครื่องยนต์ทางเศรษฐกิจและเงินทุนมหาศาลเท่านั้นที่ยังคงอยู่ในการแข่งขัน
- โครงสร้างตลาดเองกำลังแข็งแกร่งขึ้น และการคาดการณ์ next-token ที่ราคาถูกและมีอย่างอุดมสมบูรณ์จะเป็นไปได้
เมื่อโครงสร้างตลาด LLM มีเสถียรภาพ ก็เกิดแนวหน้าใหม่ขึ้น
- โฟกัสกำลังมุ่งไปที่การพัฒนาและขยายเลเยอร์การให้เหตุผล ซึ่งให้ความสำคัญกับแนวคิดแบบ "System 2"
- ได้แรงบันดาลใจจากโมเดลอย่าง AlphaGo เลเยอร์นี้มีเป้าหมายที่จะมอบการให้เหตุผลอย่างรอบคอบ การแก้ปัญหา และกระบวนการรับรู้แก่ระบบ AI ให้ก้าวข้ามการจับคู่รูปแบบอย่างง่าย
- สถาปัตยกรรมการรับรู้และส่วนติดต่อผู้ใช้แบบใหม่กำลังกำหนดรูปแบบว่าความสามารถในการให้เหตุผลเหล่านี้จะถูกส่งต่อถึงผู้ใช้และโต้ตอบกันอย่างไร

Strawberry Fields Forever

อัปเดตโมเดลที่สำคัญที่สุดของปี 2024 คือ o1 ของ OpenAI (ก่อนหน้านี้รู้จักกันในชื่อ Q* และเรียกอีกชื่อว่า Strawberry)
- นี่ไม่ได้หมายถึงแค่ OpenAI กลับขึ้นไปอยู่แถวหน้าของกระดานจัดอันดับคุณภาพโมเดลเท่านั้น แต่ยังนำมาซึ่งการปรับปรุงอย่างมีนัยสำคัญต่อสถาปัตยกรรมแบบเดิมด้วย
- โดยเฉพาะอย่างยิ่ง นี่คือโมเดลแรกที่มี "ความสามารถในการให้เหตุผลทั่วไป" อย่างแท้จริง ซึ่งได้มาจากการประมวลผลขณะให้เหตุผล
โมเดลพรีเทรน vs การประมวลผลขณะให้เหตุผล
- โมเดลพรีเทรนทำ next token prediction โดยใช้ข้อมูลจำนวนมหาศาล
- คุณสมบัติเกิดใหม่ตามขนาด (emergent property) อย่างหนึ่งคือการให้เหตุผลขั้นพื้นฐาน แต่การให้เหตุผลนี้ยังมีข้อจำกัดมาก
- การประมวลผลขณะให้เหตุผลหมายถึงการขอให้โมเดลหยุดและคิดก่อนจะให้คำตอบ
- สิ่งนี้ต้องใช้การประมวลผลมากขึ้นในช่วง Inference
- ส่วนของการ "หยุดและคิด" นี่เองคือการให้เหตุผล (reasoning)

การเปรียบเทียบ AlphaGo กับ LLM

AlphaGo สร้างหนึ่งในช่วงเวลาที่สำคัญที่สุดในประวัติศาสตร์ deep learning เมื่อเดือนมีนาคม 2016 ที่กรุงโซล ด้วยการเผชิญหน้ากับตำนานหมากล้อม อีเซดล
- AlphaGo แสดงให้โลกเห็นภาพของ "AI ที่คิดได้" ซึ่งเป็นมากกว่าการเลียนแบบรูปแบบอย่างเดียว
ความแตกต่างระหว่าง AlphaGo กับระบบ AI สำหรับเล่นเกมยุคก่อน
- เช่นเดียวกับ LLM, AlphaGo ถูกพรีเทรนให้เลียนแบบผู้เชี่ยวชาญมนุษย์ผ่านฐานข้อมูลการเดินเกมก่อนหน้าราว 30 ล้านตา และการเล่นกับตัวเอง
- แต่แทนที่จะให้ปฏิกิริยาทันทีแบบที่ออกมาจากโมเดลพรีเทรน AlphaGo ใช้เวลาหยุดและคิด
- ในช่วง Inference AlphaGo จะทำการค้นหาหรือจำลองสถานการณ์อนาคตที่เป็นไปได้จำนวนมาก ประเมินสถานการณ์เหล่านั้น แล้วตอบสนองด้วยสถานการณ์ (หรือคำตอบ) ที่มีค่าคาดหวังสูงสุด
- ยิ่ง AlphaGo ได้เวลามากเท่าไร ประสิทธิภาพก็ยิ่งดีขึ้นเท่านั้น
- หากไม่มีการประมวลผลขณะให้เหตุผลเลย AlphaGo จะไม่สามารถเอาชนะผู้เล่นมนุษย์ระดับสูงสุดได้
โฆษณา
เหตุใดการทำซ้ำ AlphaGo ใน LLM จึงยาก
- เป็นเรื่องยากที่จะสร้าง value function สำหรับประเมินคำตอบ
- ในหมากล้อม เราสามารถจำลองเกมไปจนจบ ดูว่าใครชนะ แล้วคำนวณค่าคาดหวังของตาถัดไปได้
- ในงานเขียนโค้ด เราสามารถทดสอบโค้ดและดูได้ว่ามันทำงานหรือไม่
- แต่สิ่งอย่างร่างบทความ แผนการเดินทาง หรือสรุปคำสำคัญจากเอกสารยาวนั้นประเมินได้ยาก
- นี่คือเหตุผลว่าทำไมการให้เหตุผลจึงยังยากภายใต้วิธีวิทยาปัจจุบัน และทำไม Strawberry จึงค่อนข้างแข็งแกร่งในโดเมนที่ใกล้กับตรรกะ (เช่น การเขียนโค้ด คณิตศาสตร์ วิทยาศาสตร์) แต่ไม่มากนักในโดเมนที่เปิดกว้างและไม่มีโครงสร้างชัดเจน (เช่น การเขียน)
งานวิจัยเพื่อปรับปรุงความสามารถในการให้เหตุผลของโมเดล Strawberry
- แม้การนำ Strawberry ไปใช้งานจริงจะถูกปกป้องอย่างเข้มงวด แต่แนวคิดหลักเกี่ยวข้องกับการเสริมกำลังการเรียนรู้บนสายโซ่ความคิดที่โมเดลสร้างขึ้น
- การตรวจสอบสายโซ่ความคิดของโมเดลบ่งชี้ว่ามีบางสิ่งที่พื้นฐานและน่าสนใจเกิดขึ้น ซึ่งคล้ายกับวิธีคิดและการให้เหตุผลของมนุษย์
- ตัวอย่างเช่น o1 แสดงความสามารถในการย้อนกลับเมื่อเจอทางตัน ในฐานะคุณสมบัติเกิดใหม่ของการสเกลการให้เหตุผลตามเวลา
- มันยังแสดงทั้งความสามารถในการคิดเกี่ยวกับปัญหาแบบมนุษย์ (เช่น จินตนาการจุดบนทรงกลมเพื่อแก้ปัญหาเรขาคณิต) และความสามารถในการคิดเกี่ยวกับปัญหาในรูปแบบใหม่ (เช่น แก้โจทย์การแข่งขันเขียนโปรแกรมด้วยวิธีที่ต่างจากมนุษย์)
- ทีมวิจัยมีไอเดียมากมายในการพัฒนาการประมวลผลขณะให้เหตุผล เช่น วิธีใหม่ในการคำนวณ reward function และวิธีใหม่ในการลดช่องว่างระหว่าง generator/verifier เพื่อยกระดับความสามารถในการให้เหตุผลของโมเดล
- กล่าวอีกนัยหนึ่งคือ deep reinforcement learning กำลังกลับมาได้รับความสนใจอีกครั้ง และโดยรวมแล้วกำลังทำให้เลเยอร์การให้เหตุผลแบบใหม่เกิดขึ้นได้

การก้าวกระโดดจาก System 1 ไปสู่ System 2 Thinking

การก้าวจากปฏิกิริยาโดยสัญชาตญาณที่พรีเทรนไว้ ("System 1") ไปสู่การให้เหตุผลที่ลึกและรอบคอบกว่า ("System 2") คือแนวหน้าถัดไปของ AI
การที่โมเดลเพียงแค่รู้บางอย่างนั้นไม่เพียงพอ
โมเดลจำเป็นต้องหยุดชั่วคราว ประเมิน และให้เหตุผล เพื่อตัดสินใจแบบเรียลไทม์
การพรีเทรนสอดคล้องกับเลเยอร์ System 1
- ไม่ว่าจะเป็นการเรียนรู้ตาหมากล้อมนับล้านตาใน AlphaGo หรือการเรียนรู้ข้อความระดับเพตะไบต์จากอินเทอร์เน็ตใน LLM เป้าหมายของการพรีเทรนคือการเลียนแบบรูปแบบอย่างการเล่นเกมหรือภาษาของมนุษย์
- แต่การเลียนแบบ ต่อให้ทรงพลังเพียงใด ก็ไม่ใช่การให้เหตุผลที่แท้จริง
- โดยเฉพาะอย่างยิ่ง มันไม่สามารถคิดได้อย่างถูกต้องในสถานการณ์ที่ซับซ้อนและใหม่ ซึ่งอยู่นอกชุดข้อมูลการฝึก
การคิดแบบ System 2 คือจุดโฟกัสของงานวิจัย AI ยุคปัจจุบัน
- เมื่อโมเดล "หยุดและคิด" มันไม่ได้เพียงสร้างรูปแบบที่เรียนรู้ไว้หรือพ่นคำทำนายจากข้อมูลในอดีตออกมา
- แต่มันสร้างช่วงของความเป็นไปได้ พิจารณาผลลัพธ์ที่อาจเกิดขึ้น และตัดสินใจบนพื้นฐานของการให้เหตุผล
การใช้การคิดแบบ System 1 และ System 2 อย่างเหมาะสม
- ในหลายงาน การคิดแบบ System 1 ก็เพียงพอแล้ว (เช่น การคิดนานขึ้นก็ไม่ได้ช่วยให้ตอบได้ดีขึ้นว่าเมืองหลวงของภูฏานคืออะไร)
- แต่ในปัญหาที่ซับซ้อนกว่านั้น เช่น ความก้าวหน้าเชิงพลิกโฉมในคณิตศาสตร์หรือชีววิทยา การตอบสนองที่รวดเร็วและเป็นสัญชาตญาณเพียงอย่างเดียวไม่เพียงพอ
- ความก้าวหน้าเหล่านี้ต้องการการคิดอย่างลึกซึ้ง การแก้ปัญหาอย่างสร้างสรรค์ และเหนือสิ่งอื่นใดคือเวลา
- AI ก็เช่นกัน เพื่อแก้ปัญหาที่ยากและมีความหมายที่สุด มันจำเป็นต้องใช้เวลาเพื่อก้าวข้ามการตอบสนองจากชุดข้อมูลที่เรียนรู้อย่างรวดเร็ว และสร้างการให้เหตุผลอย่างรอบคอบซึ่งเป็นตัวกำหนดความก้าวหน้าของมนุษย์

กฎการสเกลแบบใหม่: จุดเริ่มต้นของการแข่งขันด้านการให้เหตุผล

ข้อค้นพบที่สำคัญที่สุดจากบทความ o1 ของ OpenAI คือกฎการสเกลแบบใหม่ได้ปรากฏขึ้นแล้ว
กฎการสเกลของการพรีเทรน LLM
- การพรีเทรน LLM เป็นไปตามกฎการสเกลที่เข้าใจกันดี
- ยิ่งใช้การประมวลผลและข้อมูลมากขึ้นในการพรีเทรนโมเดล ประสิทธิภาพก็ยิ่งดีขึ้น
โฆษณา
กฎการสเกลแบบใหม่ของการประมวลผลขณะให้เหตุผล
- บทความ o1 ได้เปิดมิติใหม่สำหรับการขยายการประมวลผล
- ยิ่งให้เวลาในการให้เหตุผล (หรือการประมวลผลช่วง "test time") กับโมเดลมากขึ้น ความสามารถในการให้เหตุผลก็ยิ่งดีขึ้น
จะเกิดอะไรขึ้นหากโมเดลสามารถคิดได้เป็นชั่วโมง เป็นวัน หรือเป็นหลายสิบปี?
- มันจะสามารถแก้สมมติฐานรีมันน์ได้หรือไม่?
- มันจะตอบคำถามสุดท้ายของอาซิมอฟได้หรือไม่?
การเปลี่ยนผ่านจากคลัสเตอร์พรีเทรนขนาดใหญ่ไปสู่ inference cloud
- การเปลี่ยนแปลงนี้จะพาเราย้ายจากโลกของคลัสเตอร์พรีเทรนขนาดใหญ่ไปสู่ inference cloud
- inference cloud คือสภาพแวดล้อมที่สามารถขยายการประมวลผลแบบไดนามิกตามความซับซ้อนของงานได้

โมเดลเดียวจะครองทุกสิ่งหรือไม่?

จะเกิดอะไรขึ้นเมื่อ OpenAI, Anthropic, Google, Meta และรายอื่น ๆ ขยายเลเยอร์การให้เหตุผลและพัฒนาเครื่องจักรการให้เหตุผลที่ทรงพลังยิ่งขึ้น?
โมเดลเดียวจะครองทุกสิ่งหรือไม่?
สมมติฐานหนึ่งคือบริษัทโมเดลเพียงรายเดียวจะทรงพลังมากจนดูดซับแอปพลิเคชันอื่นทั้งหมดเข้าไป
- แต่จนถึงตอนนี้ คำทำนายนี้พิสูจน์แล้วว่าผิดอยู่ 2 ด้าน
- ประการแรก ในชั้นโมเดลมีผู้เล่นจำนวนมากที่แข่งขันกันอย่างต่อเนื่องเพื่อความสามารถระดับ SOTA
  - แม้อาจเป็นไปได้ว่าจะมีใครสักคนบรรลุการพัฒนาตนเองอย่างต่อเนื่องผ่านการเรียนรู้ด้วยตนเองข้ามโดเมนในวงกว้างและทะยานขึ้นไปได้ แต่ยังไม่มีหลักฐานเช่นนั้น
  - ตรงกันข้าม เลเยอร์โมเดลกลับเป็นสนามแข่งขันที่ดุเดือด และราคาต่อโทเค็นของ GPT-4 ก็ลดลง 98% นับตั้งแต่งาน Developer Day ครั้งก่อน
- ประการที่สอง โมเดลกำลังประสบความยากลำบากในการรุกเข้าสู่ชั้นแอปพลิเคชัน
  - นอกเหนือจาก ChatGPT แล้ว โดยทั่วไปโมเดลยังไม่ประสบความสำเร็จในการกลายเป็นผลิตภัณฑ์พลิกเกมในชั้นแอปพลิเคชัน
  - เพราะโลกแห่งความเป็นจริงนั้นซับซ้อน
  - นักวิจัยชั้นยอดไม่ได้อยากทำความเข้าใจเวิร์กโฟลว์แบบ end-to-end อย่างละเอียดของทุกฟังก์ชันในทุกตลาดแนวดิ่งที่เป็นไปได้
  - การที่นักวิจัยหยุดไว้ที่ API และปล่อยให้ระบบนิเวศนักพัฒนาจัดการกับความซับซ้อนของโลกจริงนั้นทั้งน่าดึงดูดและสมเหตุสมผลทางเศรษฐกิจ
  - นี่เป็นข่าวดีสำหรับชั้นแอปพลิเคชัน

โลกจริงที่ซับซ้อน: ความจำเป็นของสถาปัตยกรรมการรับรู้แบบปรับแต่ง

วิธีที่นักวิทยาศาสตร์วางแผนและลงมือทำเพื่อบรรลุเป้าหมายนั้นแตกต่างอย่างมากจากวิธีทำงานของวิศวกรซอฟต์แวร์
และแม้แต่วิธีทำงานของวิศวกรซอฟต์แวร์ในบริษัทต่าง ๆ ก็ยังแตกต่างกัน
แม้ห้องแล็บจะยังคงผลักขอบเขตของการให้เหตุผลทั่วไปในแนวนอนให้ไกลออกไป แต่การมอบ AI agent ที่ใช้งานได้จริงก็ยังต้องอาศัยการให้เหตุผลเฉพาะแอปพลิเคชันหรือเฉพาะโดเมน
โลกจริงที่ซับซ้อนต้องการการให้เหตุผลเฉพาะโดเมนและเฉพาะแอปพลิเคชันจำนวนมาก ซึ่งไม่สามารถเข้ารหัสลงในโมเดลทั่วไปได้อย่างมีประสิทธิภาพ
การมาถึงของสถาปัตยกรรมการรับรู้
- สถาปัตยกรรมการรับรู้หมายถึงวิธีคิดของระบบ กล่าวคือ ลำดับการทำงานของโค้ดและปฏิสัมพันธ์กับโมเดลที่รับอินพุตจากผู้ใช้แล้วลงมือทำหรือสร้างคำตอบ
- ตัวอย่างเช่น ในกรณีของ Factory ผลิตภัณฑ์ "droid" แต่ละตัวมีสถาปัตยกรรมการรับรู้แบบปรับแต่งที่เลียนแบบวิธีคิดของมนุษย์เพื่อแก้โจทย์เฉพาะ เช่น การรีวิว pull request หรือการเขียนและดำเนินแผน migration สำหรับการอัปเดตบริการระหว่างแบ็กเอนด์
- Factory droid จะวิเคราะห์ dependency ทั้งหมด เสนอการเปลี่ยนแปลงโค้ดที่เกี่ยวข้อง เพิ่ม unit test และดึงมนุษย์เข้ามาตรวจทาน
- จากนั้น เมื่อได้รับการอนุมัติ ก็จะดำเนินการเปลี่ยนแปลงกับทุกไฟล์ในสภาพแวดล้อมการพัฒนา และหากผ่านการทดสอบทั้งหมดก็จะ merge โค้ด
- สิ่งนี้คล้ายกับวิธีคิดของมนุษย์ที่ประกอบด้วยงานย่อยแยกกันเป็นลำดับ ไม่ใช่คำตอบเดียวแบบทั่วไปและเป็น black box
โฆษณา

เกิดอะไรขึ้นใน App?

หากต้องการเริ่มธุรกิจ AI ควรเล็งไปที่เลเยอร์ไหน?
- หากจะแข่งขันในชั้นอินฟราต้องเอาชนะ NVIDIA และ hyperscaler ให้ได้
- หากจะแข่งขันในชั้นโมเดลต้องเอาชนะ OpenAI และ Mark Zuckerberg ให้ได้
- หากจะแข่งขันในชั้นแอปพลิเคชันต้องเอาชนะ IT องค์กรและผู้ให้บริการ system integration ระดับโลกให้ได้
- การแข่งขันในชั้นแอปพลิเคชันดูเป็นไปได้มากที่สุด
โอกาสของชั้นแอปพลิเคชัน
- foundation model นั้นเหมือนเวทมนตร์ แต่ก็ซับซ้อนด้วย
- องค์กรกระแสหลักรับมือกับ black box, hallucination และเวิร์กโฟลว์ที่ไม่เรียบร้อยไม่ได้
- ผู้บริโภคมองเห็นพรอมป์ต์ว่าง ๆ แล้วไม่รู้ว่าควรขออะไร
- นี่คือโอกาสของชั้นแอปพลิเคชัน
เมื่อ 2 ปีก่อน บริษัทในชั้นแอปพลิเคชันจำนวนมากถูกวิจารณ์ว่า "ก็แค่ wrapper บน GPT-3"
- แต่วันนี้ wrapper เหล่านั้นได้พิสูจน์แล้วว่าเป็นหนึ่งในไม่กี่วิธีที่แข็งแรงในการสร้างมูลค่าที่ยั่งยืน
- สิ่งที่เริ่มต้นจาก "wrapper" ได้วิวัฒน์เป็น "สถาปัตยกรรมการรับรู้"
ลักษณะของบริษัท AI ในชั้นแอปพลิเคชัน
- ไม่ใช่แค่เอา UI ไปวางทับบน foundation model
- โดยทั่วไปจะมีสถาปัตยกรรมการรับรู้ที่ซับซ้อนซึ่งรวมถึง:
  - foundation model หลายตัวพร้อมกลไก routing บางรูปแบบอยู่ด้านบน
  - vector และ/หรือ graph database สำหรับ RAG
  - guardrail เพื่อให้มั่นใจเรื่อง compliance
  - ตรรกะแอปพลิเคชันที่เลียนแบบวิธีการให้เหตุผลผ่านเวิร์กโฟลว์

Service-as-a-Software

การเปลี่ยนผ่านสู่คลาวด์คือ "Software-as-a-Service" บริษัทซอฟต์แวร์กลายเป็นผู้ให้บริการคลาวด์ และนี่คือโอกาสมูลค่า 3.5 แสนล้านดอลลาร์
ด้วย agentic reasoning การเปลี่ยนผ่านด้าน AI คือ "Service-as-a-Software" บริษัทซอฟต์แวร์กำลังเปลี่ยนแรงงานให้กลายเป็นซอฟต์แวร์
นี่หมายความว่าตลาดเป้าหมายไม่ใช่ตลาดซอฟต์แวร์ แต่เป็นตลาดบริการมูลค่าหลายล้านล้านดอลลาร์
การขายงานหมายความว่าอย่างไร
- บริษัทชื่อ Sierra เป็นตัวอย่างที่ดี
- บริษัท B2C นำ Sierra ไปวางบนเว็บไซต์ของตนเพื่อสนทนากับลูกค้า
- job-to-be-done คือการแก้ปัญหาให้ลูกค้า
- Sierra คิดค่าบริการตามจำนวนเคสที่แก้ได้
- ไม่มีสิ่งอย่าง "seat" คุณมีงานที่ต้องทำ และ Sierra ก็จัดการงานนั้นพร้อมคิดค่าบริการตามนั้น
- นี่คือดาวเหนือที่แท้จริงของบริษัท AI จำนวนมาก
ข้อได้เปรียบของ Sierra และความท้าทายของบริษัทอื่น
- Sierra มีข้อได้เปรียบจากโหมดล้มเหลวที่สวยงาม คือการ escalte ไปยังเจ้าหน้าที่มนุษย์
- ไม่ใช่ทุกบริษัทจะโชคดีแบบนั้น
- แพตเทิร์นใหม่คือเริ่มต้นด้วยการนำไปใช้งานแบบ human-in-the-loop ก่อน แล้วค่อยใช้ประสบการณ์นั้นเพื่อคว้าโอกาสในการนำไปใช้งานแบบ autopilot (human-out-of-the-loop)
- GitHub Copilot เป็นตัวอย่างที่ดีของเรื่องนี้
โฆษณา

แอปพลิเคชันเอเจนต์รูปแบบใหม่เริ่มปรากฏขึ้น

ด้วยความสามารถด้านการให้เหตุผลแบบใหม่ของ Generative AI แอปพลิเคชันเอเจนต์ประเภทใหม่เริ่มปรากฏขึ้น
ที่น่าสนใจคือ บริษัทในชั้นแอปพลิเคชันเหล่านี้มีหน้าตาแตกต่างจากบริษัทคลาวด์ในอดีต:
- บริษัทคลาวด์มุ่งเป้ารายได้จากซอฟต์แวร์ แต่บริษัท AI มุ่งเป้ารายได้จากบริการ
- บริษัทคลาวด์ขายซอฟต์แวร์ ($/seat) แต่บริษัท AI ขายงาน ($/ผลลัพธ์)
- บริษัทคลาวด์นิยมแนวทาง bottom-up ด้วยการกระจายที่ไร้แรงเสียดทาน แต่บริษัท AI กำลังหันไปใช้แนวทาง top-down มากขึ้น ผ่านโมเดลการส่งมอบแบบ high-touch, high-trust
ตัวอย่างของแอปพลิเคชันเอเจนต์ที่เกิดขึ้นในทุกภาคส่วนของเศรษฐกิจฐานความรู้
- Harvey: ทนายความ AI
- Glean: ผู้ช่วยงาน AI
- Factory: วิศวกรซอฟต์แวร์ AI
- Abridge: นักจดบันทึกเวชระเบียน AI
- XBOW: ผู้ทดสอบเจาะระบบ AI
- Sierra: เอเจนต์สนับสนุนลูกค้า AI
ด้วยการลดต้นทุนส่วนเพิ่มของการให้บริการเหล่านี้ลงมาใกล้เคียงกับระดับเดียวกับการร่วงลงอย่างรวดเร็วของต้นทุนการให้เหตุผล แอปพลิเคชันเอเจนต์จึงกำลังขยายและสร้างตลาดใหม่
XBOW เป็นตัวอย่างที่ดี:
- XBOW กำลังสร้าง AI "pentester"
- "pentest" หรือการทดสอบเจาะระบบ คือการจำลองการโจมตีทางไซเบอร์ต่อระบบคอมพิวเตอร์ที่องค์กรใช้เพื่อประเมินระบบความปลอดภัยของตนเอง
- ก่อนยุค Generative AI การทำ pentest โดยมนุษย์มีราคาแพงมาก (เพราะเป็นงานแมนนวลโดยผู้เชี่ยวชาญ) ทำให้องค์กรจ้าง pentester เฉพาะในสถานการณ์จำกัดเท่านั้น (เช่น เมื่อจำเป็นต่อ compliance)
- แต่ตอนนี้ XBOW กำลังสาธิตการทำ pentest แบบอัตโนมัติบนพื้นฐานของ reasoning LLM รุ่นล่าสุด ซึ่งมีประสิทธิภาพทัดเทียมกับ pentester มนุษย์ที่ชำนาญที่สุด
- สิ่งนี้กำลังขยายตลาด pentesting และเปิดทางสู่การทำ pentest อย่างต่อเนื่องสำหรับองค์กรทุกขนาดและทุกรูปแบบ

สิ่งนี้ส่งผลต่ออุตสาหกรรม SaaS อย่างไร?

เมื่อต้นปีนี้ตอนที่เราได้พบกับ LPs คำถามที่ถูกถามมากที่สุดคือ “การเปลี่ยนผ่านสู่ AI จะทำลายบริษัทคลาวด์เดิมหรือไม่?”
เราเริ่มต้นจากสมมติฐานพื้นฐานที่หนักแน่นว่า “ไม่”
- การต่อสู้แบบคลาสสิกระหว่างสตาร์ตอัปกับบริษัทเดิมก็เหมือนการแข่งขันที่สตาร์ตอัปสร้างการจัดจำหน่าย ส่วนบริษัทเดิมสร้างผลิตภัณฑ์
- บริษัทหน้าใหม่ที่มีผลิตภัณฑ์เจ๋ง ๆ จะเข้าถึงลูกค้าได้ก่อนที่บริษัทเดิมซึ่งครองความสัมพันธ์กับลูกค้าจะออกผลิตภัณฑ์เจ๋ง ๆ ได้หรือไม่?
- เมื่อพิจารณาว่าความมหัศจรรย์ของ AI ส่วนใหญ่มาจาก foundation model สมมติฐานพื้นฐานของเราจึงเป็น “ไม่”
- บริษัทเดิมเข้าถึง foundation model ได้พอ ๆ กับสตาร์ตอัป และยังมีข้อได้เปรียบเดิมด้านข้อมูลและการจัดจำหน่าย จึงน่าจะทำได้ดี
- โอกาสหลักของสตาร์ตอัปไม่ใช่การแทนที่บริษัทซอฟต์แวร์เดิม แต่เป็นการเจาะกลุ่มงานที่สามารถทำให้เป็นอัตโนมัติได้
แต่ตอนนี้เราไม่ได้มั่นใจเช่นนั้นอีกต่อไป
- โปรดอ้างอิงสิ่งที่กล่าวไว้ข้างต้นเกี่ยวกับ cognitive architecture
- การเปลี่ยนความสามารถดิบของโมเดลให้กลายเป็นโซลูชันธุรกิจแบบ end-to-end ที่น่าเชื่อถือและน่าไว้วางใจ ต้องอาศัยงานวิศวกรรมจำนวนมหาศาล
- เรากำลังประเมินต่ำเกินไปอย่างมากหรือไม่ว่าคำว่า “AI native” หมายถึงอะไร?
เมื่อ 20 ปีก่อน บริษัทซอฟต์แวร์แบบ on-premise เคยหัวเราะเยาะแนวคิด SaaS
- “ไม่เห็นจะมีอะไรยาก เราก็รันเซิร์ฟเวอร์เองแล้วให้บริการผ่านอินเทอร์เน็ตได้เหมือนกัน!”
- ในเชิงแนวคิดมันเรียบง่าย แต่สิ่งที่ตามมาคือการสร้างธุรกิจขึ้นใหม่ทั้งระบบ:
  - EPD เปลี่ยนจากโมเดล waterfall และ PRD ไปสู่การพัฒนาแบบ agile และการทำ AB testing
  - GTM เปลี่ยนจากการขายองค์กรแบบ top-down และดินเนอร์กับผู้บริหาร ไปสู่ PLG แบบ bottom-up และ product analytics
  - โมเดลธุรกิจเปลี่ยนจาก ASP สูงและรายได้จาก maintenance stream ไปสู่ NDR สูงและการตั้งราคาแบบ usage-based
  โฆษณา
- มีบริษัท on-premise เพียงไม่กี่แห่งที่เปลี่ยนผ่านได้สำเร็จ
AI อาจเป็นจุดเปลี่ยนแบบเดียวกับ SaaS หรือไม่? โอกาสของ AI อาจเป็นการขาย “งาน” ไปพร้อมกับการแทนที่ซอฟต์แวร์หรือไม่?
ผ่าน Day.ai เราได้เห็นภาพอนาคตล่วงหน้า
- Day คือ CRM แบบ AI native
- เหล่า system integrator สร้างรายได้หลายพันล้านดอลลาร์จากการปรับแต่ง Salesforce ให้เข้ากับความต้องการของลูกค้า
- Day สามารถสร้าง CRM ที่ปรับเข้ากับธุรกิจของลูกค้าได้อย่างสมบูรณ์แบบโดยอัตโนมัติ เพียงแค่เข้าถึงอีเมลและปฏิทิน รวมถึงคำตอบจากแบบสอบถามความยาวหนึ่งหน้า
- แม้จะยังไม่ได้มีฟีเจอร์ครบทั้งหมด แต่ความมหัศจรรย์ของ CRM ที่ถูกสร้างขึ้นอัตโนมัติและอัปเดตอยู่เสมอโดยไม่ต้องมีมนุษย์เข้ามาเกี่ยวข้อง ก็เพียงพอแล้วที่จะทำให้ผู้คนตัดสินใจย้ายมาใช้งาน

วงการการลงทุน

นักลงทุนกำลังใช้เวลาและทุ่มเงินไปกับที่ไหน?
Infrastructure
- พื้นที่นี้เป็นอาณาเขตของเหล่า hyperscaler
- ขับเคลื่อนด้วยพฤติกรรมเชิง game theory มากกว่าการวิเคราะห์เชิงเศรษฐศาสตร์
- ไม่ใช่พื้นที่ที่เหมาะกับนักลงทุน venture
Model
- เป็นพื้นที่ที่ hyperscaler และนักลงทุนการเงิน (FI) เคลื่อนไหวอยู่
- hyperscaler ลงทุนโดยใช้ประโยชน์จากงบดุลสินทรัพย์เพื่อสร้างผลตอบแทน และให้เงินนั้นไหลกลับมาเป็นต้นทุนคอมพิวต์ในธุรกิจคลาวด์
- nักลงทุนการเงินได้รับอิทธิพลจากอคติแบบ “หลงใหลในวิทยาศาสตร์”
- โมเดลเหล่านี้น่าสนใจมากและทีมก็ยอดเยี่ยม แต่ตรรกะทางเศรษฐกิจกลับถูกมองข้าม
เครื่องมือสำหรับนักพัฒนาและซอฟต์แวร์อินฟราสตรักเจอร์
- น่าสนใจน้อยกว่าสำหรับนักลงทุนเชิงกลยุทธ์ แต่ดึงดูดนักลงทุน venture มากกว่า
- ในช่วงการเปลี่ยนผ่านสู่คลาวด์ มีบริษัทประมาณ 15 แห่งที่เกิดขึ้นในเลเยอร์นี้และทำรายได้เกิน 1 พันล้านดอลลาร์
- คาดว่าจะเกิดปรากฏการณ์คล้ายกันในการเปลี่ยนผ่านสู่ AI
Application
- เป็นเลเยอร์ที่น่าสนใจที่สุดสำหรับนักลงทุน venture
- ระหว่างการเปลี่ยนผ่านสู่คลาวด์ มีบริษัทในเลเยอร์แอปพลิเคชันประมาณ 20 แห่งที่ทำรายได้เกิน 1 พันล้านดอลลาร์
- ช่วงการเปลี่ยนผ่านสู่มือถือก็มีบริษัทเกิดขึ้นจำนวนใกล้เคียงกัน และคาดว่าในการเปลี่ยนผ่านสู่ AI ครั้งนี้ก็จะมีแนวโน้มคล้ายกัน

ความคิดส่งท้าย

ในระยะถัดไปของ generative AI คาดว่าอิทธิพลของ งานวิจัยและพัฒนา (R&D) ด้าน reasoning จะแพร่กระจายสู่เลเยอร์แอปพลิเคชันอย่างรวดเร็วและลึกซึ้ง
cognitive architecture แบบเดิมส่วนใหญ่ประกอบด้วยเทคนิค “unhobbling” แต่ตอนนี้ความสามารถเหล่านี้กำลังถูกหลอมรวมเข้าไปในตัวโมเดลเอง จึงคาดว่าแอปพลิเคชันแบบ agent จะยิ่งซับซ้อนและแข็งแกร่งขึ้น
ในห้องวิจัย ประเด็นเรื่อง Reasoning และการคำนวณในช่วง Inference-Time จะยังคงเป็นหัวข้อสำคัญต่อไป และเมื่อกฎการสเกลแบบใหม่ได้ปรากฏขึ้น การแข่งขันครั้งถัดไปก็เริ่มต้นแล้ว
อย่างไรก็ตาม ในบางโดเมน การเก็บข้อมูลจากโลกจริงและการเข้ารหัส cognitive architecture ที่เฉพาะกับโดเมนและแอปพลิเคชันยังคงเป็นเรื่องยาก
ผู้ให้บริการแอปในช่วง last mile อาจได้เปรียบในการแก้ปัญหาเหล่านี้
ในอนาคต มีความเป็นไปได้ที่ระบบหลายเอเจนต์อย่าง Droid ของ Factory จะเกิดขึ้นและแพร่หลาย โดยจำลองกระบวนการ reasoning และ social learning
คาดว่าระบบหลายเอเจนต์จะสามารถบรรลุงานได้มากขึ้นด้วยการจัดทีมที่ประมวลผลงานหลายอย่างพร้อมกัน
ช่วงเวลาที่หลายคนเฝ้ารอคือ ‘Move 37’ ของ generative AI ซึ่งหมายถึงช่วงเวลาที่ระบบ AI ทั่วไปแสดงพฤติกรรมเหนือมนุษย์อย่างไม่คาดคิด เหมือนที่ AlphaGo เคยแสดงให้เห็นในการแข่งกับ Lee Sedol
แม้เมื่อช่วงเวลานั้นมาถึง จะไม่ได้หมายความว่า AI “มีจิตสำนึก” แต่ AI อาจมีความสามารถในการจำลองกระบวนการรับรู้ การให้เหตุผล และการกระทำ เพื่อสำรวจสิ่งต่าง ๆ ในรูปแบบที่แปลกใหม่และเป็นประโยชน์
สิ่งนี้อาจเป็น AGI (ความเป็นอัตโนมัติเต็มรูปแบบของปัญญาประดิษฐ์) และมันจะไม่ใช่เหตุการณ์เพียงครั้งเดียว แต่จะนำไปสู่ขั้นถัดไปของเทคโนโลยี

4 ความคิดเห็น

lsw4uto 2024-11-11

คาดหวังได้ว่า AI ที่ฉลาดขึ้นเรื่อย ๆ จะช่วยแก้ปัญหาอะไรได้บ้าง

aer0700 2024-10-27

ถ้าโมเดลสามารถคิดอยู่นาน ๆ แล้วแก้สมมติฐานรีมันน์ได้ ผลกระทบก็คงมหาศาลเลยนะครับ

pmc7777 2024-10-21

ถ้าจะไปแข่งขันในชั้นโมเดล ก็ต้องเอาชนะ OpenAI กับ Mark Zuckerberg ให้ได้

ที่พูดถึง Zuckerberg แทนที่จะเป็น Meta นี่มันตลกดีนะ 555

kotzen 2024-10-21

ในบทความสรุปไม่ได้ระบุไว้อย่างชัดเจน เลยขอเขียนเผื่อไว้ เผื่อบางคนยังไม่ทราบว่า System 1 และ System 2 เป็นแนวคิดที่มาจากหนังสือ Thinking, Fast and Slow
System 1: การคิดแบบรวดเร็วที่ลงมือทำโดยไม่ต้องคิดลึก เป็นไปโดยไม่รู้ตัวหรืออาศัยสัญชาตญาณ เช่น ขับรถ, เดิน
System 2: การคิดแบบช้าที่ต้องใช้เหตุผลและครุ่นคิดอย่างจริงจัง เช่น คิดเลขในใจ