30 คะแนน โดย xguru 2024-10-21 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • เมื่อการปฏิวัติ Generative AI ก้าวเข้าสู่ปีที่ 2 งานวิจัยกำลังวิวัฒน์จาก "การคิดแบบเร็ว" ไปสู่ "การคิดแบบช้า"
    • "การคิดแบบเร็ว" หมายถึงการตอบสนองอย่างรวดเร็วจากการพรีเทรนไว้ล่วงหน้า ส่วน "การคิดแบบช้า" หมายถึงการให้เหตุผลในช่วง Inference
    • วิวัฒนาการนี้กำลังก่อให้เกิดแอปพลิเคชันเอเจนต์รูปแบบใหม่
  • เมื่อเลเยอร์พื้นฐานของตลาด Generative AI เริ่มมีเสถียรภาพ ผู้เล่นรายใหญ่อย่าง Microsoft/OpenAI, AWS/Anthropic, Meta และ Google/DeepMind เพียงไม่กี่รายกำลังเป็นผู้นำตลาด
    • มีเพียงผู้เล่นรายใหญ่ที่มีเครื่องยนต์ทางเศรษฐกิจและเงินทุนมหาศาลเท่านั้นที่ยังคงอยู่ในการแข่งขัน
    • โครงสร้างตลาดเองกำลังแข็งแกร่งขึ้น และการคาดการณ์ next-token ที่ราคาถูกและมีอย่างอุดมสมบูรณ์จะเป็นไปได้
  • เมื่อโครงสร้างตลาด LLM มีเสถียรภาพ ก็เกิดแนวหน้าใหม่ขึ้น
    • โฟกัสกำลังมุ่งไปที่การพัฒนาและขยายเลเยอร์การให้เหตุผล ซึ่งให้ความสำคัญกับแนวคิดแบบ "System 2"
    • ได้แรงบันดาลใจจากโมเดลอย่าง AlphaGo เลเยอร์นี้มีเป้าหมายที่จะมอบการให้เหตุผลอย่างรอบคอบ การแก้ปัญหา และกระบวนการรับรู้แก่ระบบ AI ให้ก้าวข้ามการจับคู่รูปแบบอย่างง่าย
    • สถาปัตยกรรมการรับรู้และส่วนติดต่อผู้ใช้แบบใหม่กำลังกำหนดรูปแบบว่าความสามารถในการให้เหตุผลเหล่านี้จะถูกส่งต่อถึงผู้ใช้และโต้ตอบกันอย่างไร

Strawberry Fields Forever

  • อัปเดตโมเดลที่สำคัญที่สุดของปี 2024 คือ o1 ของ OpenAI (ก่อนหน้านี้รู้จักกันในชื่อ Q* และเรียกอีกชื่อว่า Strawberry)
    • นี่ไม่ได้หมายถึงแค่ OpenAI กลับขึ้นไปอยู่แถวหน้าของกระดานจัดอันดับคุณภาพโมเดลเท่านั้น แต่ยังนำมาซึ่งการปรับปรุงอย่างมีนัยสำคัญต่อสถาปัตยกรรมแบบเดิมด้วย
    • โดยเฉพาะอย่างยิ่ง นี่คือโมเดลแรกที่มี "ความสามารถในการให้เหตุผลทั่วไป" อย่างแท้จริง ซึ่งได้มาจากการประมวลผลขณะให้เหตุผล
  • โมเดลพรีเทรน vs การประมวลผลขณะให้เหตุผล
    • โมเดลพรีเทรนทำ next token prediction โดยใช้ข้อมูลจำนวนมหาศาล
    • คุณสมบัติเกิดใหม่ตามขนาด (emergent property) อย่างหนึ่งคือการให้เหตุผลขั้นพื้นฐาน แต่การให้เหตุผลนี้ยังมีข้อจำกัดมาก
    • การประมวลผลขณะให้เหตุผลหมายถึงการขอให้โมเดลหยุดและคิดก่อนจะให้คำตอบ
    • สิ่งนี้ต้องใช้การประมวลผลมากขึ้นในช่วง Inference
    • ส่วนของการ "หยุดและคิด" นี่เองคือการให้เหตุผล (reasoning)

การเปรียบเทียบ AlphaGo กับ LLM

  • AlphaGo สร้างหนึ่งในช่วงเวลาที่สำคัญที่สุดในประวัติศาสตร์ deep learning เมื่อเดือนมีนาคม 2016 ที่กรุงโซล ด้วยการเผชิญหน้ากับตำนานหมากล้อม อีเซดล
    • AlphaGo แสดงให้โลกเห็นภาพของ "AI ที่คิดได้" ซึ่งเป็นมากกว่าการเลียนแบบรูปแบบอย่างเดียว
  • ความแตกต่างระหว่าง AlphaGo กับระบบ AI สำหรับเล่นเกมยุคก่อน
    • เช่นเดียวกับ LLM, AlphaGo ถูกพรีเทรนให้เลียนแบบผู้เชี่ยวชาญมนุษย์ผ่านฐานข้อมูลการเดินเกมก่อนหน้าราว 30 ล้านตา และการเล่นกับตัวเอง
    • แต่แทนที่จะให้ปฏิกิริยาทันทีแบบที่ออกมาจากโมเดลพรีเทรน AlphaGo ใช้เวลาหยุดและคิด
    • ในช่วง Inference AlphaGo จะทำการค้นหาหรือจำลองสถานการณ์อนาคตที่เป็นไปได้จำนวนมาก ประเมินสถานการณ์เหล่านั้น แล้วตอบสนองด้วยสถานการณ์ (หรือคำตอบ) ที่มีค่าคาดหวังสูงสุด
    • ยิ่ง AlphaGo ได้เวลามากเท่าไร ประสิทธิภาพก็ยิ่งดีขึ้นเท่านั้น
    • หากไม่มีการประมวลผลขณะให้เหตุผลเลย AlphaGo จะไม่สามารถเอาชนะผู้เล่นมนุษย์ระดับสูงสุดได้
  • เหตุใดการทำซ้ำ AlphaGo ใน LLM จึงยาก
    • เป็นเรื่องยากที่จะสร้าง value function สำหรับประเมินคำตอบ
    • ในหมากล้อม เราสามารถจำลองเกมไปจนจบ ดูว่าใครชนะ แล้วคำนวณค่าคาดหวังของตาถัดไปได้
    • ในงานเขียนโค้ด เราสามารถทดสอบโค้ดและดูได้ว่ามันทำงานหรือไม่
    • แต่สิ่งอย่างร่างบทความ แผนการเดินทาง หรือสรุปคำสำคัญจากเอกสารยาวนั้นประเมินได้ยาก
    • นี่คือเหตุผลว่าทำไมการให้เหตุผลจึงยังยากภายใต้วิธีวิทยาปัจจุบัน และทำไม Strawberry จึงค่อนข้างแข็งแกร่งในโดเมนที่ใกล้กับตรรกะ (เช่น การเขียนโค้ด คณิตศาสตร์ วิทยาศาสตร์) แต่ไม่มากนักในโดเมนที่เปิดกว้างและไม่มีโครงสร้างชัดเจน (เช่น การเขียน)
  • งานวิจัยเพื่อปรับปรุงความสามารถในการให้เหตุผลของโมเดล Strawberry
    • แม้การนำ Strawberry ไปใช้งานจริงจะถูกปกป้องอย่างเข้มงวด แต่แนวคิดหลักเกี่ยวข้องกับการเสริมกำลังการเรียนรู้บนสายโซ่ความคิดที่โมเดลสร้างขึ้น
    • การตรวจสอบสายโซ่ความคิดของโมเดลบ่งชี้ว่ามีบางสิ่งที่พื้นฐานและน่าสนใจเกิดขึ้น ซึ่งคล้ายกับวิธีคิดและการให้เหตุผลของมนุษย์
    • ตัวอย่างเช่น o1 แสดงความสามารถในการย้อนกลับเมื่อเจอทางตัน ในฐานะคุณสมบัติเกิดใหม่ของการสเกลการให้เหตุผลตามเวลา
    • มันยังแสดงทั้งความสามารถในการคิดเกี่ยวกับปัญหาแบบมนุษย์ (เช่น จินตนาการจุดบนทรงกลมเพื่อแก้ปัญหาเรขาคณิต) และความสามารถในการคิดเกี่ยวกับปัญหาในรูปแบบใหม่ (เช่น แก้โจทย์การแข่งขันเขียนโปรแกรมด้วยวิธีที่ต่างจากมนุษย์)
    • ทีมวิจัยมีไอเดียมากมายในการพัฒนาการประมวลผลขณะให้เหตุผล เช่น วิธีใหม่ในการคำนวณ reward function และวิธีใหม่ในการลดช่องว่างระหว่าง generator/verifier เพื่อยกระดับความสามารถในการให้เหตุผลของโมเดล
    • กล่าวอีกนัยหนึ่งคือ deep reinforcement learning กำลังกลับมาได้รับความสนใจอีกครั้ง และโดยรวมแล้วกำลังทำให้เลเยอร์การให้เหตุผลแบบใหม่เกิดขึ้นได้

การก้าวกระโดดจาก System 1 ไปสู่ System 2 Thinking

  • การก้าวจากปฏิกิริยาโดยสัญชาตญาณที่พรีเทรนไว้ ("System 1") ไปสู่การให้เหตุผลที่ลึกและรอบคอบกว่า ("System 2") คือแนวหน้าถัดไปของ AI
  • การที่โมเดลเพียงแค่รู้บางอย่างนั้นไม่เพียงพอ
  • โมเดลจำเป็นต้องหยุดชั่วคราว ประเมิน และให้เหตุผล เพื่อตัดสินใจแบบเรียลไทม์
  • การพรีเทรนสอดคล้องกับเลเยอร์ System 1
    • ไม่ว่าจะเป็นการเรียนรู้ตาหมากล้อมนับล้านตาใน AlphaGo หรือการเรียนรู้ข้อความระดับเพตะไบต์จากอินเทอร์เน็ตใน LLM เป้าหมายของการพรีเทรนคือการเลียนแบบรูปแบบอย่างการเล่นเกมหรือภาษาของมนุษย์
    • แต่การเลียนแบบ ต่อให้ทรงพลังเพียงใด ก็ไม่ใช่การให้เหตุผลที่แท้จริง
    • โดยเฉพาะอย่างยิ่ง มันไม่สามารถคิดได้อย่างถูกต้องในสถานการณ์ที่ซับซ้อนและใหม่ ซึ่งอยู่นอกชุดข้อมูลการฝึก
  • การคิดแบบ System 2 คือจุดโฟกัสของงานวิจัย AI ยุคปัจจุบัน
    • เมื่อโมเดล "หยุดและคิด" มันไม่ได้เพียงสร้างรูปแบบที่เรียนรู้ไว้หรือพ่นคำทำนายจากข้อมูลในอดีตออกมา
    • แต่มันสร้างช่วงของความเป็นไปได้ พิจารณาผลลัพธ์ที่อาจเกิดขึ้น และตัดสินใจบนพื้นฐานของการให้เหตุผล
  • การใช้การคิดแบบ System 1 และ System 2 อย่างเหมาะสม
    • ในหลายงาน การคิดแบบ System 1 ก็เพียงพอแล้ว (เช่น การคิดนานขึ้นก็ไม่ได้ช่วยให้ตอบได้ดีขึ้นว่าเมืองหลวงของภูฏานคืออะไร)
    • แต่ในปัญหาที่ซับซ้อนกว่านั้น เช่น ความก้าวหน้าเชิงพลิกโฉมในคณิตศาสตร์หรือชีววิทยา การตอบสนองที่รวดเร็วและเป็นสัญชาตญาณเพียงอย่างเดียวไม่เพียงพอ
    • ความก้าวหน้าเหล่านี้ต้องการการคิดอย่างลึกซึ้ง การแก้ปัญหาอย่างสร้างสรรค์ และเหนือสิ่งอื่นใดคือเวลา
    • AI ก็เช่นกัน เพื่อแก้ปัญหาที่ยากและมีความหมายที่สุด มันจำเป็นต้องใช้เวลาเพื่อก้าวข้ามการตอบสนองจากชุดข้อมูลที่เรียนรู้อย่างรวดเร็ว และสร้างการให้เหตุผลอย่างรอบคอบซึ่งเป็นตัวกำหนดความก้าวหน้าของมนุษย์

กฎการสเกลแบบใหม่: จุดเริ่มต้นของการแข่งขันด้านการให้เหตุผล

  • ข้อค้นพบที่สำคัญที่สุดจากบทความ o1 ของ OpenAI คือกฎการสเกลแบบใหม่ได้ปรากฏขึ้นแล้ว
  • กฎการสเกลของการพรีเทรน LLM
    • การพรีเทรน LLM เป็นไปตามกฎการสเกลที่เข้าใจกันดี
    • ยิ่งใช้การประมวลผลและข้อมูลมากขึ้นในการพรีเทรนโมเดล ประสิทธิภาพก็ยิ่งดีขึ้น
  • กฎการสเกลแบบใหม่ของการประมวลผลขณะให้เหตุผล
    • บทความ o1 ได้เปิดมิติใหม่สำหรับการขยายการประมวลผล
    • ยิ่งให้เวลาในการให้เหตุผล (หรือการประมวลผลช่วง "test time") กับโมเดลมากขึ้น ความสามารถในการให้เหตุผลก็ยิ่งดีขึ้น
  • จะเกิดอะไรขึ้นหากโมเดลสามารถคิดได้เป็นชั่วโมง เป็นวัน หรือเป็นหลายสิบปี?
    • มันจะสามารถแก้สมมติฐานรีมันน์ได้หรือไม่?
    • มันจะตอบคำถามสุดท้ายของอาซิมอฟได้หรือไม่?
  • การเปลี่ยนผ่านจากคลัสเตอร์พรีเทรนขนาดใหญ่ไปสู่ inference cloud
    • การเปลี่ยนแปลงนี้จะพาเราย้ายจากโลกของคลัสเตอร์พรีเทรนขนาดใหญ่ไปสู่ inference cloud
    • inference cloud คือสภาพแวดล้อมที่สามารถขยายการประมวลผลแบบไดนามิกตามความซับซ้อนของงานได้

โมเดลเดียวจะครองทุกสิ่งหรือไม่?

  • จะเกิดอะไรขึ้นเมื่อ OpenAI, Anthropic, Google, Meta และรายอื่น ๆ ขยายเลเยอร์การให้เหตุผลและพัฒนาเครื่องจักรการให้เหตุผลที่ทรงพลังยิ่งขึ้น?
  • โมเดลเดียวจะครองทุกสิ่งหรือไม่?
  • สมมติฐานหนึ่งคือบริษัทโมเดลเพียงรายเดียวจะทรงพลังมากจนดูดซับแอปพลิเคชันอื่นทั้งหมดเข้าไป
    • แต่จนถึงตอนนี้ คำทำนายนี้พิสูจน์แล้วว่าผิดอยู่ 2 ด้าน
    • ประการแรก ในชั้นโมเดลมีผู้เล่นจำนวนมากที่แข่งขันกันอย่างต่อเนื่องเพื่อความสามารถระดับ SOTA
      • แม้อาจเป็นไปได้ว่าจะมีใครสักคนบรรลุการพัฒนาตนเองอย่างต่อเนื่องผ่านการเรียนรู้ด้วยตนเองข้ามโดเมนในวงกว้างและทะยานขึ้นไปได้ แต่ยังไม่มีหลักฐานเช่นนั้น
      • ตรงกันข้าม เลเยอร์โมเดลกลับเป็นสนามแข่งขันที่ดุเดือด และราคาต่อโทเค็นของ GPT-4 ก็ลดลง 98% นับตั้งแต่งาน Developer Day ครั้งก่อน
    • ประการที่สอง โมเดลกำลังประสบความยากลำบากในการรุกเข้าสู่ชั้นแอปพลิเคชัน
      • นอกเหนือจาก ChatGPT แล้ว โดยทั่วไปโมเดลยังไม่ประสบความสำเร็จในการกลายเป็นผลิตภัณฑ์พลิกเกมในชั้นแอปพลิเคชัน
      • เพราะโลกแห่งความเป็นจริงนั้นซับซ้อน
      • นักวิจัยชั้นยอดไม่ได้อยากทำความเข้าใจเวิร์กโฟลว์แบบ end-to-end อย่างละเอียดของทุกฟังก์ชันในทุกตลาดแนวดิ่งที่เป็นไปได้
      • การที่นักวิจัยหยุดไว้ที่ API และปล่อยให้ระบบนิเวศนักพัฒนาจัดการกับความซับซ้อนของโลกจริงนั้นทั้งน่าดึงดูดและสมเหตุสมผลทางเศรษฐกิจ
      • นี่เป็นข่าวดีสำหรับชั้นแอปพลิเคชัน

โลกจริงที่ซับซ้อน: ความจำเป็นของสถาปัตยกรรมการรับรู้แบบปรับแต่ง

  • วิธีที่นักวิทยาศาสตร์วางแผนและลงมือทำเพื่อบรรลุเป้าหมายนั้นแตกต่างอย่างมากจากวิธีทำงานของวิศวกรซอฟต์แวร์
  • และแม้แต่วิธีทำงานของวิศวกรซอฟต์แวร์ในบริษัทต่าง ๆ ก็ยังแตกต่างกัน
  • แม้ห้องแล็บจะยังคงผลักขอบเขตของการให้เหตุผลทั่วไปในแนวนอนให้ไกลออกไป แต่การมอบ AI agent ที่ใช้งานได้จริงก็ยังต้องอาศัยการให้เหตุผลเฉพาะแอปพลิเคชันหรือเฉพาะโดเมน
  • โลกจริงที่ซับซ้อนต้องการการให้เหตุผลเฉพาะโดเมนและเฉพาะแอปพลิเคชันจำนวนมาก ซึ่งไม่สามารถเข้ารหัสลงในโมเดลทั่วไปได้อย่างมีประสิทธิภาพ
  • การมาถึงของสถาปัตยกรรมการรับรู้
    • สถาปัตยกรรมการรับรู้หมายถึงวิธีคิดของระบบ กล่าวคือ ลำดับการทำงานของโค้ดและปฏิสัมพันธ์กับโมเดลที่รับอินพุตจากผู้ใช้แล้วลงมือทำหรือสร้างคำตอบ
    • ตัวอย่างเช่น ในกรณีของ Factory ผลิตภัณฑ์ "droid" แต่ละตัวมีสถาปัตยกรรมการรับรู้แบบปรับแต่งที่เลียนแบบวิธีคิดของมนุษย์เพื่อแก้โจทย์เฉพาะ เช่น การรีวิว pull request หรือการเขียนและดำเนินแผน migration สำหรับการอัปเดตบริการระหว่างแบ็กเอนด์
    • Factory droid จะวิเคราะห์ dependency ทั้งหมด เสนอการเปลี่ยนแปลงโค้ดที่เกี่ยวข้อง เพิ่ม unit test และดึงมนุษย์เข้ามาตรวจทาน
    • จากนั้น เมื่อได้รับการอนุมัติ ก็จะดำเนินการเปลี่ยนแปลงกับทุกไฟล์ในสภาพแวดล้อมการพัฒนา และหากผ่านการทดสอบทั้งหมดก็จะ merge โค้ด
    • สิ่งนี้คล้ายกับวิธีคิดของมนุษย์ที่ประกอบด้วยงานย่อยแยกกันเป็นลำดับ ไม่ใช่คำตอบเดียวแบบทั่วไปและเป็น black box

เกิดอะไรขึ้นใน App?

  • หากต้องการเริ่มธุรกิจ AI ควรเล็งไปที่เลเยอร์ไหน?
    • หากจะแข่งขันในชั้นอินฟราต้องเอาชนะ NVIDIA และ hyperscaler ให้ได้
    • หากจะแข่งขันในชั้นโมเดลต้องเอาชนะ OpenAI และ Mark Zuckerberg ให้ได้
    • หากจะแข่งขันในชั้นแอปพลิเคชันต้องเอาชนะ IT องค์กรและผู้ให้บริการ system integration ระดับโลกให้ได้
    • การแข่งขันในชั้นแอปพลิเคชันดูเป็นไปได้มากที่สุด
  • โอกาสของชั้นแอปพลิเคชัน
    • foundation model นั้นเหมือนเวทมนตร์ แต่ก็ซับซ้อนด้วย
    • องค์กรกระแสหลักรับมือกับ black box, hallucination และเวิร์กโฟลว์ที่ไม่เรียบร้อยไม่ได้
    • ผู้บริโภคมองเห็นพรอมป์ต์ว่าง ๆ แล้วไม่รู้ว่าควรขออะไร
    • นี่คือโอกาสของชั้นแอปพลิเคชัน
  • เมื่อ 2 ปีก่อน บริษัทในชั้นแอปพลิเคชันจำนวนมากถูกวิจารณ์ว่า "ก็แค่ wrapper บน GPT-3"
    • แต่วันนี้ wrapper เหล่านั้นได้พิสูจน์แล้วว่าเป็นหนึ่งในไม่กี่วิธีที่แข็งแรงในการสร้างมูลค่าที่ยั่งยืน
    • สิ่งที่เริ่มต้นจาก "wrapper" ได้วิวัฒน์เป็น "สถาปัตยกรรมการรับรู้"
  • ลักษณะของบริษัท AI ในชั้นแอปพลิเคชัน
    • ไม่ใช่แค่เอา UI ไปวางทับบน foundation model
    • โดยทั่วไปจะมีสถาปัตยกรรมการรับรู้ที่ซับซ้อนซึ่งรวมถึง:
      • foundation model หลายตัวพร้อมกลไก routing บางรูปแบบอยู่ด้านบน
      • vector และ/หรือ graph database สำหรับ RAG
      • guardrail เพื่อให้มั่นใจเรื่อง compliance
      • ตรรกะแอปพลิเคชันที่เลียนแบบวิธีการให้เหตุผลผ่านเวิร์กโฟลว์

Service-as-a-Software

  • การเปลี่ยนผ่านสู่คลาวด์คือ "Software-as-a-Service" บริษัทซอฟต์แวร์กลายเป็นผู้ให้บริการคลาวด์ และนี่คือโอกาสมูลค่า 3.5 แสนล้านดอลลาร์
  • ด้วย agentic reasoning การเปลี่ยนผ่านด้าน AI คือ "Service-as-a-Software" บริษัทซอฟต์แวร์กำลังเปลี่ยนแรงงานให้กลายเป็นซอฟต์แวร์
  • นี่หมายความว่าตลาดเป้าหมายไม่ใช่ตลาดซอฟต์แวร์ แต่เป็นตลาดบริการมูลค่าหลายล้านล้านดอลลาร์
  • การขายงานหมายความว่าอย่างไร
    • บริษัทชื่อ Sierra เป็นตัวอย่างที่ดี
    • บริษัท B2C นำ Sierra ไปวางบนเว็บไซต์ของตนเพื่อสนทนากับลูกค้า
    • job-to-be-done คือการแก้ปัญหาให้ลูกค้า
    • Sierra คิดค่าบริการตามจำนวนเคสที่แก้ได้
    • ไม่มีสิ่งอย่าง "seat" คุณมีงานที่ต้องทำ และ Sierra ก็จัดการงานนั้นพร้อมคิดค่าบริการตามนั้น
    • นี่คือดาวเหนือที่แท้จริงของบริษัท AI จำนวนมาก
  • ข้อได้เปรียบของ Sierra และความท้าทายของบริษัทอื่น
    • Sierra มีข้อได้เปรียบจากโหมดล้มเหลวที่สวยงาม คือการ escalte ไปยังเจ้าหน้าที่มนุษย์
    • ไม่ใช่ทุกบริษัทจะโชคดีแบบนั้น
    • แพตเทิร์นใหม่คือเริ่มต้นด้วยการนำไปใช้งานแบบ human-in-the-loop ก่อน แล้วค่อยใช้ประสบการณ์นั้นเพื่อคว้าโอกาสในการนำไปใช้งานแบบ autopilot (human-out-of-the-loop)
    • GitHub Copilot เป็นตัวอย่างที่ดีของเรื่องนี้

แอปพลิเคชันเอเจนต์รูปแบบใหม่เริ่มปรากฏขึ้น

  • ด้วยความสามารถด้านการให้เหตุผลแบบใหม่ของ Generative AI แอปพลิเคชันเอเจนต์ประเภทใหม่เริ่มปรากฏขึ้น
  • ที่น่าสนใจคือ บริษัทในชั้นแอปพลิเคชันเหล่านี้มีหน้าตาแตกต่างจากบริษัทคลาวด์ในอดีต:
    • บริษัทคลาวด์มุ่งเป้ารายได้จากซอฟต์แวร์ แต่บริษัท AI มุ่งเป้ารายได้จากบริการ
    • บริษัทคลาวด์ขายซอฟต์แวร์ ($/seat) แต่บริษัท AI ขายงาน ($/ผลลัพธ์)
    • บริษัทคลาวด์นิยมแนวทาง bottom-up ด้วยการกระจายที่ไร้แรงเสียดทาน แต่บริษัท AI กำลังหันไปใช้แนวทาง top-down มากขึ้น ผ่านโมเดลการส่งมอบแบบ high-touch, high-trust
  • ตัวอย่างของแอปพลิเคชันเอเจนต์ที่เกิดขึ้นในทุกภาคส่วนของเศรษฐกิจฐานความรู้
    • Harvey: ทนายความ AI
    • Glean: ผู้ช่วยงาน AI
    • Factory: วิศวกรซอฟต์แวร์ AI
    • Abridge: นักจดบันทึกเวชระเบียน AI
    • XBOW: ผู้ทดสอบเจาะระบบ AI
    • Sierra: เอเจนต์สนับสนุนลูกค้า AI
  • ด้วยการลดต้นทุนส่วนเพิ่มของการให้บริการเหล่านี้ลงมาใกล้เคียงกับระดับเดียวกับการร่วงลงอย่างรวดเร็วของต้นทุนการให้เหตุผล แอปพลิเคชันเอเจนต์จึงกำลังขยายและสร้างตลาดใหม่
  • XBOW เป็นตัวอย่างที่ดี:
    • XBOW กำลังสร้าง AI "pentester"
    • "pentest" หรือการทดสอบเจาะระบบ คือการจำลองการโจมตีทางไซเบอร์ต่อระบบคอมพิวเตอร์ที่องค์กรใช้เพื่อประเมินระบบความปลอดภัยของตนเอง
    • ก่อนยุค Generative AI การทำ pentest โดยมนุษย์มีราคาแพงมาก (เพราะเป็นงานแมนนวลโดยผู้เชี่ยวชาญ) ทำให้องค์กรจ้าง pentester เฉพาะในสถานการณ์จำกัดเท่านั้น (เช่น เมื่อจำเป็นต่อ compliance)
    • แต่ตอนนี้ XBOW กำลังสาธิตการทำ pentest แบบอัตโนมัติบนพื้นฐานของ reasoning LLM รุ่นล่าสุด ซึ่งมีประสิทธิภาพทัดเทียมกับ pentester มนุษย์ที่ชำนาญที่สุด
    • สิ่งนี้กำลังขยายตลาด pentesting และเปิดทางสู่การทำ pentest อย่างต่อเนื่องสำหรับองค์กรทุกขนาดและทุกรูปแบบ

สิ่งนี้ส่งผลต่ออุตสาหกรรม SaaS อย่างไร?

  • เมื่อต้นปีนี้ตอนที่เราได้พบกับ LPs คำถามที่ถูกถามมากที่สุดคือ “การเปลี่ยนผ่านสู่ AI จะทำลายบริษัทคลาวด์เดิมหรือไม่?”
  • เราเริ่มต้นจากสมมติฐานพื้นฐานที่หนักแน่นว่า “ไม่”
    • การต่อสู้แบบคลาสสิกระหว่างสตาร์ตอัปกับบริษัทเดิมก็เหมือนการแข่งขันที่สตาร์ตอัปสร้างการจัดจำหน่าย ส่วนบริษัทเดิมสร้างผลิตภัณฑ์
    • บริษัทหน้าใหม่ที่มีผลิตภัณฑ์เจ๋ง ๆ จะเข้าถึงลูกค้าได้ก่อนที่บริษัทเดิมซึ่งครองความสัมพันธ์กับลูกค้าจะออกผลิตภัณฑ์เจ๋ง ๆ ได้หรือไม่?
    • เมื่อพิจารณาว่าความมหัศจรรย์ของ AI ส่วนใหญ่มาจาก foundation model สมมติฐานพื้นฐานของเราจึงเป็น “ไม่”
    • บริษัทเดิมเข้าถึง foundation model ได้พอ ๆ กับสตาร์ตอัป และยังมีข้อได้เปรียบเดิมด้านข้อมูลและการจัดจำหน่าย จึงน่าจะทำได้ดี
    • โอกาสหลักของสตาร์ตอัปไม่ใช่การแทนที่บริษัทซอฟต์แวร์เดิม แต่เป็นการเจาะกลุ่มงานที่สามารถทำให้เป็นอัตโนมัติได้
  • แต่ตอนนี้เราไม่ได้มั่นใจเช่นนั้นอีกต่อไป
    • โปรดอ้างอิงสิ่งที่กล่าวไว้ข้างต้นเกี่ยวกับ cognitive architecture
    • การเปลี่ยนความสามารถดิบของโมเดลให้กลายเป็นโซลูชันธุรกิจแบบ end-to-end ที่น่าเชื่อถือและน่าไว้วางใจ ต้องอาศัยงานวิศวกรรมจำนวนมหาศาล
    • เรากำลังประเมินต่ำเกินไปอย่างมากหรือไม่ว่าคำว่า “AI native” หมายถึงอะไร?
  • เมื่อ 20 ปีก่อน บริษัทซอฟต์แวร์แบบ on-premise เคยหัวเราะเยาะแนวคิด SaaS
    • “ไม่เห็นจะมีอะไรยาก เราก็รันเซิร์ฟเวอร์เองแล้วให้บริการผ่านอินเทอร์เน็ตได้เหมือนกัน!”
    • ในเชิงแนวคิดมันเรียบง่าย แต่สิ่งที่ตามมาคือการสร้างธุรกิจขึ้นใหม่ทั้งระบบ:
      • EPD เปลี่ยนจากโมเดล waterfall และ PRD ไปสู่การพัฒนาแบบ agile และการทำ AB testing
      • GTM เปลี่ยนจากการขายองค์กรแบบ top-down และดินเนอร์กับผู้บริหาร ไปสู่ PLG แบบ bottom-up และ product analytics
      • โมเดลธุรกิจเปลี่ยนจาก ASP สูงและรายได้จาก maintenance stream ไปสู่ NDR สูงและการตั้งราคาแบบ usage-based
    • มีบริษัท on-premise เพียงไม่กี่แห่งที่เปลี่ยนผ่านได้สำเร็จ
  • AI อาจเป็นจุดเปลี่ยนแบบเดียวกับ SaaS หรือไม่? โอกาสของ AI อาจเป็นการขาย “งาน” ไปพร้อมกับการแทนที่ซอฟต์แวร์หรือไม่?
  • ผ่าน Day.ai เราได้เห็นภาพอนาคตล่วงหน้า
    • Day คือ CRM แบบ AI native
    • เหล่า system integrator สร้างรายได้หลายพันล้านดอลลาร์จากการปรับแต่ง Salesforce ให้เข้ากับความต้องการของลูกค้า
    • Day สามารถสร้าง CRM ที่ปรับเข้ากับธุรกิจของลูกค้าได้อย่างสมบูรณ์แบบโดยอัตโนมัติ เพียงแค่เข้าถึงอีเมลและปฏิทิน รวมถึงคำตอบจากแบบสอบถามความยาวหนึ่งหน้า
    • แม้จะยังไม่ได้มีฟีเจอร์ครบทั้งหมด แต่ความมหัศจรรย์ของ CRM ที่ถูกสร้างขึ้นอัตโนมัติและอัปเดตอยู่เสมอโดยไม่ต้องมีมนุษย์เข้ามาเกี่ยวข้อง ก็เพียงพอแล้วที่จะทำให้ผู้คนตัดสินใจย้ายมาใช้งาน

วงการการลงทุน

  • นักลงทุนกำลังใช้เวลาและทุ่มเงินไปกับที่ไหน?
  • Infrastructure
    • พื้นที่นี้เป็นอาณาเขตของเหล่า hyperscaler
    • ขับเคลื่อนด้วยพฤติกรรมเชิง game theory มากกว่าการวิเคราะห์เชิงเศรษฐศาสตร์
    • ไม่ใช่พื้นที่ที่เหมาะกับนักลงทุน venture
  • Model
    • เป็นพื้นที่ที่ hyperscaler และนักลงทุนการเงิน (FI) เคลื่อนไหวอยู่
    • hyperscaler ลงทุนโดยใช้ประโยชน์จากงบดุลสินทรัพย์เพื่อสร้างผลตอบแทน และให้เงินนั้นไหลกลับมาเป็นต้นทุนคอมพิวต์ในธุรกิจคลาวด์
    • nักลงทุนการเงินได้รับอิทธิพลจากอคติแบบ “หลงใหลในวิทยาศาสตร์”
    • โมเดลเหล่านี้น่าสนใจมากและทีมก็ยอดเยี่ยม แต่ตรรกะทางเศรษฐกิจกลับถูกมองข้าม
  • เครื่องมือสำหรับนักพัฒนาและซอฟต์แวร์อินฟราสตรักเจอร์
    • น่าสนใจน้อยกว่าสำหรับนักลงทุนเชิงกลยุทธ์ แต่ดึงดูดนักลงทุน venture มากกว่า
    • ในช่วงการเปลี่ยนผ่านสู่คลาวด์ มีบริษัทประมาณ 15 แห่งที่เกิดขึ้นในเลเยอร์นี้และทำรายได้เกิน 1 พันล้านดอลลาร์
    • คาดว่าจะเกิดปรากฏการณ์คล้ายกันในการเปลี่ยนผ่านสู่ AI
  • Application
    • เป็นเลเยอร์ที่น่าสนใจที่สุดสำหรับนักลงทุน venture
    • ระหว่างการเปลี่ยนผ่านสู่คลาวด์ มีบริษัทในเลเยอร์แอปพลิเคชันประมาณ 20 แห่งที่ทำรายได้เกิน 1 พันล้านดอลลาร์
    • ช่วงการเปลี่ยนผ่านสู่มือถือก็มีบริษัทเกิดขึ้นจำนวนใกล้เคียงกัน และคาดว่าในการเปลี่ยนผ่านสู่ AI ครั้งนี้ก็จะมีแนวโน้มคล้ายกัน

ความคิดส่งท้าย

  • ในระยะถัดไปของ generative AI คาดว่าอิทธิพลของ งานวิจัยและพัฒนา (R&D) ด้าน reasoning จะแพร่กระจายสู่เลเยอร์แอปพลิเคชันอย่างรวดเร็วและลึกซึ้ง
  • cognitive architecture แบบเดิมส่วนใหญ่ประกอบด้วยเทคนิค “unhobbling” แต่ตอนนี้ความสามารถเหล่านี้กำลังถูกหลอมรวมเข้าไปในตัวโมเดลเอง จึงคาดว่าแอปพลิเคชันแบบ agent จะยิ่งซับซ้อนและแข็งแกร่งขึ้น
  • ในห้องวิจัย ประเด็นเรื่อง Reasoning และการคำนวณในช่วง Inference-Time จะยังคงเป็นหัวข้อสำคัญต่อไป และเมื่อกฎการสเกลแบบใหม่ได้ปรากฏขึ้น การแข่งขันครั้งถัดไปก็เริ่มต้นแล้ว
  • อย่างไรก็ตาม ในบางโดเมน การเก็บข้อมูลจากโลกจริงและการเข้ารหัส cognitive architecture ที่เฉพาะกับโดเมนและแอปพลิเคชันยังคงเป็นเรื่องยาก
  • ผู้ให้บริการแอปในช่วง last mile อาจได้เปรียบในการแก้ปัญหาเหล่านี้
  • ในอนาคต มีความเป็นไปได้ที่ระบบหลายเอเจนต์อย่าง Droid ของ Factory จะเกิดขึ้นและแพร่หลาย โดยจำลองกระบวนการ reasoning และ social learning
  • คาดว่าระบบหลายเอเจนต์จะสามารถบรรลุงานได้มากขึ้นด้วยการจัดทีมที่ประมวลผลงานหลายอย่างพร้อมกัน
  • ช่วงเวลาที่หลายคนเฝ้ารอคือ ‘Move 37’ ของ generative AI ซึ่งหมายถึงช่วงเวลาที่ระบบ AI ทั่วไปแสดงพฤติกรรมเหนือมนุษย์อย่างไม่คาดคิด เหมือนที่ AlphaGo เคยแสดงให้เห็นในการแข่งกับ Lee Sedol
  • แม้เมื่อช่วงเวลานั้นมาถึง จะไม่ได้หมายความว่า AI “มีจิตสำนึก” แต่ AI อาจมีความสามารถในการจำลองกระบวนการรับรู้ การให้เหตุผล และการกระทำ เพื่อสำรวจสิ่งต่าง ๆ ในรูปแบบที่แปลกใหม่และเป็นประโยชน์
  • สิ่งนี้อาจเป็น AGI (ความเป็นอัตโนมัติเต็มรูปแบบของปัญญาประดิษฐ์) และมันจะไม่ใช่เหตุการณ์เพียงครั้งเดียว แต่จะนำไปสู่ขั้นถัดไปของเทคโนโลยี

4 ความคิดเห็น

 
lsw4uto 2024-11-11

คาดหวังได้ว่า AI ที่ฉลาดขึ้นเรื่อย ๆ จะช่วยแก้ปัญหาอะไรได้บ้าง

 
aer0700 2024-10-27

ถ้าโมเดลสามารถคิดอยู่นาน ๆ แล้วแก้สมมติฐานรีมันน์ได้ ผลกระทบก็คงมหาศาลเลยนะครับ

 
pmc7777 2024-10-21

ถ้าจะไปแข่งขันในชั้นโมเดล ก็ต้องเอาชนะ OpenAI กับ Mark Zuckerberg ให้ได้

ที่พูดถึง Zuckerberg แทนที่จะเป็น Meta นี่มันตลกดีนะ 555

 
kotzen 2024-10-21

ในบทความสรุปไม่ได้ระบุไว้อย่างชัดเจน เลยขอเขียนเผื่อไว้ เผื่อบางคนยังไม่ทราบว่า System 1 และ System 2 เป็นแนวคิดที่มาจากหนังสือ Thinking, Fast and Slow
System 1: การคิดแบบรวดเร็วที่ลงมือทำโดยไม่ต้องคิดลึก เป็นไปโดยไม่รู้ตัวหรืออาศัยสัญชาตญาณ เช่น ขับรถ, เดิน
System 2: การคิดแบบช้าที่ต้องใช้เหตุผลและครุ่นคิดอย่างจริงจัง เช่น คิดเลขในใจ