คำจำกัดความของสแต็ก AI สมัยใหม่
- ชั้นที่ 1 : คอมพิวต์และโมเดลพื้นฐาน - รวมทั้งตัวโมเดลพื้นฐานเองและโครงสร้างพื้นฐานสำหรับการฝึก ปรับจูน เพิ่มประสิทธิภาพ และนำโมเดลไปใช้งาน
- ชั้นที่ 2 : ข้อมูล - รวมโครงสร้างพื้นฐานที่เชื่อม LLM เข้ากับบริบทที่เหมาะสมภายในระบบข้อมูลขององค์กร และประกอบด้วยองค์ประกอบสำคัญ เช่น การเตรียมข้อมูลล่วงหน้า, ETL และ data pipeline, vector database, metadata store, context cache เป็นต้น
- ชั้นที่ 3 : การปรับใช้ - รวมเครื่องมือที่ช่วยให้นักพัฒนาจัดการและประสานการทำงานของแอปพลิเคชัน AI เช่น agent framework, การจัดการพรอมป์ต์, model routing และ orchestration
- ชั้นที่ 4 : การสังเกตการณ์ - รวมโซลูชันสำหรับมอนิเตอร์พฤติกรรมขณะรันของ LLM และป้องกันภัยคุกคาม
เส้นโค้งความสุกงอมของ AI แบบใหม่
- โครงสร้างตลาดและเทคโนโลยีที่นิยามสแต็ก AI สมัยใหม่กำลังพัฒนาอย่างรวดเร็ว และมีองค์ประกอบหลักรวมถึงผู้นำสำคัญเกิดขึ้นแล้ว
- ก่อนยุค LLM การพัฒนา ML มีลักษณะเป็นเส้นตรงและ "ยึดโมเดลเป็นศูนย์กลาง" แต่ LLM ได้เปลี่ยนไปสู่แนวทาง "ยึดผลิตภัณฑ์เป็นศูนย์กลาง" ทำให้แม้แต่ทีมที่ไม่มีความเชี่ยวชาญด้าน ML ก็สามารถผสาน AI เข้ากับผลิตภัณฑ์ได้
- เมื่อสแต็ก AI เติบโตเต็มที่มากขึ้น ทีมพัฒนาจะพยายามปรับแต่งประสบการณ์ AI ให้เหมาะกับข้อมูลเฉพาะขององค์กรหรือลูกค้า
- เส้นโค้งความสุกงอมของ AI
- ระยะที่ 1: Closed-source models only ใช้เฉพาะโมเดลปิดซอร์ส
- ในช่วงต้นปี 2023 ต้นทุนและความพยายามด้านวิศวกรรมส่วนใหญ่ยังมุ่งไปที่ตัวโมเดลพื้นฐานเอง และมีเพียงการปรับแต่งแบบง่าย ๆ อยู่ด้านบนเท่านั้น (เช่น prompt engineering / few-shot learning)
- ผู้ให้บริการโมเดลปิดซอร์สรายใหญ่ เช่น OpenAI และ Anthropic ได้แรงส่งเริ่มต้นในระยะนี้และสร้างสถานะเป็นผู้ชนะกลุ่มแรกของสแต็ก AI สมัยใหม่อย่างชัดเจน
- ระยะที่ 2: Retrieval-augmented generation การสร้างข้อความแบบเสริมด้วยการค้นคืนข้อมูล
- ย้ายจุดโฟกัสของความพยายามในการสร้างแอปพลิเคชัน AI ไปยังชั้นข้อมูล (ไม่ใช่ชั้นโมเดล)
- โดยเฉพาะการแพร่หลายของ RAG ต้องการโครงสร้างพื้นฐานชั้นข้อมูลที่แข็งแกร่งขึ้น เช่น vector database อย่าง Pinecone และเอนจินเตรียมข้อมูลล่วงหน้าอย่าง Unstructured
- ปัจจุบันองค์กรและสตาร์ตอัปส่วนใหญ่อยู่ในระยะนี้
- ระยะที่ 3: Hybrid model deployment การปรับใช้โมเดลแบบไฮบริด
- บริษัทผู้นำอย่าง Typeface และ Descript เริ่มใช้โอเพนซอร์สเพื่อเสริมการใช้โมเดลปิดซอร์สสำหรับงานเฉพาะโดเมนขนาดใหญ่
- ผู้ให้บริการด้านการปรับใช้โมเดลอย่าง Modal, Baseten และ Fireworks เริ่มได้รับแรงส่งอย่างมีนัยสำคัญ
- ระยะที่ 4 ขึ้นไป: Custom models โมเดลแบบกำหนดเอง
- แม้ตอนนี้ยังมีองค์กรไม่มากที่ก้าวหน้าพอหรือจำเป็นต้องสร้างโมเดลของตนเอง แต่ในอนาคตกรณีใช้งานจากองค์กรขนาดใหญ่ที่ต้องการใช้สแต็กในระดับลึกขึ้นจะเพิ่มมากขึ้น
- บริษัทอย่าง Predibase และ Lamini ซึ่งมีเครื่องมือสำหรับการ fine-tuning ที่ใช้หน่วยความจำอย่างมีประสิทธิภาพ (รวมถึง 4-bit quantization, QLoRA, memory paging/offload) จะเข้ามาสนับสนุนเรื่องนี้
หลักการออกแบบสำคัญ 4 ข้อสำหรับสแต็กโครงสร้างพื้นฐาน AI แบบใหม่
- การปฏิวัติ AI ไม่ได้เพียงกระตุ้นความต้องการสแต็กโครงสร้างพื้นฐานใหม่เท่านั้น แต่ยังกำลังปรับโฉมวิธีที่องค์กรเข้าหาการพัฒนาแอปพลิเคชัน การใช้จ่ายด้าน R&D และการจัดทีม
- หลักการออกแบบสำคัญ:
- 1. ค่าใช้จ่ายส่วนใหญ่ไปอยู่ที่ inference และ training
- ในช่วงแรกของการปฏิวัติ LLM ดูเหมือนว่าทุกบริษัทจะสามารถฝึก large language model ของตัวเองได้ในวันหนึ่ง
- โมเดลอย่าง BloombergGPT ที่ประกาศในเดือนมีนาคม 2023 (LLM ขนาด 50b ที่ฝึกมาเฉพาะบนข้อมูลการเงิน) ถูกมองว่าเป็นสัญญาณล่วงหน้าของการหลั่งไหลของ LLM เฉพาะองค์กรและเฉพาะโดเมน
- แต่กระแสน้ำเชี่ยวเช่นนั้นไม่ได้เกิดขึ้น
- จากผลสำรวจ enterprise AI ล่าสุดของ Menlo Ventures พบว่าเกือบ 95% ของการใช้จ่ายด้าน AI ทั้งหมดถูกใช้ไปกับ runtime และ pretraining
- สัดส่วนนี้กลับกันเฉพาะในผู้ให้บริการโมเดลพื้นฐานรายใหญ่ เช่น Anthropic เท่านั้น ส่วนในชั้นแอปพลิเคชัน แม้แต่ผู้สร้าง AI ที่ซับซ้อนอย่าง Writer ก็ยังใช้คอมพิวต์มากกว่า 80% ไปกับ inference ไม่ใช่ training
- 2. เราอาศัยอยู่ในโลกแบบหลายโมเดล (Multi-Model)
- ไม่มีโมเดลเดียวที่สามารถ "ครองทุกโมเดล" ได้
- 60% ขององค์กรใช้หลายโมเดลและทำ routing พรอมป์ต์ไปยังโมเดลที่ให้ผลลัพธ์ดีที่สุด
- แนวทางหลายโมเดลช่วยลดการพึ่งพาโมเดลเดียว ให้การควบคุมที่สูงขึ้น และลดต้นทุน
- 3. RAG คือแนวทางสถาปัตยกรรมที่ครองความนิยม
- LLM เป็นเอนจินการให้เหตุผลที่ยอดเยี่ยม แต่ยังมีความรู้เฉพาะโดเมนและเฉพาะองค์กรอย่างจำกัด
- เพื่อสร้างประสบการณ์ AI ที่ใช้งานได้จริง ทีมต่าง ๆ จึงเริ่มจาก retrieval-augmented generation (RAG) และปรับใช้เทคนิคเสริมความรู้ได้อย่างรวดเร็ว
- RAG ช่วยมอบ "หน่วยความจำ" เฉพาะองค์กรให้กับโมเดลพื้นฐานผ่าน vector database อย่าง Pinecone
- ปัจจุบันเทคนิคนี้นำหน้าเทคนิคปรับแต่งอื่น ๆ ที่อยู่ในระบบ production มาก เช่น fine-tuning, low-rank adaptation หรือ adapter ซึ่งโดยหลักทำงานที่ชั้นโมเดล ไม่ใช่ชั้นข้อมูล
- แนวโน้มนี้จะดำเนินต่อไป และคาดว่าส่วนใหม่ของ data plane รวมถึงเอนจินเตรียมข้อมูลล่วงหน้า (เช่น Cleanlab) และ ETL pipe (เช่น Unstructured) จะถูกผสานเข้ากับสถาปัตยกรรม runtime
- 4. ตอนนี้นักพัฒนาทุกคนคือนักพัฒนา AI
- ทั่วโลกมีนักพัฒนาประมาณ 30 ล้านคน ขณะที่มี ML engineer เพียง 300,000 คน และ ML researcher เพียง 30,000 คน
- สำหรับผู้ที่สร้างนวัตกรรมแนวหน้าของ ML มีการประเมินว่านักวิจัยที่รู้วิธีสร้างระบบระดับ GPT-4 หรือ Claude 2 มีอยู่เพียงราว 50 คนทั่วโลก
- เมื่อเผชิญกับความจริงนี้ ข่าวดีก็คืองานที่เคยต้องใช้การวิจัยพื้นฐานหลายปีและความเชี่ยวชาญ ML ระดับสูง ตอนนี้นักพัฒนาสายหลักที่ทำ data system engineering บนฐานของ LLM ที่ pretrain มาอย่างทรงพลังสามารถทำเสร็จได้ภายในไม่กี่วันหรือไม่กี่สัปดาห์
- ผลิตภัณฑ์อย่าง Einstein GPT ของ Salesforce (AI CoPilot สำหรับ Sales) และ Intuit Assist (ผู้ช่วยการเงินที่ขับเคลื่อนด้วย Generative AI) ถูกสร้างขึ้นโดยทีมขนาดเล็กที่ประกอบด้วยวิศวกร AI เป็นหลัก (ก็คือวิศวกร full-stack แบบดั้งเดิมที่ทำงานบน data plane ของสแต็ก AI สมัยใหม่)
ขั้นต่อไป
- สแต็ก AI สมัยใหม่กำลังพัฒนาอย่างรวดเร็ว และมีพัฒนาการหลายอย่างที่คาดว่าจะดำเนินต่อเนื่องในปีนี้
- แอปพลิเคชัน AI รุ่นถัดไปกำลังทดลองใช้ RAG ที่ก้าวหน้ากว่าเดิม
- แม้วันนี้ RAG จะเป็นราชา แต่แนวทางนี้ก็ไม่ได้ไร้ปัญหา
- การนำไปใช้จำนวนมากยังอาศัยเทคนิค embedding และ retrieval แบบพื้นฐาน เช่น การแบ่งเอกสารเป็นชิ้นตามจำนวนโทเคน การทำดัชนีที่ไม่มีประสิทธิภาพ และอัลกอริทึมจัดอันดับที่ไม่ดีพอ
- ปัญหาที่พบได้แก่ การแตกกระจายของบริบท, hallucination, ความหายากของเอนทิตี, และการค้นคืนที่ไม่มีประสิทธิภาพ
- เพื่อแก้ปัญหาเหล่านี้ สถาปัตยกรรมยุคถัดไปกำลังทดสอบ RAG ที่ก้าวหน้าขึ้น เช่น Chain-Of-Thought reasoning, Tree-Of-Thought reasoning, Reflexion และการค้นคืนแบบอิงกฎ
- โมเดลขนาดเล็กจะมีสัดส่วนมากขึ้นในสแต็ก AI สมัยใหม่
- เมื่อผู้สร้างแอปพลิเคชัน AI ลงลึกกับสแต็ก AI สมัยใหม่มากขึ้น คาดว่าจะเห็นการเพิ่มขึ้นของโมเดลที่ละเอียดและเฉพาะงานมากขึ้น
- โมเดลเฉพาะงานที่ผ่านการ fine-tune จะขยายตัวในพื้นที่เฉพาะที่โมเดลปิดซอร์สขนาดใหญ่ใช้งานยากหรือมีต้นทุนสูงเกินไป
- โครงสร้างพื้นฐานสำหรับสร้าง ML pipeline และการ fine-tuning จะมีความสำคัญอย่างมากในระยะนี้ เมื่อองค์กรเริ่มสร้างโมเดลเฉพาะงานของตนเอง
- เทคโนโลยี quantization จาก Ollama และ ggml ช่วยให้ทีมได้รับประโยชน์สูงสุดด้านความเร็วจากโมเดลขนาดเล็ก
- กำลังมีเครื่องมือใหม่สำหรับการสังเกตการณ์ (Observability) และการประเมินโมเดล (Model Evaluation) เกิดขึ้น
- ตลอดช่วงส่วนใหญ่ของปี 2023 การทำ logging และ evaluation แทบไม่มีเลย หรือทำด้วยมือ หรืออาศัย academic benchmark ซึ่งเป็นเพียงจุดเริ่มต้นของแอปพลิเคชันระดับองค์กรส่วนใหญ่
- งานวิจัยของ Criteo พบว่าจากองค์กรที่นำ AI มาใช้ ราว 70% ใช้การให้มนุษย์ตรวจทานผลลัพธ์เป็นเทคนิคการประเมินหลัก เนื่องจากความเสี่ยงสูง
- ลูกค้าคาดหวังผลลัพธ์ที่มีคุณภาพสูงและสมควรได้รับเช่นนั้น และองค์กรก็รู้ดีว่าพวกเขาอาจสูญเสียความเชื่อมั่นของลูกค้าจาก hallucination
- ดังนั้น การสังเกตการณ์และการประเมินจึงเป็นโอกาสสำคัญสำหรับเครื่องมือรูปแบบใหม่
- ขณะนี้มีแนวทางใหม่ที่น่าสนใจเกิดขึ้นแล้ว เช่น Braintrust, Patronus, Log10 และ AgentOps
- สถาปัตยกรรมจะเคลื่อนไปในทิศทาง serverless
- เช่นเดียวกับระบบข้อมูลสำหรับองค์กรอื่น ๆ สแต็ก AI สมัยใหม่กำลังเคลื่อนไปสู่ serverless ตามเวลา
- ในที่นี้มีการแยกความต่างระหว่าง serverless แบบ "เครื่องชั่วคราว" (เช่น lambda function) กับ serverless แบบ scale to zero อย่างแท้จริง (เช่นสถาปัตยกรรม Neon สำหรับ Postgres)
- สำหรับ serverless แบบ scale to zero การทำให้โครงสร้างพื้นฐานเป็นนามธรรมช่วยให้นักพัฒนาลดความซับซ้อนด้านปฏิบัติการของการรันแอปพลิเคชัน ทำงานแบบวนรอบได้เร็วขึ้น และองค์กรจ่ายเฉพาะความพร้อมใช้งานแทนการจ่ายตามคอมพิวต์ จึงได้การเพิ่มประสิทธิภาพทรัพยากรอย่างมาก
- กระบวนทัศน์ serverless จะถูกนำไปใช้กับทุกส่วนของสแต็ก AI สมัยใหม่
- Pinecone ได้นำแนวทางนี้มาใช้ในฐานะสถาปัตยกรรมสมัยใหม่สำหรับ vector computing
- Neon ทำแบบเดียวกันสำหรับ Postgres, Momento สำหรับ caching, และ Baseten กับ Modal สำหรับ inference
6 ความคิดเห็น
บทความดีและอ่านสนุก
https://th.news.hada.io/topic?id=6658 Neon - Postgres แบบ serverless โอเพนซอร์ส
หวังว่าในสภาพแวดล้อมที่เปลี่ยนแปลงไปจะมีโอกาสใหม่ ๆ เกิดขึ้นมากมาย~
ไปในทิศทางที่ดี
ทั่วโลกมีนักพัฒนาแค่ประมาณ 30 ล้านคนเองเหรอ??
ตามรายงานของ Evans Data Corporation ที่มักถูกอ้างอิง จำนวนอยู่ที่ประมาณ 26.3 ล้านคน ณ ปี 2022
https://www.evansdata.com/press/viewRelease.php?pressID=339
แม้นักพัฒนาที่ใช้ GitHub จะมีจำนวนเกิน 100 ล้านคนแล้ว แต่ก็ดูเหมือนจะยากที่จะมองว่าทั้งหมดเป็นนักพัฒนาได้
https://github.blog/2023-01-25-100-million-developers-and-counting/
อ๋อครับ น้อยกว่าที่คิดเยอะเลยนะครับ ระหว่างนั้นลองค้นหาจำนวนประชากรโลกดูก็พบว่ามี 7.8 พันล้านคนเอง.. ไม่รู้ว่าเพิ่มมาถึงขนาดนี้ตั้งแต่เมื่อไหร่ 55