สแต็ก AI สมัยใหม่: หลักการออกแบบเพื่ออนาคตของสถาปัตยกรรม AI สำหรับองค์กร

xguru · 2024-01-29T11:05:01+09:00

คำจำกัดความของสแต็ก AI สมัยใหม่ ชั้นที่ 1 : คอมพิวต์และโมเดลพื้นฐาน - รวมทั้งตัวโมเดลพื้นฐานเองและโครงสร้างพื้นฐานสำหรับการฝึก ปรับจูน เพิ่มประสิทธิภาพ และนำโมเดลไปใช้งาน ชั้นที่ 2 : ข้อมูล - รวมโครงสร้างพื้นฐานที่เชื่อม LLM เข้ากับบริบทที่เหมาะสมภายในระบบข้อมูลขององค์กร และประกอบด้วยองค์ประกอบสำคัญ เช่น การเตรียมข้อมูลล่วงหน้า, ETL และ data pipeline, vector database, metadata store, context cache เป็นต้น ชั้นที่ 3 : การปรับใช้ - รวมเครื่องมือที่ช่วยให้นักพัฒนาจัดการและประสานการทำงานของแอปพลิเคชัน AI เช่น agent framework, การจัดการพรอมป์ต์, model routing และ orchestration ชั้นที่ 4 : การสังเกตการณ์ - รวมโซลูชันสำหรับมอนิเตอร์พฤติกรรมขณะรันของ LLM และป้องกันภัยคุกคาม เส้นโค้งความสุกงอมของ AI แบบใหม่ โครงสร้างตลาดและเทคโนโลยีที่นิยามสแต็ก AI สมัยใหม่กำลังพัฒนาอย่างรวดเร็ว และมีองค์ประกอบหลักรวมถึงผู้นำสำคัญเกิดขึ้นแล้ว ก่อนยุค LLM การพัฒนา ML มีลักษณะเป็นเส้นตรงและ "ยึดโมเดลเป็นศูนย์กลาง" แต่ LLM ได้เปลี่ยนไปสู่แนวทาง "ยึดผลิตภัณฑ์เป็นศูนย์กลาง" ทำให้แม้แต่ทีมที่ไม่มีความเชี่ยวชาญด้าน ML ก็สามารถผสาน AI เข้ากับผลิตภัณฑ์ได้ เมื่อสแต็ก AI เติบโตเต็มที่มากขึ้น ทีมพัฒนาจะพยายามปรับแต่งประสบการณ์ AI ให้เหมาะกับข้อมูลเฉพาะขององค์กรหรือลูกค้า เส้นโค้งความสุกงอมของ AI ระยะที่ 1: Closed-source models only ใช้เฉพาะโมเดลปิดซอร์ส ในช่วงต้นปี 2023 ต้นทุนและความพยายามด้านวิศวกรรมส่วนใหญ่ยังมุ่งไปที่ตัวโมเดลพื้นฐานเอง และมีเพียงการปรับแต่งแบบง่าย ๆ อยู่ด้านบนเท่านั้น (เช่น prompt engineering / few-shot learning) ผู้ให้บริการโมเดลปิดซอร์สรายใหญ่ เช่น OpenAI และ Anthropic ได้แรงส่งเริ่มต้นในระยะนี้และสร้างสถานะเป็นผู้ชนะกลุ่มแรกของสแต็ก AI สมัยใหม่อย่างชัดเจน ระยะที่ 2: Retrieval-augmented generation การสร้างข้อความแบบเสริมด้วยการค้นคืนข้อมูล ย้ายจุดโฟกัสของความพยายามในการสร้างแอปพลิเคชัน AI ไปยังชั้นข้อมูล (ไม่ใช่ชั้นโมเดล) โดยเฉพาะการแพร่หลายของ RAG ต้องการโครงสร้างพื้นฐานชั้นข้อมูลที่แข็งแกร่งขึ้น เช่น vector database อย่าง Pinecone และเอนจินเตรียมข้อมูลล่วงหน้าอย่าง Unstructured ปัจจุบันองค์กรและสตาร์ตอัปส่วนใหญ่อยู่ในระยะนี้ ระยะที่ 3: Hybrid model deployment การปรับใช้โมเดลแบบไฮบริด บริษัทผู้นำอย่าง Typeface และ Descript เริ่มใช้โอเพนซอร์สเพื่อเสริมการใช้โมเดลปิดซอร์สสำหรับงานเฉพาะโดเมนขนาดใหญ่ ผู้ให้บริการด้านการปรับใช้โมเดลอย่าง Modal, Baseten และ Fireworks เริ่มได้รับแรงส่งอย่างมีนัยสำคัญ ระยะที่ 4 ขึ้นไป: Custom models โมเดลแบบกำหนดเอง แม้ตอนนี้ยังมีองค์กรไม่มากที่ก้าวหน้าพอหรือจำเป็นต้องสร้างโมเดลของตนเอง แต่ในอนาคตกรณีใช้งานจากองค์กรขนาดใหญ่ที่ต้องการใช้สแต็กในระดับลึกขึ้นจะเพิ่มมากขึ้น บริษัทอย่าง Predibase และ Lamini ซึ่งมีเครื่องมือสำหรับการ fine-tuning ที่ใช้หน่วยความจำอย่างมีประสิทธิภาพ (รวมถึง 4-bit quantization, QLoRA, memory paging/offload) จะเข้ามาสนับสนุนเรื่องนี้ หลักการออกแบบสำคัญ 4 ข้อสำหรับสแต็กโครงสร้างพื้นฐาน AI แบบใหม่ การปฏิวัติ AI ไม่ได้เพียงกระตุ้นความต้องการสแต็กโครงสร้างพื้นฐานใหม่เท่านั้น แต่ยังกำลังปรับโฉมวิธีที่องค์กรเข้าหาการพัฒนาแอปพลิเคชัน การใช้จ่ายด้าน R&D และการจัดทีม หลักการออกแบบสำคัญ: 1. ค่าใช้จ่ายส่วนใหญ่ไปอยู่ที่ inference และ training ในช่วงแรกของการปฏิวัติ LLM ดูเหมือนว่าทุกบริษัทจะสามารถฝึก large language model ของตัวเองได้ในวันหนึ่ง โมเดลอย่าง BloombergGPT ที่ประกาศในเดือนมีนาคม 2023 (LLM ขนาด 50b ที่ฝึกมาเฉพาะบนข้อมูลการเงิน) ถูกมองว่าเป็นสัญญาณล่วงหน้าของการหลั่งไหลของ LLM เฉพาะองค์กรและเฉพาะโดเมน แต่กระแสน้ำเชี่ยวเช่นนั้นไม่ได้เกิดขึ้น จากผลสำรวจ enterprise AI ล่าสุดของ Menlo Ventures พบว่าเกือบ 95% ของการใช้จ่ายด้าน AI ทั้งหมดถูกใช้ไปกับ runtime และ pretraining สัดส่วนนี้กลับกันเฉพาะในผู้ให้บริการโมเดลพื้นฐานรายใหญ่ เช่น Anthropic เท่านั้น ส่วนในชั้นแอปพลิเคชัน แม้แต่ผู้สร้าง AI ที่ซับซ้อนอย่าง Writer ก็ยังใช้คอมพิวต์มากกว่า 80% ไปกับ inference ไม่ใช่ training 2. เราอาศัยอยู่ในโลกแบบหลายโมเดล (Multi-Model) ไม่มีโมเดลเดียวที่สามารถ "ครองทุกโมเดล" ได้ 60% ขององค์กรใช้หลายโมเดลและทำ routing พรอมป์ต์ไปยังโมเดลที่ให้ผลลัพธ์ดีที่สุด แนวทางหลายโมเดลช่วยลดการพึ่งพาโมเดลเดียว ให้การควบคุมที่สูงขึ้น และลดต้นทุน 3. RAG คือแนวทางสถาปัตยกรรมที่ครองความนิยม LLM เป็นเอนจินการให้เหตุผลที่ยอดเยี่ยม แต่ยังมีความรู้เฉพาะโดเมนและเฉพาะองค์กรอย่างจำกัด เพื่อสร้างประสบการณ์ AI ที่ใช้งานได้จริง ทีมต่าง ๆ จึงเริ่มจาก retrieval-augmented generation (RAG) และปรับใช้เทคนิคเสริมความรู้ได้อย่างรวดเร็ว RAG ช่วยมอบ "หน่วยความจำ" เฉพาะองค์กรให้กับโมเดลพื้นฐานผ่าน vector database อย่าง Pinecone ปัจจุบันเทคนิคนี้นำหน้าเทคนิคปรับแต่งอื่น ๆ ที่อยู่ในระบบ production มาก เช่น fine-tuning, low-rank adaptation หรือ adapter ซึ่งโดยหลักทำงานที่ชั้นโมเดล ไม่ใช่ชั้นข้อมูล แนวโน้มนี้จะดำเนินต่อไป และคาดว่าส่วนใหม่ของ data plane รวมถึงเอนจินเตรียมข้อมูลล่วงหน้า (เช่น Cleanlab) และ ETL pipe (เช่น Unstructured) จะถูกผสานเข้ากับสถาปัตยกรรม runtime 4. ตอนนี้นักพัฒนาทุกคนคือนักพัฒนา AI ทั่วโลกมีนักพัฒนาประมาณ 30 ล้านคน ขณะที่มี ML engineer เพียง 300,000 คน และ ML researcher เพียง 30,000 คน สำหรับผู้ที่สร้างนวัตกรรมแนวหน้าของ ML มีการประเมินว่านักวิจัยที่รู้วิธีสร้างระบบระดับ GPT-4 หรือ Claude 2 มีอยู่เพียงราว 50 คนทั่วโลก เมื่อเผชิญกับความจริงนี้ ข่าวดีก็คืองานที่เคยต้องใช้การวิจัยพื้นฐานหลายปีและความเชี่ยวชาญ ML ระดับสูง ตอนนี้นักพัฒนาสายหลักที่ทำ data system engineering บนฐานของ LLM ที่ pretrain มาอย่างทรงพลังสามารถทำเสร็จได้ภายในไม่กี่วันหรือไม่กี่สัปดาห์ ผลิตภัณฑ์อย่าง Einstein GPT ของ Salesforce (AI CoPilot สำหรับ Sales) และ Intuit Assist (ผู้ช่วยการเงินที่ขับเคลื่อนด้วย Generative AI) ถูกสร้างขึ้นโดยทีมขนาดเล็กที่ประกอบด้วยวิศวกร AI เป็นหลัก (ก็คือวิศวกร full-stack แบบดั้งเดิมที่ทำงานบน data plane ของสแต็ก AI สมัยใหม่) ขั้นต่อไป สแต็ก AI สมัยใหม่กำลังพัฒนาอย่างรวดเร็ว และมีพัฒนาการหลายอย่างที่คาดว่าจะดำเนินต่อเนื่องในปีนี้ แอปพลิเคชัน AI รุ่นถัดไปกำลังทดลองใช้ RAG ที่ก้าวหน้ากว่าเดิม แม้วันนี้ RAG จะเป็นราชา แต่แนวทางนี้ก็ไม่ได้ไร้ปัญหา การนำไปใช้จำนวนมากยังอาศัยเทคนิค embedding และ retrieval แบบพื้นฐาน เช่น การแบ่งเอกสารเป็นชิ้นตามจำนวนโทเคน การทำดัชนีที่ไม่มีประสิทธิภาพ และอัลกอริทึมจัดอันดับที่ไม่ดีพอ ปัญหาที่พบได้แก่ การแตกกระจายของบริบท, hallucination, ความหายากของเอนทิตี, และการค้นคืนที่ไม่มีประสิทธิภาพ เพื่อแก้ปัญหาเหล่านี้ สถาปัตยกรรมยุคถัดไปกำลังทดสอบ RAG ที่ก้าวหน้าขึ้น เช่น Chain-Of-Thought reasoning, Tree-Of-Thought reasoning, Reflexion และการค้นคืนแบบอิงกฎ โมเดลขนาดเล็กจะมีสัดส่วนมากขึ้นในสแต็ก AI สมัยใหม่ เมื่อผู้สร้างแอปพลิเคชัน AI ลงลึกกับสแต็ก AI สมัยใหม่มากขึ้น คาดว่าจะเห็นการเพิ่มขึ้นของโมเดลที่ละเอียดและเฉพาะงานมากขึ้น โมเดลเฉพาะงานที่ผ่านการ fine-tune จะขยายตัวในพื้นที่เฉพาะที่โมเดลปิดซอร์สขนาดใหญ่ใช้งานยากหรือมีต้นทุนสูงเกินไป โครงสร้างพื้นฐานสำหรับสร้าง ML pipeline และการ fine-tuning จะมีความสำคัญอย่างมากในระยะนี้ เมื่อองค์กรเริ่มสร้างโมเดลเฉพาะงานของตนเอง เทคโนโลยี quantization จาก Ollama และ ggml ช่วยให้ทีมได้รับประโยชน์สูงสุดด้านความเร็วจากโมเดลขนาดเล็ก กำลังมีเครื่องมือใหม่สำหรับการสังเกตการณ์ (Observability) และการประเมินโมเดล (Model Evaluation) เกิดขึ้น ตลอดช่วงส่วนใหญ่ของปี 2023 การทำ logging และ evaluation แทบไม่มีเลย หรือทำด้วยมือ หรืออาศัย academic benchmark ซึ่งเป็นเพียงจุดเริ่มต้นของแอปพลิเคชันระดับองค์กรส่วนใหญ่ งานวิจัยของ Criteo พบว่าจากองค์กรที่นำ AI มาใช้ ราว 70% ใช้การให้มนุษย์ตรวจทานผลลัพธ์เป็นเทคนิคการประเมินหลัก เนื่องจากความเสี่ยงสูง ลูกค้าคาดหวังผลลัพธ์ที่มีคุณภาพสูงและสมควรได้รับเช่นนั้น และองค์กรก็รู้ดีว่าพวกเขาอาจสูญเสียความเชื่อมั่นของลูกค้าจาก hallucination ดังนั้น การสังเกตการณ์และการประเมินจึงเป็นโอกาสสำคัญสำหรับเครื่องมือรูปแบบใหม่ ขณะนี้มีแนวทางใหม่ที่น่าสนใจเกิดขึ้นแล้ว เช่น Braintrust, Patronus, Log10 และ AgentOps สถาปัตยกรรมจะเคลื่อนไปในทิศทาง serverless เช่นเดียวกับระบบข้อมูลสำหรับองค์กรอื่น ๆ สแต็ก AI สมัยใหม่กำลังเคลื่อนไปสู่ serverless ตามเวลา ในที่นี้มีการแยกความต่างระหว่าง serverless แบบ "เครื่องชั่วคราว" (เช่น lambda function) กับ serverless แบบ scale to zero อย่างแท้จริง (เช่นสถาปัตยกรรม Neon สำหรับ Postgres) สำหรับ serverless แบบ scale to zero การทำให้โครงสร้างพื้นฐานเป็นนามธรรมช่วยให้นักพัฒนาลดความซับซ้อนด้านปฏิบัติการของการรันแอปพลิเคชัน ทำงานแบบวนรอบได้เร็วขึ้น และองค์กรจ่ายเฉพาะความพร้อมใช้งานแทนการจ่ายตามคอมพิวต์ จึงได้การเพิ่มประสิทธิภาพทรัพยากรอย่างมาก กระบวนทัศน์ serverless จะถูกนำไปใช้กับทุกส่วนของสแต็ก AI สมัยใหม่ Pinecone ได้นำแนวทางนี้มาใช้ในฐานะสถาปัตยกรรมสมัยใหม่สำหรับ vector computing Neon ทำแบบเดียวกันสำหรับ Postgres, Momento สำหรับ caching, และ Baseten กับ Modal สำหรับ inference

(menlovc.com)

28 คะแนน โดย xguru 2024-01-29 | 6 ความคิดเห็น | แชร์ทาง WhatsApp

คำจำกัดความของสแต็ก AI สมัยใหม่

ชั้นที่ 1 : คอมพิวต์และโมเดลพื้นฐาน - รวมทั้งตัวโมเดลพื้นฐานเองและโครงสร้างพื้นฐานสำหรับการฝึก ปรับจูน เพิ่มประสิทธิภาพ และนำโมเดลไปใช้งาน
ชั้นที่ 2 : ข้อมูล - รวมโครงสร้างพื้นฐานที่เชื่อม LLM เข้ากับบริบทที่เหมาะสมภายในระบบข้อมูลขององค์กร และประกอบด้วยองค์ประกอบสำคัญ เช่น การเตรียมข้อมูลล่วงหน้า, ETL และ data pipeline, vector database, metadata store, context cache เป็นต้น
ชั้นที่ 3 : การปรับใช้ - รวมเครื่องมือที่ช่วยให้นักพัฒนาจัดการและประสานการทำงานของแอปพลิเคชัน AI เช่น agent framework, การจัดการพรอมป์ต์, model routing และ orchestration
ชั้นที่ 4 : การสังเกตการณ์ - รวมโซลูชันสำหรับมอนิเตอร์พฤติกรรมขณะรันของ LLM และป้องกันภัยคุกคาม

เส้นโค้งความสุกงอมของ AI แบบใหม่

โครงสร้างตลาดและเทคโนโลยีที่นิยามสแต็ก AI สมัยใหม่กำลังพัฒนาอย่างรวดเร็ว และมีองค์ประกอบหลักรวมถึงผู้นำสำคัญเกิดขึ้นแล้ว
ก่อนยุค LLM การพัฒนา ML มีลักษณะเป็นเส้นตรงและ "ยึดโมเดลเป็นศูนย์กลาง" แต่ LLM ได้เปลี่ยนไปสู่แนวทาง "ยึดผลิตภัณฑ์เป็นศูนย์กลาง" ทำให้แม้แต่ทีมที่ไม่มีความเชี่ยวชาญด้าน ML ก็สามารถผสาน AI เข้ากับผลิตภัณฑ์ได้
เมื่อสแต็ก AI เติบโตเต็มที่มากขึ้น ทีมพัฒนาจะพยายามปรับแต่งประสบการณ์ AI ให้เหมาะกับข้อมูลเฉพาะขององค์กรหรือลูกค้า
เส้นโค้งความสุกงอมของ AI
- ระยะที่ 1: Closed-source models only ใช้เฉพาะโมเดลปิดซอร์ส
  - ในช่วงต้นปี 2023 ต้นทุนและความพยายามด้านวิศวกรรมส่วนใหญ่ยังมุ่งไปที่ตัวโมเดลพื้นฐานเอง และมีเพียงการปรับแต่งแบบง่าย ๆ อยู่ด้านบนเท่านั้น (เช่น prompt engineering / few-shot learning)
  - ผู้ให้บริการโมเดลปิดซอร์สรายใหญ่ เช่น OpenAI และ Anthropic ได้แรงส่งเริ่มต้นในระยะนี้และสร้างสถานะเป็นผู้ชนะกลุ่มแรกของสแต็ก AI สมัยใหม่อย่างชัดเจน
- ระยะที่ 2: Retrieval-augmented generation การสร้างข้อความแบบเสริมด้วยการค้นคืนข้อมูล
  - ย้ายจุดโฟกัสของความพยายามในการสร้างแอปพลิเคชัน AI ไปยังชั้นข้อมูล (ไม่ใช่ชั้นโมเดล)
  - โดยเฉพาะการแพร่หลายของ RAG ต้องการโครงสร้างพื้นฐานชั้นข้อมูลที่แข็งแกร่งขึ้น เช่น vector database อย่าง Pinecone และเอนจินเตรียมข้อมูลล่วงหน้าอย่าง Unstructured
  - ปัจจุบันองค์กรและสตาร์ตอัปส่วนใหญ่อยู่ในระยะนี้
- ระยะที่ 3: Hybrid model deployment การปรับใช้โมเดลแบบไฮบริด
  - บริษัทผู้นำอย่าง Typeface และ Descript เริ่มใช้โอเพนซอร์สเพื่อเสริมการใช้โมเดลปิดซอร์สสำหรับงานเฉพาะโดเมนขนาดใหญ่
  - ผู้ให้บริการด้านการปรับใช้โมเดลอย่าง Modal, Baseten และ Fireworks เริ่มได้รับแรงส่งอย่างมีนัยสำคัญ
- ระยะที่ 4 ขึ้นไป: Custom models โมเดลแบบกำหนดเอง
  - แม้ตอนนี้ยังมีองค์กรไม่มากที่ก้าวหน้าพอหรือจำเป็นต้องสร้างโมเดลของตนเอง แต่ในอนาคตกรณีใช้งานจากองค์กรขนาดใหญ่ที่ต้องการใช้สแต็กในระดับลึกขึ้นจะเพิ่มมากขึ้น
  - บริษัทอย่าง Predibase และ Lamini ซึ่งมีเครื่องมือสำหรับการ fine-tuning ที่ใช้หน่วยความจำอย่างมีประสิทธิภาพ (รวมถึง 4-bit quantization, QLoRA, memory paging/offload) จะเข้ามาสนับสนุนเรื่องนี้

หลักการออกแบบสำคัญ 4 ข้อสำหรับสแต็กโครงสร้างพื้นฐาน AI แบบใหม่

การปฏิวัติ AI ไม่ได้เพียงกระตุ้นความต้องการสแต็กโครงสร้างพื้นฐานใหม่เท่านั้น แต่ยังกำลังปรับโฉมวิธีที่องค์กรเข้าหาการพัฒนาแอปพลิเคชัน การใช้จ่ายด้าน R&D และการจัดทีม
หลักการออกแบบสำคัญ:
- 1. ค่าใช้จ่ายส่วนใหญ่ไปอยู่ที่ inference และ training
  - ในช่วงแรกของการปฏิวัติ LLM ดูเหมือนว่าทุกบริษัทจะสามารถฝึก large language model ของตัวเองได้ในวันหนึ่ง
  - โมเดลอย่าง BloombergGPT ที่ประกาศในเดือนมีนาคม 2023 (LLM ขนาด 50b ที่ฝึกมาเฉพาะบนข้อมูลการเงิน) ถูกมองว่าเป็นสัญญาณล่วงหน้าของการหลั่งไหลของ LLM เฉพาะองค์กรและเฉพาะโดเมน
  - แต่กระแสน้ำเชี่ยวเช่นนั้นไม่ได้เกิดขึ้น
  - จากผลสำรวจ enterprise AI ล่าสุดของ Menlo Ventures พบว่าเกือบ 95% ของการใช้จ่ายด้าน AI ทั้งหมดถูกใช้ไปกับ runtime และ pretraining
  - สัดส่วนนี้กลับกันเฉพาะในผู้ให้บริการโมเดลพื้นฐานรายใหญ่ เช่น Anthropic เท่านั้น ส่วนในชั้นแอปพลิเคชัน แม้แต่ผู้สร้าง AI ที่ซับซ้อนอย่าง Writer ก็ยังใช้คอมพิวต์มากกว่า 80% ไปกับ inference ไม่ใช่ training
- 2. เราอาศัยอยู่ในโลกแบบหลายโมเดล (Multi-Model)
  - ไม่มีโมเดลเดียวที่สามารถ "ครองทุกโมเดล" ได้
  - 60% ขององค์กรใช้หลายโมเดลและทำ routing พรอมป์ต์ไปยังโมเดลที่ให้ผลลัพธ์ดีที่สุด
  - แนวทางหลายโมเดลช่วยลดการพึ่งพาโมเดลเดียว ให้การควบคุมที่สูงขึ้น และลดต้นทุน
- 3. RAG คือแนวทางสถาปัตยกรรมที่ครองความนิยม
  - LLM เป็นเอนจินการให้เหตุผลที่ยอดเยี่ยม แต่ยังมีความรู้เฉพาะโดเมนและเฉพาะองค์กรอย่างจำกัด
  - เพื่อสร้างประสบการณ์ AI ที่ใช้งานได้จริง ทีมต่าง ๆ จึงเริ่มจาก retrieval-augmented generation (RAG) และปรับใช้เทคนิคเสริมความรู้ได้อย่างรวดเร็ว
  - RAG ช่วยมอบ "หน่วยความจำ" เฉพาะองค์กรให้กับโมเดลพื้นฐานผ่าน vector database อย่าง Pinecone
  - ปัจจุบันเทคนิคนี้นำหน้าเทคนิคปรับแต่งอื่น ๆ ที่อยู่ในระบบ production มาก เช่น fine-tuning, low-rank adaptation หรือ adapter ซึ่งโดยหลักทำงานที่ชั้นโมเดล ไม่ใช่ชั้นข้อมูล
  - แนวโน้มนี้จะดำเนินต่อไป และคาดว่าส่วนใหม่ของ data plane รวมถึงเอนจินเตรียมข้อมูลล่วงหน้า (เช่น Cleanlab) และ ETL pipe (เช่น Unstructured) จะถูกผสานเข้ากับสถาปัตยกรรม runtime
- 4. ตอนนี้นักพัฒนาทุกคนคือนักพัฒนา AI
  - ทั่วโลกมีนักพัฒนาประมาณ 30 ล้านคน ขณะที่มี ML engineer เพียง 300,000 คน และ ML researcher เพียง 30,000 คน
  - สำหรับผู้ที่สร้างนวัตกรรมแนวหน้าของ ML มีการประเมินว่านักวิจัยที่รู้วิธีสร้างระบบระดับ GPT-4 หรือ Claude 2 มีอยู่เพียงราว 50 คนทั่วโลก
  - เมื่อเผชิญกับความจริงนี้ ข่าวดีก็คืองานที่เคยต้องใช้การวิจัยพื้นฐานหลายปีและความเชี่ยวชาญ ML ระดับสูง ตอนนี้นักพัฒนาสายหลักที่ทำ data system engineering บนฐานของ LLM ที่ pretrain มาอย่างทรงพลังสามารถทำเสร็จได้ภายในไม่กี่วันหรือไม่กี่สัปดาห์
  - ผลิตภัณฑ์อย่าง Einstein GPT ของ Salesforce (AI CoPilot สำหรับ Sales) และ Intuit Assist (ผู้ช่วยการเงินที่ขับเคลื่อนด้วย Generative AI) ถูกสร้างขึ้นโดยทีมขนาดเล็กที่ประกอบด้วยวิศวกร AI เป็นหลัก (ก็คือวิศวกร full-stack แบบดั้งเดิมที่ทำงานบน data plane ของสแต็ก AI สมัยใหม่)

ขั้นต่อไป

สแต็ก AI สมัยใหม่กำลังพัฒนาอย่างรวดเร็ว และมีพัฒนาการหลายอย่างที่คาดว่าจะดำเนินต่อเนื่องในปีนี้
แอปพลิเคชัน AI รุ่นถัดไปกำลังทดลองใช้ RAG ที่ก้าวหน้ากว่าเดิม
- แม้วันนี้ RAG จะเป็นราชา แต่แนวทางนี้ก็ไม่ได้ไร้ปัญหา
- การนำไปใช้จำนวนมากยังอาศัยเทคนิค embedding และ retrieval แบบพื้นฐาน เช่น การแบ่งเอกสารเป็นชิ้นตามจำนวนโทเคน การทำดัชนีที่ไม่มีประสิทธิภาพ และอัลกอริทึมจัดอันดับที่ไม่ดีพอ
- ปัญหาที่พบได้แก่ การแตกกระจายของบริบท, hallucination, ความหายากของเอนทิตี, และการค้นคืนที่ไม่มีประสิทธิภาพ
- เพื่อแก้ปัญหาเหล่านี้ สถาปัตยกรรมยุคถัดไปกำลังทดสอบ RAG ที่ก้าวหน้าขึ้น เช่น Chain-Of-Thought reasoning, Tree-Of-Thought reasoning, Reflexion และการค้นคืนแบบอิงกฎ
โมเดลขนาดเล็กจะมีสัดส่วนมากขึ้นในสแต็ก AI สมัยใหม่
- เมื่อผู้สร้างแอปพลิเคชัน AI ลงลึกกับสแต็ก AI สมัยใหม่มากขึ้น คาดว่าจะเห็นการเพิ่มขึ้นของโมเดลที่ละเอียดและเฉพาะงานมากขึ้น
- โมเดลเฉพาะงานที่ผ่านการ fine-tune จะขยายตัวในพื้นที่เฉพาะที่โมเดลปิดซอร์สขนาดใหญ่ใช้งานยากหรือมีต้นทุนสูงเกินไป
- โครงสร้างพื้นฐานสำหรับสร้าง ML pipeline และการ fine-tuning จะมีความสำคัญอย่างมากในระยะนี้ เมื่อองค์กรเริ่มสร้างโมเดลเฉพาะงานของตนเอง
- เทคโนโลยี quantization จาก Ollama และ ggml ช่วยให้ทีมได้รับประโยชน์สูงสุดด้านความเร็วจากโมเดลขนาดเล็ก
กำลังมีเครื่องมือใหม่สำหรับการสังเกตการณ์ (Observability) และการประเมินโมเดล (Model Evaluation) เกิดขึ้น
- ตลอดช่วงส่วนใหญ่ของปี 2023 การทำ logging และ evaluation แทบไม่มีเลย หรือทำด้วยมือ หรืออาศัย academic benchmark ซึ่งเป็นเพียงจุดเริ่มต้นของแอปพลิเคชันระดับองค์กรส่วนใหญ่
- งานวิจัยของ Criteo พบว่าจากองค์กรที่นำ AI มาใช้ ราว 70% ใช้การให้มนุษย์ตรวจทานผลลัพธ์เป็นเทคนิคการประเมินหลัก เนื่องจากความเสี่ยงสูง
- ลูกค้าคาดหวังผลลัพธ์ที่มีคุณภาพสูงและสมควรได้รับเช่นนั้น และองค์กรก็รู้ดีว่าพวกเขาอาจสูญเสียความเชื่อมั่นของลูกค้าจาก hallucination
- ดังนั้น การสังเกตการณ์และการประเมินจึงเป็นโอกาสสำคัญสำหรับเครื่องมือรูปแบบใหม่
- ขณะนี้มีแนวทางใหม่ที่น่าสนใจเกิดขึ้นแล้ว เช่น Braintrust, Patronus, Log10 และ AgentOps
สถาปัตยกรรมจะเคลื่อนไปในทิศทาง serverless
- เช่นเดียวกับระบบข้อมูลสำหรับองค์กรอื่น ๆ สแต็ก AI สมัยใหม่กำลังเคลื่อนไปสู่ serverless ตามเวลา
- ในที่นี้มีการแยกความต่างระหว่าง serverless แบบ "เครื่องชั่วคราว" (เช่น lambda function) กับ serverless แบบ scale to zero อย่างแท้จริง (เช่นสถาปัตยกรรม Neon สำหรับ Postgres)
- สำหรับ serverless แบบ scale to zero การทำให้โครงสร้างพื้นฐานเป็นนามธรรมช่วยให้นักพัฒนาลดความซับซ้อนด้านปฏิบัติการของการรันแอปพลิเคชัน ทำงานแบบวนรอบได้เร็วขึ้น และองค์กรจ่ายเฉพาะความพร้อมใช้งานแทนการจ่ายตามคอมพิวต์ จึงได้การเพิ่มประสิทธิภาพทรัพยากรอย่างมาก
- กระบวนทัศน์ serverless จะถูกนำไปใช้กับทุกส่วนของสแต็ก AI สมัยใหม่
- Pinecone ได้นำแนวทางนี้มาใช้ในฐานะสถาปัตยกรรมสมัยใหม่สำหรับ vector computing
- Neon ทำแบบเดียวกันสำหรับ Postgres, Momento สำหรับ caching, และ Baseten กับ Modal สำหรับ inference

6 ความคิดเห็น

hyeonseokoh94 2024-01-31

บทความดีและอ่านสนุก

galadbran 2024-01-30

https://th.news.hada.io/topic?id=6658 Neon - Postgres แบบ serverless โอเพนซอร์ส

kaistj 2024-01-30

หวังว่าในสภาพแวดล้อมที่เปลี่ยนแปลงไปจะมีโอกาสใหม่ ๆ เกิดขึ้นมากมาย~
ไปในทิศทางที่ดี

dlehals2 2024-01-29

ทั่วโลกมีนักพัฒนาแค่ประมาณ 30 ล้านคนเองเหรอ??

xguru 2024-01-29

ตามรายงานของ Evans Data Corporation ที่มักถูกอ้างอิง จำนวนอยู่ที่ประมาณ 26.3 ล้านคน ณ ปี 2022
https://www.evansdata.com/press/viewRelease.php?pressID=339

แม้นักพัฒนาที่ใช้ GitHub จะมีจำนวนเกิน 100 ล้านคนแล้ว แต่ก็ดูเหมือนจะยากที่จะมองว่าทั้งหมดเป็นนักพัฒนาได้
https://github.blog/2023-01-25-100-million-developers-and-counting/