28 คะแนน โดย xguru 2024-01-29 | 6 ความคิดเห็น | แชร์ทาง WhatsApp

คำจำกัดความของสแต็ก AI สมัยใหม่

  • ชั้นที่ 1 : คอมพิวต์และโมเดลพื้นฐาน - รวมทั้งตัวโมเดลพื้นฐานเองและโครงสร้างพื้นฐานสำหรับการฝึก ปรับจูน เพิ่มประสิทธิภาพ และนำโมเดลไปใช้งาน
  • ชั้นที่ 2 : ข้อมูล - รวมโครงสร้างพื้นฐานที่เชื่อม LLM เข้ากับบริบทที่เหมาะสมภายในระบบข้อมูลขององค์กร และประกอบด้วยองค์ประกอบสำคัญ เช่น การเตรียมข้อมูลล่วงหน้า, ETL และ data pipeline, vector database, metadata store, context cache เป็นต้น
  • ชั้นที่ 3 : การปรับใช้ - รวมเครื่องมือที่ช่วยให้นักพัฒนาจัดการและประสานการทำงานของแอปพลิเคชัน AI เช่น agent framework, การจัดการพรอมป์ต์, model routing และ orchestration
  • ชั้นที่ 4 : การสังเกตการณ์ - รวมโซลูชันสำหรับมอนิเตอร์พฤติกรรมขณะรันของ LLM และป้องกันภัยคุกคาม

เส้นโค้งความสุกงอมของ AI แบบใหม่

  • โครงสร้างตลาดและเทคโนโลยีที่นิยามสแต็ก AI สมัยใหม่กำลังพัฒนาอย่างรวดเร็ว และมีองค์ประกอบหลักรวมถึงผู้นำสำคัญเกิดขึ้นแล้ว
  • ก่อนยุค LLM การพัฒนา ML มีลักษณะเป็นเส้นตรงและ "ยึดโมเดลเป็นศูนย์กลาง" แต่ LLM ได้เปลี่ยนไปสู่แนวทาง "ยึดผลิตภัณฑ์เป็นศูนย์กลาง" ทำให้แม้แต่ทีมที่ไม่มีความเชี่ยวชาญด้าน ML ก็สามารถผสาน AI เข้ากับผลิตภัณฑ์ได้
  • เมื่อสแต็ก AI เติบโตเต็มที่มากขึ้น ทีมพัฒนาจะพยายามปรับแต่งประสบการณ์ AI ให้เหมาะกับข้อมูลเฉพาะขององค์กรหรือลูกค้า
  • เส้นโค้งความสุกงอมของ AI
    • ระยะที่ 1: Closed-source models only ใช้เฉพาะโมเดลปิดซอร์ส
      • ในช่วงต้นปี 2023 ต้นทุนและความพยายามด้านวิศวกรรมส่วนใหญ่ยังมุ่งไปที่ตัวโมเดลพื้นฐานเอง และมีเพียงการปรับแต่งแบบง่าย ๆ อยู่ด้านบนเท่านั้น (เช่น prompt engineering / few-shot learning)
      • ผู้ให้บริการโมเดลปิดซอร์สรายใหญ่ เช่น OpenAI และ Anthropic ได้แรงส่งเริ่มต้นในระยะนี้และสร้างสถานะเป็นผู้ชนะกลุ่มแรกของสแต็ก AI สมัยใหม่อย่างชัดเจน
    • ระยะที่ 2: Retrieval-augmented generation การสร้างข้อความแบบเสริมด้วยการค้นคืนข้อมูล
      • ย้ายจุดโฟกัสของความพยายามในการสร้างแอปพลิเคชัน AI ไปยังชั้นข้อมูล (ไม่ใช่ชั้นโมเดล)
      • โดยเฉพาะการแพร่หลายของ RAG ต้องการโครงสร้างพื้นฐานชั้นข้อมูลที่แข็งแกร่งขึ้น เช่น vector database อย่าง Pinecone และเอนจินเตรียมข้อมูลล่วงหน้าอย่าง Unstructured
      • ปัจจุบันองค์กรและสตาร์ตอัปส่วนใหญ่อยู่ในระยะนี้
    • ระยะที่ 3: Hybrid model deployment การปรับใช้โมเดลแบบไฮบริด
      • บริษัทผู้นำอย่าง Typeface และ Descript เริ่มใช้โอเพนซอร์สเพื่อเสริมการใช้โมเดลปิดซอร์สสำหรับงานเฉพาะโดเมนขนาดใหญ่
      • ผู้ให้บริการด้านการปรับใช้โมเดลอย่าง Modal, Baseten และ Fireworks เริ่มได้รับแรงส่งอย่างมีนัยสำคัญ
    • ระยะที่ 4 ขึ้นไป: Custom models โมเดลแบบกำหนดเอง
      • แม้ตอนนี้ยังมีองค์กรไม่มากที่ก้าวหน้าพอหรือจำเป็นต้องสร้างโมเดลของตนเอง แต่ในอนาคตกรณีใช้งานจากองค์กรขนาดใหญ่ที่ต้องการใช้สแต็กในระดับลึกขึ้นจะเพิ่มมากขึ้น
      • บริษัทอย่าง Predibase และ Lamini ซึ่งมีเครื่องมือสำหรับการ fine-tuning ที่ใช้หน่วยความจำอย่างมีประสิทธิภาพ (รวมถึง 4-bit quantization, QLoRA, memory paging/offload) จะเข้ามาสนับสนุนเรื่องนี้

หลักการออกแบบสำคัญ 4 ข้อสำหรับสแต็กโครงสร้างพื้นฐาน AI แบบใหม่

  • การปฏิวัติ AI ไม่ได้เพียงกระตุ้นความต้องการสแต็กโครงสร้างพื้นฐานใหม่เท่านั้น แต่ยังกำลังปรับโฉมวิธีที่องค์กรเข้าหาการพัฒนาแอปพลิเคชัน การใช้จ่ายด้าน R&D และการจัดทีม
  • หลักการออกแบบสำคัญ:
    • 1. ค่าใช้จ่ายส่วนใหญ่ไปอยู่ที่ inference และ training
      • ในช่วงแรกของการปฏิวัติ LLM ดูเหมือนว่าทุกบริษัทจะสามารถฝึก large language model ของตัวเองได้ในวันหนึ่ง
      • โมเดลอย่าง BloombergGPT ที่ประกาศในเดือนมีนาคม 2023 (LLM ขนาด 50b ที่ฝึกมาเฉพาะบนข้อมูลการเงิน) ถูกมองว่าเป็นสัญญาณล่วงหน้าของการหลั่งไหลของ LLM เฉพาะองค์กรและเฉพาะโดเมน
      • แต่กระแสน้ำเชี่ยวเช่นนั้นไม่ได้เกิดขึ้น
      • จากผลสำรวจ enterprise AI ล่าสุดของ Menlo Ventures พบว่าเกือบ 95% ของการใช้จ่ายด้าน AI ทั้งหมดถูกใช้ไปกับ runtime และ pretraining
      • สัดส่วนนี้กลับกันเฉพาะในผู้ให้บริการโมเดลพื้นฐานรายใหญ่ เช่น Anthropic เท่านั้น ส่วนในชั้นแอปพลิเคชัน แม้แต่ผู้สร้าง AI ที่ซับซ้อนอย่าง Writer ก็ยังใช้คอมพิวต์มากกว่า 80% ไปกับ inference ไม่ใช่ training
    • 2. เราอาศัยอยู่ในโลกแบบหลายโมเดล (Multi-Model)
      • ไม่มีโมเดลเดียวที่สามารถ "ครองทุกโมเดล" ได้
      • 60% ขององค์กรใช้หลายโมเดลและทำ routing พรอมป์ต์ไปยังโมเดลที่ให้ผลลัพธ์ดีที่สุด
      • แนวทางหลายโมเดลช่วยลดการพึ่งพาโมเดลเดียว ให้การควบคุมที่สูงขึ้น และลดต้นทุน
    • 3. RAG คือแนวทางสถาปัตยกรรมที่ครองความนิยม
      • LLM เป็นเอนจินการให้เหตุผลที่ยอดเยี่ยม แต่ยังมีความรู้เฉพาะโดเมนและเฉพาะองค์กรอย่างจำกัด
      • เพื่อสร้างประสบการณ์ AI ที่ใช้งานได้จริง ทีมต่าง ๆ จึงเริ่มจาก retrieval-augmented generation (RAG) และปรับใช้เทคนิคเสริมความรู้ได้อย่างรวดเร็ว
      • RAG ช่วยมอบ "หน่วยความจำ" เฉพาะองค์กรให้กับโมเดลพื้นฐานผ่าน vector database อย่าง Pinecone
      • ปัจจุบันเทคนิคนี้นำหน้าเทคนิคปรับแต่งอื่น ๆ ที่อยู่ในระบบ production มาก เช่น fine-tuning, low-rank adaptation หรือ adapter ซึ่งโดยหลักทำงานที่ชั้นโมเดล ไม่ใช่ชั้นข้อมูล
      • แนวโน้มนี้จะดำเนินต่อไป และคาดว่าส่วนใหม่ของ data plane รวมถึงเอนจินเตรียมข้อมูลล่วงหน้า (เช่น Cleanlab) และ ETL pipe (เช่น Unstructured) จะถูกผสานเข้ากับสถาปัตยกรรม runtime
    • 4. ตอนนี้นักพัฒนาทุกคนคือนักพัฒนา AI
      • ทั่วโลกมีนักพัฒนาประมาณ 30 ล้านคน ขณะที่มี ML engineer เพียง 300,000 คน และ ML researcher เพียง 30,000 คน
      • สำหรับผู้ที่สร้างนวัตกรรมแนวหน้าของ ML มีการประเมินว่านักวิจัยที่รู้วิธีสร้างระบบระดับ GPT-4 หรือ Claude 2 มีอยู่เพียงราว 50 คนทั่วโลก
      • เมื่อเผชิญกับความจริงนี้ ข่าวดีก็คืองานที่เคยต้องใช้การวิจัยพื้นฐานหลายปีและความเชี่ยวชาญ ML ระดับสูง ตอนนี้นักพัฒนาสายหลักที่ทำ data system engineering บนฐานของ LLM ที่ pretrain มาอย่างทรงพลังสามารถทำเสร็จได้ภายในไม่กี่วันหรือไม่กี่สัปดาห์
      • ผลิตภัณฑ์อย่าง Einstein GPT ของ Salesforce (AI CoPilot สำหรับ Sales) และ Intuit Assist (ผู้ช่วยการเงินที่ขับเคลื่อนด้วย Generative AI) ถูกสร้างขึ้นโดยทีมขนาดเล็กที่ประกอบด้วยวิศวกร AI เป็นหลัก (ก็คือวิศวกร full-stack แบบดั้งเดิมที่ทำงานบน data plane ของสแต็ก AI สมัยใหม่)

ขั้นต่อไป

  • สแต็ก AI สมัยใหม่กำลังพัฒนาอย่างรวดเร็ว และมีพัฒนาการหลายอย่างที่คาดว่าจะดำเนินต่อเนื่องในปีนี้
  • แอปพลิเคชัน AI รุ่นถัดไปกำลังทดลองใช้ RAG ที่ก้าวหน้ากว่าเดิม
    • แม้วันนี้ RAG จะเป็นราชา แต่แนวทางนี้ก็ไม่ได้ไร้ปัญหา
    • การนำไปใช้จำนวนมากยังอาศัยเทคนิค embedding และ retrieval แบบพื้นฐาน เช่น การแบ่งเอกสารเป็นชิ้นตามจำนวนโทเคน การทำดัชนีที่ไม่มีประสิทธิภาพ และอัลกอริทึมจัดอันดับที่ไม่ดีพอ
    • ปัญหาที่พบได้แก่ การแตกกระจายของบริบท, hallucination, ความหายากของเอนทิตี, และการค้นคืนที่ไม่มีประสิทธิภาพ
    • เพื่อแก้ปัญหาเหล่านี้ สถาปัตยกรรมยุคถัดไปกำลังทดสอบ RAG ที่ก้าวหน้าขึ้น เช่น Chain-Of-Thought reasoning, Tree-Of-Thought reasoning, Reflexion และการค้นคืนแบบอิงกฎ
  • โมเดลขนาดเล็กจะมีสัดส่วนมากขึ้นในสแต็ก AI สมัยใหม่
    • เมื่อผู้สร้างแอปพลิเคชัน AI ลงลึกกับสแต็ก AI สมัยใหม่มากขึ้น คาดว่าจะเห็นการเพิ่มขึ้นของโมเดลที่ละเอียดและเฉพาะงานมากขึ้น
    • โมเดลเฉพาะงานที่ผ่านการ fine-tune จะขยายตัวในพื้นที่เฉพาะที่โมเดลปิดซอร์สขนาดใหญ่ใช้งานยากหรือมีต้นทุนสูงเกินไป
    • โครงสร้างพื้นฐานสำหรับสร้าง ML pipeline และการ fine-tuning จะมีความสำคัญอย่างมากในระยะนี้ เมื่อองค์กรเริ่มสร้างโมเดลเฉพาะงานของตนเอง
    • เทคโนโลยี quantization จาก Ollama และ ggml ช่วยให้ทีมได้รับประโยชน์สูงสุดด้านความเร็วจากโมเดลขนาดเล็ก
  • กำลังมีเครื่องมือใหม่สำหรับการสังเกตการณ์ (Observability) และการประเมินโมเดล (Model Evaluation) เกิดขึ้น
    • ตลอดช่วงส่วนใหญ่ของปี 2023 การทำ logging และ evaluation แทบไม่มีเลย หรือทำด้วยมือ หรืออาศัย academic benchmark ซึ่งเป็นเพียงจุดเริ่มต้นของแอปพลิเคชันระดับองค์กรส่วนใหญ่
    • งานวิจัยของ Criteo พบว่าจากองค์กรที่นำ AI มาใช้ ราว 70% ใช้การให้มนุษย์ตรวจทานผลลัพธ์เป็นเทคนิคการประเมินหลัก เนื่องจากความเสี่ยงสูง
    • ลูกค้าคาดหวังผลลัพธ์ที่มีคุณภาพสูงและสมควรได้รับเช่นนั้น และองค์กรก็รู้ดีว่าพวกเขาอาจสูญเสียความเชื่อมั่นของลูกค้าจาก hallucination
    • ดังนั้น การสังเกตการณ์และการประเมินจึงเป็นโอกาสสำคัญสำหรับเครื่องมือรูปแบบใหม่
    • ขณะนี้มีแนวทางใหม่ที่น่าสนใจเกิดขึ้นแล้ว เช่น Braintrust, Patronus, Log10 และ AgentOps
  • สถาปัตยกรรมจะเคลื่อนไปในทิศทาง serverless
    • เช่นเดียวกับระบบข้อมูลสำหรับองค์กรอื่น ๆ สแต็ก AI สมัยใหม่กำลังเคลื่อนไปสู่ serverless ตามเวลา
    • ในที่นี้มีการแยกความต่างระหว่าง serverless แบบ "เครื่องชั่วคราว" (เช่น lambda function) กับ serverless แบบ scale to zero อย่างแท้จริง (เช่นสถาปัตยกรรม Neon สำหรับ Postgres)
    • สำหรับ serverless แบบ scale to zero การทำให้โครงสร้างพื้นฐานเป็นนามธรรมช่วยให้นักพัฒนาลดความซับซ้อนด้านปฏิบัติการของการรันแอปพลิเคชัน ทำงานแบบวนรอบได้เร็วขึ้น และองค์กรจ่ายเฉพาะความพร้อมใช้งานแทนการจ่ายตามคอมพิวต์ จึงได้การเพิ่มประสิทธิภาพทรัพยากรอย่างมาก
    • กระบวนทัศน์ serverless จะถูกนำไปใช้กับทุกส่วนของสแต็ก AI สมัยใหม่
    • Pinecone ได้นำแนวทางนี้มาใช้ในฐานะสถาปัตยกรรมสมัยใหม่สำหรับ vector computing
    • Neon ทำแบบเดียวกันสำหรับ Postgres, Momento สำหรับ caching, และ Baseten กับ Modal สำหรับ inference

6 ความคิดเห็น

 
hyeonseokoh94 2024-01-31

บทความดีและอ่านสนุก

 
galadbran 2024-01-30

https://th.news.hada.io/topic?id=6658 Neon - Postgres แบบ serverless โอเพนซอร์ส

 
kaistj 2024-01-30

หวังว่าในสภาพแวดล้อมที่เปลี่ยนแปลงไปจะมีโอกาสใหม่ ๆ เกิดขึ้นมากมาย~
ไปในทิศทางที่ดี

 
dlehals2 2024-01-29

ทั่วโลกมีนักพัฒนาแค่ประมาณ 30 ล้านคนเองเหรอ??

 
xguru 2024-01-29

ตามรายงานของ Evans Data Corporation ที่มักถูกอ้างอิง จำนวนอยู่ที่ประมาณ 26.3 ล้านคน ณ ปี 2022
https://www.evansdata.com/press/viewRelease.php?pressID=339

แม้นักพัฒนาที่ใช้ GitHub จะมีจำนวนเกิน 100 ล้านคนแล้ว แต่ก็ดูเหมือนจะยากที่จะมองว่าทั้งหมดเป็นนักพัฒนาได้
https://github.blog/2023-01-25-100-million-developers-and-counting/

 
dlehals2 2024-01-29

อ๋อครับ น้อยกว่าที่คิดเยอะเลยนะครับ ระหว่างนั้นลองค้นหาจำนวนประชากรโลกดูก็พบว่ามี 7.8 พันล้านคนเอง.. ไม่รู้ว่าเพิ่มมาถึงขนาดนี้ตั้งแต่เมื่อไหร่ 55