30 คะแนน โดย xguru 2024-04-21 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • ในบทสัมภาษณ์กับ Dwarkesh Patel มีการพูดถึง Llama 3, การโอเพนซอร์สมุ่งสู่ AGI, custom silicon, และข้อจำกัดด้านพลังงานต่อการสเกล จึงสรุปสคริปต์ทั้งหมดแบบสั้นๆ

Llama 3

  • Meta เปิดตัว Llama 3 ซึ่งเป็นโมเดลโอเพนซอร์ส เพื่อใช้ขับเคลื่อน Meta AI เวอร์ชันใหม่
  • Meta AI ตั้งเป้าเป็นผู้ช่วย AI ที่ฉลาดที่สุดและใช้งานได้อย่างเสรี
  • ขณะนี้ Llama 3 มีให้ในรูปแบบโมเดล Dense ขนาด 8B, 70B ที่เปิดตัวแล้ว และ 405B ที่ยังอยู่ระหว่างการฝึก
  • มีโรดแมปสำหรับรีลีสใหม่ที่รองรับมัลติโหมด หลายภาษา และมี context window ใหญ่ขึ้น โดยมีแผนจะทยอยเปิดใช้ 405B ภายในปีนี้
  • 405B ยังอยู่ระหว่างการฝึก และทำได้ถึง 85 MMLU แล้ว โดยคาดว่าจะขึ้นนำในหลายเบนช์มาร์ก
  • Llama 3 รุ่น 8B มีประสิทธิภาพเกือบเทียบเท่ากับ Llama 2 รุ่นขนาดใหญ่ที่สุด
  • รุ่น 70B ก็ยอดเยี่ยมเช่นกัน โดยทำได้ 82 MMLU แล้ว

GPU

  • Meta จัดหา H100 GPU ไว้ตั้งแต่ปี 2022 ตอนที่ราคาหุ้นกำลังร่วง เพื่อสร้าง Reels
  • ข้อจำกัดด้านโครงสร้างพื้นฐานทำให้ไล่ตามสิ่งที่ TikTok ทำอยู่ได้ไม่เร็วเท่าที่ต้องการ จึงสั่งเพิ่มเป็นสองเท่าเพื่อไม่ให้ตกอยู่ในสถานการณ์แบบนั้นอีก
  • ตอนนั้นคาดว่าในอนาคตน่าจะต้องใช้กับการฝึกโมเดลขนาดใหญ่ แต่ในเวลานั้นคิดว่าเป็นเรื่องของระบบแนะนำคอนเทนต์เท่านั้น
  • เมื่อมองย้อนกลับไป นี่เป็นการตัดสินใจที่ดีมาก และเป็นไปได้เพราะตอนนั้นตามหลังอยู่
  • ไม่ใช่กรณีแบบ "อ้อ ฉันล้ำหน้าเกินไปแล้ว"
  • จริงๆ แล้ว หลายครั้งที่การตัดสินใจของเรากลายเป็นการตัดสินใจที่ดี ก็เพราะก่อนหน้านั้นเราเคยพลาดอะไรบางอย่าง และไม่อยากทำผิดซ้ำอีก

ความสำคัญของความสามารถด้านโค้ดและการให้เหตุผลต่อ AGI (Artificial General Intelligence)

  • Meta ตระหนักว่าความสามารถด้านโค้ดและการให้เหตุผลมีความสำคัญต่อการแก้ปัญหา use case จริงของโมเดล แม้จะไม่ได้รับคำถามเกี่ยวกับโค้ดโดยตรงก็ตาม
  • เป้าหมายสุดท้ายคือการแก้โจทย์ AGI และทำให้โมเดลสามารถทำงานที่ซับซ้อนหลายขั้นตอนได้
  • AGI จะบรรลุได้ด้วยการค่อยๆ เพิ่มความสามารถหลากหลาย เช่น มัลติโหมด ความเข้าใจอารมณ์ และหน่วยความจำ

คอขวดด้านพลังงานและการขยายสเกล

  • ความก้าวหน้าแบบทวีคูณของขนาดโมเดลอาจดำเนินต่อไปได้ แต่สุดท้ายจะชนกับคอขวดด้านพลังงานและโครงสร้างพื้นฐาน
  • ปัจจุบัน data center จำนวนมากอยู่ที่ราว 50 เมกะวัตต์ หรือ 100MW และ data center ขนาดใหญ่จะอยู่ที่ 150MW
  • อย่างไรก็ตาม จะเริ่มมีการสร้าง data center ขนาด 300MW, 500MW หรือ 1GW (แม้ขนาด 1GW จะยังไม่มีในตอนนี้ แต่จะมีในไม่ช้า)
  • แต่ถ้าเป็นระดับ 1GW ก็จะต้องใช้ขนาดเทียบเท่าโรงไฟฟ้านิวเคลียร์เพียงเพื่อการฝึกโมเดล และการสร้างคลัสเตอร์ระดับกิกะวัตต์เช่นนี้จะใช้เวลาหลายปีเพราะขั้นตอนการอนุญาตที่เข้มงวด

ความสำคัญของการปฏิวัติ AI

  • AI เป็นสิ่งพื้นฐานพอๆ กับการกำเนิดของคอมพิวติ้งเอง และจะเปลี่ยนวิธีการทำงานของเรา พร้อมมอบเครื่องมือสร้างสรรค์รูปแบบใหม่
  • หากมองในสเกลเวลาระดับจักรวาล ความก้าวหน้าจะรวดเร็ว แต่เพราะมีคอขวด จึงจะไม่เกิดการระเบิดของสติปัญญาแบบชั่วข้ามคืน
  • ดูเหมือนว่าเรากำลังมุ่งไปสู่ทิศทางที่สติปัญญาอาจแยกออกจากจิตสำนึกและความเป็นตัวการได้ ซึ่งเขาคิดว่านั่นอาจเป็นเครื่องมือที่มีคุณค่าอย่างมาก

โอเพนซอร์สและดุลอำนาจ

  • การที่ AI ทรงพลังถูกรวมศูนย์อยู่ในมือคนเพียงไม่กี่ราย อาจอันตรายพอๆ กับการทำให้มันเข้าถึงได้อย่างกว้างขวาง
  • เราสนับสนุนโอเพนซอร์สอย่างชัดเจน แต่ก็ไม่ได้เปิดทุกอย่างที่เราทำ
  • การโอเพนซอร์สช่วยให้ชุมชนทำให้โมเดลแข็งแกร่งขึ้น และช่วยรับประกันสนามแข่งขันที่สมดุลมากขึ้น
  • แต่หากถึงจุดหนึ่งเกิดการเปลี่ยนแปลงเชิงคุณภาพในความสามารถของมันจนมองว่าไม่เหมาะจะโอเพนซอร์ส ก็จะไม่โอเพนซอร์ส เพราะทุกอย่างคาดเดาได้ยากมาก
  • Meta มุ่งไปทางโอเพนซอร์สตราบใดที่ยังมีความรับผิดชอบและเป็นประโยชน์ และสามารถเรียกเก็บค่าใช้โมเดลจากผู้ให้บริการคลาวด์ได้
  • ในระยะสั้นจะเน้นการบรรเทาความเสียหายจริงจากการใช้โมเดลในทางที่ผิด และในระยะยาวจะเน้นความเสี่ยงระดับอัตถิภาวนิยม

เหตุผลที่โอเพนซอร์สโมเดลมูลค่า 1 หมื่นล้านดอลลาร์

  • สิ่งที่น่าหงุดหงิดใน ecosystem มือถือคือมีบริษัท gatekeeper อยู่สองราย คือ Apple และ Google
  • สองบริษัทนี้เป็นคนบอกว่าคุณจะสร้างอะไรได้บ้าง
  • นอกจากประเด็นทางเศรษฐกิจที่ถ้าเราสร้างอะไรขึ้นมา พวกเขาก็เอาเงินไปแล้ว ยังมีประเด็นเชิงคุณภาพที่น่าหงุดหงิดยิ่งกว่า
  • หลายครั้งที่เราเปิดตัวฟีเจอร์หรืออยากเปิดตัวฟีเจอร์ แต่ Apple บอกว่า "ไม่ได้ ฟีเจอร์นั้นเปิดตัวไม่ได้"
  • มันน่าหงุดหงิดมาก แล้วเราต้องการโลกแบบนั้นใน AI ด้วยหรือไม่
  • จะปล่อยให้มีบริษัทไม่กี่แห่งที่รันโมเดลแบบปิดและควบคุม API เพื่อบอกว่าคุณสร้างอะไรได้หรือ?
  • ดังนั้นจึงพูดได้ว่าการสร้างโมเดลด้วยตัวเองมีคุณค่า เพื่อไม่ให้เราไปอยู่ในสถานะนั้น
  • เราไม่ต้องการให้บริษัทอื่นมาบอกว่าเราจะสร้างอะไรได้
  • และจากมุมมองของโอเพนซอร์ส ก็คิดว่านักพัฒนาจำนวนมากคงไม่ต้องการให้บริษัทเหล่านี้เป็นฝ่ายกำหนดว่าอะไรสร้างได้บ้างเช่นกัน
  • ถ้าเช่นนั้น คำถามก็คือ ecosystem ที่จะถูกสร้างขึ้นรอบสิ่งนี้คืออะไร
    • มีอะไรใหม่ๆ ที่น่าสนใจบ้าง?
    • มันจะช่วยยกระดับผลิตภัณฑ์ของเราได้มากแค่ไหน?
  • เขาคิดว่าหลายครั้งเราจะได้รับสิ่งสนับสนุนที่มีคุณค่าจากชุมชน ซึ่งช่วยให้สร้างผลิตภัณฑ์ที่ดีขึ้นได้ คล้ายกับกรณีของฐานข้อมูล ระบบแคช หรือสถาปัตยกรรม
  • จากนั้นงานเฉพาะแอปที่เราทำก็จะยังคงเป็นจุดแตกต่าง และจะไม่กลายเป็นสิ่งที่ไร้ความสำคัญ
  • เราจะยังทำในสิ่งที่เราทำได้
  • และเพราะเป็นโอเพนซอร์ส ทั้งระบบของเราและของชุมชนก็จะดีขึ้นทั้งหมด
  • แต่ก็มีโลกอีกแบบหนึ่งได้เช่นกัน
  • บางทีโมเดลอาจเข้าใกล้การเป็นตัวผลิตภัณฑ์เองมากขึ้น
  • การคำนวณทางเศรษฐศาสตร์ก็น่าจะซับซ้อนขึ้นมาก ไม่ว่าจะโอเพนซอร์สหรือไม่ เพราะสุดท้ายก็ทำให้ตัวเองกลายเป็น commodity มากขึ้น
  • แต่จากที่เห็นจนถึงตอนนี้ ดูเหมือนเรายังไม่ได้อยู่ในจุดนั้น

การสร้างรายได้จากโมเดล

  • คาดว่าจะสร้างรายได้ก้อนใหญ่จากการให้ไลเซนส์โมเดลแก่ผู้ให้บริการคลาวด์หรือไม่?
  • ในหลายแง่มุม Llama เป็นไลเซนส์โอเพนซอร์สที่ค่อนข้างเปิดกว้างมาก
  • เพียงแต่มีข้อจำกัดสำหรับบริษัทขนาดใหญ่ที่นำมันไปใช้ และนี่คือเหตุผลที่เราวางข้อจำกัดนั้นไว้
  • เราไม่ได้พยายามห้ามไม่ให้พวกเขาใช้ แต่ถ้าพวกเขาจะนำสิ่งที่เราสร้างไปขายต่อเพื่อทำเงิน ก็อยากให้มาคุยกับเราก่อน
  • ในกรณีของ Microsoft Azure หรือ Amazon หากต้องการขายต่อโมเดล ก็ควรมีการแบ่งรายได้ในส่วนนั้น
  • เพราะฉะนั้นก่อนจะทำแบบนั้น ให้มาคุยกับเราก่อน นั่นคือแนวทางการดำเนินการ
  • ดังนั้นในกรณีของ Llama-2 เราจึงมีข้อตกลงกับบริษัทคลาวด์รายใหญ่แทบทั้งหมด และ Llama-2 ก็มีให้ใช้เป็นบริการโฮสต์บนคลาวด์ทุกแห่ง
  • ยิ่งเราออกโมเดลที่ใหญ่ขึ้นเรื่อยๆ ก็คิดว่านี่จะยิ่งกลายเป็นเรื่องใหญ่ขึ้น
  • นี่ไม่ใช่งานหลักที่เรากำลังทำ แต่ถ้าบริษัทเหล่านั้นขายโมเดลของเรา ก็สมเหตุสมผลที่เราควรได้แบ่งปันประโยชน์นั้นไม่ทางใดก็ทางหนึ่ง

custom silicon

  • Meta กำลังพัฒนา custom silicon เพื่อรันโมเดลขนาดใหญ่ให้มีประสิทธิภาพมากขึ้น
  • แม้ยังไม่ใช่สำหรับ Llama-4 แต่ก่อนหน้านี้ได้สร้าง custom silicon ที่รองรับ inference สำหรับงานจัดอันดับและระบบแนะนำ เพื่อนำไปใช้กับ Reels, โฆษณาใน News Feed และอื่นๆ
  • เมื่อสามารถย้ายงานเหล่านี้ไปอยู่บน silicon ของตัวเองได้ ก็ทำให้ตอนนี้สามารถใช้ NVIDIA GPU ที่แพงกว่ากับงานฝึกโมเดลได้อย่างเดียว
  • ในอนาคตอยากพัฒนาซิลิคอนด้วยตัวเองเพื่อใช้กับการฝึกที่เรียบง่ายก่อน และภายหลังใช้ฝึกโมเดลขนาดใหญ่มากอย่างแท้จริง
  • ระหว่างนี้ก็พูดได้ว่าโครงการกำลังดำเนินไปค่อนข้างดี มีการทยอยนำไปใช้อย่างเป็นระบบ และมีโรดแมประยะยาว

4 ความคิดเห็น

 
laeyoung 2024-04-22

"ถ้าเป็น 1GW แค่การฝึกโมเดลก็ต้องใช้ขนาดระดับโรงไฟฟ้านิวเคลียร์"

ต่อไปนี้ถ้าจะฝึกฟาวน์เดชันโมเดล คงต้องมีการพัฒนาอาวุธนิวเคลียร์(?) กันแล้วสินะ

 
tsboard 2024-04-22

ดูเหมือนว่าเขาจะมีเรื่องให้ต้องขบคิดอยู่มากทีเดียว แต่ความไม่พอใจอย่างชัดเจนที่มีต่อ Google และ Apple ซึ่งกุมอำนาจของแพลตฟอร์มไว้ ก็ถือว่าเข้าใจได้

 
daejin 2024-04-22

หัวข้อ "เหตุผลที่โอเพนซอร์สโมเดลมูลค่า 1 หมื่นล้านดอลลาร์" แม้จะเป็นบทความสรุป แต่ก็มีบางส่วนที่ชวนให้ได้ข้อคิดอยู่เหมือนกันครับ

 
realg 2024-04-21

ขอบคุณสำหรับคอนเทนต์ดี ๆ ครับ