สัมภาษณ์ Mark Zuckerberg - Llama 3 และเหตุผลที่โอเพนซอร์สโมเดลมูลค่า 1 หมื่นล้านดอลลาร์

xguru · 2024-04-21T13:19:58+09:00

ในบทสัมภาษณ์กับ Dwarkesh Patel มีการพูดถึง Llama 3, การโอเพนซอร์สมุ่งสู่ AGI, custom silicon, และข้อจำกัดด้านพลังงานต่อการสเกล จึงสรุปสคริปต์ทั้งหมดแบบสั้นๆ Llama 3 Meta เปิดตัว Llama 3 ซึ่งเป็นโมเดลโอเพนซอร์ส เพื่อใช้ขับเคลื่อน Meta AI เวอร์ชันใหม่ Meta AI ตั้งเป้าเป็นผู้ช่วย AI ที่ฉลาดที่สุดและใช้งานได้อย่างเสรี ขณะนี้ Llama 3 มีให้ในรูปแบบโมเดล Dense ขนาด 8B, 70B ที่เปิดตัวแล้ว และ 405B ที่ยังอยู่ระหว่างการฝึก มีโรดแมปสำหรับรีลีสใหม่ที่รองรับมัลติโหมด หลายภาษา และมี context window ใหญ่ขึ้น โดยมีแผนจะทยอยเปิดใช้ 405B ภายในปีนี้ 405B ยังอยู่ระหว่างการฝึก และทำได้ถึง 85 MMLU แล้ว โดยคาดว่าจะขึ้นนำในหลายเบนช์มาร์ก Llama 3 รุ่น 8B มีประสิทธิภาพเกือบเทียบเท่ากับ Llama 2 รุ่นขนาดใหญ่ที่สุด รุ่น 70B ก็ยอดเยี่ยมเช่นกัน โดยทำได้ 82 MMLU แล้ว GPU Meta จัดหา H100 GPU ไว้ตั้งแต่ปี 2022 ตอนที่ราคาหุ้นกำลังร่วง เพื่อสร้าง Reels ข้อจำกัดด้านโครงสร้างพื้นฐานทำให้ไล่ตามสิ่งที่ TikTok ทำอยู่ได้ไม่เร็วเท่าที่ต้องการ จึงสั่งเพิ่มเป็นสองเท่าเพื่อไม่ให้ตกอยู่ในสถานการณ์แบบนั้นอีก ตอนนั้นคาดว่าในอนาคตน่าจะต้องใช้กับการฝึกโมเดลขนาดใหญ่ แต่ในเวลานั้นคิดว่าเป็นเรื่องของระบบแนะนำคอนเทนต์เท่านั้น เมื่อมองย้อนกลับไป นี่เป็นการตัดสินใจที่ดีมาก และเป็นไปได้เพราะตอนนั้นตามหลังอยู่ ไม่ใช่กรณีแบบ "อ้อ ฉันล้ำหน้าเกินไปแล้ว" จริงๆ แล้ว หลายครั้งที่การตัดสินใจของเรากลายเป็นการตัดสินใจที่ดี ก็เพราะก่อนหน้านั้นเราเคยพลาดอะไรบางอย่าง และไม่อยากทำผิดซ้ำอีก ความสำคัญของความสามารถด้านโค้ดและการให้เหตุผลต่อ AGI (Artificial General Intelligence) Meta ตระหนักว่าความสามารถด้านโค้ดและการให้เหตุผลมีความสำคัญต่อการแก้ปัญหา use case จริงของโมเดล แม้จะไม่ได้รับคำถามเกี่ยวกับโค้ดโดยตรงก็ตาม เป้าหมายสุดท้ายคือการแก้โจทย์ AGI และทำให้โมเดลสามารถทำงานที่ซับซ้อนหลายขั้นตอนได้ AGI จะบรรลุได้ด้วยการค่อยๆ เพิ่มความสามารถหลากหลาย เช่น มัลติโหมด ความเข้าใจอารมณ์ และหน่วยความจำ คอขวดด้านพลังงานและการขยายสเกล ความก้าวหน้าแบบทวีคูณของขนาดโมเดลอาจดำเนินต่อไปได้ แต่สุดท้ายจะชนกับคอขวดด้านพลังงานและโครงสร้างพื้นฐาน ปัจจุบัน data center จำนวนมากอยู่ที่ราว 50 เมกะวัตต์ หรือ 100MW และ data center ขนาดใหญ่จะอยู่ที่ 150MW อย่างไรก็ตาม จะเริ่มมีการสร้าง data center ขนาด 300MW, 500MW หรือ 1GW (แม้ขนาด 1GW จะยังไม่มีในตอนนี้ แต่จะมีในไม่ช้า) แต่ถ้าเป็นระดับ 1GW ก็จะต้องใช้ขนาดเทียบเท่าโรงไฟฟ้านิวเคลียร์เพียงเพื่อการฝึกโมเดล และการสร้างคลัสเตอร์ระดับกิกะวัตต์เช่นนี้จะใช้เวลาหลายปีเพราะขั้นตอนการอนุญาตที่เข้มงวด ความสำคัญของการปฏิวัติ AI AI เป็นสิ่งพื้นฐานพอๆ กับการกำเนิดของคอมพิวติ้งเอง และจะเปลี่ยนวิธีการทำงานของเรา พร้อมมอบเครื่องมือสร้างสรรค์รูปแบบใหม่ หากมองในสเกลเวลาระดับจักรวาล ความก้าวหน้าจะรวดเร็ว แต่เพราะมีคอขวด จึงจะไม่เกิดการระเบิดของสติปัญญาแบบชั่วข้ามคืน ดูเหมือนว่าเรากำลังมุ่งไปสู่ทิศทางที่สติปัญญาอาจแยกออกจากจิตสำนึกและความเป็นตัวการได้ ซึ่งเขาคิดว่านั่นอาจเป็นเครื่องมือที่มีคุณค่าอย่างมาก โอเพนซอร์สและดุลอำนาจ การที่ AI ทรงพลังถูกรวมศูนย์อยู่ในมือคนเพียงไม่กี่ราย อาจอันตรายพอๆ กับการทำให้มันเข้าถึงได้อย่างกว้างขวาง เราสนับสนุนโอเพนซอร์สอย่างชัดเจน แต่ก็ไม่ได้เปิดทุกอย่างที่เราทำ การโอเพนซอร์สช่วยให้ชุมชนทำให้โมเดลแข็งแกร่งขึ้น และช่วยรับประกันสนามแข่งขันที่สมดุลมากขึ้น แต่หากถึงจุดหนึ่งเกิดการเปลี่ยนแปลงเชิงคุณภาพในความสามารถของมันจนมองว่าไม่เหมาะจะโอเพนซอร์ส ก็จะไม่โอเพนซอร์ส เพราะทุกอย่างคาดเดาได้ยากมาก Meta มุ่งไปทางโอเพนซอร์สตราบใดที่ยังมีความรับผิดชอบและเป็นประโยชน์ และสามารถเรียกเก็บค่าใช้โมเดลจากผู้ให้บริการคลาวด์ได้ ในระยะสั้นจะเน้นการบรรเทาความเสียหายจริงจากการใช้โมเดลในทางที่ผิด และในระยะยาวจะเน้นความเสี่ยงระดับอัตถิภาวนิยม เหตุผลที่โอเพนซอร์สโมเดลมูลค่า 1 หมื่นล้านดอลลาร์ สิ่งที่น่าหงุดหงิดใน ecosystem มือถือคือมีบริษัท gatekeeper อยู่สองราย คือ Apple และ Google สองบริษัทนี้เป็นคนบอกว่าคุณจะสร้างอะไรได้บ้าง นอกจากประเด็นทางเศรษฐกิจที่ถ้าเราสร้างอะไรขึ้นมา พวกเขาก็เอาเงินไปแล้ว ยังมีประเด็นเชิงคุณภาพที่น่าหงุดหงิดยิ่งกว่า หลายครั้งที่เราเปิดตัวฟีเจอร์หรืออยากเปิดตัวฟีเจอร์ แต่ Apple บอกว่า "ไม่ได้ ฟีเจอร์นั้นเปิดตัวไม่ได้" มันน่าหงุดหงิดมาก แล้วเราต้องการโลกแบบนั้นใน AI ด้วยหรือไม่ จะปล่อยให้มีบริษัทไม่กี่แห่งที่รันโมเดลแบบปิดและควบคุม API เพื่อบอกว่าคุณสร้างอะไรได้หรือ? ดังนั้นจึงพูดได้ว่าการสร้างโมเดลด้วยตัวเองมีคุณค่า เพื่อไม่ให้เราไปอยู่ในสถานะนั้น เราไม่ต้องการให้บริษัทอื่นมาบอกว่าเราจะสร้างอะไรได้ และจากมุมมองของโอเพนซอร์ส ก็คิดว่านักพัฒนาจำนวนมากคงไม่ต้องการให้บริษัทเหล่านี้เป็นฝ่ายกำหนดว่าอะไรสร้างได้บ้างเช่นกัน ถ้าเช่นนั้น คำถามก็คือ ecosystem ที่จะถูกสร้างขึ้นรอบสิ่งนี้คืออะไร มีอะไรใหม่ๆ ที่น่าสนใจบ้าง? มันจะช่วยยกระดับผลิตภัณฑ์ของเราได้มากแค่ไหน? เขาคิดว่าหลายครั้งเราจะได้รับสิ่งสนับสนุนที่มีคุณค่าจากชุมชน ซึ่งช่วยให้สร้างผลิตภัณฑ์ที่ดีขึ้นได้ คล้ายกับกรณีของฐานข้อมูล ระบบแคช หรือสถาปัตยกรรม จากนั้นงานเฉพาะแอปที่เราทำก็จะยังคงเป็นจุดแตกต่าง และจะไม่กลายเป็นสิ่งที่ไร้ความสำคัญ เราจะยังทำในสิ่งที่เราทำได้ และเพราะเป็นโอเพนซอร์ส ทั้งระบบของเราและของชุมชนก็จะดีขึ้นทั้งหมด แต่ก็มีโลกอีกแบบหนึ่งได้เช่นกัน บางทีโมเดลอาจเข้าใกล้การเป็นตัวผลิตภัณฑ์เองมากขึ้น การคำนวณทางเศรษฐศาสตร์ก็น่าจะซับซ้อนขึ้นมาก ไม่ว่าจะโอเพนซอร์สหรือไม่ เพราะสุดท้ายก็ทำให้ตัวเองกลายเป็น commodity มากขึ้น แต่จากที่เห็นจนถึงตอนนี้ ดูเหมือนเรายังไม่ได้อยู่ในจุดนั้น การสร้างรายได้จากโมเดล คาดว่าจะสร้างรายได้ก้อนใหญ่จากการให้ไลเซนส์โมเดลแก่ผู้ให้บริการคลาวด์หรือไม่? ในหลายแง่มุม Llama เป็นไลเซนส์โอเพนซอร์สที่ค่อนข้างเปิดกว้างมาก เพียงแต่มีข้อจำกัดสำหรับบริษัทขนาดใหญ่ที่นำมันไปใช้ และนี่คือเหตุผลที่เราวางข้อจำกัดนั้นไว้ เราไม่ได้พยายามห้ามไม่ให้พวกเขาใช้ แต่ถ้าพวกเขาจะนำสิ่งที่เราสร้างไปขายต่อเพื่อทำเงิน ก็อยากให้มาคุยกับเราก่อน ในกรณีของ Microsoft Azure หรือ Amazon หากต้องการขายต่อโมเดล ก็ควรมีการแบ่งรายได้ในส่วนนั้น เพราะฉะนั้นก่อนจะทำแบบนั้น ให้มาคุยกับเราก่อน นั่นคือแนวทางการดำเนินการ ดังนั้นในกรณีของ Llama-2 เราจึงมีข้อตกลงกับบริษัทคลาวด์รายใหญ่แทบทั้งหมด และ Llama-2 ก็มีให้ใช้เป็นบริการโฮสต์บนคลาวด์ทุกแห่ง ยิ่งเราออกโมเดลที่ใหญ่ขึ้นเรื่อยๆ ก็คิดว่านี่จะยิ่งกลายเป็นเรื่องใหญ่ขึ้น นี่ไม่ใช่งานหลักที่เรากำลังทำ แต่ถ้าบริษัทเหล่านั้นขายโมเดลของเรา ก็สมเหตุสมผลที่เราควรได้แบ่งปันประโยชน์นั้นไม่ทางใดก็ทางหนึ่ง custom silicon Meta กำลังพัฒนา custom silicon เพื่อรันโมเดลขนาดใหญ่ให้มีประสิทธิภาพมากขึ้น แม้ยังไม่ใช่สำหรับ Llama-4 แต่ก่อนหน้านี้ได้สร้าง custom silicon ที่รองรับ inference สำหรับงานจัดอันดับและระบบแนะนำ เพื่อนำไปใช้กับ Reels, โฆษณาใน News Feed และอื่นๆ เมื่อสามารถย้ายงานเหล่านี้ไปอยู่บน silicon ของตัวเองได้ ก็ทำให้ตอนนี้สามารถใช้ NVIDIA GPU ที่แพงกว่ากับงานฝึกโมเดลได้อย่างเดียว ในอนาคตอยากพัฒนาซิลิคอนด้วยตัวเองเพื่อใช้กับการฝึกที่เรียบง่ายก่อน และภายหลังใช้ฝึกโมเดลขนาดใหญ่มากอย่างแท้จริง ระหว่างนี้ก็พูดได้ว่าโครงการกำลังดำเนินไปค่อนข้างดี มีการทยอยนำไปใช้อย่างเป็นระบบ และมีโรดแมประยะยาว

(dwarkeshpatel.com)

30 คะแนน โดย xguru 2024-04-21 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

ในบทสัมภาษณ์กับ Dwarkesh Patel มีการพูดถึง Llama 3, การโอเพนซอร์สมุ่งสู่ AGI, custom silicon, และข้อจำกัดด้านพลังงานต่อการสเกล จึงสรุปสคริปต์ทั้งหมดแบบสั้นๆ

Llama 3

Meta เปิดตัว Llama 3 ซึ่งเป็นโมเดลโอเพนซอร์ส เพื่อใช้ขับเคลื่อน Meta AI เวอร์ชันใหม่
Meta AI ตั้งเป้าเป็นผู้ช่วย AI ที่ฉลาดที่สุดและใช้งานได้อย่างเสรี
ขณะนี้ Llama 3 มีให้ในรูปแบบโมเดล Dense ขนาด 8B, 70B ที่เปิดตัวแล้ว และ 405B ที่ยังอยู่ระหว่างการฝึก
มีโรดแมปสำหรับรีลีสใหม่ที่รองรับมัลติโหมด หลายภาษา และมี context window ใหญ่ขึ้น โดยมีแผนจะทยอยเปิดใช้ 405B ภายในปีนี้
405B ยังอยู่ระหว่างการฝึก และทำได้ถึง 85 MMLU แล้ว โดยคาดว่าจะขึ้นนำในหลายเบนช์มาร์ก
Llama 3 รุ่น 8B มีประสิทธิภาพเกือบเทียบเท่ากับ Llama 2 รุ่นขนาดใหญ่ที่สุด
รุ่น 70B ก็ยอดเยี่ยมเช่นกัน โดยทำได้ 82 MMLU แล้ว

GPU

Meta จัดหา H100 GPU ไว้ตั้งแต่ปี 2022 ตอนที่ราคาหุ้นกำลังร่วง เพื่อสร้าง Reels
ข้อจำกัดด้านโครงสร้างพื้นฐานทำให้ไล่ตามสิ่งที่ TikTok ทำอยู่ได้ไม่เร็วเท่าที่ต้องการ จึงสั่งเพิ่มเป็นสองเท่าเพื่อไม่ให้ตกอยู่ในสถานการณ์แบบนั้นอีก
ตอนนั้นคาดว่าในอนาคตน่าจะต้องใช้กับการฝึกโมเดลขนาดใหญ่ แต่ในเวลานั้นคิดว่าเป็นเรื่องของระบบแนะนำคอนเทนต์เท่านั้น
เมื่อมองย้อนกลับไป นี่เป็นการตัดสินใจที่ดีมาก และเป็นไปได้เพราะตอนนั้นตามหลังอยู่
ไม่ใช่กรณีแบบ "อ้อ ฉันล้ำหน้าเกินไปแล้ว"
จริงๆ แล้ว หลายครั้งที่การตัดสินใจของเรากลายเป็นการตัดสินใจที่ดี ก็เพราะก่อนหน้านั้นเราเคยพลาดอะไรบางอย่าง และไม่อยากทำผิดซ้ำอีก

ความสำคัญของความสามารถด้านโค้ดและการให้เหตุผลต่อ AGI (Artificial General Intelligence)

Meta ตระหนักว่าความสามารถด้านโค้ดและการให้เหตุผลมีความสำคัญต่อการแก้ปัญหา use case จริงของโมเดล แม้จะไม่ได้รับคำถามเกี่ยวกับโค้ดโดยตรงก็ตาม
เป้าหมายสุดท้ายคือการแก้โจทย์ AGI และทำให้โมเดลสามารถทำงานที่ซับซ้อนหลายขั้นตอนได้
AGI จะบรรลุได้ด้วยการค่อยๆ เพิ่มความสามารถหลากหลาย เช่น มัลติโหมด ความเข้าใจอารมณ์ และหน่วยความจำ

คอขวดด้านพลังงานและการขยายสเกล

ความก้าวหน้าแบบทวีคูณของขนาดโมเดลอาจดำเนินต่อไปได้ แต่สุดท้ายจะชนกับคอขวดด้านพลังงานและโครงสร้างพื้นฐาน
ปัจจุบัน data center จำนวนมากอยู่ที่ราว 50 เมกะวัตต์ หรือ 100MW และ data center ขนาดใหญ่จะอยู่ที่ 150MW
อย่างไรก็ตาม จะเริ่มมีการสร้าง data center ขนาด 300MW, 500MW หรือ 1GW (แม้ขนาด 1GW จะยังไม่มีในตอนนี้ แต่จะมีในไม่ช้า)
แต่ถ้าเป็นระดับ 1GW ก็จะต้องใช้ขนาดเทียบเท่าโรงไฟฟ้านิวเคลียร์เพียงเพื่อการฝึกโมเดล และการสร้างคลัสเตอร์ระดับกิกะวัตต์เช่นนี้จะใช้เวลาหลายปีเพราะขั้นตอนการอนุญาตที่เข้มงวด

ความสำคัญของการปฏิวัติ AI

AI เป็นสิ่งพื้นฐานพอๆ กับการกำเนิดของคอมพิวติ้งเอง และจะเปลี่ยนวิธีการทำงานของเรา พร้อมมอบเครื่องมือสร้างสรรค์รูปแบบใหม่
หากมองในสเกลเวลาระดับจักรวาล ความก้าวหน้าจะรวดเร็ว แต่เพราะมีคอขวด จึงจะไม่เกิดการระเบิดของสติปัญญาแบบชั่วข้ามคืน
ดูเหมือนว่าเรากำลังมุ่งไปสู่ทิศทางที่สติปัญญาอาจแยกออกจากจิตสำนึกและความเป็นตัวการได้ ซึ่งเขาคิดว่านั่นอาจเป็นเครื่องมือที่มีคุณค่าอย่างมาก

โอเพนซอร์สและดุลอำนาจ

การที่ AI ทรงพลังถูกรวมศูนย์อยู่ในมือคนเพียงไม่กี่ราย อาจอันตรายพอๆ กับการทำให้มันเข้าถึงได้อย่างกว้างขวาง
เราสนับสนุนโอเพนซอร์สอย่างชัดเจน แต่ก็ไม่ได้เปิดทุกอย่างที่เราทำ
การโอเพนซอร์สช่วยให้ชุมชนทำให้โมเดลแข็งแกร่งขึ้น และช่วยรับประกันสนามแข่งขันที่สมดุลมากขึ้น
แต่หากถึงจุดหนึ่งเกิดการเปลี่ยนแปลงเชิงคุณภาพในความสามารถของมันจนมองว่าไม่เหมาะจะโอเพนซอร์ส ก็จะไม่โอเพนซอร์ส เพราะทุกอย่างคาดเดาได้ยากมาก
Meta มุ่งไปทางโอเพนซอร์สตราบใดที่ยังมีความรับผิดชอบและเป็นประโยชน์ และสามารถเรียกเก็บค่าใช้โมเดลจากผู้ให้บริการคลาวด์ได้
ในระยะสั้นจะเน้นการบรรเทาความเสียหายจริงจากการใช้โมเดลในทางที่ผิด และในระยะยาวจะเน้นความเสี่ยงระดับอัตถิภาวนิยม

เหตุผลที่โอเพนซอร์สโมเดลมูลค่า 1 หมื่นล้านดอลลาร์

สิ่งที่น่าหงุดหงิดใน ecosystem มือถือคือมีบริษัท gatekeeper อยู่สองราย คือ Apple และ Google
สองบริษัทนี้เป็นคนบอกว่าคุณจะสร้างอะไรได้บ้าง
นอกจากประเด็นทางเศรษฐกิจที่ถ้าเราสร้างอะไรขึ้นมา พวกเขาก็เอาเงินไปแล้ว ยังมีประเด็นเชิงคุณภาพที่น่าหงุดหงิดยิ่งกว่า
หลายครั้งที่เราเปิดตัวฟีเจอร์หรืออยากเปิดตัวฟีเจอร์ แต่ Apple บอกว่า "ไม่ได้ ฟีเจอร์นั้นเปิดตัวไม่ได้"
มันน่าหงุดหงิดมาก แล้วเราต้องการโลกแบบนั้นใน AI ด้วยหรือไม่
จะปล่อยให้มีบริษัทไม่กี่แห่งที่รันโมเดลแบบปิดและควบคุม API เพื่อบอกว่าคุณสร้างอะไรได้หรือ?
ดังนั้นจึงพูดได้ว่าการสร้างโมเดลด้วยตัวเองมีคุณค่า เพื่อไม่ให้เราไปอยู่ในสถานะนั้น
เราไม่ต้องการให้บริษัทอื่นมาบอกว่าเราจะสร้างอะไรได้
และจากมุมมองของโอเพนซอร์ส ก็คิดว่านักพัฒนาจำนวนมากคงไม่ต้องการให้บริษัทเหล่านี้เป็นฝ่ายกำหนดว่าอะไรสร้างได้บ้างเช่นกัน
ถ้าเช่นนั้น คำถามก็คือ ecosystem ที่จะถูกสร้างขึ้นรอบสิ่งนี้คืออะไร
- มีอะไรใหม่ๆ ที่น่าสนใจบ้าง?
- มันจะช่วยยกระดับผลิตภัณฑ์ของเราได้มากแค่ไหน?
เขาคิดว่าหลายครั้งเราจะได้รับสิ่งสนับสนุนที่มีคุณค่าจากชุมชน ซึ่งช่วยให้สร้างผลิตภัณฑ์ที่ดีขึ้นได้ คล้ายกับกรณีของฐานข้อมูล ระบบแคช หรือสถาปัตยกรรม
จากนั้นงานเฉพาะแอปที่เราทำก็จะยังคงเป็นจุดแตกต่าง และจะไม่กลายเป็นสิ่งที่ไร้ความสำคัญ
เราจะยังทำในสิ่งที่เราทำได้
และเพราะเป็นโอเพนซอร์ส ทั้งระบบของเราและของชุมชนก็จะดีขึ้นทั้งหมด
แต่ก็มีโลกอีกแบบหนึ่งได้เช่นกัน
บางทีโมเดลอาจเข้าใกล้การเป็นตัวผลิตภัณฑ์เองมากขึ้น
การคำนวณทางเศรษฐศาสตร์ก็น่าจะซับซ้อนขึ้นมาก ไม่ว่าจะโอเพนซอร์สหรือไม่ เพราะสุดท้ายก็ทำให้ตัวเองกลายเป็น commodity มากขึ้น
แต่จากที่เห็นจนถึงตอนนี้ ดูเหมือนเรายังไม่ได้อยู่ในจุดนั้น

การสร้างรายได้จากโมเดล

คาดว่าจะสร้างรายได้ก้อนใหญ่จากการให้ไลเซนส์โมเดลแก่ผู้ให้บริการคลาวด์หรือไม่?
ในหลายแง่มุม Llama เป็นไลเซนส์โอเพนซอร์สที่ค่อนข้างเปิดกว้างมาก
เพียงแต่มีข้อจำกัดสำหรับบริษัทขนาดใหญ่ที่นำมันไปใช้ และนี่คือเหตุผลที่เราวางข้อจำกัดนั้นไว้
เราไม่ได้พยายามห้ามไม่ให้พวกเขาใช้ แต่ถ้าพวกเขาจะนำสิ่งที่เราสร้างไปขายต่อเพื่อทำเงิน ก็อยากให้มาคุยกับเราก่อน
ในกรณีของ Microsoft Azure หรือ Amazon หากต้องการขายต่อโมเดล ก็ควรมีการแบ่งรายได้ในส่วนนั้น
เพราะฉะนั้นก่อนจะทำแบบนั้น ให้มาคุยกับเราก่อน นั่นคือแนวทางการดำเนินการ
ดังนั้นในกรณีของ Llama-2 เราจึงมีข้อตกลงกับบริษัทคลาวด์รายใหญ่แทบทั้งหมด และ Llama-2 ก็มีให้ใช้เป็นบริการโฮสต์บนคลาวด์ทุกแห่ง
ยิ่งเราออกโมเดลที่ใหญ่ขึ้นเรื่อยๆ ก็คิดว่านี่จะยิ่งกลายเป็นเรื่องใหญ่ขึ้น
นี่ไม่ใช่งานหลักที่เรากำลังทำ แต่ถ้าบริษัทเหล่านั้นขายโมเดลของเรา ก็สมเหตุสมผลที่เราควรได้แบ่งปันประโยชน์นั้นไม่ทางใดก็ทางหนึ่ง

custom silicon

Meta กำลังพัฒนา custom silicon เพื่อรันโมเดลขนาดใหญ่ให้มีประสิทธิภาพมากขึ้น
แม้ยังไม่ใช่สำหรับ Llama-4 แต่ก่อนหน้านี้ได้สร้าง custom silicon ที่รองรับ inference สำหรับงานจัดอันดับและระบบแนะนำ เพื่อนำไปใช้กับ Reels, โฆษณาใน News Feed และอื่นๆ
เมื่อสามารถย้ายงานเหล่านี้ไปอยู่บน silicon ของตัวเองได้ ก็ทำให้ตอนนี้สามารถใช้ NVIDIA GPU ที่แพงกว่ากับงานฝึกโมเดลได้อย่างเดียว
ในอนาคตอยากพัฒนาซิลิคอนด้วยตัวเองเพื่อใช้กับการฝึกที่เรียบง่ายก่อน และภายหลังใช้ฝึกโมเดลขนาดใหญ่มากอย่างแท้จริง
ระหว่างนี้ก็พูดได้ว่าโครงการกำลังดำเนินไปค่อนข้างดี มีการทยอยนำไปใช้อย่างเป็นระบบ และมีโรดแมประยะยาว

4 ความคิดเห็น

laeyoung 2024-04-22

"ถ้าเป็น 1GW แค่การฝึกโมเดลก็ต้องใช้ขนาดระดับโรงไฟฟ้านิวเคลียร์"

ต่อไปนี้ถ้าจะฝึกฟาวน์เดชันโมเดล คงต้องมีการพัฒนาอาวุธนิวเคลียร์(?) กันแล้วสินะ

tsboard 2024-04-22

ดูเหมือนว่าเขาจะมีเรื่องให้ต้องขบคิดอยู่มากทีเดียว แต่ความไม่พอใจอย่างชัดเจนที่มีต่อ Google และ Apple ซึ่งกุมอำนาจของแพลตฟอร์มไว้ ก็ถือว่าเข้าใจได้

daejin 2024-04-22

หัวข้อ "เหตุผลที่โอเพนซอร์สโมเดลมูลค่า 1 หมื่นล้านดอลลาร์" แม้จะเป็นบทความสรุป แต่ก็มีบางส่วนที่ชวนให้ได้ข้อคิดอยู่เหมือนกันครับ

realg 2024-04-21

ขอบคุณสำหรับคอนเทนต์ดี ๆ ครับ