- ในบทสัมภาษณ์กับ Dwarkesh Patel มีการพูดถึง Llama 3, การโอเพนซอร์สมุ่งสู่ AGI, custom silicon, และข้อจำกัดด้านพลังงานต่อการสเกล จึงสรุปสคริปต์ทั้งหมดแบบสั้นๆ
Llama 3
- Meta เปิดตัว Llama 3 ซึ่งเป็นโมเดลโอเพนซอร์ส เพื่อใช้ขับเคลื่อน Meta AI เวอร์ชันใหม่
- Meta AI ตั้งเป้าเป็นผู้ช่วย AI ที่ฉลาดที่สุดและใช้งานได้อย่างเสรี
- ขณะนี้ Llama 3 มีให้ในรูปแบบโมเดล Dense ขนาด 8B, 70B ที่เปิดตัวแล้ว และ 405B ที่ยังอยู่ระหว่างการฝึก
- มีโรดแมปสำหรับรีลีสใหม่ที่รองรับมัลติโหมด หลายภาษา และมี context window ใหญ่ขึ้น โดยมีแผนจะทยอยเปิดใช้ 405B ภายในปีนี้
- 405B ยังอยู่ระหว่างการฝึก และทำได้ถึง 85 MMLU แล้ว โดยคาดว่าจะขึ้นนำในหลายเบนช์มาร์ก
- Llama 3 รุ่น 8B มีประสิทธิภาพเกือบเทียบเท่ากับ Llama 2 รุ่นขนาดใหญ่ที่สุด
- รุ่น 70B ก็ยอดเยี่ยมเช่นกัน โดยทำได้ 82 MMLU แล้ว
GPU
- Meta จัดหา H100 GPU ไว้ตั้งแต่ปี 2022 ตอนที่ราคาหุ้นกำลังร่วง เพื่อสร้าง Reels
- ข้อจำกัดด้านโครงสร้างพื้นฐานทำให้ไล่ตามสิ่งที่ TikTok ทำอยู่ได้ไม่เร็วเท่าที่ต้องการ จึงสั่งเพิ่มเป็นสองเท่าเพื่อไม่ให้ตกอยู่ในสถานการณ์แบบนั้นอีก
- ตอนนั้นคาดว่าในอนาคตน่าจะต้องใช้กับการฝึกโมเดลขนาดใหญ่ แต่ในเวลานั้นคิดว่าเป็นเรื่องของระบบแนะนำคอนเทนต์เท่านั้น
- เมื่อมองย้อนกลับไป นี่เป็นการตัดสินใจที่ดีมาก และเป็นไปได้เพราะตอนนั้นตามหลังอยู่
- ไม่ใช่กรณีแบบ "อ้อ ฉันล้ำหน้าเกินไปแล้ว"
- จริงๆ แล้ว หลายครั้งที่การตัดสินใจของเรากลายเป็นการตัดสินใจที่ดี ก็เพราะก่อนหน้านั้นเราเคยพลาดอะไรบางอย่าง และไม่อยากทำผิดซ้ำอีก
ความสำคัญของความสามารถด้านโค้ดและการให้เหตุผลต่อ AGI (Artificial General Intelligence)
- Meta ตระหนักว่าความสามารถด้านโค้ดและการให้เหตุผลมีความสำคัญต่อการแก้ปัญหา use case จริงของโมเดล แม้จะไม่ได้รับคำถามเกี่ยวกับโค้ดโดยตรงก็ตาม
- เป้าหมายสุดท้ายคือการแก้โจทย์ AGI และทำให้โมเดลสามารถทำงานที่ซับซ้อนหลายขั้นตอนได้
- AGI จะบรรลุได้ด้วยการค่อยๆ เพิ่มความสามารถหลากหลาย เช่น มัลติโหมด ความเข้าใจอารมณ์ และหน่วยความจำ
คอขวดด้านพลังงานและการขยายสเกล
- ความก้าวหน้าแบบทวีคูณของขนาดโมเดลอาจดำเนินต่อไปได้ แต่สุดท้ายจะชนกับคอขวดด้านพลังงานและโครงสร้างพื้นฐาน
- ปัจจุบัน data center จำนวนมากอยู่ที่ราว 50 เมกะวัตต์ หรือ 100MW และ data center ขนาดใหญ่จะอยู่ที่ 150MW
- อย่างไรก็ตาม จะเริ่มมีการสร้าง data center ขนาด 300MW, 500MW หรือ 1GW (แม้ขนาด 1GW จะยังไม่มีในตอนนี้ แต่จะมีในไม่ช้า)
- แต่ถ้าเป็นระดับ 1GW ก็จะต้องใช้ขนาดเทียบเท่าโรงไฟฟ้านิวเคลียร์เพียงเพื่อการฝึกโมเดล และการสร้างคลัสเตอร์ระดับกิกะวัตต์เช่นนี้จะใช้เวลาหลายปีเพราะขั้นตอนการอนุญาตที่เข้มงวด
ความสำคัญของการปฏิวัติ AI
- AI เป็นสิ่งพื้นฐานพอๆ กับการกำเนิดของคอมพิวติ้งเอง และจะเปลี่ยนวิธีการทำงานของเรา พร้อมมอบเครื่องมือสร้างสรรค์รูปแบบใหม่
- หากมองในสเกลเวลาระดับจักรวาล ความก้าวหน้าจะรวดเร็ว แต่เพราะมีคอขวด จึงจะไม่เกิดการระเบิดของสติปัญญาแบบชั่วข้ามคืน
- ดูเหมือนว่าเรากำลังมุ่งไปสู่ทิศทางที่สติปัญญาอาจแยกออกจากจิตสำนึกและความเป็นตัวการได้ ซึ่งเขาคิดว่านั่นอาจเป็นเครื่องมือที่มีคุณค่าอย่างมาก
โอเพนซอร์สและดุลอำนาจ
- การที่ AI ทรงพลังถูกรวมศูนย์อยู่ในมือคนเพียงไม่กี่ราย อาจอันตรายพอๆ กับการทำให้มันเข้าถึงได้อย่างกว้างขวาง
- เราสนับสนุนโอเพนซอร์สอย่างชัดเจน แต่ก็ไม่ได้เปิดทุกอย่างที่เราทำ
- การโอเพนซอร์สช่วยให้ชุมชนทำให้โมเดลแข็งแกร่งขึ้น และช่วยรับประกันสนามแข่งขันที่สมดุลมากขึ้น
- แต่หากถึงจุดหนึ่งเกิดการเปลี่ยนแปลงเชิงคุณภาพในความสามารถของมันจนมองว่าไม่เหมาะจะโอเพนซอร์ส ก็จะไม่โอเพนซอร์ส เพราะทุกอย่างคาดเดาได้ยากมาก
- Meta มุ่งไปทางโอเพนซอร์สตราบใดที่ยังมีความรับผิดชอบและเป็นประโยชน์ และสามารถเรียกเก็บค่าใช้โมเดลจากผู้ให้บริการคลาวด์ได้
- ในระยะสั้นจะเน้นการบรรเทาความเสียหายจริงจากการใช้โมเดลในทางที่ผิด และในระยะยาวจะเน้นความเสี่ยงระดับอัตถิภาวนิยม
เหตุผลที่โอเพนซอร์สโมเดลมูลค่า 1 หมื่นล้านดอลลาร์
- สิ่งที่น่าหงุดหงิดใน ecosystem มือถือคือมีบริษัท gatekeeper อยู่สองราย คือ Apple และ Google
- สองบริษัทนี้เป็นคนบอกว่าคุณจะสร้างอะไรได้บ้าง
- นอกจากประเด็นทางเศรษฐกิจที่ถ้าเราสร้างอะไรขึ้นมา พวกเขาก็เอาเงินไปแล้ว ยังมีประเด็นเชิงคุณภาพที่น่าหงุดหงิดยิ่งกว่า
- หลายครั้งที่เราเปิดตัวฟีเจอร์หรืออยากเปิดตัวฟีเจอร์ แต่ Apple บอกว่า "ไม่ได้ ฟีเจอร์นั้นเปิดตัวไม่ได้"
- มันน่าหงุดหงิดมาก แล้วเราต้องการโลกแบบนั้นใน AI ด้วยหรือไม่
- จะปล่อยให้มีบริษัทไม่กี่แห่งที่รันโมเดลแบบปิดและควบคุม API เพื่อบอกว่าคุณสร้างอะไรได้หรือ?
- ดังนั้นจึงพูดได้ว่าการสร้างโมเดลด้วยตัวเองมีคุณค่า เพื่อไม่ให้เราไปอยู่ในสถานะนั้น
- เราไม่ต้องการให้บริษัทอื่นมาบอกว่าเราจะสร้างอะไรได้
- และจากมุมมองของโอเพนซอร์ส ก็คิดว่านักพัฒนาจำนวนมากคงไม่ต้องการให้บริษัทเหล่านี้เป็นฝ่ายกำหนดว่าอะไรสร้างได้บ้างเช่นกัน
- ถ้าเช่นนั้น คำถามก็คือ ecosystem ที่จะถูกสร้างขึ้นรอบสิ่งนี้คืออะไร
- มีอะไรใหม่ๆ ที่น่าสนใจบ้าง?
- มันจะช่วยยกระดับผลิตภัณฑ์ของเราได้มากแค่ไหน?
- เขาคิดว่าหลายครั้งเราจะได้รับสิ่งสนับสนุนที่มีคุณค่าจากชุมชน ซึ่งช่วยให้สร้างผลิตภัณฑ์ที่ดีขึ้นได้ คล้ายกับกรณีของฐานข้อมูล ระบบแคช หรือสถาปัตยกรรม
- จากนั้นงานเฉพาะแอปที่เราทำก็จะยังคงเป็นจุดแตกต่าง และจะไม่กลายเป็นสิ่งที่ไร้ความสำคัญ
- เราจะยังทำในสิ่งที่เราทำได้
- และเพราะเป็นโอเพนซอร์ส ทั้งระบบของเราและของชุมชนก็จะดีขึ้นทั้งหมด
- แต่ก็มีโลกอีกแบบหนึ่งได้เช่นกัน
- บางทีโมเดลอาจเข้าใกล้การเป็นตัวผลิตภัณฑ์เองมากขึ้น
- การคำนวณทางเศรษฐศาสตร์ก็น่าจะซับซ้อนขึ้นมาก ไม่ว่าจะโอเพนซอร์สหรือไม่ เพราะสุดท้ายก็ทำให้ตัวเองกลายเป็น commodity มากขึ้น
- แต่จากที่เห็นจนถึงตอนนี้ ดูเหมือนเรายังไม่ได้อยู่ในจุดนั้น
การสร้างรายได้จากโมเดล
- คาดว่าจะสร้างรายได้ก้อนใหญ่จากการให้ไลเซนส์โมเดลแก่ผู้ให้บริการคลาวด์หรือไม่?
- ในหลายแง่มุม Llama เป็นไลเซนส์โอเพนซอร์สที่ค่อนข้างเปิดกว้างมาก
- เพียงแต่มีข้อจำกัดสำหรับบริษัทขนาดใหญ่ที่นำมันไปใช้ และนี่คือเหตุผลที่เราวางข้อจำกัดนั้นไว้
- เราไม่ได้พยายามห้ามไม่ให้พวกเขาใช้ แต่ถ้าพวกเขาจะนำสิ่งที่เราสร้างไปขายต่อเพื่อทำเงิน ก็อยากให้มาคุยกับเราก่อน
- ในกรณีของ Microsoft Azure หรือ Amazon หากต้องการขายต่อโมเดล ก็ควรมีการแบ่งรายได้ในส่วนนั้น
- เพราะฉะนั้นก่อนจะทำแบบนั้น ให้มาคุยกับเราก่อน นั่นคือแนวทางการดำเนินการ
- ดังนั้นในกรณีของ Llama-2 เราจึงมีข้อตกลงกับบริษัทคลาวด์รายใหญ่แทบทั้งหมด และ Llama-2 ก็มีให้ใช้เป็นบริการโฮสต์บนคลาวด์ทุกแห่ง
- ยิ่งเราออกโมเดลที่ใหญ่ขึ้นเรื่อยๆ ก็คิดว่านี่จะยิ่งกลายเป็นเรื่องใหญ่ขึ้น
- นี่ไม่ใช่งานหลักที่เรากำลังทำ แต่ถ้าบริษัทเหล่านั้นขายโมเดลของเรา ก็สมเหตุสมผลที่เราควรได้แบ่งปันประโยชน์นั้นไม่ทางใดก็ทางหนึ่ง
custom silicon
- Meta กำลังพัฒนา custom silicon เพื่อรันโมเดลขนาดใหญ่ให้มีประสิทธิภาพมากขึ้น
- แม้ยังไม่ใช่สำหรับ Llama-4 แต่ก่อนหน้านี้ได้สร้าง custom silicon ที่รองรับ inference สำหรับงานจัดอันดับและระบบแนะนำ เพื่อนำไปใช้กับ Reels, โฆษณาใน News Feed และอื่นๆ
- เมื่อสามารถย้ายงานเหล่านี้ไปอยู่บน silicon ของตัวเองได้ ก็ทำให้ตอนนี้สามารถใช้ NVIDIA GPU ที่แพงกว่ากับงานฝึกโมเดลได้อย่างเดียว
- ในอนาคตอยากพัฒนาซิลิคอนด้วยตัวเองเพื่อใช้กับการฝึกที่เรียบง่ายก่อน และภายหลังใช้ฝึกโมเดลขนาดใหญ่มากอย่างแท้จริง
- ระหว่างนี้ก็พูดได้ว่าโครงการกำลังดำเนินไปค่อนข้างดี มีการทยอยนำไปใช้อย่างเป็นระบบ และมีโรดแมประยะยาว
4 ความคิดเห็น
"ถ้าเป็น 1GW แค่การฝึกโมเดลก็ต้องใช้ขนาดระดับโรงไฟฟ้านิวเคลียร์"
ต่อไปนี้ถ้าจะฝึกฟาวน์เดชันโมเดล คงต้องมีการพัฒนาอาวุธนิวเคลียร์(?) กันแล้วสินะ
ดูเหมือนว่าเขาจะมีเรื่องให้ต้องขบคิดอยู่มากทีเดียว แต่ความไม่พอใจอย่างชัดเจนที่มีต่อ Google และ Apple ซึ่งกุมอำนาจของแพลตฟอร์มไว้ ก็ถือว่าเข้าใจได้
หัวข้อ "เหตุผลที่โอเพนซอร์สโมเดลมูลค่า 1 หมื่นล้านดอลลาร์" แม้จะเป็นบทความสรุป แต่ก็มีบางส่วนที่ชวนให้ได้ข้อคิดอยู่เหมือนกันครับ
ขอบคุณสำหรับคอนเทนต์ดี ๆ ครับ