Dario Amodei ซีอีโอของ Anthropic: โมเดล DeepSeek ไม่ได้น่าทึ่งขนาดนั้น
(darioamodei.com)Dario Amodei อ้างว่าการรับรู้ต่อโมเดล V3 และ R1 ของ DeepSeek นั้นถูกพูดเกินจริง
แรงขับเคลื่อน 3 ประการของพัฒนาการ AI (Three Dynamics of AI Development)
-
Scaling laws: เมื่อปัจจัยอื่นเหมือนกัน ประสิทธิภาพของระบบ AI จะเพิ่มขึ้นตามขนาดที่ใหญ่ขึ้น ตัวอย่างเช่น โมเดลมูลค่า 1 ล้านดอลลาร์ทำงานด้านโค้ดได้ถูกต้อง 20%, โมเดลมูลค่า 10 ล้านดอลลาร์ได้ 40%, และโมเดลมูลค่า 100 ล้านดอลลาร์ได้ 60%
-
Shifting the curve: เส้นโค้งต้นทุน-ประสิทธิภาพจะขยับจากสถาปัตยกรรมโมเดลหรือประสิทธิภาพการคำนวณที่ดีขึ้น นวัตกรรมเล็ก ๆ อาจเพิ่มประสิทธิภาพด้านต้นทุนได้ราว 1.2 เท่า, นวัตกรรมขนาดกลางราว 2 เท่า, และนวัตกรรมใหญ่ราว 10 เท่า อย่างไรก็ตาม แม้ประสิทธิภาพด้านต้นทุนจะดีขึ้น บริษัทต่าง ๆ ก็ไม่ได้ลดค่าใช้จ่ายในการฝึก แต่กลับนำไปลงทุนซ้ำเพื่อสร้างโมเดลที่มีประสิทธิภาพสูงขึ้นแทน นวัตกรรมเหล่านี้รวมกันทำให้อัตรานี้เพิ่มขึ้นราว 4 เท่าต่อปี
-
Shifting the paradigm: จนถึงปี 2023 เป้าหมายหลักของการสเกลคือ pretrained model ที่ฝึกด้วยข้อมูลอินเทอร์เน็ตจำนวนมหาศาล แต่ตั้งแต่ปี 2024 เป็นต้นมา เริ่มจาก o1 ก็มีการใช้ reinforcement learning วิธีนี้คือเริ่มจาก pretrained model ทั่วไป แล้วเพิ่มขั้นตอน reinforcement learning เข้าไป ตั้งแต่ปี 2024 การสเกลในขั้น reinforcement learning ก็เริ่มต้นขึ้น แต่ยังอยู่ในระยะแรก จึงสามารถเพิ่มประสิทธิภาพได้มากด้วยการลงทุนเพียงเล็กน้อย
โมเดล DeepSeek
DeepSeek เปิดตัว pretrained model DeepSeek-V3 เมื่อหนึ่งเดือนก่อน และสัปดาห์ที่แล้วก็เปิดตัว R1 ที่เพิ่มขั้นตอน reinforcement learning เข้าไป DeepSeek-V3 มีประสิทธิภาพเข้าใกล้ SOTA และเพิ่มประสิทธิภาพของโมเดลได้อย่างมาก
- อย่างไรก็ตาม ข่าวลือที่ว่า DeepSeek ใช้เงิน 6 ล้านดอลลาร์แล้วได้ประสิทธิภาพเทียบเท่าโมเดลมูลค่าหลายพันล้านดอลลาร์ของบริษัทสหรัฐนั้นเกินจริง Claude Sonnet 3.5 ใช้เงินฝึกระดับหลายสิบล้านดอลลาร์ และถูกฝึกเมื่อ 1 ปีก่อน
- เมื่อพิจารณาว่าประสิทธิภาพการฝึกเพิ่มขึ้นราว 4 เท่าต่อปี และประสิทธิภาพของ V3 ยังไม่ถึงระดับ SOTA (คิดเป็นความต่างด้านต้นทุนราว 2 เท่าบนเส้นโค้ง) การที่โมเดล V3 ฝึกได้ด้วยต้นทุนถูกกว่าราว 8 เท่าจึงไม่ได้หลุดจากแนวโน้มความก้าวหน้าในปัจจุบัน บริษัทสหรัฐก็จะบรรลุประสิทธิภาพระดับนี้ด้วยแนวทางของตนเองในไม่ช้า
- ประเด็นคือ โมเดลที่เป็นไปตามแนวโน้มนี้กลับปรากฏขึ้นในจีน
- DeepSeek ถือครองชิปตระกูล Hopper จำนวน 50,000 ตัว เมื่อนำมาคิดว่าเป็นระดับเพียง 1/2 ถึง 1/3 ของบริษัทสหรัฐ ความต่างด้านต้นทุนกับบริษัทสหรัฐก็ไม่ได้มากนัก
- ในมุมวิศวกรรม R1 น่าสนใจน้อยกว่า V3 ขณะนี้เราอยู่ในช่วงต้นของเส้นโค้ง reinforcement learning จึงทำให้ R1 สามารถแสดงประสิทธิภาพระดับ o1 ได้ด้วยต้นทุนต่ำ เมื่อการสเกลของ reinforcement learning ดำเนินต่อไป กรณีแบบนี้จะลดลง
การควบคุมการส่งออก
- ห้องแล็บวิจัยในสหรัฐและจีนกำลังทุ่มเงินมหาศาลเพื่อพัฒนา AI ที่ทรงพลัง และแนวโน้มนี้จะดำเนินต่อไปจนกว่าจะสร้างโมเดล AI ที่เก่งกว่ามนุษย์แทบทุกคนในแทบทุกด้านได้ ซึ่งคาดว่าอยู่ราวปี 2026-2027
- เมื่อถึงตอนนั้น โลกอาจถูกแบ่งออกอย่างสิ้นเชิงแตกต่างกันตามการควบคุมการส่งออก
- หากจีนจัดหาชิปได้หลายล้านตัว โลกจะกลายเป็นโลกสองขั้วที่สหรัฐและจีนต่างมีโมเดล AI ทรงพลังของตนเองและขับเคลื่อนนวัตกรรมทางเทคโนโลยี
- หากจีนไม่สามารถจัดหาชิปได้หลายล้านตัว โลกจะกลายเป็นโลกขั้วเดียวที่มีเพียงสหรัฐและพันธมิตรเท่านั้นที่มีโมเดลทรงพลัง และเพราะ AI จะเร่งการพัฒนา AI เองด้วย แนวโน้มนี้จึงน่าจะคงอยู่ไปอีกระยะหนึ่ง
- ความสำเร็จของ DeepSeek ไม่ได้หมายความว่าการควบคุมการส่งออกล้มเหลว เพราะพวกเขาได้จัดหาชิปไว้เพียงพอก่อนมีมาตรการควบคุมการส่งออกแล้ว
นอกจากนี้ Amodei ยังปฏิเสธข่าวลือที่ว่า 3.5 Sonnet เป็นเวอร์ชันกลั่นจากโมเดลชั้นสูงแบบไม่เปิดเผยต่อสาธารณะ (เช่น 3.5 Opus) ด้วย
3 ความคิดเห็น
ปัญหาคือมันมาจากจีนอย่างนั้นเหรอ?
คงเป็นเพราะมันเป็นโอเพนโมเดลมากกว่าล่ะ…
ทั้งตั้งตารอและก็รู้สึกน่ากลัวกับวันที่ AGI จะมาถึงนะ
ถ้าให้ Anthropic เป็นคนพูดเรื่องแบบนั้นเองก็...อืม
ช่วงหลายเดือนมานี้ไม่มีข่าวใหม่เรื่องโมเดลเลย ก็เริ่มมีเสียงบ่นแผ่ว ๆ ว่า Anthropic กำลังทำอะไรกันอยู่