- DeepSeek เป็นสตาร์ทอัป AI จากจีน โดยโมเดล R1 ที่เพิ่งเปิดตัวล่าสุดมีผลเหนือกว่าโมเดล o1 ของ OpenAI ในเบนช์มาร์กด้านการให้เหตุผลหลายรายการ
- แม้จะยังไม่เป็นที่รู้จักมากนัก แต่ก็ได้ก้าวขึ้นมาเป็นห้องวิจัย AI ที่น่าจับตา
ภูมิหลังและกลยุทธ์ของ DeepSeek
- Liang Wenfeng ซีอีโอ เคยเป็นผู้ก่อตั้ง High-Flyer ซึ่งเป็นหนึ่งใน 4 เฮดจ์ฟันด์รายใหญ่ของจีน และ DeepSeek ก็ได้รับการสนับสนุนอย่างเต็มที่จากบริษัทนี้
- มุ่งเน้นที่ การพัฒนาเทคโนโลยีพื้นฐาน มากกว่าการประยุกต์ใช้เชิงพาณิชย์ และใช้กลยุทธ์เปิดเผยโมเดลทั้งหมดเป็น โอเพนซอร์ส
- สามารถเข้าถึงคลัสเตอร์คอมพิวต์ของ High-Flyer และถือครอง Hopper GPU มากกว่า 50,000 ตัว
- มุ่งเน้นการพัฒนา AGI (ปัญญาประดิษฐ์ทั่วไป) โดยงานวิจัยจะโฟกัสที่นวัตกรรมเชิงโครงสร้างและอัลกอริทึมซึ่งอาจกลายเป็นตัวเปลี่ยนเกมได้
นวัตกรรมทางเทคนิคหลัก
- การปรับปรุงสถาปัตยกรรมโมเดล
- MLA (Multi-head Latent Attention): ลดการใช้หน่วยความจำลงเหลือเพียง 5~13% เมื่อเทียบกับเดิม
- DeepSeekMoE (Sparse Mixture of Experts): ลดต้นทุนการคำนวณได้อย่างมาก
- จุดชนวนสงครามราคา
- โมเดล DeepSeek V2 เสนอค่าประมวลผลอนุมานที่ 1 RMB ต่อ 1 ล้านโทเคน จนก่อให้เกิดสงครามราคาระดับใหญ่ในหมู่บริษัทยักษ์ใหญ่เทคโนโลยีของจีน
- การยอมรับในระดับนานาชาติ
- งานวิจัยของ DeepSeek ได้รับการประเมินว่าเป็น "หนึ่งในงานวิจัยที่ดีที่สุดของปีนี้" และยังได้รับคำชื่นชมจากซิลิคอนแวลลีย์และชุมชน AI ระดับนานาชาติ
ปรัชญาการวิจัยและวัฒนธรรมองค์กรของ DeepSeek
- อุดมคติทางเทคนิค: DeepSeek ยึดถืออุดมคติทางเทคนิค โดยให้ความสำคัญกับ "ถูกและผิด" มากกว่า "กำไรและขาดทุน" ซึ่งเป็นเสียงที่พบได้ไม่บ่อยในแวดวงเทคโนโลยีของจีน
- ความสำคัญของนวัตกรรม: DeepSeek เชื่อว่าจีนไม่ควรหยุดอยู่แค่การเป็นผู้ตาม แต่ต้องมีส่วนร่วมในกระแสของนวัตกรรมเทคโนโลยีระดับโลก
- วัฒนธรรมองค์กรแบบอิสระ: ไม่เน้นการบริหารแบบบนลงล่าง แต่ส่งเสริมบรรยากาศที่ เป็นอิสระและสร้างสรรค์ นักวิจัยสามารถร่วมมือกันอย่างเสรีและใช้ทรัพยากรตามแนวคิดของตนเองได้
- การสรรหาบุคลากร: ให้ความสำคัญกับ ความอยากรู้อยากเห็นและความหลงใหล มากกว่าเกณฑ์แบบดั้งเดิม โดยสมาชิกทีมส่วนใหญ่เป็นบัณฑิตจากมหาวิทยาลัยในประเทศและนักวิจัยรุ่นใหม่
วิสัยทัศน์ต่อ AGI
- จุดเน้นของงานวิจัย: DeepSeek กำลังสำรวจความเป็นไปได้ของ AGI โดยเน้นที่คณิตศาสตร์ การสร้างโค้ด มัลติโมดัลลิตี และความเข้าใจภาษาธรรมชาติ
- แนวโน้มในอนาคต:
- คาดว่าการบรรลุ AGI อาจเกิดขึ้นได้ในอีก 2 ถึง 10 ปี และ คณิตศาสตร์กับโค้ด ถูกมองว่าเป็นสนามทดสอบที่เหมาะอย่างยิ่งสำหรับ AGI
- เกมปลายทางของโมเดลขนาดใหญ่คือการที่บริษัทเฉพาะทางซึ่งให้บริการทั้งโมเดลพื้นฐานและบริการต่าง ๆ จะมีความเชี่ยวชาญอย่างกว้างขวางในแต่ละโหนดของซัพพลายเชน
มุมมองต่อโอเพนซอร์สและนวัตกรรม
- คุณค่าของโอเพนซอร์ส: DeepSeek ไม่ได้มองหาความได้เปรียบทางเทคนิคจากการปิดซอร์ส แต่ให้คุณค่ากับการสร้างและพัฒนาระบบนิเวศทางเทคโนโลยี
- วิสัยทัศน์ต่อระบบนิเวศ AI ของจีน: ต้องการมีส่วนช่วยให้จีนก้าวข้ามนวัตกรรมเชิงประยุกต์ไปสู่ นวัตกรรมเทคโนโลยีจาก 0 ไป 1
บทสรุป
- DeepSeek กำลังเดินบนเส้นทางที่แตกต่างจากสตาร์ทอัป AI จีนแบบดั้งเดิม
- มุ่งเน้นที่นวัตกรรมทางเทคนิคและการทำให้ AGI เป็นจริง มากกว่าการประยุกต์ใช้เชิงพาณิชย์ และต้องการมีส่วนร่วมในกระแสนวัตกรรมเทคโนโลยีระดับโลก
- แนวทางนี้มีแนวโน้มจะส่งผลสำคัญต่อทิศทางการพัฒนา AI ของจีนในอนาคต
2 ความคิดเห็น
Deepseek V3 แสดงประสิทธิภาพไม่ดีในการทดสอบด้วยเบนช์มาร์กที่ใช้ตรวจสอบว่ามี overfitting หรือไม่
ความคิดเห็นบน Hacker News
การจำกัด GPU ได้สร้างสภาพแวดล้อมที่ทำให้นักพัฒนาจีนสร้างนวัตกรรมมากขึ้นและทำอะไรได้มากขึ้นด้วยทรัพยากรที่น้อยลง
กระแสชื่นชมที่มีต่อ Deepseek น่าสนใจ
เชื่อว่าจีนควรเป็นผู้มีส่วนร่วมควบคู่ไปกับการพัฒนาเศรษฐกิจ
Deepseek เป็นชื่อที่โดดเด่นในชุมชนโอเพนซอร์ส LLM มาตั้งแต่ปีที่แล้ว
น่าแปลกที่ไม่มีการกล่าวถึงการผสาน AI เชิงสัญลักษณ์แบบเก่าเข้ากับ ML สมัยใหม่
จีนมีแรงจูงใจอย่างมากในการทำวิจัยล้วน ๆ เพื่อหลุดพ้นจากการพึ่งพา GPU
เหตุผลหนึ่งที่ API มีราคาถูกคือมีการระบุไว้ว่าจะนำข้อมูลจาก API ไปใช้ในการฝึก
หวังว่าการแข่งขันระหว่างบริษัท AI จะดำเนินต่อไปอย่างมีสุขภาวะ
น่าประทับใจที่ DeepSeek ใช้ทรัพยากรน้อยกว่า 10 เท่าแต่ทำผลงานได้เทียบเท่า o1 และ Claude
การใช้คำว่า "catfish" แบบน่าสนใจ (และใช้ผิด)