Deepseek - ยักษ์เงียบที่กำลังนำการแข่งขัน AI ของจีน

(chinatalk.media)

6 คะแนน โดย GN⁺ 2025-01-01 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

DeepSeek เป็นสตาร์ทอัป AI จากจีน โดยโมเดล R1 ที่เพิ่งเปิดตัวล่าสุดมีผลเหนือกว่าโมเดล o1 ของ OpenAI ในเบนช์มาร์กด้านการให้เหตุผลหลายรายการ
แม้จะยังไม่เป็นที่รู้จักมากนัก แต่ก็ได้ก้าวขึ้นมาเป็นห้องวิจัย AI ที่น่าจับตา

ภูมิหลังและกลยุทธ์ของ DeepSeek

Liang Wenfeng ซีอีโอ เคยเป็นผู้ก่อตั้ง High-Flyer ซึ่งเป็นหนึ่งใน 4 เฮดจ์ฟันด์รายใหญ่ของจีน และ DeepSeek ก็ได้รับการสนับสนุนอย่างเต็มที่จากบริษัทนี้
มุ่งเน้นที่ การพัฒนาเทคโนโลยีพื้นฐาน มากกว่าการประยุกต์ใช้เชิงพาณิชย์ และใช้กลยุทธ์เปิดเผยโมเดลทั้งหมดเป็น โอเพนซอร์ส
สามารถเข้าถึงคลัสเตอร์คอมพิวต์ของ High-Flyer และถือครอง Hopper GPU มากกว่า 50,000 ตัว
มุ่งเน้นการพัฒนา AGI (ปัญญาประดิษฐ์ทั่วไป) โดยงานวิจัยจะโฟกัสที่นวัตกรรมเชิงโครงสร้างและอัลกอริทึมซึ่งอาจกลายเป็นตัวเปลี่ยนเกมได้

นวัตกรรมทางเทคนิคหลัก

การปรับปรุงสถาปัตยกรรมโมเดล
- MLA (Multi-head Latent Attention): ลดการใช้หน่วยความจำลงเหลือเพียง 5~13% เมื่อเทียบกับเดิม
- DeepSeekMoE (Sparse Mixture of Experts): ลดต้นทุนการคำนวณได้อย่างมาก
จุดชนวนสงครามราคา
- โมเดล DeepSeek V2 เสนอค่าประมวลผลอนุมานที่ 1 RMB ต่อ 1 ล้านโทเคน จนก่อให้เกิดสงครามราคาระดับใหญ่ในหมู่บริษัทยักษ์ใหญ่เทคโนโลยีของจีน
การยอมรับในระดับนานาชาติ
- งานวิจัยของ DeepSeek ได้รับการประเมินว่าเป็น "หนึ่งในงานวิจัยที่ดีที่สุดของปีนี้" และยังได้รับคำชื่นชมจากซิลิคอนแวลลีย์และชุมชน AI ระดับนานาชาติ

ปรัชญาการวิจัยและวัฒนธรรมองค์กรของ DeepSeek

อุดมคติทางเทคนิค: DeepSeek ยึดถืออุดมคติทางเทคนิค โดยให้ความสำคัญกับ "ถูกและผิด" มากกว่า "กำไรและขาดทุน" ซึ่งเป็นเสียงที่พบได้ไม่บ่อยในแวดวงเทคโนโลยีของจีน
ความสำคัญของนวัตกรรม: DeepSeek เชื่อว่าจีนไม่ควรหยุดอยู่แค่การเป็นผู้ตาม แต่ต้องมีส่วนร่วมในกระแสของนวัตกรรมเทคโนโลยีระดับโลก
วัฒนธรรมองค์กรแบบอิสระ: ไม่เน้นการบริหารแบบบนลงล่าง แต่ส่งเสริมบรรยากาศที่ เป็นอิสระและสร้างสรรค์ นักวิจัยสามารถร่วมมือกันอย่างเสรีและใช้ทรัพยากรตามแนวคิดของตนเองได้
การสรรหาบุคลากร: ให้ความสำคัญกับ ความอยากรู้อยากเห็นและความหลงใหล มากกว่าเกณฑ์แบบดั้งเดิม โดยสมาชิกทีมส่วนใหญ่เป็นบัณฑิตจากมหาวิทยาลัยในประเทศและนักวิจัยรุ่นใหม่

วิสัยทัศน์ต่อ AGI

จุดเน้นของงานวิจัย: DeepSeek กำลังสำรวจความเป็นไปได้ของ AGI โดยเน้นที่คณิตศาสตร์ การสร้างโค้ด มัลติโมดัลลิตี และความเข้าใจภาษาธรรมชาติ
แนวโน้มในอนาคต:
- คาดว่าการบรรลุ AGI อาจเกิดขึ้นได้ในอีก 2 ถึง 10 ปี และ คณิตศาสตร์กับโค้ด ถูกมองว่าเป็นสนามทดสอบที่เหมาะอย่างยิ่งสำหรับ AGI
- เกมปลายทางของโมเดลขนาดใหญ่คือการที่บริษัทเฉพาะทางซึ่งให้บริการทั้งโมเดลพื้นฐานและบริการต่าง ๆ จะมีความเชี่ยวชาญอย่างกว้างขวางในแต่ละโหนดของซัพพลายเชน

มุมมองต่อโอเพนซอร์สและนวัตกรรม

คุณค่าของโอเพนซอร์ส: DeepSeek ไม่ได้มองหาความได้เปรียบทางเทคนิคจากการปิดซอร์ส แต่ให้คุณค่ากับการสร้างและพัฒนาระบบนิเวศทางเทคโนโลยี
วิสัยทัศน์ต่อระบบนิเวศ AI ของจีน: ต้องการมีส่วนช่วยให้จีนก้าวข้ามนวัตกรรมเชิงประยุกต์ไปสู่ นวัตกรรมเทคโนโลยีจาก 0 ไป 1

บทสรุป

DeepSeek กำลังเดินบนเส้นทางที่แตกต่างจากสตาร์ทอัป AI จีนแบบดั้งเดิม
มุ่งเน้นที่นวัตกรรมทางเทคนิคและการทำให้ AGI เป็นจริง มากกว่าการประยุกต์ใช้เชิงพาณิชย์ และต้องการมีส่วนร่วมในกระแสนวัตกรรมเทคโนโลยีระดับโลก
แนวทางนี้มีแนวโน้มจะส่งผลสำคัญต่อทิศทางการพัฒนา AI ของจีนในอนาคต

2 ความคิดเห็น

xguru 2025-01-03

Deepseek V3 แสดงประสิทธิภาพไม่ดีในการทดสอบด้วยเบนช์มาร์กที่ใช้ตรวจสอบว่ามี overfitting หรือไม่

GN⁺ 2025-01-01

ความคิดเห็นบน Hacker News

การจำกัด GPU ได้สร้างสภาพแวดล้อมที่ทำให้นักพัฒนาจีนสร้างนวัตกรรมมากขึ้นและทำอะไรได้มากขึ้นด้วยทรัพยากรที่น้อยลง
- ขอชื่นชมทีม Deepseek
กระแสชื่นชมที่มีต่อ Deepseek น่าสนใจ
- มีเหตุผลเชิงโครงสร้างและเชิงพื้นฐานที่ทำให้ Deepseek ไม่สามารถเหนือกว่ารุ่นอื่นได้อย่างมาก
  - สงครามการค้าระหว่างสหรัฐฯ กับจีนอาจทำให้ความพร้อมใช้งานด้านคอมพิวต์ของ Deepseek เสียเปรียบ
  - การเซ็นเซอร์ของจีนจำกัดการเก็บข้อมูลและผลลัพธ์ของ Deepseek ในระดับหนึ่ง
  - เนื่องจาก Deepseek เป็นโอเพนซอร์ส รุ่นอื่น ๆ จึงสามารถลอกเลียนได้ง่าย
- ใช้งาน Gemini, ChatGPT, Deepseek และ Claudie เป็นประจำ และมองว่า Deepseek ไม่ได้โดดเด่นหรือด้อยกว่ารุ่นอื่นเป็นพิเศษ
- อยากรู้ว่าทำไมบางคนถึงคิดว่า Deepseek จะครองวงการ LLM ได้อย่างเบ็ดเสร็จ
เชื่อว่าจีนควรเป็นผู้มีส่วนร่วมควบคู่ไปกับการพัฒนาเศรษฐกิจ
- ตลอด 30 ปีที่ผ่านมา จีนไม่ได้มีส่วนร่วมอย่างมีนัยสำคัญต่อการสร้างนวัตกรรมด้าน IT
- ปฏิบัติต่อกฎการขยายขนาดราวกับเป็นการรอฮาร์ดแวร์และซอฟต์แวร์ที่ดีขึ้นโดยอาศัยกฎของมัวร์
Deepseek เป็นชื่อที่โดดเด่นในชุมชนโอเพนซอร์ส LLM มาตั้งแต่ปีที่แล้ว
- ใช้งบการตลาดน้อยกว่าเมื่อเทียบกับผู้เล่น LLM จีนรายอื่น
น่าแปลกที่ไม่มีการกล่าวถึงการผสาน AI เชิงสัญลักษณ์แบบเก่าเข้ากับ ML สมัยใหม่
จีนมีแรงจูงใจอย่างมากในการทำวิจัยล้วน ๆ เพื่อหลุดพ้นจากการพึ่งพา GPU
- หวังว่าจะไม่เกิดการโจมตีกันระหว่างนักคณิตศาสตร์เพื่อวิทยาศาสตร์
เหตุผลหนึ่งที่ API มีราคาถูกคือมีการระบุไว้ว่าจะนำข้อมูลจาก API ไปใช้ในการฝึก
- OpenAI และ Claude ระบุว่าจะไม่นำข้อมูลไปใช้ฝึกหากใช้งานผ่าน API
หวังว่าการแข่งขันระหว่างบริษัท AI จะดำเนินต่อไปอย่างมีสุขภาวะ
- หวังว่าจะยังแบ่งปันเทคโนโลยีและงานวิจัยกันต่อไปเพื่อให้ทุกอย่างดีขึ้นโดยรวม
น่าประทับใจที่ DeepSeek ใช้ทรัพยากรน้อยกว่า 10 เท่าแต่ทำผลงานได้เทียบเท่า o1 และ Claude
- ขั้นต่อไปของ ML จำเป็นต้องใช้อัลกอริทึมและแนวทางที่ดีกว่าเดิม
การใช้คำว่า "catfish" แบบน่าสนใจ (และใช้ผิด)
- แตกต่างจากความหมายที่คนทั่วไปเข้าใจกัน

Deepseek - ยักษ์เงียบที่กำลังนำการแข่งขัน AI ของจีน

ภูมิหลังและกลยุทธ์ของ DeepSeek

นวัตกรรมทางเทคนิคหลัก

ปรัชญาการวิจัยและวัฒนธรรมองค์กรของ DeepSeek

วิสัยทัศน์ต่อ AGI

มุมมองต่อโอเพนซอร์สและนวัตกรรม

บทสรุป

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นบน Hacker News