6 คะแนน โดย GN⁺ 2025-01-01 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • DeepSeek เป็นสตาร์ทอัป AI จากจีน โดยโมเดล R1 ที่เพิ่งเปิดตัวล่าสุดมีผลเหนือกว่าโมเดล o1 ของ OpenAI ในเบนช์มาร์กด้านการให้เหตุผลหลายรายการ
  • แม้จะยังไม่เป็นที่รู้จักมากนัก แต่ก็ได้ก้าวขึ้นมาเป็นห้องวิจัย AI ที่น่าจับตา

ภูมิหลังและกลยุทธ์ของ DeepSeek

  • Liang Wenfeng ซีอีโอ เคยเป็นผู้ก่อตั้ง High-Flyer ซึ่งเป็นหนึ่งใน 4 เฮดจ์ฟันด์รายใหญ่ของจีน และ DeepSeek ก็ได้รับการสนับสนุนอย่างเต็มที่จากบริษัทนี้
  • มุ่งเน้นที่ การพัฒนาเทคโนโลยีพื้นฐาน มากกว่าการประยุกต์ใช้เชิงพาณิชย์ และใช้กลยุทธ์เปิดเผยโมเดลทั้งหมดเป็น โอเพนซอร์ส
  • สามารถเข้าถึงคลัสเตอร์คอมพิวต์ของ High-Flyer และถือครอง Hopper GPU มากกว่า 50,000 ตัว
  • มุ่งเน้นการพัฒนา AGI (ปัญญาประดิษฐ์ทั่วไป) โดยงานวิจัยจะโฟกัสที่นวัตกรรมเชิงโครงสร้างและอัลกอริทึมซึ่งอาจกลายเป็นตัวเปลี่ยนเกมได้

นวัตกรรมทางเทคนิคหลัก

  • การปรับปรุงสถาปัตยกรรมโมเดล
    • MLA (Multi-head Latent Attention): ลดการใช้หน่วยความจำลงเหลือเพียง 5~13% เมื่อเทียบกับเดิม
    • DeepSeekMoE (Sparse Mixture of Experts): ลดต้นทุนการคำนวณได้อย่างมาก
  • จุดชนวนสงครามราคา
    • โมเดล DeepSeek V2 เสนอค่าประมวลผลอนุมานที่ 1 RMB ต่อ 1 ล้านโทเคน จนก่อให้เกิดสงครามราคาระดับใหญ่ในหมู่บริษัทยักษ์ใหญ่เทคโนโลยีของจีน
  • การยอมรับในระดับนานาชาติ
    • งานวิจัยของ DeepSeek ได้รับการประเมินว่าเป็น "หนึ่งในงานวิจัยที่ดีที่สุดของปีนี้" และยังได้รับคำชื่นชมจากซิลิคอนแวลลีย์และชุมชน AI ระดับนานาชาติ

ปรัชญาการวิจัยและวัฒนธรรมองค์กรของ DeepSeek

  • อุดมคติทางเทคนิค: DeepSeek ยึดถืออุดมคติทางเทคนิค โดยให้ความสำคัญกับ "ถูกและผิด" มากกว่า "กำไรและขาดทุน" ซึ่งเป็นเสียงที่พบได้ไม่บ่อยในแวดวงเทคโนโลยีของจีน
  • ความสำคัญของนวัตกรรม: DeepSeek เชื่อว่าจีนไม่ควรหยุดอยู่แค่การเป็นผู้ตาม แต่ต้องมีส่วนร่วมในกระแสของนวัตกรรมเทคโนโลยีระดับโลก
  • วัฒนธรรมองค์กรแบบอิสระ: ไม่เน้นการบริหารแบบบนลงล่าง แต่ส่งเสริมบรรยากาศที่ เป็นอิสระและสร้างสรรค์ นักวิจัยสามารถร่วมมือกันอย่างเสรีและใช้ทรัพยากรตามแนวคิดของตนเองได้
  • การสรรหาบุคลากร: ให้ความสำคัญกับ ความอยากรู้อยากเห็นและความหลงใหล มากกว่าเกณฑ์แบบดั้งเดิม โดยสมาชิกทีมส่วนใหญ่เป็นบัณฑิตจากมหาวิทยาลัยในประเทศและนักวิจัยรุ่นใหม่

วิสัยทัศน์ต่อ AGI

  • จุดเน้นของงานวิจัย: DeepSeek กำลังสำรวจความเป็นไปได้ของ AGI โดยเน้นที่คณิตศาสตร์ การสร้างโค้ด มัลติโมดัลลิตี และความเข้าใจภาษาธรรมชาติ
  • แนวโน้มในอนาคต:
    • คาดว่าการบรรลุ AGI อาจเกิดขึ้นได้ในอีก 2 ถึง 10 ปี และ คณิตศาสตร์กับโค้ด ถูกมองว่าเป็นสนามทดสอบที่เหมาะอย่างยิ่งสำหรับ AGI
    • เกมปลายทางของโมเดลขนาดใหญ่คือการที่บริษัทเฉพาะทางซึ่งให้บริการทั้งโมเดลพื้นฐานและบริการต่าง ๆ จะมีความเชี่ยวชาญอย่างกว้างขวางในแต่ละโหนดของซัพพลายเชน

มุมมองต่อโอเพนซอร์สและนวัตกรรม

  • คุณค่าของโอเพนซอร์ส: DeepSeek ไม่ได้มองหาความได้เปรียบทางเทคนิคจากการปิดซอร์ส แต่ให้คุณค่ากับการสร้างและพัฒนาระบบนิเวศทางเทคโนโลยี
  • วิสัยทัศน์ต่อระบบนิเวศ AI ของจีน: ต้องการมีส่วนช่วยให้จีนก้าวข้ามนวัตกรรมเชิงประยุกต์ไปสู่ นวัตกรรมเทคโนโลยีจาก 0 ไป 1

บทสรุป

  • DeepSeek กำลังเดินบนเส้นทางที่แตกต่างจากสตาร์ทอัป AI จีนแบบดั้งเดิม
  • มุ่งเน้นที่นวัตกรรมทางเทคนิคและการทำให้ AGI เป็นจริง มากกว่าการประยุกต์ใช้เชิงพาณิชย์ และต้องการมีส่วนร่วมในกระแสนวัตกรรมเทคโนโลยีระดับโลก
  • แนวทางนี้มีแนวโน้มจะส่งผลสำคัญต่อทิศทางการพัฒนา AI ของจีนในอนาคต

2 ความคิดเห็น

 
GN⁺ 2025-01-01
ความคิดเห็นบน Hacker News
  • การจำกัด GPU ได้สร้างสภาพแวดล้อมที่ทำให้นักพัฒนาจีนสร้างนวัตกรรมมากขึ้นและทำอะไรได้มากขึ้นด้วยทรัพยากรที่น้อยลง

    • ขอชื่นชมทีม Deepseek
  • กระแสชื่นชมที่มีต่อ Deepseek น่าสนใจ

    • มีเหตุผลเชิงโครงสร้างและเชิงพื้นฐานที่ทำให้ Deepseek ไม่สามารถเหนือกว่ารุ่นอื่นได้อย่างมาก
      • สงครามการค้าระหว่างสหรัฐฯ กับจีนอาจทำให้ความพร้อมใช้งานด้านคอมพิวต์ของ Deepseek เสียเปรียบ
      • การเซ็นเซอร์ของจีนจำกัดการเก็บข้อมูลและผลลัพธ์ของ Deepseek ในระดับหนึ่ง
      • เนื่องจาก Deepseek เป็นโอเพนซอร์ส รุ่นอื่น ๆ จึงสามารถลอกเลียนได้ง่าย
    • ใช้งาน Gemini, ChatGPT, Deepseek และ Claudie เป็นประจำ และมองว่า Deepseek ไม่ได้โดดเด่นหรือด้อยกว่ารุ่นอื่นเป็นพิเศษ
    • อยากรู้ว่าทำไมบางคนถึงคิดว่า Deepseek จะครองวงการ LLM ได้อย่างเบ็ดเสร็จ
  • เชื่อว่าจีนควรเป็นผู้มีส่วนร่วมควบคู่ไปกับการพัฒนาเศรษฐกิจ

    • ตลอด 30 ปีที่ผ่านมา จีนไม่ได้มีส่วนร่วมอย่างมีนัยสำคัญต่อการสร้างนวัตกรรมด้าน IT
    • ปฏิบัติต่อกฎการขยายขนาดราวกับเป็นการรอฮาร์ดแวร์และซอฟต์แวร์ที่ดีขึ้นโดยอาศัยกฎของมัวร์
  • Deepseek เป็นชื่อที่โดดเด่นในชุมชนโอเพนซอร์ส LLM มาตั้งแต่ปีที่แล้ว

    • ใช้งบการตลาดน้อยกว่าเมื่อเทียบกับผู้เล่น LLM จีนรายอื่น
  • น่าแปลกที่ไม่มีการกล่าวถึงการผสาน AI เชิงสัญลักษณ์แบบเก่าเข้ากับ ML สมัยใหม่

  • จีนมีแรงจูงใจอย่างมากในการทำวิจัยล้วน ๆ เพื่อหลุดพ้นจากการพึ่งพา GPU

    • หวังว่าจะไม่เกิดการโจมตีกันระหว่างนักคณิตศาสตร์เพื่อวิทยาศาสตร์
  • เหตุผลหนึ่งที่ API มีราคาถูกคือมีการระบุไว้ว่าจะนำข้อมูลจาก API ไปใช้ในการฝึก

    • OpenAI และ Claude ระบุว่าจะไม่นำข้อมูลไปใช้ฝึกหากใช้งานผ่าน API
  • หวังว่าการแข่งขันระหว่างบริษัท AI จะดำเนินต่อไปอย่างมีสุขภาวะ

    • หวังว่าจะยังแบ่งปันเทคโนโลยีและงานวิจัยกันต่อไปเพื่อให้ทุกอย่างดีขึ้นโดยรวม
  • น่าประทับใจที่ DeepSeek ใช้ทรัพยากรน้อยกว่า 10 เท่าแต่ทำผลงานได้เทียบเท่า o1 และ Claude

    • ขั้นต่อไปของ ML จำเป็นต้องใช้อัลกอริทึมและแนวทางที่ดีกว่าเดิม
  • การใช้คำว่า "catfish" แบบน่าสนใจ (และใช้ผิด)

    • แตกต่างจากความหมายที่คนทั่วไปเข้าใจกัน