41 คะแนน โดย xguru 2025-01-25 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็นเพราะ DeepSeek V3 ที่แซง Llama 4 ไปแล้วบนเบนช์มาร์ก
  • แถมยังช็อกหนักขึ้นอีกเพราะเป็น "บริษัทจีนที่แทบไม่มีใครรู้จัก" ซึ่งบอกว่าใช้ต้นทุนฝึกเพียง 5.5M
  • ตอนนี้วิศวกรกำลังเคลื่อนไหวกันอย่างบ้าคลั่งเพื่อชำแหละ DeepSeek และเลียนแบบทุกอย่างที่เป็นไปได้
  • ฝ่ายบริหารกำลังกังวลว่าจะอธิบายให้สมเหตุสมผลอย่างไรกับค่าใช้จ่ายมหาศาลขององค์กร GenAI
  • "ผู้นำ" ในองค์กร GenAI คนหนึ่งได้รับค่าตอบแทนมากกว่าค่าใช้จ่ายในการฝึก DeepSeek v3 ทั้งหมดเสียอีก และมีผู้นำแบบนั้นอยู่หลายสิบคน
  • DeepSeek r1 น่ากลัวยิ่งกว่าเดิม เปิดเผยรายละเอียดลับไม่ได้ แต่จะเปิดตัวในเร็ว ๆ นี้
  • เดิมทีงานวิศวกรรมควรเป็นองค์กรขนาดเล็ก แต่มีคนจำนวนมากอยากเข้าร่วมการแย่งชิงอิมแพ็กต์นี้ และการที่องค์กรขยายการจ้างงานแบบพองเกินจริงก็สุดท้ายกลายเป็นผลเสียต่อทุกคน

ความคิดเห็น

  • พนักงาน Google 1: สิ่งที่ DeepSeek กำลังทำอยู่นั้นยอดเยี่ยมจริง ๆ ไม่ใช่แค่กับ Meta แต่กำลังจุดไฟใต้ก้นของ OpenAI, Google และ Anthropic ด้วย ข้อดีคือเราได้เห็นแบบเรียลไทม์ว่าการแข่งขันแบบเปิดมีประสิทธิภาพต่อการสร้างนวัตกรรมมากแค่ไหน
  • พนักงาน Apple 1: นี่แหละเหตุผลที่ฉันถือหุ้น Meta อยู่ การวิเคราะห์คู่แข่งแล้วลอกเลียนเพื่อเอาชนะอยู่ใน DNA ของพวกคุณ สู้ต่อไป!
  • พนักงาน Meta 1: ผู้บริหารหลายคนแทบไม่รู้อะไรเลยเกี่ยวกับเทคโนโลยีพื้นฐานจริง ๆ (แม้แต่ความรู้ด้านวิศวกรรมก็แทบไม่มี) และยังคอยกรอกหูผู้บริหารคนอื่นว่า "GPU มากขึ้น = ชนะ" อยู่เรื่อย ๆ สถานการณ์ยิ่งบิดเบี้ยวขึ้นไปอีกจากไอเดียโง่ ๆ อย่างการสร้างคอนเทนต์ AI บน Instagram เพื่อดึงให้คนมีส่วนร่วม (ตอนนี้ถอยกลับไปบ้างแล้ว)
  • พนักงาน Meta 2: ก็ซื้อ DeepSeek ไปเลยสิ
  • พนักงาน Samsung 1: Sam Altman เป็นนักต้มตุ๋น LIANG Wenfeng ซีอีโอของ DeepSeek คือ Ilya Sutskever, DeepSeek คือ OpenAI ในอดีต และ OpenAI ตอนนี้คือ ClosedAI
  • พนักงาน Google 2: DeepSeek เขียนงานวิจัยที่อธิบายองค์ประกอบทั้งหมดของโมเดลใหม่ที่อิง RL เอาไว้ และทำให้บริษัทอย่าง Meta สามารถคัดลอกไปตรวจสอบได้โดยตรง
  • พนักงาน Meta 3: องค์กรอย่าง Meta ที่มี "คลัสเตอร์ GPU ที่ใหญ่ที่สุดในโลก" จะพลาดแม้แต่ Top 10 ของเบนช์มาร์กได้อย่างไร? Grok น่าจะแซง DeepSeek ได้ในไม่ช้า
  • พนักงาน Meta 4: DeepSeek ถูกควบคุมโดยจีน ไม่แชร์ข้อมูลจริง และถูกเซ็นเซอร์อย่างหนักโดยพรรคคอมมิวนิสต์จีน ถ้าถามว่า "พรรคคอมมิวนิสต์จีนกำลังจำกัดเสรีภาพของผู้คนหรือไม่" คุณก็จะรู้คำตอบเอง ไม่ว่าจะถามอะไร มันก็เอาแต่พูดซ้ำ ๆ ว่า "จีนยิ่งใหญ่แค่ไหน" อะไรทำนองนั้น มีแต่คำกล่าวอ้างลอย ๆ ไม่มีข้อมูล
  • พนักงาน Chime: และส่วนที่ดีที่สุดคือทั้งหมดนี้ทำด้วย GPU H800 ซึ่งประสิทธิภาพยังไม่ถึงระดับ H100 น่าทึ่งจริง ๆ ขอแสดงความเคารพและชื่นชมทุกคนที่ DeepSeek งานวิจัย Residual Network จากจีนเป็นงานระดับพลิกวงการที่เปลี่ยนโฉมโครงข่ายประสาทไปอย่างสิ้นเชิง และสอนให้รู้ว่าสามารถใช้พารามิเตอร์ได้ถึงระดับหลายพันล้าน ฉันเคารพชาวจีนที่แก้ปัญหาที่ยากมากนี้ได้!
  • พนักงาน Blizzard: มันทำให้มีความหวังว่าในยุคของ AI จะไม่มีคูเมืองทางการแข่งขัน และจะมีโมเดลโอเพนซอร์สที่ดีพอ ๆ กัน หรืออาจดีกว่าโมเดลแบบปิดซอร์สออกมา ยิ่งการแข่งขันในวงการนี้ดุเดือดขึ้น ก็ยิ่งเป็นผลดีกับพวกเราด้วย

5 ความคิดเห็น

 
jhj0517 2025-01-25

การมีการแข่งขันก็ดูเป็นเรื่องที่ดีนะ 👏

 
mammal 2025-01-25

ถ้าตัดประเด็นเรื่องอุดมการณ์กับการเซ็นเซอร์ออกไปก่อน ระดับวิศวกรรมของโมเดล DeepSeek รอบนี้น่าทึ่งจนต้องทึ่งจริง ๆ

เดิมทีผมก็คิดว่า MLA ที่ใช้ในสถาปัตยกรรม V2.5 เป็นไอเดียที่อัจฉริยะมากอยู่แล้ว แต่มาครั้งนี้ยังพิสูจน์ความเป็นไปได้ของ MTP ได้อีก ทั้งยังคัดลอกโมเดล O1 ได้สำเร็จอย่างสมบูรณ์ด้วย R1 และเมื่อดูจากการที่ยังดึงเทคนิคการฝึกออกมาได้แม้อยู่ในสถานการณ์ที่ฮาร์ดแวร์ถูกจำกัดจากมาตรการควบคุมการส่งออก ก็ต้องบอกว่าสุดยอดจริง ๆ

ใครที่สนใจ ML แนะนำให้อ่าน DeepSeek Technical Report V2.5, V3, R1 กันให้ได้เลย มีแต่คำว่าน่าทึ่งเท่านั้น ผมยังไม่เข้าใจจนถึงตอนนี้เลยว่าพวกเขาเปิดทั้งหมดนี้ออกมาภายใต้ MIT License ได้อย่างไร

 
mammal 2025-01-25

ในกรณีของ LLaMA ผมรู้สึกอย่างมากว่าจาก LLaMA 2 -> 3 แทบไม่มีนวัตกรรมด้านสถาปัตยกรรมเลย และมีแค่การเพิ่มสเกลการฝึกเท่านั้น ซึ่งผมมองว่านี่เป็นลางบอกเหตุมาก่อนแล้ว

 
play1204dev 2025-01-25

ถึงจะสกัดจีนขนาดนั้นและถึงขั้นคุมการส่งออก GPU แต่พอเห็นอะไรแบบนี้ก็ทั้งน่าทึ่งและน่ากลัว ขณะเดียวกันในแง่บวกก็มองว่าเป็นปลาดุกที่ช่วยกระตุ้นการแข่งขันได้อย่างดี สุดท้ายแล้วก็ไม่มีใครปฏิเสธได้ว่า OpenAI ยังคงเป็นผู้นำอยู่