องค์กร GenAI ของ Meta กำลังช็อกจาก DeepSeek

xguru · 2025-01-25T09:46:01+09:00

เป็นเพราะ DeepSeek V3 ที่แซง Llama 4 ไปแล้วบนเบนช์มาร์ก แถมยังช็อกหนักขึ้นอีกเพราะเป็น "บริษัทจีนที่แทบไม่มีใครรู้จัก" ซึ่งบอกว่าใช้ต้นทุนฝึกเพียง 5.5M ตอนนี้วิศวกรกำลังเคลื่อนไหวกันอย่างบ้าคลั่งเพื่อชำแหละ DeepSeek และเลียนแบบทุกอย่างที่เป็นไปได้ ฝ่ายบริหารกำลังกังวลว่าจะอธิบายให้สมเหตุสมผลอย่างไรกับค่าใช้จ่ายมหาศาลขององค์กร GenAI "ผู้นำ" ในองค์กร GenAI คนหนึ่งได้รับค่าตอบแทนมากกว่าค่าใช้จ่ายในการฝึก DeepSeek v3 ทั้งหมดเสียอีก และมีผู้นำแบบนั้นอยู่หลายสิบคน DeepSeek r1 น่ากลัวยิ่งกว่าเดิม เปิดเผยรายละเอียดลับไม่ได้ แต่จะเปิดตัวในเร็ว ๆ นี้ เดิมทีงานวิศวกรรมควรเป็นองค์กรขนาดเล็ก แต่มีคนจำนวนมากอยากเข้าร่วมการแย่งชิงอิมแพ็กต์นี้ และการที่องค์กรขยายการจ้างงานแบบพองเกินจริงก็สุดท้ายกลายเป็นผลเสียต่อทุกคน ความคิดเห็น พนักงาน Google 1: สิ่งที่ DeepSeek กำลังทำอยู่นั้นยอดเยี่ยมจริง ๆ ไม่ใช่แค่กับ Meta แต่กำลังจุดไฟใต้ก้นของ OpenAI, Google และ Anthropic ด้วย ข้อดีคือเราได้เห็นแบบเรียลไทม์ว่าการแข่งขันแบบเปิดมีประสิทธิภาพต่อการสร้างนวัตกรรมมากแค่ไหน พนักงาน Apple 1: นี่แหละเหตุผลที่ฉันถือหุ้น Meta อยู่ การวิเคราะห์คู่แข่งแล้วลอกเลียนเพื่อเอาชนะอยู่ใน DNA ของพวกคุณ สู้ต่อไป! พนักงาน Meta 1: ผู้บริหารหลายคนแทบไม่รู้อะไรเลยเกี่ยวกับเทคโนโลยีพื้นฐานจริง ๆ (แม้แต่ความรู้ด้านวิศวกรรมก็แทบไม่มี) และยังคอยกรอกหูผู้บริหารคนอื่นว่า "GPU มากขึ้น = ชนะ" อยู่เรื่อย ๆ สถานการณ์ยิ่งบิดเบี้ยวขึ้นไปอีกจากไอเดียโง่ ๆ อย่างการสร้างคอนเทนต์ AI บน Instagram เพื่อดึงให้คนมีส่วนร่วม (ตอนนี้ถอยกลับไปบ้างแล้ว) พนักงาน Meta 2: ก็ซื้อ DeepSeek ไปเลยสิ พนักงาน Samsung 1: Sam Altman เป็นนักต้มตุ๋น LIANG Wenfeng ซีอีโอของ DeepSeek คือ Ilya Sutskever, DeepSeek คือ OpenAI ในอดีต และ OpenAI ตอนนี้คือ ClosedAI พนักงาน Google 2: DeepSeek เขียนงานวิจัยที่อธิบายองค์ประกอบทั้งหมดของโมเดลใหม่ที่อิง RL เอาไว้ และทำให้บริษัทอย่าง Meta สามารถคัดลอกไปตรวจสอบได้โดยตรง พนักงาน Meta 3: องค์กรอย่าง Meta ที่มี "คลัสเตอร์ GPU ที่ใหญ่ที่สุดในโลก" จะพลาดแม้แต่ Top 10 ของเบนช์มาร์กได้อย่างไร? Grok น่าจะแซง DeepSeek ได้ในไม่ช้า พนักงาน Meta 4: DeepSeek ถูกควบคุมโดยจีน ไม่แชร์ข้อมูลจริง และถูกเซ็นเซอร์อย่างหนักโดยพรรคคอมมิวนิสต์จีน ถ้าถามว่า "พรรคคอมมิวนิสต์จีนกำลังจำกัดเสรีภาพของผู้คนหรือไม่" คุณก็จะรู้คำตอบเอง ไม่ว่าจะถามอะไร มันก็เอาแต่พูดซ้ำ ๆ ว่า "จีนยิ่งใหญ่แค่ไหน" อะไรทำนองนั้น มีแต่คำกล่าวอ้างลอย ๆ ไม่มีข้อมูล พนักงาน Chime: และส่วนที่ดีที่สุดคือทั้งหมดนี้ทำด้วย GPU H800 ซึ่งประสิทธิภาพยังไม่ถึงระดับ H100 น่าทึ่งจริง ๆ ขอแสดงความเคารพและชื่นชมทุกคนที่ DeepSeek งานวิจัย Residual Network จากจีนเป็นงานระดับพลิกวงการที่เปลี่ยนโฉมโครงข่ายประสาทไปอย่างสิ้นเชิง และสอนให้รู้ว่าสามารถใช้พารามิเตอร์ได้ถึงระดับหลายพันล้าน ฉันเคารพชาวจีนที่แก้ปัญหาที่ยากมากนี้ได้! พนักงาน Blizzard: มันทำให้มีความหวังว่าในยุคของ AI จะไม่มีคูเมืองทางการแข่งขัน และจะมีโมเดลโอเพนซอร์สที่ดีพอ ๆ กัน หรืออาจดีกว่าโมเดลแบบปิดซอร์สออกมา ยิ่งการแข่งขันในวงการนี้ดุเดือดขึ้น ก็ยิ่งเป็นผลดีกับพวกเราด้วย

(teamblind.com)

41 คะแนน โดย xguru 2025-01-25 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

เป็นเพราะ DeepSeek V3 ที่แซง Llama 4 ไปแล้วบนเบนช์มาร์ก
แถมยังช็อกหนักขึ้นอีกเพราะเป็น "บริษัทจีนที่แทบไม่มีใครรู้จัก" ซึ่งบอกว่าใช้ต้นทุนฝึกเพียง 5.5M
ตอนนี้วิศวกรกำลังเคลื่อนไหวกันอย่างบ้าคลั่งเพื่อชำแหละ DeepSeek และเลียนแบบทุกอย่างที่เป็นไปได้
ฝ่ายบริหารกำลังกังวลว่าจะอธิบายให้สมเหตุสมผลอย่างไรกับค่าใช้จ่ายมหาศาลขององค์กร GenAI
"ผู้นำ" ในองค์กร GenAI คนหนึ่งได้รับค่าตอบแทนมากกว่าค่าใช้จ่ายในการฝึก DeepSeek v3 ทั้งหมดเสียอีก และมีผู้นำแบบนั้นอยู่หลายสิบคน
DeepSeek r1 น่ากลัวยิ่งกว่าเดิม เปิดเผยรายละเอียดลับไม่ได้ แต่จะเปิดตัวในเร็ว ๆ นี้
เดิมทีงานวิศวกรรมควรเป็นองค์กรขนาดเล็ก แต่มีคนจำนวนมากอยากเข้าร่วมการแย่งชิงอิมแพ็กต์นี้ และการที่องค์กรขยายการจ้างงานแบบพองเกินจริงก็สุดท้ายกลายเป็นผลเสียต่อทุกคน

ความคิดเห็น

พนักงาน Google 1: สิ่งที่ DeepSeek กำลังทำอยู่นั้นยอดเยี่ยมจริง ๆ ไม่ใช่แค่กับ Meta แต่กำลังจุดไฟใต้ก้นของ OpenAI, Google และ Anthropic ด้วย ข้อดีคือเราได้เห็นแบบเรียลไทม์ว่าการแข่งขันแบบเปิดมีประสิทธิภาพต่อการสร้างนวัตกรรมมากแค่ไหน
พนักงาน Apple 1: นี่แหละเหตุผลที่ฉันถือหุ้น Meta อยู่ การวิเคราะห์คู่แข่งแล้วลอกเลียนเพื่อเอาชนะอยู่ใน DNA ของพวกคุณ สู้ต่อไป!
พนักงาน Meta 1: ผู้บริหารหลายคนแทบไม่รู้อะไรเลยเกี่ยวกับเทคโนโลยีพื้นฐานจริง ๆ (แม้แต่ความรู้ด้านวิศวกรรมก็แทบไม่มี) และยังคอยกรอกหูผู้บริหารคนอื่นว่า "GPU มากขึ้น = ชนะ" อยู่เรื่อย ๆ สถานการณ์ยิ่งบิดเบี้ยวขึ้นไปอีกจากไอเดียโง่ ๆ อย่างการสร้างคอนเทนต์ AI บน Instagram เพื่อดึงให้คนมีส่วนร่วม (ตอนนี้ถอยกลับไปบ้างแล้ว)
พนักงาน Meta 2: ก็ซื้อ DeepSeek ไปเลยสิ
พนักงาน Samsung 1: Sam Altman เป็นนักต้มตุ๋น LIANG Wenfeng ซีอีโอของ DeepSeek คือ Ilya Sutskever, DeepSeek คือ OpenAI ในอดีต และ OpenAI ตอนนี้คือ ClosedAI
พนักงาน Google 2: DeepSeek เขียนงานวิจัยที่อธิบายองค์ประกอบทั้งหมดของโมเดลใหม่ที่อิง RL เอาไว้ และทำให้บริษัทอย่าง Meta สามารถคัดลอกไปตรวจสอบได้โดยตรง
พนักงาน Meta 3: องค์กรอย่าง Meta ที่มี "คลัสเตอร์ GPU ที่ใหญ่ที่สุดในโลก" จะพลาดแม้แต่ Top 10 ของเบนช์มาร์กได้อย่างไร? Grok น่าจะแซง DeepSeek ได้ในไม่ช้า
พนักงาน Meta 4: DeepSeek ถูกควบคุมโดยจีน ไม่แชร์ข้อมูลจริง และถูกเซ็นเซอร์อย่างหนักโดยพรรคคอมมิวนิสต์จีน ถ้าถามว่า "พรรคคอมมิวนิสต์จีนกำลังจำกัดเสรีภาพของผู้คนหรือไม่" คุณก็จะรู้คำตอบเอง ไม่ว่าจะถามอะไร มันก็เอาแต่พูดซ้ำ ๆ ว่า "จีนยิ่งใหญ่แค่ไหน" อะไรทำนองนั้น มีแต่คำกล่าวอ้างลอย ๆ ไม่มีข้อมูล
พนักงาน Chime: และส่วนที่ดีที่สุดคือทั้งหมดนี้ทำด้วย GPU H800 ซึ่งประสิทธิภาพยังไม่ถึงระดับ H100 น่าทึ่งจริง ๆ ขอแสดงความเคารพและชื่นชมทุกคนที่ DeepSeek งานวิจัย Residual Network จากจีนเป็นงานระดับพลิกวงการที่เปลี่ยนโฉมโครงข่ายประสาทไปอย่างสิ้นเชิง และสอนให้รู้ว่าสามารถใช้พารามิเตอร์ได้ถึงระดับหลายพันล้าน ฉันเคารพชาวจีนที่แก้ปัญหาที่ยากมากนี้ได้!
พนักงาน Blizzard: มันทำให้มีความหวังว่าในยุคของ AI จะไม่มีคูเมืองทางการแข่งขัน และจะมีโมเดลโอเพนซอร์สที่ดีพอ ๆ กัน หรืออาจดีกว่าโมเดลแบบปิดซอร์สออกมา ยิ่งการแข่งขันในวงการนี้ดุเดือดขึ้น ก็ยิ่งเป็นผลดีกับพวกเราด้วย

5 ความคิดเห็น

jhj0517 2025-01-25

การมีการแข่งขันก็ดูเป็นเรื่องที่ดีนะ 👏

mammal 2025-01-25

ถ้าตัดประเด็นเรื่องอุดมการณ์กับการเซ็นเซอร์ออกไปก่อน ระดับวิศวกรรมของโมเดล DeepSeek รอบนี้น่าทึ่งจนต้องทึ่งจริง ๆ

เดิมทีผมก็คิดว่า MLA ที่ใช้ในสถาปัตยกรรม V2.5 เป็นไอเดียที่อัจฉริยะมากอยู่แล้ว แต่มาครั้งนี้ยังพิสูจน์ความเป็นไปได้ของ MTP ได้อีก ทั้งยังคัดลอกโมเดล O1 ได้สำเร็จอย่างสมบูรณ์ด้วย R1 และเมื่อดูจากการที่ยังดึงเทคนิคการฝึกออกมาได้แม้อยู่ในสถานการณ์ที่ฮาร์ดแวร์ถูกจำกัดจากมาตรการควบคุมการส่งออก ก็ต้องบอกว่าสุดยอดจริง ๆ

ใครที่สนใจ ML แนะนำให้อ่าน DeepSeek Technical Report V2.5, V3, R1 กันให้ได้เลย มีแต่คำว่าน่าทึ่งเท่านั้น ผมยังไม่เข้าใจจนถึงตอนนี้เลยว่าพวกเขาเปิดทั้งหมดนี้ออกมาภายใต้ MIT License ได้อย่างไร

mammal 2025-01-25

ในกรณีของ LLaMA ผมรู้สึกอย่างมากว่าจาก LLaMA 2 -> 3 แทบไม่มีนวัตกรรมด้านสถาปัตยกรรมเลย และมีแค่การเพิ่มสเกลการฝึกเท่านั้น ซึ่งผมมองว่านี่เป็นลางบอกเหตุมาก่อนแล้ว

play1204dev 2025-01-25

ถึงจะสกัดจีนขนาดนั้นและถึงขั้นคุมการส่งออก GPU แต่พอเห็นอะไรแบบนี้ก็ทั้งน่าทึ่งและน่ากลัว ขณะเดียวกันในแง่บวกก็มองว่าเป็นปลาดุกที่ช่วยกระตุ้นการแข่งขันได้อย่างดี สุดท้ายแล้วก็ไม่มีใครปฏิเสธได้ว่า OpenAI ยังคงเป็นผู้นำอยู่

xguru 2025-01-25

ถึงอย่างไรนี่ก็เป็นโพสต์ที่โพสต์บน Blind จึงยังยืนยันความจริงแท้ไม่ได้ แต่ดูเหมือนว่า DeepSeek กำลังสร้างแรงกระแทกอยู่จริง
เปิดตัวโมเดล DeepSeek-R1
Deepseek - ยักษ์เงียบที่กำลังนำการแข่งขัน AI ของจีน
Deepseek V3 แสดงประสิทธิภาพที่ไม่ดีในเบนช์มาร์กที่ใช้ทดสอบว่ามี overfitting หรือไม่
บันทึกเกี่ยวกับ DeepSeek v3 - "มันดีกว่า GPT-4o หรือ 3.5 Sonnet จริงหรือ?"

องค์กร GenAI ของ Meta กำลังช็อกจาก DeepSeek

ความคิดเห็น

บทความที่เกี่ยวข้อง

5 ความคิดเห็น