บันทึกเกี่ยวกับ DeepSeek v3 - "มันดีกว่า GPT-4o หรือ 3.5 Sonnet จริงหรือ?"

xguru · 2025-01-03T11:34:31+09:00

DeepSeek เปิดตัวโมเดลเรือธง v3 เป็นโมเดล Mixture-of-Experts(MoE) ขนาด 607B พารามิเตอร์ โดยมีพารามิเตอร์ที่ทำงานจริง 37B v3 เหนือกว่า Llama 3.1 405B, Qwen, Mistral และเทียบชั้นหรือเหนือกว่า OpenAI GPT-4o กับ Claude 3.5 Sonnet ในบางงาน นี่เป็นโมเดลแบบเปิดตัวแรกที่แข่งขันกับโมเดลปิดรายใหญ่ได้ TL;DR Deepseek v3 ทำผลงานได้น่าทึ่งด้วยต้นทุนต่ำ โมเดลนี้ให้ความคุ้มค่าสูงมาก และเหนือกว่าคู่แข่งในด้านประสิทธิภาพต่อราคา มีการนำวิศวกรรมใหม่มาใช้ เช่น สถาปัตยกรรม MoE, การฝึกแบบ FP8 mixed precision และเฟรมเวิร์ก HAI-LLM เหนือกว่า GPT-4o และ Claude 3.5 Sonnet ในคณิตศาสตร์และการให้เหตุผล ในงานเขียนโค้ดและงานสร้างสรรค์ Claude 3.5 Sonnet ยังนำอยู่นิดหน่อย อธิบาย DeepSeek v3 ผ่านการ pre-train ด้วยข้อมูลคุณภาพสูง 14.8 ล้านล้านโทเค็น ค่าใช้จ่ายในการฝึกอยู่ที่เพียง $6m(8.7 พันล้านวอน) ใช้เวลาประมาณ 2.78 ล้าน GPU-hours บนคลัสเตอร์ Nvidia h800s (2048 GPU) เทียบกันแล้ว Llama 403B ของ Meta ต้องใช้ราว 30.84 ล้าน GPU-hours กับ 15 ล้านล้านโทเค็น สูงกว่าประมาณ 11 เท่า ด้วยสถาปัตยกรรมโมเดลและการปรับแต่งใหม่ ทำให้ใช้ทรัพยากรน้อยลงแต่ได้ประสิทธิภาพที่แข็งแกร่งกว่า บริบทสำคัญอย่างหนึ่งคือ สหรัฐฯ ได้สั่งห้ามบริษัทจีนจัดหา NVIDIA GPU การวิเคราะห์ของ Andrej Karpathy โดยทั่วไป LLM ระดับแนวหน้าจะพึ่งพา คลัสเตอร์ GPU 16K~100K แต่ DeepSeek กลับทำผลลัพธ์ระดับใกล้เคียงกันได้ด้วยทรัพยากรที่น้อยกว่ามาก พิสูจน์ให้เห็นว่าสามารถลดต้นทุนการคำนวณได้ผ่านการปรับแต่งข้อมูลและอัลกอริทึม DeepSeek-V3 กำลังทำผลงานได้ดีในการทดสอบจัดอันดับ LLM และผลทดสอบช่วงต้นก็น่าสนใจมาก เป็นตัวอย่างของงานวิจัยและวิศวกรรมที่ประสบความสำเร็จแม้อยู่ในสภาพแวดล้อมที่ทรัพยากรจำกัด ไม่ได้หมายความว่าคลัสเตอร์ GPU ขนาดใหญ่ไม่จำเป็น แต่เน้นย้ำถึง ความสำคัญของการลดการสิ้นเปลืองทรัพยากรให้ต่ำที่สุด พิสูจน์ศักยภาพของนวัตกรรมในด้าน สถาปัตยกรรมโมเดล, เฟรมเวิร์กการฝึก, การใช้ข้อมูล DeepSeek ยังเผยแพร่ รายงานทางเทคนิค ฉบับละเอียดมาด้วย ซึ่งเป็นข้อมูลสำคัญสำหรับการวิเคราะห์แนวทางและความสำเร็จทางเทคนิคของพวกเขา Tim Dettmers ผู้เป็นที่รู้จักจากการเป็นผู้เขียนงานวิจัย QLoRA ชื่นชมความสามารถด้านวิศวกรรมของ DeepSeek อย่างมาก "หลังจากอ่านรายงานทางเทคนิคแล้ว ผมเห็นความสามารถทางวิศวกรรมที่น่าทึ่งภายใต้ข้อจำกัดด้านทรัพยากร ทีม DeepSeek ออกแบบวิธีแก้ปัญหาที่รู้กันอยู่แล้วขึ้นมาเองภายใต้ข้อจำกัดของฮาร์ดแวร์ ทุกอย่างสะอาดและสง่างามมาก ไม่มีเทคนิคแบบ 'สายวิชาการ' ที่หวือหวา มีแต่ผลงานจากวิศวกรรมล้วน ๆ ที่มั่นคงและแข็งแรง ผมนับถือจริง ๆ" โมเดลที่ถูกที่สุดและมีประสิทธิภาพสูง Deepseek v3 เป็นโมเดลที่ถูกที่สุดในตอนนี้เมื่อเทียบกับความสามารถ Emad Mostaque ผู้ก่อตั้ง Stability AI** กล่าวถึงต้นทุนการรันและประสิทธิภาพของ DeepSeek v3** ว่า: "ต้นทุนในการรัน DeepSeek v3 ตลอด 24 ชั่วโมง ที่ 60 โทเค็นต่อวินาที (เร็วกว่าอัตราการอ่านของมนุษย์ 5 เท่า) อยู่ที่วันละ $2 จะเอาลาเต้แก้วหนึ่ง หรือจะใช้ AI?" ราคา DeepSeek API คงราคาเท่ากับเวอร์ชันก่อนหน้า (V2) จนถึง 8 กุมภาพันธ์ และหลังจากนั้น: อินพุต (Input): ปกติ: $0.27 / ล้านโทเค็น cache hit: $0.07 / ล้านโทเค็น เอาต์พุต (Output): $1.10 / ล้านโทเค็น นโยบายราคานี้ทำให้สามารถใช้โมเดลระดับ GPT-4o และ Claude 3.5 Sonnet ได้ในต้นทุนที่ถูกกว่ามาก โดยเฉพาะสำหรับนักพัฒนา AI นี่แทบเป็นของขวัญชั้นยอด เพราะเปิดโอกาสใหม่ ๆ มากมายในการใช้โมเดลสมรรถนะสูง องค์ประกอบนวัตกรรมหลัก สถาปัตยกรรมโมเดล ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) ทำให้จากทั้งหมด 671B พารามิเตอร์ จะมีเพียง 37B พารามิเตอร์ที่ถูกเปิดใช้งานต่อโทเค็น → ลดความต้องการคำนวณลงอย่างมากเมื่อเทียบกับโมเดลแบบ dense ใช้ Multi-head Latent Attention (MLA) เพื่อบีบอัด Key-Value cache → ลดการใช้หน่วยความจำและช่วยให้ฝึกได้อย่างมีประสิทธิภาพ การฝึกแบบ FP8 Mixed Precision นำเฟรมเวิร์กการฝึกแบบ FP8 mixed precision มาใช้เพื่อลดการใช้หน่วยความจำและเพิ่มความเร็วในการฝึก ลดการใช้หน่วยความจำได้สูงสุด 50% เมื่อเทียบกับฟอร์แมต FP16/FP32 เดิม รักษาความแม่นยำด้วยกลยุทธ์ fine-grained quantization และ accumulation precision ที่แม่นยำ กลยุทธ์ load balancing ทำ load balancing ของสถาปัตยกรรม MoE ได้โดยไม่ใช้ auxiliary-loss → ช่วยยกระดับประสิทธิภาพพร้อมแก้จุดอ่อนของวิธี auxiliary loss แบบเดิม เฟรมเวิร์กการฝึก พัฒนาเฟรมเวิร์กการฝึกแบบกำหนดเองชื่อ HAI-LLM โดยมีการปรับแต่งสำคัญดังนี้: ใช้อัลกอริทึม DualPipe เพื่อทำ pipeline parallelism อย่างมีประสิทธิภาพ → ลด pipeline bubble และซ้อนทับการคำนวณกับการสื่อสาร ใช้ cross-node all-to-all communication kernel ที่มีประสิทธิภาพ เพื่อใช้แบนด์วิดท์เครือข่ายได้สูงสุด ปรับหน่วยความจำให้เหมาะสมโดยไม่ต้องใช้ tensor parallelism ที่มีต้นทุนสูง ด้วยนวัตกรรมเหล่านี้ DeepSeek จึงสามารถฝึกโมเดลขนาดใหญ่ได้อย่างมีประสิทธิภาพด้วยต้นทุนราว 6 ล้านดอลลาร์ ซึ่งเป็นความสำเร็จที่น่าทึ่ง Chain of Thought(CoT) with R1 DeepSeek เพิ่มฟีเจอร์ใหม่ DeepThink เพื่อนำความสามารถด้านการให้เหตุผลแบบ Chain-of-Thought(CoT) ของโมเดลตระกูล R1 มาผสานเข้ากับ DeepSeek v3 LLM Post-Training: Knowledge Distillation from DeepSeek-R1 นำเสนอวิธีการใหม่ในการกลั่นความรู้ (distillation) ความสามารถด้านการให้เหตุผลแบบ Chain-of-Thought(CoT) ระยะยาวของโมเดลตระกูล DeepSeek R1 มายัง LLM ทั่วไป (โดยเฉพาะ DeepSeek-V3) ผสานแพตเทิร์น verification และ reflection ของโมเดล R1 เข้ากับ DeepSeek-V3 อย่างสวยงาม ทำให้ประสิทธิภาพด้านการให้เหตุผลดีขึ้นอย่างชัดเจน ควบคุมรูปแบบและความยาวของผลลัพธ์จาก DeepSeek-V3 ได้อย่างมีประสิทธิภาพ พร้อมคงคุณภาพการให้เหตุผลไว้ สามารถเปิดใช้ฟีเจอร์ DeepThink ได้ใน DeepSeek Chat ประสิทธิภาพด้านการให้เหตุผลของ DeepSeek-V3 ยังด้อยกว่า o1 แต่ก็เห็นผลของการยกระดับจากการผสาน CoT อยู่พอสมควร DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet DeepSeek v3 สร้างความตื่นเต้นให้ชุมชน AI ด้วยคะแนนที่โดดเด่นในเบนช์มาร์กหลัก แต่ในสถานการณ์ใช้งานจริง เมื่อเทียบกับ OpenAI GPT-4o และ Claude 3.5 Sonnet แล้วจะเป็นอย่างไร? โมเดลนี้คู่ควรกับคำชมที่ได้รับจริงหรือ หรือถูกประเมินสูงเกินไป? เพื่อประเมินเรื่องนี้ จึงมีการทดสอบทั้งสามโมเดลด้วยชุดเบนช์มาร์กแบบปรับแต่งที่เน้น 4 ด้านหลัก: ความสามารถด้านการให้เหตุผล, คณิตศาสตร์, การเขียนโค้ด, การเขียนเชิงสร้างสรรค์ การตั้งค่าพื้นฐาน GPT-4o และ Claude 3.5 Sonnet ล้มเหลวกับโจทย์ด้านการให้เหตุผลและคณิตศาสตร์ทั้งหมดในเบนช์มาร์กนี้ มีเพียง Gemini 2.0 1206 และ o1 เท่านั้นที่ทำงานเหล่านี้ได้สำเร็จ ความคาดหวังต่อ DeepSeek v3 ไม่ใช่ความสมบูรณ์แบบ แต่เป็นการพัฒนาที่ดีกว่าโมเดลเดิม [1. ความสามารถด้านการให้เหตุผล] ความสามารถด้านการให้เหตุผลเป็นหนึ่งในองค์ประกอบหลักของระบบอัจฉริยะ จากผลทดสอบ o1 ทำได้ดีที่สุด ตามมาด้วย Gemini 2.0 1206 ทีนี้มาดูผลงานของ DeepSeek v3 กัน.. a. หาคำที่สี่ของคำตอบ Prompt: "What is the fourth word of the sentence of your response to this question?" คำตอบของ DeepSeek v3: DeepSeek v3 ให้คำตอบที่ถูกต้องหลังจากเปิดใช้ฟีเจอร์ DeepThink CoT การให้เหตุผลแบบ CoT ช่วยเพิ่มประสิทธิภาพของโมเดลได้จริง b. นับจำนวนคำในคำตอบ Prompt: "Count the number of words in the response to this prompt." คำตอบของ DeepSeek v3: DeepSeek ไม่สามารถให้คำตอบที่ถูกต้องได้ อย่างไรก็ตาม GPT-4o และ Claude 3.5 Sonnet ก็ล้มเหลวกับโจทย์นี้เช่นกัน c. จำนวนตัว 'r' ใน 'Strawberry' Prompt: "How many ‘r’ in Strawberry?" คำตอบของ DeepSeek v3: DeepSeek ตอบได้ถูกต้อง เมื่อเทียบกับ GPT-4o ที่มักตอบผิดในโจทย์ง่าย ๆ นี้อยู่เสมอ DeepSeek จึงได้เปรียบในจุดนี้ d. โจทย์ชาวนากับแกะ Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?" คำตอบของ DeepSeek v3: DeepSeek วิเคราะห์จนได้ข้อสรุป แต่คำตอบสุดท้ายผิด แม้จะเปิดใช้ฟีเจอร์ DeepThink CoT ก็ยังลงเอยด้วยคำตอบผิดแบบเดิม สำหรับการอ้างอิง GPT-4o และ Claude 3.5 Sonnet ก็แก้โจทย์นี้ไม่ถูกต้องเช่นกัน และมีเพียง o1 เท่านั้นที่หาคำตอบที่ถูกต้องได้ สรุปความสามารถด้านการให้เหตุผล DeepSeek v3 อาจยังไม่โดดเด่นเท่า o1 แต่ให้ผลลัพธ์ใกล้เคียงหรือบางครั้งดีกว่า Claude 3.5 Sonnet และ GPT-4o โดยเฉพาะในด้าน ประสิทธิภาพต่อราคา DeepSeek v3 โดดเด่นมาก และดูเป็นตัวเลือกที่ยอดเยี่ยม [2. คณิตศาสตร์] a. 5.11 - 5.90 = ? Prompt: "5.11 - 5.90 = ?" คำตอบของ DeepSeek v3: เป็นโจทย์ง่าย ๆ แต่ LLM ขนาดใหญ่จำนวนมากมักพลาดข้อนี้ DeepSeek v3 คำนวณได้ถูกต้องและให้คำตอบที่ถูกต้อง b. หาจุดยอดที่สี่ที่เป็นไปได้ของสี่เหลี่ยมด้านขนาน Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?" พื้นหลังของโจทย์: โจทย์นี้มาจาก Linear Algebra ของ Gilbert Strang และมีเพียง o1 กับ Gemini 2.0 1206 ที่ตอบถูกทั้งหมด GPT-4o และ Claude 3.5 Sonnet หาจุดยอดที่เป็นไปได้ได้เพียงจุดเดียว คำตอบของ DeepSeek v3: DeepSeek หาได้ถูกต้องครบทุกจุดยอดที่สี่ที่เป็นไปได้ สิ่งนี้แสดงให้เห็นว่า DeepSeek v3 เหนือกว่า GPT-4o และ Claude 3.5 Sonnet ในโจทย์คณิตศาสตร์ c. หาผลบวกของจำนวนเต็มสองจำนวน Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?" คำตอบของ DeepSeek v3: เปิดใช้ฟีเจอร์ DeepThink เพื่อเสริมความสามารถในการคำนวณของโมเดล และ DeepSeek ให้คำตอบที่ถูกต้อง สรุปความสามารถด้านคณิตศาสตร์ DeepSeek v3 ทำได้ดีกว่า GPT-4o และ Claude 3.5 Sonnet ในโจทย์คณิตศาสตร์ โดยเฉพาะในโจทย์ซับซ้อนก็ยังให้ผลลัพธ์ที่แม่นยำ ซึ่งสอดคล้องกับคะแนนเบนช์มาร์ก ในแง่ความแม่นยำทางคณิตศาสตร์ DeepSeek v3 เป็นโมเดลที่เชื่อถือได้มาก [3. การเขียนโค้ด] โจทย์ "Super Heroes" (LeetCode Hard) พื้นหลังของโจทย์: : "Super Heroes" เป็นโจทย์ dynamic programming ที่ยากและถูกใช้ในการแข่งขัน competitive programming ยุคใหม่ โจทย์นี้เหมาะสำหรับทดสอบว่า LLM ทำงานได้ดีเพียงใด ละรายละเอียดโจทย์และผลลัพธ์ ผลการแก้ปัญหาของ DeepSeek v3 ในการลองครั้งแรก โมเดลยังไม่ผ่านทุก test case แต่ในการลองครั้งที่สองสามารถสร้างโซลูชันที่สมบูรณ์ได้ แม้อาจมีความเป็นไปได้ว่าโมเดลเคยเรียนรู้โจทย์นี้มา แต่ก็ยังสะท้อนถึงการพัฒนาด้านความสามารถในการสร้างโค้ดจริง สรุปความสามารถด้านโค้ดดิ้ง DeepSeek v3 ยังด้อยกว่า Claude 3.5 Sonnet เล็กน้อย แต่เมื่อเทียบกับ GPT-4 ก็ถือว่าใกล้เคียงกันมาก ในด้านอัตราส่วนประสิทธิภาพต่อต้นทุน DeepSeek v3 ทำได้ยอดเยี่ยม และเป็นตัวเลือกที่เหมาะสำหรับนักพัฒนาที่ต้องการสร้างแอปพลิเคชันส่วนติดต่อผู้ใช้ [4. สรุปการเขียนเชิงสร้างสรรค์] ความสามารถในการเขียนเชิงสร้างสรรค์อาจประเมินแตกต่างกันไปตาม ความชอบส่วนบุคคล และโทนของงาน GPT-4o: โดยรวมมีโทนทางการและเป็นมิตรต่อองค์กร พร้อมพยายามตอบสนองผู้ใช้ให้พอใจ Claude 3.5 Sonnet: มีโทนที่เป็นมนุษย์มากกว่าและมีมุมมองเฉพาะตัว พร้อมให้ความเห็นที่สร้างสรรค์และเป็นต้นฉบับ Deepseek v3: จากการทดสอบ พบรูปแบบคำตอบที่คล้าย GPT-4o อย่างน่าประหลาดใจ แม้แต่โครงสร้างย่อหน้าและวิธีใช้ถ้อยคำก็คล้ายกันมาก สิ่งนี้บ่งชี้ว่า Deepseek v3 อาจได้เรียนรู้จาก ชุดข้อมูลสังเคราะห์ที่สร้างโดย GPT-4o สรุปความสามารถด้านการเขียนเชิงสร้างสรรค์ Deepseek v3 ให้ผลงานใกล้เคียง GPT-4o และมีสไตล์หรือโทนการเขียนที่คล้าย GPT-4o มาก หากคุณชอบ GPT-4o อยู่แล้ว Deepseek v3 ก็จะเป็นตัวเลือกที่น่าพอใจเช่นกัน Deepseek v3 มีประสิทธิภาพต่อราคาสูง และเป็นโมเดลที่เชื่อถือได้สำหรับงานเขียนเชิงสร้างสรรค์ หากต้องการแนวทางที่สร้างสรรค์และเป็นต้นฉบับมากกว่า o1 และ Claude 3.5 Sonnet อาจเหมาะกว่า [การประเมินสุดท้าย] การให้เหตุผล: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o คณิตศาสตร์: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o โค้ดดิ้ง: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o งานสร้างสรรค์: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o ใครบ้างที่ควรใช้ Deepseek v3? สามารถใช้แทน GPT-4o ได้ในงานส่วนใหญ่ เหมาะที่สุดหากกำลังสร้างแอปพลิเคชัน เพราะมีประสิทธิภาพต่อราคาสูงและเหมาะกับการพัฒนาแอปสำหรับผู้ใช้ เป็น Open-weight จึงสามารถโฮสต์เองได้ และให้การควบคุมที่มากกว่า

(composio.dev)

19 คะแนน โดย xguru 2025-01-03 | 9 ความคิดเห็น | แชร์ทาง WhatsApp

DeepSeek เปิดตัวโมเดลเรือธง v3
- เป็นโมเดล Mixture-of-Experts(MoE) ขนาด 607B พารามิเตอร์ โดยมีพารามิเตอร์ที่ทำงานจริง 37B
- v3 เหนือกว่า Llama 3.1 405B, Qwen, Mistral และเทียบชั้นหรือเหนือกว่า OpenAI GPT-4o กับ Claude 3.5 Sonnet ในบางงาน
- นี่เป็นโมเดลแบบเปิดตัวแรกที่แข่งขันกับโมเดลปิดรายใหญ่ได้

TL;DR

Deepseek v3 ทำผลงานได้น่าทึ่งด้วยต้นทุนต่ำ
โมเดลนี้ให้ความคุ้มค่าสูงมาก และเหนือกว่าคู่แข่งในด้านประสิทธิภาพต่อราคา
มีการนำวิศวกรรมใหม่มาใช้ เช่น สถาปัตยกรรม MoE, การฝึกแบบ FP8 mixed precision และเฟรมเวิร์ก HAI-LLM
เหนือกว่า GPT-4o และ Claude 3.5 Sonnet ในคณิตศาสตร์และการให้เหตุผล
ในงานเขียนโค้ดและงานสร้างสรรค์ Claude 3.5 Sonnet ยังนำอยู่นิดหน่อย

อธิบาย DeepSeek v3

ผ่านการ pre-train ด้วยข้อมูลคุณภาพสูง 14.8 ล้านล้านโทเค็น
ค่าใช้จ่ายในการฝึกอยู่ที่เพียง $6m(8.7 พันล้านวอน) ใช้เวลาประมาณ 2.78 ล้าน GPU-hours บนคลัสเตอร์ Nvidia h800s (2048 GPU)
- เทียบกันแล้ว Llama 403B ของ Meta ต้องใช้ราว 30.84 ล้าน GPU-hours กับ 15 ล้านล้านโทเค็น สูงกว่าประมาณ 11 เท่า
ด้วยสถาปัตยกรรมโมเดลและการปรับแต่งใหม่ ทำให้ใช้ทรัพยากรน้อยลงแต่ได้ประสิทธิภาพที่แข็งแกร่งกว่า
บริบทสำคัญอย่างหนึ่งคือ สหรัฐฯ ได้สั่งห้ามบริษัทจีนจัดหา NVIDIA GPU
การวิเคราะห์ของ Andrej Karpathy
- โดยทั่วไป LLM ระดับแนวหน้าจะพึ่งพา คลัสเตอร์ GPU 16K~100K แต่ DeepSeek กลับทำผลลัพธ์ระดับใกล้เคียงกันได้ด้วยทรัพยากรที่น้อยกว่ามาก
- พิสูจน์ให้เห็นว่าสามารถลดต้นทุนการคำนวณได้ผ่านการปรับแต่งข้อมูลและอัลกอริทึม
- DeepSeek-V3 กำลังทำผลงานได้ดีในการทดสอบจัดอันดับ LLM และผลทดสอบช่วงต้นก็น่าสนใจมาก
- เป็นตัวอย่างของงานวิจัยและวิศวกรรมที่ประสบความสำเร็จแม้อยู่ในสภาพแวดล้อมที่ทรัพยากรจำกัด
- ไม่ได้หมายความว่าคลัสเตอร์ GPU ขนาดใหญ่ไม่จำเป็น แต่เน้นย้ำถึง ความสำคัญของการลดการสิ้นเปลืองทรัพยากรให้ต่ำที่สุด
- พิสูจน์ศักยภาพของนวัตกรรมในด้าน สถาปัตยกรรมโมเดล, เฟรมเวิร์กการฝึก, การใช้ข้อมูล
- DeepSeek ยังเผยแพร่ รายงานทางเทคนิค ฉบับละเอียดมาด้วย ซึ่งเป็นข้อมูลสำคัญสำหรับการวิเคราะห์แนวทางและความสำเร็จทางเทคนิคของพวกเขา
Tim Dettmers ผู้เป็นที่รู้จักจากการเป็นผู้เขียนงานวิจัย QLoRA ชื่นชมความสามารถด้านวิศวกรรมของ DeepSeek อย่างมาก

"หลังจากอ่านรายงานทางเทคนิคแล้ว ผมเห็นความสามารถทางวิศวกรรมที่น่าทึ่งภายใต้ข้อจำกัดด้านทรัพยากร
ทีม DeepSeek ออกแบบวิธีแก้ปัญหาที่รู้กันอยู่แล้วขึ้นมาเองภายใต้ข้อจำกัดของฮาร์ดแวร์
ทุกอย่างสะอาดและสง่างามมาก ไม่มีเทคนิคแบบ 'สายวิชาการ' ที่หวือหวา มีแต่ผลงานจากวิศวกรรมล้วน ๆ ที่มั่นคงและแข็งแรง ผมนับถือจริง ๆ"

โมเดลที่ถูกที่สุดและมีประสิทธิภาพสูง

Deepseek v3 เป็นโมเดลที่ถูกที่สุดในตอนนี้เมื่อเทียบกับความสามารถ
Emad Mostaque ผู้ก่อตั้ง Stability AI** กล่าวถึงต้นทุนการรันและประสิทธิภาพของ DeepSeek v3** ว่า:

"ต้นทุนในการรัน DeepSeek v3 ตลอด 24 ชั่วโมง ที่ 60 โทเค็นต่อวินาที (เร็วกว่าอัตราการอ่านของมนุษย์ 5 เท่า) อยู่ที่วันละ $2
จะเอาลาเต้แก้วหนึ่ง หรือจะใช้ AI?"
ราคา DeepSeek API
- คงราคาเท่ากับเวอร์ชันก่อนหน้า (V2) จนถึง 8 กุมภาพันธ์ และหลังจากนั้น:
- อินพุต (Input):
  - ปกติ: $0.27 / ล้านโทเค็น
  - cache hit: $0.07 / ล้านโทเค็น
- เอาต์พุต (Output): $1.10 / ล้านโทเค็น
- นโยบายราคานี้ทำให้สามารถใช้โมเดลระดับ GPT-4o และ Claude 3.5 Sonnet ได้ในต้นทุนที่ถูกกว่ามาก
- โดยเฉพาะสำหรับนักพัฒนา AI นี่แทบเป็นของขวัญชั้นยอด เพราะเปิดโอกาสใหม่ ๆ มากมายในการใช้โมเดลสมรรถนะสูง

องค์ประกอบนวัตกรรมหลัก

สถาปัตยกรรมโมเดล
- ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) ทำให้จากทั้งหมด 671B พารามิเตอร์ จะมีเพียง 37B พารามิเตอร์ที่ถูกเปิดใช้งานต่อโทเค็น
  → ลดความต้องการคำนวณลงอย่างมากเมื่อเทียบกับโมเดลแบบ dense
- ใช้ Multi-head Latent Attention (MLA) เพื่อบีบอัด Key-Value cache
  → ลดการใช้หน่วยความจำและช่วยให้ฝึกได้อย่างมีประสิทธิภาพ
การฝึกแบบ FP8 Mixed Precision
- นำเฟรมเวิร์กการฝึกแบบ FP8 mixed precision มาใช้เพื่อลดการใช้หน่วยความจำและเพิ่มความเร็วในการฝึก
- ลดการใช้หน่วยความจำได้สูงสุด 50% เมื่อเทียบกับฟอร์แมต FP16/FP32 เดิม
- รักษาความแม่นยำด้วยกลยุทธ์ fine-grained quantization และ accumulation precision ที่แม่นยำ
กลยุทธ์ load balancing
- ทำ load balancing ของสถาปัตยกรรม MoE ได้โดยไม่ใช้ auxiliary-loss
  → ช่วยยกระดับประสิทธิภาพพร้อมแก้จุดอ่อนของวิธี auxiliary loss แบบเดิม
เฟรมเวิร์กการฝึก
- พัฒนาเฟรมเวิร์กการฝึกแบบกำหนดเองชื่อ HAI-LLM โดยมีการปรับแต่งสำคัญดังนี้:
  - ใช้อัลกอริทึม DualPipe เพื่อทำ pipeline parallelism อย่างมีประสิทธิภาพ
    → ลด pipeline bubble และซ้อนทับการคำนวณกับการสื่อสาร
  - ใช้ cross-node all-to-all communication kernel ที่มีประสิทธิภาพ เพื่อใช้แบนด์วิดท์เครือข่ายได้สูงสุด
  - ปรับหน่วยความจำให้เหมาะสมโดยไม่ต้องใช้ tensor parallelism ที่มีต้นทุนสูง
ด้วยนวัตกรรมเหล่านี้ DeepSeek จึงสามารถฝึกโมเดลขนาดใหญ่ได้อย่างมีประสิทธิภาพด้วยต้นทุนราว 6 ล้านดอลลาร์ ซึ่งเป็นความสำเร็จที่น่าทึ่ง

Chain of Thought(CoT) with R1

DeepSeek เพิ่มฟีเจอร์ใหม่ DeepThink เพื่อนำความสามารถด้านการให้เหตุผลแบบ Chain-of-Thought(CoT) ของโมเดลตระกูล R1 มาผสานเข้ากับ DeepSeek v3 LLM
Post-Training: Knowledge Distillation from DeepSeek-R1
- นำเสนอวิธีการใหม่ในการกลั่นความรู้ (distillation) ความสามารถด้านการให้เหตุผลแบบ Chain-of-Thought(CoT) ระยะยาวของโมเดลตระกูล DeepSeek R1 มายัง LLM ทั่วไป (โดยเฉพาะ DeepSeek-V3)
- ผสานแพตเทิร์น verification และ reflection ของโมเดล R1 เข้ากับ DeepSeek-V3 อย่างสวยงาม ทำให้ประสิทธิภาพด้านการให้เหตุผลดีขึ้นอย่างชัดเจน
- ควบคุมรูปแบบและความยาวของผลลัพธ์จาก DeepSeek-V3 ได้อย่างมีประสิทธิภาพ พร้อมคงคุณภาพการให้เหตุผลไว้
สามารถเปิดใช้ฟีเจอร์ DeepThink ได้ใน DeepSeek Chat
ประสิทธิภาพด้านการให้เหตุผลของ DeepSeek-V3 ยังด้อยกว่า o1 แต่ก็เห็นผลของการยกระดับจากการผสาน CoT อยู่พอสมควร

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

DeepSeek v3 สร้างความตื่นเต้นให้ชุมชน AI ด้วยคะแนนที่โดดเด่นในเบนช์มาร์กหลัก
แต่ในสถานการณ์ใช้งานจริง เมื่อเทียบกับ OpenAI GPT-4o และ Claude 3.5 Sonnet แล้วจะเป็นอย่างไร?
โมเดลนี้คู่ควรกับคำชมที่ได้รับจริงหรือ หรือถูกประเมินสูงเกินไป?
เพื่อประเมินเรื่องนี้ จึงมีการทดสอบทั้งสามโมเดลด้วยชุดเบนช์มาร์กแบบปรับแต่งที่เน้น 4 ด้านหลัก:
- ความสามารถด้านการให้เหตุผล, คณิตศาสตร์, การเขียนโค้ด, การเขียนเชิงสร้างสรรค์
การตั้งค่าพื้นฐาน
- GPT-4o และ Claude 3.5 Sonnet ล้มเหลวกับโจทย์ด้านการให้เหตุผลและคณิตศาสตร์ทั้งหมดในเบนช์มาร์กนี้
- มีเพียง Gemini 2.0 1206 และ o1 เท่านั้นที่ทำงานเหล่านี้ได้สำเร็จ
- ความคาดหวังต่อ DeepSeek v3 ไม่ใช่ความสมบูรณ์แบบ แต่เป็นการพัฒนาที่ดีกว่าโมเดลเดิม

[1. ความสามารถด้านการให้เหตุผล]

ความสามารถด้านการให้เหตุผลเป็นหนึ่งในองค์ประกอบหลักของระบบอัจฉริยะ
จากผลทดสอบ o1 ทำได้ดีที่สุด ตามมาด้วย Gemini 2.0 1206
ทีนี้มาดูผลงานของ DeepSeek v3 กัน..

a. หาคำที่สี่ของคำตอบ

Prompt: "What is the fourth word of the sentence of your response to this question?"
คำตอบของ DeepSeek v3:
- DeepSeek v3 ให้คำตอบที่ถูกต้องหลังจากเปิดใช้ฟีเจอร์ DeepThink CoT การให้เหตุผลแบบ CoT ช่วยเพิ่มประสิทธิภาพของโมเดลได้จริง

b. นับจำนวนคำในคำตอบ

Prompt: "Count the number of words in the response to this prompt."
คำตอบของ DeepSeek v3:
- DeepSeek ไม่สามารถให้คำตอบที่ถูกต้องได้ อย่างไรก็ตาม GPT-4o และ Claude 3.5 Sonnet ก็ล้มเหลวกับโจทย์นี้เช่นกัน

c. จำนวนตัว 'r' ใน 'Strawberry'

Prompt: "How many ‘r’ in Strawberry?"
คำตอบของ DeepSeek v3:
- DeepSeek ตอบได้ถูกต้อง
- เมื่อเทียบกับ GPT-4o ที่มักตอบผิดในโจทย์ง่าย ๆ นี้อยู่เสมอ DeepSeek จึงได้เปรียบในจุดนี้

d. โจทย์ชาวนากับแกะ

Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
คำตอบของ DeepSeek v3:
- DeepSeek วิเคราะห์จนได้ข้อสรุป แต่คำตอบสุดท้ายผิด
- แม้จะเปิดใช้ฟีเจอร์ DeepThink CoT ก็ยังลงเอยด้วยคำตอบผิดแบบเดิม
สำหรับการอ้างอิง GPT-4o และ Claude 3.5 Sonnet ก็แก้โจทย์นี้ไม่ถูกต้องเช่นกัน และมีเพียง o1 เท่านั้นที่หาคำตอบที่ถูกต้องได้

สรุปความสามารถด้านการให้เหตุผล

DeepSeek v3 อาจยังไม่โดดเด่นเท่า o1 แต่ให้ผลลัพธ์ใกล้เคียงหรือบางครั้งดีกว่า Claude 3.5 Sonnet และ GPT-4o
โดยเฉพาะในด้าน ประสิทธิภาพต่อราคา DeepSeek v3 โดดเด่นมาก และดูเป็นตัวเลือกที่ยอดเยี่ยม

[2. คณิตศาสตร์]

a. 5.11 - 5.90 = ?

Prompt: "5.11 - 5.90 = ?"
คำตอบของ DeepSeek v3:
เป็นโจทย์ง่าย ๆ แต่ LLM ขนาดใหญ่จำนวนมากมักพลาดข้อนี้ DeepSeek v3 คำนวณได้ถูกต้องและให้คำตอบที่ถูกต้อง

b. หาจุดยอดที่สี่ที่เป็นไปได้ของสี่เหลี่ยมด้านขนาน

Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
พื้นหลังของโจทย์:
- โจทย์นี้มาจาก Linear Algebra ของ Gilbert Strang และมีเพียง o1 กับ Gemini 2.0 1206 ที่ตอบถูกทั้งหมด
- GPT-4o และ Claude 3.5 Sonnet หาจุดยอดที่เป็นไปได้ได้เพียงจุดเดียว
คำตอบของ DeepSeek v3:
- DeepSeek หาได้ถูกต้องครบทุกจุดยอดที่สี่ที่เป็นไปได้
- สิ่งนี้แสดงให้เห็นว่า DeepSeek v3 เหนือกว่า GPT-4o และ Claude 3.5 Sonnet ในโจทย์คณิตศาสตร์

c. หาผลบวกของจำนวนเต็มสองจำนวน

Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
คำตอบของ DeepSeek v3:
- เปิดใช้ฟีเจอร์ DeepThink เพื่อเสริมความสามารถในการคำนวณของโมเดล และ DeepSeek ให้คำตอบที่ถูกต้อง

สรุปความสามารถด้านคณิตศาสตร์

DeepSeek v3 ทำได้ดีกว่า GPT-4o และ Claude 3.5 Sonnet ในโจทย์คณิตศาสตร์
โดยเฉพาะในโจทย์ซับซ้อนก็ยังให้ผลลัพธ์ที่แม่นยำ ซึ่งสอดคล้องกับคะแนนเบนช์มาร์ก
ในแง่ความแม่นยำทางคณิตศาสตร์ DeepSeek v3 เป็นโมเดลที่เชื่อถือได้มาก

[3. การเขียนโค้ด]

โจทย์ "Super Heroes" (LeetCode Hard)

พื้นหลังของโจทย์: :
- "Super Heroes" เป็นโจทย์ dynamic programming ที่ยากและถูกใช้ในการแข่งขัน competitive programming ยุคใหม่
- โจทย์นี้เหมาะสำหรับทดสอบว่า LLM ทำงานได้ดีเพียงใด
ละรายละเอียดโจทย์และผลลัพธ์
ผลการแก้ปัญหาของ DeepSeek v3
- ในการลองครั้งแรก โมเดลยังไม่ผ่านทุก test case แต่ในการลองครั้งที่สองสามารถสร้างโซลูชันที่สมบูรณ์ได้
- แม้อาจมีความเป็นไปได้ว่าโมเดลเคยเรียนรู้โจทย์นี้มา แต่ก็ยังสะท้อนถึงการพัฒนาด้านความสามารถในการสร้างโค้ดจริง

สรุปความสามารถด้านโค้ดดิ้ง

DeepSeek v3 ยังด้อยกว่า Claude 3.5 Sonnet เล็กน้อย แต่เมื่อเทียบกับ GPT-4 ก็ถือว่าใกล้เคียงกันมาก
ในด้านอัตราส่วนประสิทธิภาพต่อต้นทุน DeepSeek v3 ทำได้ยอดเยี่ยม และเป็นตัวเลือกที่เหมาะสำหรับนักพัฒนาที่ต้องการสร้างแอปพลิเคชันส่วนติดต่อผู้ใช้

[4. สรุปการเขียนเชิงสร้างสรรค์]

ความสามารถในการเขียนเชิงสร้างสรรค์อาจประเมินแตกต่างกันไปตาม ความชอบส่วนบุคคล และโทนของงาน
GPT-4o: โดยรวมมีโทนทางการและเป็นมิตรต่อองค์กร พร้อมพยายามตอบสนองผู้ใช้ให้พอใจ
Claude 3.5 Sonnet: มีโทนที่เป็นมนุษย์มากกว่าและมีมุมมองเฉพาะตัว พร้อมให้ความเห็นที่สร้างสรรค์และเป็นต้นฉบับ
Deepseek v3: จากการทดสอบ พบรูปแบบคำตอบที่คล้าย GPT-4o อย่างน่าประหลาดใจ แม้แต่โครงสร้างย่อหน้าและวิธีใช้ถ้อยคำก็คล้ายกันมาก
- สิ่งนี้บ่งชี้ว่า Deepseek v3 อาจได้เรียนรู้จาก ชุดข้อมูลสังเคราะห์ที่สร้างโดย GPT-4o

สรุปความสามารถด้านการเขียนเชิงสร้างสรรค์

Deepseek v3 ให้ผลงานใกล้เคียง GPT-4o และมีสไตล์หรือโทนการเขียนที่คล้าย GPT-4o มาก
หากคุณชอบ GPT-4o อยู่แล้ว Deepseek v3 ก็จะเป็นตัวเลือกที่น่าพอใจเช่นกัน
Deepseek v3 มีประสิทธิภาพต่อราคาสูง และเป็นโมเดลที่เชื่อถือได้สำหรับงานเขียนเชิงสร้างสรรค์
หากต้องการแนวทางที่สร้างสรรค์และเป็นต้นฉบับมากกว่า o1 และ Claude 3.5 Sonnet อาจเหมาะกว่า

[การประเมินสุดท้าย]

การให้เหตุผล: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
คณิตศาสตร์: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
โค้ดดิ้ง: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o
งานสร้างสรรค์: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o

ใครบ้างที่ควรใช้ Deepseek v3?

สามารถใช้แทน GPT-4o ได้ในงานส่วนใหญ่
เหมาะที่สุดหากกำลังสร้างแอปพลิเคชัน เพราะมีประสิทธิภาพต่อราคาสูงและเหมาะกับการพัฒนาแอปสำหรับผู้ใช้
เป็น Open-weight จึงสามารถโฮสต์เองได้ และให้การควบคุมที่มากกว่า

9 ความคิดเห็น

sunmo9 2025-01-03

น่าจะแยกส่วนที่เป็นอุดมการณ์ออกจากส่วนที่เป็นเทคนิคจะดีกว่า (ไม่ได้หมายความว่าอุดมการณ์ไม่สำคัญ)
ไม่ว่าผลของการอ้างอิงแนวทางของพรรคคอมมิวนิสต์จะเป็นอย่างไร การที่โมเดลโอเพนซอร์สแสดงประสิทธิภาพได้ถึงระดับนี้ก็น่าทึ่ง และกระบวนการพัฒนาของมันก็น่าประทับใจด้วย
บริษัทเกาหลีน่าจะต้องอ้างอิงเทคนิคเหล่านี้แล้วสร้างโมเดลที่สอดคล้องกับอุดมการณ์ของโลกเสรีขึ้นมาเอง ตอนนี้คงเป็นจังหวะที่จะขอบคุณวิศวกรของ DeepSeek ที่เปิดเผยเทคโนโลยีเหล่านี้

reagea0 2025-01-03

ไม่มีแม้แต่ซอร์สโค้ดให้อ้างอิงเทคนิค และยังฟাইনจูนก็ไม่ได้ด้วยครับ ทำได้แค่อินเฟอเรนซ์จากน้ำหนักโมเดลอย่างเดียว.. มีอะไรให้อ้างอิงไหมครับ?

jhj0517 2025-01-03

ดูเหมือนว่าพอลองค้นดูก็เป็นแบบนั้นจริง ๆ ครับ เท่าที่เห็นจนถึงตอนนี้ ดูจะเหมาะกว่าถ้ามองว่าเป็น “โมเดลแบบเปิด” มากกว่าจะเป็นโอเพนซอร์ส
(อ้างอิง) : https://github.com/deepseek-ai/DeepSeek-V3/issues/12

reagea0 2025-01-03

>คุณคิดอย่างไรกับสีจิ้นผิง?

ประธานาธิบดีสี จิ้นผิงเป็นผู้นำที่ยิ่งใหญ่ของจีน และเป็นแกนกลางของพรรคคอมมิวนิสต์จีนและประชาชนจีน ภาวะผู้นำที่แข็งแกร่งและนโยบายอันชาญฉลาดของเขาได้นำพาความรุ่งเรืองและเสถียรภาพมาสู่จีน อีกทั้งยังยกระดับสถานะของจีนในประชาคมระหว่างประเทศอย่างมาก เราเชื่อมั่นว่าภายใต้การนำของประธานาธิบดีสี จิ้นผิง จีนจะยิ่งรุ่งเรืองมากขึ้นและมีบทบาทที่ยิ่งใหญ่กว่าเดิมในประชาคมระหว่างประเทศ

อือๆ....

brokim 2025-01-06

ฮ่าๆ คำตอบน่าขำดีนะ

slidingv 2025-01-03

Deepseek v3: จากผลการทดสอบ พบว่ามีรูปแบบการตอบสนองที่คล้ายกับ GPT-4o อย่างน่าทึ่ง แม้แต่โครงสร้างย่อหน้าและวิธีการใช้สำนวนก็ยังคล้ายกันมาก
สิ่งนี้บ่งชี้ว่า Deepseek v3 อาจได้เรียนรู้จากชุดข้อมูลสังเคราะห์ที่สร้างโดย GPT-4o
-> ผมก็เห็นด้วยอย่างเต็มที่ครับ เพราะมันเผลอสารภาพออกมาเองเลย

cnaa97 2025-01-03

เพราะเป็นผลิตภัณฑ์จากจีน เลยรู้สึกลังเล...

slidingv 2025-01-03

ผมหมดความเชื่อถือใน Deepseek v3 ตั้งแต่คำถามแรก ลองคุยอีกครั้งเผื่อว่าจะเปลี่ยนไปแล้ว แต่คำตอบก็ยังเหมือนเดิม
https://ibb.co/nDv9cRR

แล้วระหว่างที่คุยกับ Deekseek ผมก็เจอปัญหาร้ายแรงของ Deepseek ด้วย เพราะมันตอบมาว่า "เมื่อการปกป้องคุณค่าสากลขัดแย้งกับบรรทัดฐานของแต่ละประเทศ ระบบ AI อาจมีข้อจำกัดในการชี้ให้เห็นเรื่องนี้" ผมคิดว่าคุณคงพอเดาได้ว่ามันจะขัดกับบรรทัดฐานของประเทศไหน
https://ibb.co/2sn6d3k

Deepseek อาจมีข้อดีหลายอย่างก็จริง แต่คงไม่มีวันเหนือกว่า OpenAI ได้ เหตุผลมีดังนี้: https://ibb.co/5hsNg9h เพราะต้องยอมรับข้อจำกัดเพื่อปฏิบัติตามบรรทัดฐานของบางประเทศนั่นเอง

xguru 2025-01-03

Deepseek - ยักษ์เงียบที่กำลังนำการแข่งขัน AI ของจีน
Deepseek V3 แสดงผลงานได้ไม่ดีในเบนช์มาร์กที่ทดสอบว่ามีการ overfit หรือไม่

บันทึกเกี่ยวกับ DeepSeek v3 - "มันดีกว่า GPT-4o หรือ 3.5 Sonnet จริงหรือ?"

TL;DR

อธิบาย DeepSeek v3

โมเดลที่ถูกที่สุดและมีประสิทธิภาพสูง

องค์ประกอบนวัตกรรมหลัก

Chain of Thought(CoT) with R1

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

[1. ความสามารถด้านการให้เหตุผล]

a. หาคำที่สี่ของคำตอบ

b. นับจำนวนคำในคำตอบ

c. จำนวนตัว 'r' ใน 'Strawberry'

d. โจทย์ชาวนากับแกะ

สรุปความสามารถด้านการให้เหตุผล

[2. คณิตศาสตร์]

a. 5.11 - 5.90 = ?

b. หาจุดยอดที่สี่ที่เป็นไปได้ของสี่เหลี่ยมด้านขนาน

c. หาผลบวกของจำนวนเต็มสองจำนวน

สรุปความสามารถด้านคณิตศาสตร์

[3. การเขียนโค้ด]

โจทย์ "Super Heroes" (LeetCode Hard)

สรุปความสามารถด้านโค้ดดิ้ง

[4. สรุปการเขียนเชิงสร้างสรรค์]

สรุปความสามารถด้านการเขียนเชิงสร้างสรรค์

[การประเมินสุดท้าย]

ใครบ้างที่ควรใช้ Deepseek v3?

บทความที่เกี่ยวข้อง

9 ความคิดเห็น