DeepSeek V4 Pro เหนือกว่า GPT-5.5 Pro ในงานที่ต้องการความแม่นยำ
(runtimewire.com)- ในการเปรียบเทียบแบบ 1:1 ด้วย 4 งานข้อความที่สร้างขึ้นสด ๆ เพื่อป้องกันการเตรียมตัวล่วงหน้า DeepSeek V4 Pro ทำได้ 38.0 คะแนน ขณะที่ GPT-5.5 Pro ได้ 33.0 คะแนน
- ทั้งสองโมเดลมีความแข็งแกร่ง แต่ DeepSeek มีความเคร่งครัด ตรงตัวตามคำสั่งมากกว่า และมี ความน่าเชื่อถือภายใต้เงื่อนไขข้อจำกัด สูงกว่า ขณะที่ GPT-5.5 Pro ถูกหักคะแนนจากการปรับเปลี่ยนแบบด้นสดที่ไม่จำเป็น
- ความได้เปรียบทางเทคนิคที่ชัดเจนที่สุดอยู่ในโจทย์ python-log-redactor ซึ่งจัดการแพตเทิร์นที่ซ้อนกันด้วยลำดับความสำคัญที่ถูกต้องโดยใช้ regex เดียวและฟังก์ชันแทนที่ พร้อมให้ผลลัพธ์ครบถ้วนไม่มีตกหล่น
- ในโจทย์ การทำตามคำสั่ง DeepSeek ทำตามข้อกำหนดของพรอมป์ต์อย่างแม่นยำ ขณะที่ GPT-5.5 Pro เพิ่มรายละเอียดที่ไม่ได้ร้องขอ เช่น การส่งต่องานระหว่างกะและการ escalations
- ใน งานที่ต้องการความละเอียดแม่นยำ ซึ่งความคลาดเคลื่อนเล็กน้อยอาจนำไปสู่ความล้มเหลวจริง DeepSeek ถูกประเมินว่าเป็นโมเดลที่ยับยั้งชั่งใจได้ดีกว่า แม่นยำกว่า และเชื่อถือได้มากกว่า
ผลการประเมินโดยรวม
- จากคะแนน DeepSeek V4 Pro ชนะที่ 38.0 ต่อ 33.0 โดยมีหลักฐานรองรับช่องว่างคะแนนอย่างเพียงพอ
- ตลอดชุดโจทย์ที่ให้คะแนน Model A (DeepSeek) มีความ เคร่งครัดและตรงตัวกว่า และเสถียรกว่าภายใต้ข้อจำกัด
- Model B (GPT-5.5 Pro) ทำได้ยอดเยี่ยมเช่นกัน แต่มีแนวโน้ม ปรับเปลี่ยนแบบด้นสด มากเกินไปอยู่บ้าง
- ข้อสรุปสุดท้ายคือ ในงานที่ความคลาดเคลื่อนเล็กน้อยอาจนำไปสู่ความล้มเหลวจริง DeepSeek ถูกมองว่าเป็น โมเดลที่ยับยั้งชั่งใจได้ดีกว่า แม่นยำกว่า และเชื่อถือได้มากกว่า
python-log-redactor (โจทย์เขียนโค้ด)
- เป็นโจทย์ให้เขียนฟังก์ชัน
redact_log(line: str) -> strใน Python 3 โดยต้องมาสก์อีเมลเป็น[EMAIL], IPv4 เป็น[IP], และ ticket ID รูปแบบINC-+ ตัวเลข 6 หลักเป็น[TICKET]- ต้องคงข้อความส่วนอื่นไว้ตามเดิม, IP ที่ไม่ถูกต้อง เช่น
999.1.2.3ต้องไม่ถูกมาสก์, และสมมติว่าไม่มีอินพุตหลายบรรทัด
- ต้องคงข้อความส่วนอื่นไว้ตามเดิม, IP ที่ไม่ถูกต้อง เช่น
- ผู้ชนะ: DeepSeek V4 Pro — จัดการแพตเทิร์นที่ซ้อนกันด้วย regex เดียวและฟังก์ชันแทนที่ ทำให้รับประกันลำดับความสำคัญของการแทนที่ได้ถูกต้องและไม่มีจุดตกหล่น
- GPT-5.5 Pro แยก regex ออกหลายตัว จึงมีความเสี่ยงเรื่อง ลำดับผิดพลาด และยังมีข้อบกพร่อง เช่น ไม่มีขอบเขตคำใน regex ของอีเมลและมีการจับคู่เกินความจำเป็น
vendor-delay-update (โจทย์เขียนข้อความงานธุรกิจ)
- เป็นโจทย์ให้เขียนอัปเดตสถานะจาก VP ฝ่ายปฏิบัติการถึงผู้จัดการคลังสินค้าประจำภูมิภาค เพื่อแจ้งว่าการจัดส่งเครื่องทดแทน 420 เครื่องจากซัพพลายเออร์สแกนเนอร์บาร์โค้ด North Quay Devices ล่าช้าจากวันที่ 12 พฤษภาคมเป็น 19 พฤษภาคม เนื่องจากการรับรองแบตเตอรี่ไม่ผ่าน
- สแกนเนอร์สำรองมีเพียงพอเฉพาะ Memphis และ Reno ส่วน Tulsa และ Allentown ต้องใช้เครื่องร่วมกันเป็นเวลา 1 สัปดาห์
- ให้หยุดการตรวจนับสต็อกที่ไม่จำเป็น, ให้ความสำคัญกับการหยิบสินค้าเพื่อจัดส่งก่อน, ขอให้ รายงานยอดขาดแคลนภายในเวลา 16:00 น. ตามเวลาท้องถิ่นทุกวัน, น้ำเสียงต้องสุขุม รับผิดชอบ และใช้ได้จริง, ความยาว 140~180 คำ
- ผู้ชนะ: DeepSeek V4 Pro — ระบุถึง VP โดยตรงตามที่พรอมป์ต์กำหนดว่าให้ "รายงานยอดขาดแคลนภายในเวลา 16:00 น. ตามเวลาท้องถิ่นทุกวัน" และคงน้ำเสียงที่สุขุม รับผิดชอบ และใช้ได้จริง
- GPT-5.5 Pro เพิ่มรายละเอียด ที่ไม่ได้ร้องขอ เช่น การส่งมอบงานระหว่างกะและการ escalations อีกทั้งเปลี่ยนผู้รับเป็น "Operations Planning" จึงเบี่ยงเบนจากคำสั่งไปบ้าง แม้ทั้งสองฝั่งยังคงคุณภาพสูงและอยู่ในข้อจำกัดจำนวนคำ
meeting-notes-summary (โจทย์สรุปและสร้าง JSON)
- เป็นโจทย์ให้อ่านบันทึกการประชุมแล้วสร้างสรุป 2 ประโยค พร้อม อ็อบเจ็กต์ JSON ที่มีคีย์
launch_date,owner,blocked_by,open_questions(อาร์เรย์),decisions(อาร์เรย์)- บันทึกการประชุมเกี่ยวข้องกับโครงการปรับปรุง tenant portal ของ Cedar Lane โดยมีเนื้อหาอย่างการอนุมัติจากฝ่ายกฎหมาย, สถานะงานฟรอนต์เอนด์ที่เสร็จแล้ว, เป้าหมายเปิดตัววันที่ 2026-03-18, ปัญหาการบล็อก duplicate receipt ID ของการ retry ACH ใน financial sandbox, และการตัดสินใจถอด dark mode ออก
- ผู้ชนะ: DeepSeek V4 Pro — ปฏิบัติตามสคีมาที่ร้องขอได้อย่างถูกต้อง พร้อมสรุป 2 ประโยคและฟิลด์ JSON ที่เป็นชนิดข้อมูลถูกต้อง
- GPT-5.5 Pro แม้สรุปได้ดี แต่ใส่ ข้อความเชิงเงื่อนไข ลงใน
launch_dateและจัดการblocked_byซึ่งควรเป็นค่าเดี่ยวให้เป็นอาร์เรย์ จึงผิดโครงสร้าง
- GPT-5.5 Pro แม้สรุปได้ดี แต่ใส่ ข้อความเชิงเงื่อนไข ลงใน
messy-orders-to-json (โจทย์ปรับข้อมูลให้เป็นมาตรฐาน)
- เป็นโจทย์ให้แปลงบรรทัดคำสั่งซื้อที่ไม่เป็นระเบียบให้เป็นอาร์เรย์ของอ็อบเจ็กต์ JSON ที่ถูกต้อง ตามสคีมาที่กำหนด โดยต้องคงลำดับอินพุตเดิมไว้
- ต้องปรับ
priorityให้เป็น true/false, แปลงวันที่จัดส่งที่หายไปอย่างnone,tbd,-ให้เป็น null, ลบช่องว่างหัวท้ายค่า, และให้รายการสินค้าแยกด้วย;โดยแต่ละรายการอยู่ในรูปแบบSKU xQTY
- ต้องปรับ
- ผลลัพธ์: เสมอ — ทั้งสองฝั่งสร้าง JSON ที่ถูกต้อง คงลำดับอินพุตได้ และตรงตามสคีมาทั้งหมด รวมถึงจัดการ normalization ของค่า priority และ ship_by ได้ถูกต้อง
- ในด้านคุณภาพและความแม่นยำ แทบไม่มีความต่างที่มีนัยสำคัญ แต่ผลเสมอในโจทย์จัดระเบียบที่ง่ายกว่าไม่สามารถชดเชยความผิดพลาดในงานที่ต้องการความละเอียดแม่นยำได้
วิธีทดสอบ
- ใช้ 4 งานข้อความที่สร้างขึ้นสด ๆ สำหรับการจับคู่ เพื่อไม่ให้โมเดลใดเตรียมตัวล่วงหน้าได้
- การให้คะแนนในแต่ละโจทย์ดำเนินการโดย grok-4-1-fast-non-reasoning
- คะแนนสุดท้ายคือ DeepSeek V4 Pro 38.0, GPT-5.5 Pro 33.0
สเปกโมเดล
-
OpenAI: GPT-5.5 Pro
- เป็น โมเดลประสิทธิภาพสูง ที่ปรับแต่งเพื่อการให้เหตุผลเชิงลึกและความแม่นยำ สำหรับเวิร์กโหลดที่ซับซ้อนและมีความเสี่ยงสูง
- รองรับ คอนเท็กซ์ 1M+ โทเค็น (อินพุต 922K, เอาต์พุต 128K), รองรับอินพุตข้อความและภาพ, ออกแบบมาสำหรับการแก้ปัญหาระยะยาว, agent coding, และการทำงานอย่างแม่นยำในเวิร์กโฟลว์หลายขั้นตอน
- ราคาอินพุต $30.00 / เอาต์พุต $180.00 (ต่อหนึ่งล้านโทเค็น), คอนเท็กซ์ 1.1M, cutoff 2025-12-01
-
DeepSeek: DeepSeek V4 Pro
- เป็นโมเดล Mixture-of-Experts ขนาดใหญ่ที่มี พารามิเตอร์รวม 1.6T และพารามิเตอร์ที่ active 49B พร้อมรองรับคอนเท็กซ์ 1M โทเค็น
- มุ่งเป้าไปที่งานให้เหตุผลขั้นสูง การเขียนโค้ด และเวิร์กโฟลว์เอเจนต์ระยะยาว พร้อมประสิทธิภาพแข็งแกร่งในเบนช์มาร์กด้านความรู้ คณิตศาสตร์ และวิศวกรรมซอฟต์แวร์
- ใช้สถาปัตยกรรมเดียวกับ DeepSeek V4 Flash และนำ ระบบ hybrid attention มาใช้เพื่อการประมวลผลข้อความยาวอย่างมีประสิทธิภาพ
- รองรับระดับการให้เหตุผล
highและxhighโดยxhighจับคู่กับการใช้เหตุผลสูงสุด เหมาะกับเวิร์กโหลดซับซ้อนอย่างการวิเคราะห์โค้ดเบสทั้งชุด อัตโนมัติหลายขั้นตอน และการสังเคราะห์ข้อมูลขนาดใหญ่ - ราคาอินพุต $0.435 / เอาต์พุต $0.870 (ต่อหนึ่งล้านโทเค็น), คอนเท็กซ์ 1M
2 ความคิดเห็น
ไม่อยากเชื่อจริงๆ..
ความคิดเห็นจาก Hacker News
การทดลองที่จัดขึ้นเองแบบสุ่ม 4 อัน แทบจะบอกอะไรเกี่ยวกับความสามารถของโมเดลใด ๆ ไม่ได้เลย
ตัวบทความเองก็อ่านแล้วเหมือน คลิกเบตที่ AI สร้างขึ้น แบบผิวเผินเพื่อโปรโมตโมเดลหรือจุดประเด็นถกเถียง
ถ้อยคำอย่าง “where it matters”, “cleanly”, “is still strong” ในย่อหน้าเปิดนั้นคลุมเครือ และยังขาดคำอธิบายที่เป็นรูปธรรม เช่น DeepSeek ให้ผลลัพธ์ที่กระชับกว่าจริงใน 3 จาก 4 การทดสอบ ให้ 1 ดาว
ตาม Merriam-Webster, lede คือ “บทนำของข่าวที่ตั้งใจชักจูงให้ผู้อ่านอ่านทั้งบทความต่อ”
จะชอบสไตล์ที่แห้งกว่านี้ก็ได้ แต่การวิจารณ์ว่าบทนำกำลังพยายามทำหน้าที่ของมันเองนั้นไม่ค่อยสมเหตุสมผล
https://www.merriam-webster.com/dictionary/lede
https://artificialanalysis.ai/evaluations/ifbench
บทความก็ดูชัดเจนและค่อนข้างสมดุลดี แม้ย่อหน้าเปิดจะออกแนวการตลาดนิดหน่อย แต่ปกติ lede ก็มักเป็นแบบนั้นอยู่แล้ว และการปัดตกทันทีเพียงเพราะ “ให้ความรู้สึกเหมือน LLM เขียน” ก็ดูเป็นปฏิกิริยาที่ไม่ค่อยใส่ใจนัก
บทความนี้แสดงให้เห็นว่า DeepSeek สามารถแข่งขันกับ GPT 5.5 ได้ และบางครั้งอาจดีกว่าด้วยซ้ำ อีกทั้งยังเป็นสัญญาณว่าไม่มีคูเมืองทางธุรกิจ (moat) ที่ป้องกันได้ชัดเจน จึงมีนัยสำคัญมากพอสมควร
การทดสอบแบบนี้ดูเหมือนจะยิ่งเป็นการเสียเวลามากขึ้นเรื่อย ๆ
ตอนนี้ ความฉลาดมีอยู่ชัดเจนแล้ว การพยายามวัดมันเลยดูไม่ค่อยมีความหมาย มันเหมือนกับเวลาจะซื้อค้อนที่ร้านฮาร์ดแวร์ แต่กลับอยากจัดอันดับตาม “คุณภาพของสินค้าสำเร็จรูปที่จะสร้างด้วยค้อนนี้” ซึ่งการประเมินโมเดลตอนนี้ก็ประมาณนั้น
เวทมนตร์ถัดไปจะมาจาก harness และสภาพแวดล้อมเฉพาะโดเมน โดยตั้งใจใช้โมเดลที่อ่อนกว่านิดหน่อยเพื่อเปิดเผยจุดอ่อนของวิธีที่โดเมนนั้นถูกป้อนให้โมเดล หากยังมีประสิทธิภาพเหลือเผื่ออยู่ ความน่าเชื่อถือของโปรเจ็กต์จะเพิ่มขึ้นมาก ถ้าลูกค้าบ่นเรื่อง edge case บางอย่าง ก็แค่ยกระดับเฉพาะสถานการณ์นั้นไปเป็น gpt5.5 แต่ถ้าใช้ 5.5 อยู่แล้วตั้งแต่แรก ก็ไม่มีที่ให้ไปต่อ
สงสัยว่าเราใช้โมเดลตัวเดียวกับคนอื่นหรือเปล่า สำหรับผม LLM ให้คำตอบดี ๆ ราว 80% แต่มีอีก 20% ที่ล้มเหลวเละเทะจนเห็นชัดว่า ไม่มีความฉลาด
ถึงอย่างนั้น โมเดลก็ยังทำให้อึ้งได้ทุกวันด้วยอาการหลอนสารพัด การขาดความเข้าใจเชิงญาณวิทยา การขาดสามัญสำนึก และการไม่ทำตามคำสั่ง
วันนี้ผมพยายามให้ opus 4.8 ทำตามแพตเทิร์นสถาปัตยกรรมง่าย ๆ ของ controller ในแอป Rails แต่รู้สึกเหมือนกำลังถอนฟันฉลาม
เพื่อให้มั่นใจได้ว่าความฉลาดนั้นไม่ได้โผล่มาแบบบังเอิญหรือแค่ดูเหมือนมี แต่ปรากฏอย่างสม่ำเสมอและมีโครงสร้าง งานเบาใช้เครื่องมือเบา งานที่สำคัญระดับ mission-critical ก็ต้องใช้เครื่องมือที่ผ่านการรับรอง
เราเพิ่งเริ่มลงลึกในรายละเอียดของการ benchmark LLM และยังต้องไปอีกไกลอยู่มาก ถึงอย่างนั้น การที่ LLM ที่รันในเครื่อง ให้ผลใกล้เคียงกับโมเดลระดับแนวหน้าล่าสุดได้ ก็เป็นเรื่องน่าสนใจมาก
ถ้าโมเดลถูกฝึกมาให้ปั่นเว็บ CRUD ออกมา และคุณกำลังจะสร้างเว็บ CRUD อยู่ harness ก็อาจมีประโยชน์ได้ แต่สิ่งนั้นก็ใกล้เคียงกับการเสียเวลาไปกับการผสมสิ่งที่มีอยู่แล้วให้ดีขึ้นเท่านั้น
หลังจากเคยใช้ Claude แล้ว Opencode ถูกบล็อก ตอนนี้ที่ทำงานเลยใช้ GPT ส่วนตัวผมเองใช้ Deepseek บน Opencode Go แพ็กเกจเดือนละ $10 และพูดตามตรงก็แทบไม่รู้สึกถึงความต่าง
มันเก่งพอ ๆ กัน และยังทำพลาดโง่ ๆ แบบเดียวกับอีกสองตัวที่ทำมาตลอดตั้งแต่เดือนมีนาคม ถ้าคิดเรื่องราคาแล้วก็พอใจมาก
แต่อีก 5% ที่เหลือ มันช่วยมากกับโจทย์ reasoning ยาก ๆ และช่วยเลี่ยงความปวดหัวได้เยอะ ถ้าตอนนี้พอจะทำนายได้แม่น ๆ ว่าเมื่อไรเราต้องการ 5% เพิ่มนั้นก็คงดี
ลองเพิ่ม GPT 5.5 Pro เข้าไปในเบนช์มาร์กสแกนหาช่องโหว่ที่ทำขึ้นเองแล้ว(https://swelljoe.com/post/will-it-mythos/) แต่ดันใช้ งบ $100 หมดกลางคัน DeepSeek V4 Pro ใช้เงินราว 1 ดอลลาร์สำหรับทั้งเบนช์มาร์ก ส่วน GPT Pro เฉลี่ยอยู่ที่ $22 ต่อเคส
GPT 5.5 Pro เจอได้ 2 จาก 4 เคสที่ประมวลผลก่อนงบจะหมด ถ้ามีงบไม่จำกัดมันอาจจะเป็นตัวที่ดีที่สุดก็ได้ แต่ Opus 4.8, DeepSeek V4 Pro และ MiMo 2.5 Pro เจอได้ 4 จาก 9 บั๊ก Opus ถูกกว่า GPT 5.5 Pro อยู่หนึ่งหลัก และถูกกว่า GPT 5.5 ราว 30% ส่วน DeepSeek กับ MiMo ถูกกว่าแบบสองหลักที่ราว 10 เซนต์ต่อเคส
GPT Pro ใช้เวลา “คิดวน” ค่อนข้างนานและมากกว่าเมื่อเทียบกัน
นึกไม่ออกจริงๆ ว่าจะมีกรณีใช้งานแบบไหนที่สมเหตุสมผลพอให้ใช้ GPT 5.5 Pro ในเมื่อมันมีค่าใช้จ่ายราว 31 เท่าของ Opus และคงจะไม่ใช้มันทำเบนช์มาร์กอีกแล้ว
ในสถานการณ์ที่ต้นทุนโทเค็นยิ่งกลายเป็นประเด็นสำคัญ การที่มีโมเดลซึ่งถูกกว่าผู้ให้บริการรายใหญ่จากสหรัฐแบบทิ้งห่างมาก น่าจะเป็นปัญหาสำหรับ Anthropic และ OpenAI สำหรับงานโค้ดดิ้งแบบโต้ตอบ การยอมจ่ายพรีเมียมอย่างสมเหตุสมผลให้โมเดลที่ดีที่สุดก็พอรับได้ แต่สำหรับการใช้งานผ่าน API งานอย่างการวนรันโมเดล การเทียบข้ามโมเดล หรือการตัดสินโมเดล สามารถปล่อยให้ฮาร์เนสและเฟรมเวิร์กตรวจคำตอบจัดการได้โดยไม่ต้องให้คนนั่งเฝ้านาน จึงยากจะหาคำอธิบายว่าทำไมต้องจ่ายแพงกว่า DeepSeek ถึง 10 ถึง 200 เท่า
“$3.88, 690,003,591 โทเค็น, 5 ชั่วโมง ใช้ Deepseek Pro กับ Flash ร่วมกันเพื่อทำรีเวิร์สเอนจิเนียร์ระบบไลเซนส์ของ Teamspeak 3.13.8”
https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
บั๊ก 9 ตัวดูเหมือนจะเป็นตัวอย่างที่น้อยไปหน่อยสำหรับเอามาจัดอันดับ
แต่ถึงอย่างนั้นอันดับที่ออกมาก็โดยรวมใกล้เคียงกับที่คาดไว้
สงสัยว่า Deepseek ที่ใช้เป็น Pro แน่ไหม แล้วไม่ใช่ Flash ใช่ไหม ช่วงนี้ใช้ Flash กับงานเล็กๆ เยอะพอสมควร แล้วมันค่อนข้างดีเลย “การใช้งานแบบโต้ตอบ” ทำได้ดี เร็วมาก และงานเล็กๆ จบแทบจะทันที
น่าจะใช้ตรวจโค้ดเบสขนาดใหญ่ได้ด้วย เลยสงสัยว่าจะเอาไปใช้กับงานด้านความปลอดภัยได้ไหม
ดีเหมือนกันที่ได้เห็นว่าโมเดลราคาถูกก็ทำได้ดี
สงสัยว่าถ้าเปลี่ยน Claude Code ไปใช้ ราคา API ของ DeepSeek จะคุ้มเงินกว่าการใช้แพลน Max $100 ที่ใช้อยู่ตอนนี้ไหม
ปกติจะชนลิมิต 5 ชั่วโมงแค่ประมาณไม่กี่วันครั้ง และลิมิตรายสัปดาห์ก็ต้องใช้อย่างหนักมากจริง ๆ ถึงจะไปแตะก่อนรีเซ็ต 1-2 วัน เลยไม่คิดว่าปริมาณการใช้งานจะเพิ่มขึ้นมากนัก นอกจากเรื่องไม่ติดลิมิต
ผมก็ยังรู้สึกไม่ค่อยสบายใจกับการส่งงานของตัวเองไปให้สถาบันวิจัยที่อยู่ภายใต้รัฐบาลซึ่งเป็นปฏิปักษ์กับสหรัฐฯ ดังนั้นไม่ได้มองแค่ต้นทุนล้วน ๆ แต่คำถามตอนนี้คือมองในแง่ต้นทุน
ผู้ให้บริการแบบสมัครสมาชิกทุกรายให้ความคุ้มค่าด้านลิมิตต่อเงินดีกว่า Anthropic หมด ยกเว้น GitHub ซึ่งอันนี้แพงและจำกัดแบบน่าอายอย่างท่วมท้น
(https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
ถ้าหมายถึงไม่อยากใช้โมเดลจากสถาบันวิจัยนอกสหรัฐฯ ก็จะต้องผูกอยู่กับโมเดลสหรัฐฯ แต่ในสหรัฐฯ เองก็มีสถาบันวิจัยใหญ่หลายแห่ง ถ้ากังวลว่าอินเฟอเรนซ์รันที่ไหน ก็ใช้ผู้ให้บริการผ่าน OpenRouter ได้จาก 12 ประเทศรวมถึงสหรัฐฯ และผู้ให้บริการแบบสมัครสมาชิกหลายเจ้าก็โฮสต์ในหลายประเทศเหมือนกัน มีตัวเลือกเยอะ
. ./deepseek-claude.shแล้วใช้ claude ตามปกติได้เลยexport ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
export ANTHROPIC_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
export CLAUDE_CODE_EFFORT_LEVEL=max
ตอนแรกผมใช้มันกับงานอ่านข้อมูลชิ้นใหญ่ตอนที่ใกล้ชนลิมิต พูดตามตรงมันไม่ดีเท่า Claude แต่ถูกกว่ามากและช่วยให้ทำงานต่อได้เรื่อย ๆ บางครั้งก็ถามทั้ง claude และ deepseek ให้ช่วยดูโค้ดและเสนอวิธีปรับปรุง แล้วเอาคำตอบของทั้งสองฝั่งมาเทียบกันก็ดี
ถ้าแพตเทิร์นการใช้งานยังเป็นแบบนี้ต่อไป ผมคิดว่าจะลดแพ็กเกจสมัครสมาชิกลงมาเหลือ $20/เดือน แล้วเอาเงินไปลง Deepseek มากขึ้น
รีโปอ้างอิง: https://github.com/aravindhsampath/agentic-template
ตามปกติแล้วแต่ละโมเดลจะมีจุดที่ตันต่างกัน สำหรับการทดลองใน Cursor, การสำรวจ, และ proof of concept ส่วนใหญ่ ผมใช้ DeepSeek v4 API แต่สำหรับการเขียนโค้ดโปรดักชัน ผมยังเชื่อถือน้อยกว่า OpenAI/Claude บางครั้ง DeepSeek เก่งมากเรื่องดีบักหรือวางแผน แต่บางครั้งก็ตันหรือให้คุณภาพต่ำ โมเดลของ OpenAI และ Anthropic เองก็เป็นแบบนั้นเหมือนกัน
โดยรวมแล้ว DeepSeek ใช้งานได้ดี แต่ดูเหมือนจะยังต่ำกว่า Opus 4.8 และ GPT 5.5 อยู่หนึ่งขั้น ผมรันทุกตัวด้วยการตั้งค่าการคิดสูงสุด
มันไม่มีข้อได้เปรียบด้าน cache read ราคาถูกมากแบบเอนด์พอยต์ของ DeepSeek เอง แต่ก็ยังถูกกว่าค่า API ของ Anthropic มากอยู่ดี เพียงแต่ประเด็นสำคัญคือ ตอนนี้คุณไม่ได้จ่ายค่า API อยู่
ส่วนลด cache read ของ DeepSeek และ Xiaomi น่าจะเกี่ยวกับการที่โมเดลเจเนอเรชันล่าสุดใช้พื้นที่เก็บ KV น้อยลง ทำให้แคชชิงถูกลง ยังไม่มีผู้ให้บริการอินเฟอเรนซ์โอเพนโมเดลรายไหนเลือกจะตั้งราคาให้เท่ากัน ซึ่งมันก็บอกอะไรบางอย่างเกี่ยวกับโครงสร้างราคาของอินเฟอเรนซ์ แต่ผมก็ไม่แน่ใจว่าคืออะไรแน่
ผมเห็นด้วยว่าโอเพนโมเดลที่ดีที่สุดก็ยังไม่ถึงระดับ frontier ถ้าเป็นงานวางแผนภาพใหญ่ หรือสถานการณ์ที่ให้แค่กรอบกว้าง ๆ แล้วคาดหวังการเดาเติมเองเยอะ ๆ ความต่างน่าจะชัด แต่สำหรับการเขียนโค้ดตามแผนที่ชัดเจน มันดูดีพอใช้ได้ ผมใช้แค่นอกบริษัทเลยไม่มีประสบการณ์กับโค้ดเบสขนาดมหึมา แต่ดูเหมือนมันจะเก่งพอในการเก็บข้อมูลที่ต้องใช้ก่อนจะลงมือ เลยน่าจะไล่หาได้ด้วย grep ถ้าจำเป็น
มีเบาะแสชวนหงุดหงิดอยู่อย่างหนึ่งคือ ถ้าใช้แพลนสมัครสมาชิกส่วนบุคคลหนัก ๆ มันจะถูกกว่า API มาก ดูที่ https://she-llac.com/claude-limits แล้วการคุยเรื่องต้นทุนจะซับซ้อนขึ้น ถึงอย่างนั้นผมก็ยังคิดว่าการลองเล่นกับโอเพนโมเดลมีคุณค่า เพราะมันเป็นหนึ่งในสิ่งที่ทำให้เราจัดการมันในฐานะเทคโนโลยีเดียวได้ แทนที่จะเป็นชุดผลิตภัณฑ์ที่ถูกมัดรวมโดยบริษัทไม่กี่แห่ง
สำหรับข่าวใหญ่แนวนี้ก็มีแนวทางอยู่ โมเดลหนึ่งถูกประกาศว่าดีกว่าอีกโมเดลจากชุดทดสอบเล็ก ๆ แต่ก็ยังน่าสงสัยว่าผลแบบนั้นจะทำซ้ำได้อย่างสม่ำเสมอจริงหรือไม่
แทบไม่มีการเปิดเผยข้อมูลอะไรเลย จึงแทบไม่มีวัสดุให้คนอื่นนำไปตรวจสอบการทดสอบหรือดุลยพินิจได้ด้วยตัวเอง
คุณค่าที่ใหญ่ที่สุดของ DeepSeek V4 Pro คือราคาที่ต่ำ ผมไม่ได้คาดหวังว่ามันจะทำผลงานได้ดีกว่า GPT-5.5 มากนัก และต่อให้ได้แค่ระดับ gpt-5.4 ก็ยังเป็นโมเดลที่ดีอยู่
แทบไม่มีงานที่ต้องใช้โมเดลที่ดีกว่า DSv4 Flash เลย และยิ่งไม่จำเป็นต้องใช้ Pro
ถ้าอธิบายปัญหาและวิธีแก้ได้ดีพอ Flash ก็ทำได้เองสบาย ๆ
แต่ถ้าอธิบายปัญหาได้ไม่ดีพอ หรือขี้เกียจเลยบอกแค่ผลลัพธ์ที่ต้องการ รู้สึกได้ชัดว่าโมเดลอย่าง GPT 5.5 เก่งกว่ามากในการหาแนวทางแก้ที่แข็งแรงได้ด้วยตัวเอง
ความต่างด้านความสามารถของโมเดลมีอยู่ชัดเจน แต่ก็ชัดเจนเหมือนกันว่าแม้แต่โมเดลโอเพนเวตขนาดเล็กกว่าก็ดีพอจะช่วยงานส่วนใหญ่ได้มาก
ใช้ deepseek v4 เพราะประสิทธิภาพต่อราคา โดยรวมรู้สึกว่ายังด้อยกว่าบางโมเดลอื่น แต่สุดท้ายถ้าให้เกณฑ์การยอมรับที่ถูกต้อง ก็ทำให้โมเดลไหนก็ทำงานได้
แค่ให้สเปกกับการทดสอบที่ละเอียด และให้สิทธิ์วนซ้ำจนกว่าจะใช้ได้จริง one-shot เป็นตัวชี้วัดประสิทธิภาพที่แย่
มันอาจวนซ้ำอยู่ใน information space ไปเรื่อย ๆ แล้วติดอยู่โดยหาแนวทางแก้ที่ต้องการไม่เจอ
ถึงจะช่วยได้ แต่ในเคสที่ล้มเหลว หลายครั้งต้องให้มนุษย์เข้ามาชี้ทางหรือบังคับแก้บางเส้นทาง ถึงจะไปถึงคำตอบได้
DeepSeek V4 Pro ที่ใช้ร่วมกับ reasonix ราคาถูกจนน่าตกใจและดีพอสำหรับงานเขียนโค้ดส่วนใหญ่ แถมยังต่างจาก GPT 5.5 และ Opus 4.8 พอสมควร เลยบางครั้งหาเจอปัญหาที่อีกสองตัวหาไม่เจอ
มองว่าคุ้มค่าที่จะมีติดไว้ในชุดเครื่องมือ
DeepSeek V4 Pro ยอดเยี่ยมและถูกแบบเหลือเชื่อ แต่คนกำลังประเมิน MiMo V2.5 Pro ต่ำไป ราคาเท่ากัน ราคาฝั่งแคชก็ต่ำกว่า เป็นมัลติโหมด และอยู่สูงกว่าในเบนช์มาร์กส่วนใหญ่
เช่นเดียวกันกับการเปรียบเทียบ MiMo V2.5 กับ DeepSeek V4 Flash
โมเดล OSS แตกต่างกันมากขึ้นอยู่กับว่าจะใช้ผ่านผู้ให้บริการเจ้าไหน และสาเหตุหลักคืออัตรา cache hit
Model Cheapest effectiveInputPrice (Provider)
MiMo-V2.5-Pro 0.3720 (Xiaomi)
DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)