เปิดตัว DeepSeek-v3.1

(api-docs.deepseek.com)

2 คะแนน โดย GN⁺ 2025-08-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

DeepSeek-V3.1 เป็นก้าวแรกสำหรับ ยุคถัดไปของเอเจนต์
มาพร้อมความสามารถ การให้เหตุผลแบบไฮบริด ที่ให้เลือกใช้ได้ 2 โหมดในโมเดลเดียว ได้แก่ Think (อิงการให้เหตุผล) และ Non-Think (ไม่อิงการให้เหตุผล)
ในโหมด DeepSeek-V3.1-Think สามารถหาคำตอบที่ถูกต้องได้ใน เวลาที่สั้นกว่าโมเดลก่อนหน้า DeepSeek-R1-0528 ทำให้ประสิทธิภาพดีขึ้นอย่างมาก
ผ่าน การฝึกหลังเรียนรู้ (Post-training) ทำให้ความสามารถของโมเดลในการใช้งานเครื่องมือ ควบคุมระบบภายนอก และงานเอเจนต์หลายขั้นตอน ดีขึ้นอย่างมาก
ผู้ใช้สามารถสลับ โหมด Think/Non-Think ได้อย่างอิสระผ่านปุ่ม “DeepThink” ในบริการแชตบอตของ DeepSeek
อัปเดต API
- ทำผลงานได้ ดียิ่งขึ้น ในการประเมิน SWE(Software Engineering) และ Terminal-Bench
- ความสามารถด้าน การให้เหตุผลหลายขั้นและการแก้ปัญหา ในงานค้นหาที่ซับซ้อนหรืองานหลายสเต็ปดีขึ้นอย่างมาก
- ประสิทธิภาพการให้เหตุผล โดยรวมเพิ่มขึ้นอย่างมาก
เปลี่ยนแปลงราคา (มีผลตั้งแต่ 9/25)
- API ขาเข้า: $0.07 ต่อ 1M โทเค็น (cache hit) / $0.56 (cache miss)
- API ขาออก: $1.68 ต่อ 1M โทเค็น

1 ความคิดเห็น

GN⁺ 2025-08-22

ความคิดเห็นใน Hacker News

ตอนรันบนเครื่องโลคัลมีการทำโมเดล GGUF ไว้แล้ว หากต้องการประสิทธิภาพที่ดีด้วยวิธี dynamic 2bit (2bit MoE, ที่เหลือ 6-8bit) จะต้องใช้ RAM และ VRAM รวมกันราว 250GB, สามารถ offload ไป SSD ได้ด้วยแต่จะช้า, สำหรับวิธีรันและพารามิเตอร์ที่เหมาะสมโดยละเอียดให้ดูที่เอกสารทางการ
- แต่ก็น่าแปลกใจที่ unsloth เป็น Python library แต่กลับพยายามรัน apt-get ด้วย sudo, บน nixos ของฉันมันล้มเหลว ทำให้ใช้งานได้ยาก
- อยากเห็นผล benchmark ว่าในการบีบอัด dynamic 2bit แบบนี้ ประสิทธิภาพตกจากโมเดลต้นฉบับมากน้อยแค่ไหน
ขอแชร์ leaderboard ของ terminal-bench, แม้จะทิ้งห่าง GPT-5, Claude 4, GLM-4.5 อยู่มาก แต่เมื่อเทียบกับโมเดล open-weight อื่น ๆ ก็ถือว่าทำได้ค่อนข้างดี, benchmark ไม่ได้บอกทุกอย่าง ดังนั้นผลลัพธ์จริงคงต้องรอดูเมื่อเวลาผ่านไป
- มองว่า benchmark นี้เอา agent tool กับตัวโมเดลมาปนกันจนผลลัพธ์ขาดความสม่ำเสมอ, ถ้าจะให้มีความหมายควรล็อก agent tool ไว้แล้วเทียบเฉพาะโมเดล, benchmark ประเภทนี้มักเชื่อถือได้ไม่มาก และการลองใช้โมเดลกับปัญหาของตัวเองโดยตรงน่าจะดีกว่า
- จากที่ลองใช้เอง รู้สึกว่าคุณภาพของผลลัพธ์ค่อนข้างดี
- บริษัทอย่าง Anthropic และ OpenAI ก็มีแนวโน้มจะพัฒนาเอเจนต์แบบคัสตอมเพื่อ benchmark เฉพาะทางเหมือนกัน
- ขอแจ้งว่า DeepSeek R1 เป็นโมเดลรุ่นเก่าที่ถูกแทนที่ไปแล้ว รับทราบการอัปเดตแล้ว
- ถ้าราคาไม่แพงเกินไป ต่อให้เป็นโมเดล SOTA ก็น่าจะน่าสนใจมากกว่า
เสียดายที่ส่วนลดช่วงนอกฤดูกาลครั้งก่อนหายไป ตอนนั้นปั่นโทเคนได้มหาศาลโดยแทบไม่เสียค่าใช้จ่ายเลย แต่ก็ยังไม่ได้ไม่พอใจมากนัก เพราะด้านราคายังแข่งขันได้ดีมากอยู่
ตาม ผล benchmark ของ artificialanalysis.ai มันมีความฉลาดพอ ๆ กับ gpt-oss-120B แต่ช้ากว่าประมาณ 10 เท่าและแพงกว่า 3 เท่า
- แหล่งข้อมูลที่ยกมาตอนนี้แสดงเพียงผู้ให้บริการรายเดียว, น่าจะเทียบ gpt-oss-120B กับ deepseek-chat-v3.1 บนผู้ให้บริการเจ้าเดียวกันจะตรงกว่ามาก, และควรคำนึงด้วยว่า gpt-oss-120B มีผู้ให้บริการที่ติดตั้งและ optimize ไว้แล้วมากกว่า จึงได้เปรียบอยู่
DeepSeek V3.1 เป็นโมเดล reasoning แบบไฮบริด และเด่นเรื่อง tool calling (Task Tool Calling) แต่ก็มักสุ่มใช้ฟอร์แมตเครื่องมือแบบเก่าแทน JSON มาตรฐานอยู่บ่อย ๆ, น่าจะเป็นเพราะชุดข้อมูลฝึกของ V3 มีข้อมูลลักษณะนั้นอยู่มาก
- สงสัยว่าได้ลองใช้ strict function call (beta) หรือยัง, มีไกด์ที่เกี่ยวข้อง
- อยากรู้ว่าหมายถึงฟอร์แมตแบบไหน, เข้าใจว่า JSON เหมาะกับการบังคับให้ LLM สร้าง structured output แล้วทำไมถึงยังออกนอก JSON อีกก็ยังสงสัยอยู่
ดูเหมือนจะตามหลัง Qwen3 235B 2507 Reasoning (โมเดลที่ฉันชอบ) กับ gpt-oss-120B อยู่, ดูลิงก์ benchmark, และข้อมูลราคา
- คิดว่าตระกูล Qwen3 2507 คือของดีที่สุดสำหรับรันโลคัลในตอนนี้, ถ้ามี GPU กับ RAM ราว 32GB ก็ใช้โมเดล A3B สำหรับงาน pair programming ได้เหมาะมาก
ในบรรดาโมเดลที่ใช้มา 6 เดือนล่าสุด DeepSeek V3.1 มีอาการ hallucination มากที่สุด
- อยากรู้ว่าใช้ context length เท่าไร
- ถามว่าเป็นไปได้ไหมว่าครั้งนี้ดึงข้อมูลที่ไม่ดีมา
อยู่กึ่งกลางระหว่าง V3 กับ Qwen3 Coder, ดูลิงก์เปรียบเทียบ
- กำลังถามว่าโมเดล gpt-5 Mini มีให้ใช้ฟรีหรือไม่
ในกลุ่มโมเดล open-weight ดูมีศักยภาพในการแข่งขัน แต่ถ้าเทียบกับ GPT-5 หรือ Claude ก็ยังมีช่องว่างใหญ่อยู่
ยังไม่เห็นหลักฐานว่าเหนือกว่า GLM-4.5 ในงาน agentic coding
- กำลังย้อนถามว่านั่นคือทั้งหมดหรือไม่ หรือมีหลักฐานอื่นที่ยังไม่ได้เห็นอีกหรือเปล่า

เปิดตัว DeepSeek-v3.1

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นใน Hacker News