2 คะแนน โดย GN⁺ 2025-08-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • DeepSeek-V3.1 เป็นก้าวแรกสำหรับ ยุคถัดไปของเอเจนต์
  • มาพร้อมความสามารถ การให้เหตุผลแบบไฮบริด ที่ให้เลือกใช้ได้ 2 โหมดในโมเดลเดียว ได้แก่ Think (อิงการให้เหตุผล) และ Non-Think (ไม่อิงการให้เหตุผล)
  • ในโหมด DeepSeek-V3.1-Think สามารถหาคำตอบที่ถูกต้องได้ใน เวลาที่สั้นกว่าโมเดลก่อนหน้า DeepSeek-R1-0528 ทำให้ประสิทธิภาพดีขึ้นอย่างมาก
  • ผ่าน การฝึกหลังเรียนรู้ (Post-training) ทำให้ความสามารถของโมเดลในการใช้งานเครื่องมือ ควบคุมระบบภายนอก และงานเอเจนต์หลายขั้นตอน ดีขึ้นอย่างมาก
  • ผู้ใช้สามารถสลับ โหมด Think/Non-Think ได้อย่างอิสระผ่านปุ่ม “DeepThink” ในบริการแชตบอตของ DeepSeek
  • อัปเดต API
    • ทำผลงานได้ ดียิ่งขึ้น ในการประเมิน SWE(Software Engineering) และ Terminal-Bench
    • ความสามารถด้าน การให้เหตุผลหลายขั้นและการแก้ปัญหา ในงานค้นหาที่ซับซ้อนหรืองานหลายสเต็ปดีขึ้นอย่างมาก
    • ประสิทธิภาพการให้เหตุผล โดยรวมเพิ่มขึ้นอย่างมาก
  • เปลี่ยนแปลงราคา (มีผลตั้งแต่ 9/25)
    • API ขาเข้า: $0.07 ต่อ 1M โทเค็น (cache hit) / $0.56 (cache miss)
    • API ขาออก: $1.68 ต่อ 1M โทเค็น

1 ความคิดเห็น

 
GN⁺ 2025-08-22
ความคิดเห็นใน Hacker News
  • ตอนรันบนเครื่องโลคัลมีการทำโมเดล GGUF ไว้แล้ว หากต้องการประสิทธิภาพที่ดีด้วยวิธี dynamic 2bit (2bit MoE, ที่เหลือ 6-8bit) จะต้องใช้ RAM และ VRAM รวมกันราว 250GB, สามารถ offload ไป SSD ได้ด้วยแต่จะช้า, สำหรับวิธีรันและพารามิเตอร์ที่เหมาะสมโดยละเอียดให้ดูที่เอกสารทางการ
    • แต่ก็น่าแปลกใจที่ unsloth เป็น Python library แต่กลับพยายามรัน apt-get ด้วย sudo, บน nixos ของฉันมันล้มเหลว ทำให้ใช้งานได้ยาก
    • อยากเห็นผล benchmark ว่าในการบีบอัด dynamic 2bit แบบนี้ ประสิทธิภาพตกจากโมเดลต้นฉบับมากน้อยแค่ไหน
  • ขอแชร์ leaderboard ของ terminal-bench, แม้จะทิ้งห่าง GPT-5, Claude 4, GLM-4.5 อยู่มาก แต่เมื่อเทียบกับโมเดล open-weight อื่น ๆ ก็ถือว่าทำได้ค่อนข้างดี, benchmark ไม่ได้บอกทุกอย่าง ดังนั้นผลลัพธ์จริงคงต้องรอดูเมื่อเวลาผ่านไป
    • มองว่า benchmark นี้เอา agent tool กับตัวโมเดลมาปนกันจนผลลัพธ์ขาดความสม่ำเสมอ, ถ้าจะให้มีความหมายควรล็อก agent tool ไว้แล้วเทียบเฉพาะโมเดล, benchmark ประเภทนี้มักเชื่อถือได้ไม่มาก และการลองใช้โมเดลกับปัญหาของตัวเองโดยตรงน่าจะดีกว่า
    • จากที่ลองใช้เอง รู้สึกว่าคุณภาพของผลลัพธ์ค่อนข้างดี
    • บริษัทอย่าง Anthropic และ OpenAI ก็มีแนวโน้มจะพัฒนาเอเจนต์แบบคัสตอมเพื่อ benchmark เฉพาะทางเหมือนกัน
    • ขอแจ้งว่า DeepSeek R1 เป็นโมเดลรุ่นเก่าที่ถูกแทนที่ไปแล้ว รับทราบการอัปเดตแล้ว
    • ถ้าราคาไม่แพงเกินไป ต่อให้เป็นโมเดล SOTA ก็น่าจะน่าสนใจมากกว่า
  • เสียดายที่ส่วนลดช่วงนอกฤดูกาลครั้งก่อนหายไป ตอนนั้นปั่นโทเคนได้มหาศาลโดยแทบไม่เสียค่าใช้จ่ายเลย แต่ก็ยังไม่ได้ไม่พอใจมากนัก เพราะด้านราคายังแข่งขันได้ดีมากอยู่
  • ตาม ผล benchmark ของ artificialanalysis.ai มันมีความฉลาดพอ ๆ กับ gpt-oss-120B แต่ช้ากว่าประมาณ 10 เท่าและแพงกว่า 3 เท่า
    • แหล่งข้อมูลที่ยกมาตอนนี้แสดงเพียงผู้ให้บริการรายเดียว, น่าจะเทียบ gpt-oss-120B กับ deepseek-chat-v3.1 บนผู้ให้บริการเจ้าเดียวกันจะตรงกว่ามาก, และควรคำนึงด้วยว่า gpt-oss-120B มีผู้ให้บริการที่ติดตั้งและ optimize ไว้แล้วมากกว่า จึงได้เปรียบอยู่
  • DeepSeek V3.1 เป็นโมเดล reasoning แบบไฮบริด และเด่นเรื่อง tool calling (Task Tool Calling) แต่ก็มักสุ่มใช้ฟอร์แมตเครื่องมือแบบเก่าแทน JSON มาตรฐานอยู่บ่อย ๆ, น่าจะเป็นเพราะชุดข้อมูลฝึกของ V3 มีข้อมูลลักษณะนั้นอยู่มาก
    • สงสัยว่าได้ลองใช้ strict function call (beta) หรือยัง, มีไกด์ที่เกี่ยวข้อง
    • อยากรู้ว่าหมายถึงฟอร์แมตแบบไหน, เข้าใจว่า JSON เหมาะกับการบังคับให้ LLM สร้าง structured output แล้วทำไมถึงยังออกนอก JSON อีกก็ยังสงสัยอยู่
  • ดูเหมือนจะตามหลัง Qwen3 235B 2507 Reasoning (โมเดลที่ฉันชอบ) กับ gpt-oss-120B อยู่, ดูลิงก์ benchmark, และข้อมูลราคา
    • คิดว่าตระกูล Qwen3 2507 คือของดีที่สุดสำหรับรันโลคัลในตอนนี้, ถ้ามี GPU กับ RAM ราว 32GB ก็ใช้โมเดล A3B สำหรับงาน pair programming ได้เหมาะมาก
  • ในบรรดาโมเดลที่ใช้มา 6 เดือนล่าสุด DeepSeek V3.1 มีอาการ hallucination มากที่สุด
    • อยากรู้ว่าใช้ context length เท่าไร
    • ถามว่าเป็นไปได้ไหมว่าครั้งนี้ดึงข้อมูลที่ไม่ดีมา
  • อยู่กึ่งกลางระหว่าง V3 กับ Qwen3 Coder, ดูลิงก์เปรียบเทียบ
    • กำลังถามว่าโมเดล gpt-5 Mini มีให้ใช้ฟรีหรือไม่
  • ในกลุ่มโมเดล open-weight ดูมีศักยภาพในการแข่งขัน แต่ถ้าเทียบกับ GPT-5 หรือ Claude ก็ยังมีช่องว่างใหญ่อยู่
  • ยังไม่เห็นหลักฐานว่าเหนือกว่า GLM-4.5 ในงาน agentic coding
    • กำลังย้อนถามว่านั่นคือทั้งหมดหรือไม่ หรือมีหลักฐานอื่นที่ยังไม่ได้เห็นอีกหรือเปล่า