DeepSeek V4 – เกือบแตะระดับฟรอนเทียร์แล้ว และราคาถูกกว่ามาก

(simonwillison.net)

7 คะแนน โดย GN⁺ 2026-05-03 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

DeepSeek เปิดตัวโมเดลพรีวิว 2 รุ่นแรกในซีรีส์ V4 ได้แก่ DeepSeek-V4-Pro และ DeepSeek-V4-Flash โดยทั้งสองรุ่นเป็นโมเดลแบบ Mixture of Experts ที่รองรับคอนเท็กซ์ 1 ล้านโทเค็น และเผยแพร่ภายใต้ไลเซนส์ MIT
DeepSeek-V4-Pro เป็นโมเดลที่มีพารามิเตอร์รวม 1.6T และพารามิเตอร์ที่ทำงานจริง 49B นับเป็นโมเดล open weight ที่มีขนาดใหญ่ที่สุดรุ่นใหม่ ใหญ่กว่า Kimi K2.6, GLM-5.1 และ DeepSeek V3.2
จุดแตกต่างสำคัญของ DeepSeek V4 คือ ราคา โดย Flash คิดค่าบริการอินพุต $0.14 และเอาต์พุต $0.28 ต่อ 1 ล้านโทเค็น ส่วน Pro คิดอินพุต $1.74 และเอาต์พุต $3.48 ซึ่งต่ำกว่าทั้งโมเดลขนาดเล็กและขนาดใหญ่ที่ใช้เปรียบเทียบ
ราคาที่ต่ำนี้เชื่อมโยงกับ การเพิ่มประสิทธิภาพสำหรับคอนเท็กซ์ยาว โดยที่คอนเท็กซ์ 1 ล้านโทเค็น Pro ใช้ FLOPs ต่อโทเค็นเพียง 27% และ KV cache เพียง 10% เมื่อเทียบกับ DeepSeek-V3.2 ส่วน Flash ลดลงเหลือ FLOPs 10% และ KV cache 7%
จากเบนช์มาร์กภายในของบริษัท DeepSeek-V4-Pro สามารถแข่งขันกับโมเดลระดับฟรอนเทียร์ได้ แต่ยังด้อยกว่า GPT-5.4 และ Gemini-3.1-Pro เล็กน้อย และมีเส้นทางการพัฒนาที่ตามหลังโมเดลฟรอนเทียร์ล้ำสมัยราว 3~6 เดือน

การเปิดตัวโมเดลและสเปกพื้นฐาน

หลังจาก V3.2 และ V3.2 Speciale ในเดือนธันวาคม 2025 DeepSeek ได้เปิดตัว DeepSeek-V4-Pro และ DeepSeek-V4-Flash เป็น โมเดลพรีวิว 2 รุ่นแรกของซีรีส์ V4
ทั้งสองรุ่นเป็นโมเดลแบบ Mixture of Experts ที่รองรับ คอนเท็กซ์ 1 ล้านโทเค็น และใช้ไลเซนส์ MIT มาตรฐาน
DeepSeek-V4-Pro เป็นโมเดลที่มี พารามิเตอร์รวม 1.6T และพารามิเตอร์ที่ทำงานจริง 49B ส่วน DeepSeek-V4-Flash มีพารามิเตอร์รวม 284B และพารามิเตอร์ที่ทำงานจริง 13B
DeepSeek-V4-Pro มีขนาดใหญ่กว่า Kimi K2.6 ที่ 1.1T, GLM-5.1 ที่ 754B และ DeepSeek V3.2 ที่ 685B จึงดูจะเป็นโมเดล open weight ที่ใหญ่ที่สุดรุ่นใหม่
ตามข้อมูลบน Hugging Face ขนาดโมเดลของ Pro อยู่ที่ 865GB และ Flash อยู่ที่ 160GB โดย Flash เวอร์ชัน quantized แบบเบาน่าจะสามารถรันได้บน MacBook Pro M5 ที่มีหน่วยความจำ 128GB
โมเดล Pro ก็อาจรันบนเครื่องเดียวกันได้เช่นกัน หากสามารถสตรีมเฉพาะ expert ที่ต้องใช้งานจริงจากดิสก์ได้
ทดสอบแบบง่ายผ่าน OpenRouter
- ใช้ OpenRouter และ llm-openrouter เพื่อเรียกใช้โมเดลด้วยคำสั่งต่อไปนี้
- ```
llm install llm-openrouter  
llm openrouter refresh  
llm -m openrouter/deepseek/deepseek-v4-pro 'Generate an SVG of a pelican riding a bicycle'  
```
- มีการเผยแพร่ผลลัพธ์ที่สร้างได้เป็น SVG นกกระทุงของ DeepSeek-V4-Flash และ SVG นกกระทุงของ DeepSeek-V4-Pro
- และยังนำผลลัพธ์จากพรอมป์ต์เดียวกันของ DeepSeek V3.2 เดือนธันวาคม 2025, V3.1 เดือนสิงหาคม 2025 และ V3-0324 เดือนมีนาคม 2025 มาแสดงเปรียบเทียบด้วย

ราคา ประสิทธิภาพ และตำแหน่งด้านสมรรถนะ

สิ่งที่โดดเด่นที่สุดของ DeepSeek V4 คือ ราคา โดยอ้างอิงจาก หน้าราคาของ DeepSeek Flash คิดค่าบริการอินพุต $0.14 ต่อ 1 ล้านโทเค็น และเอาต์พุต $0.28 ต่อ 1 ล้านโทเค็น
ส่วน Pro คิดค่าบริการ $1.74 ต่อ 1 ล้านโทเค็นสำหรับอินพุต และ $3.48 ต่อ 1 ล้านโทเค็นสำหรับเอาต์พุต
ในตารางเปรียบเทียบ DeepSeek V4 Flash มีราคาต่ำกว่า GPT-5.4 Nano ที่อินพุต $0.20·เอาต์พุต $1.25 และ Gemini 3.1 Flash-Lite ที่อินพุต $0.25·เอาต์พุต $1.50 ทำให้เป็นโมเดลขนาดเล็กที่ถูกที่สุด
DeepSeek V4 Pro มีราคาต่ำกว่า Gemini 3.1 Pro ที่อินพุต $2·เอาต์พุต $12, GPT-5.4 ที่อินพุต $2.50·เอาต์พุต $15, Claude Sonnet 4.6 ที่อินพุต $3·เอาต์พุต $15, Claude Opus 4.7 ที่อินพุต $5·เอาต์พุต $25 และ GPT-5.5 ที่อินพุต $5·เอาต์พุต $30 ทำให้เป็นโมเดลฟรอนเทียร์ขนาดใหญ่ที่ถูกที่สุด
การเพิ่มประสิทธิภาพเป็นฐานรองรับราคาที่ต่ำ
- งานวิจัยของ DeepSeek ระบุว่าการเปิดตัวครั้งนี้ให้ความสำคัญอย่างมากกับประสิทธิภาพของพรอมป์ต์คอนเท็กซ์ยาว
- ที่คอนเท็กซ์ 1 ล้านโทเค็น DeepSeek-V4-Pro ใช้ FLOPs ต่อโทเค็นเพียง 27% และมีขนาด KV cache เพียง 10% เมื่อเทียบกับ DeepSeek-V3.2
- ภายใต้เงื่อนไขเดียวกัน DeepSeek-V4-Flash ลด FLOPs ต่อโทเค็นลงเหลือ 10% และขนาด KV cache เหลือ 7% เมื่อเทียบกับ DeepSeek-V3.2
จากเบนช์มาร์กถือว่าเข้าใกล้ฟรอนเทียร์ แต่ยังไม่ถึงระดับสูงสุด
- เบนช์มาร์กรายงานภายในของ DeepSeek แสดงผลว่าโมเดล Pro สามารถแข่งขันกับโมเดลฟรอนเทียร์อื่น ๆ ได้
- ตามเอกสารดังกล่าว DeepSeek-V4-Pro-Max ที่ขยายโทเค็นสำหรับการให้เหตุผล แสดงสมรรถนะสูงกว่า GPT-5.2 และ Gemini-3.0-Pro บนเบนช์มาร์กการให้เหตุผลมาตรฐาน
- อย่างไรก็ตาม ยังตามหลัง GPT-5.4 และ Gemini-3.1-Pro เล็กน้อย และมีเส้นทางการพัฒนาที่ตามหลังโมเดลฟรอนเทียร์ล้ำสมัยประมาณ 3~6 เดือน
- คาดหวังได้ว่าจะมีเวอร์ชัน quantized ของ Unsloth เผยแพร่บน huggingface.co/unsloth/models และยังต้องติดตามต่อว่าโมเดล Flash จะรันบนเครื่องโลคัลได้ดีเพียงใด

2 ความคิดเห็น

emptybynature 29 일 전

อย่างแรกเลยคือราคาถูกมากก็ดีอยู่หรอก แต่ปัญหาคือมันช้าเกินไป....งานที่ codex ใช้เวลา 5 นาที เจ้านี่คิดอยู่ 20 นาที เลยตอนนี้ใช้สำหรับรีวิวโค้ดมากกว่าจะเอาไปใช้ทำจริง ซึ่งเรื่องรีวิวโค้ดทำได้ค่อนข้างดี เลยค่อนข้างพอใจ

GN⁺ 2026-05-03

ความคิดเห็นบน Hacker News

สำหรับผม จุดต่างที่ใหญ่ที่สุดคือ DeepSeek แค่ทำตามที่สั่ง ผมลองใช้ทั้ง GPT และ Claude เพื่อทำงาน reverse engineering ช่วงหลัง ๆ แต่ทั้งคู่ปฏิเสธหมด แถมบัญชี OpenAI ของผมยังโดนเตือนอีก
- น่าเสียดายที่ระดับ hallucination สูงจนน่าขัน ทำให้เห็นด้านที่แย่ที่สุดของ large language model
  Deepseek v4 pro 94%
  Deepseek v4 flash - 96%
  https://artificialanalysis.ai/evaluations/omniscience?models...
- จากประสบการณ์ของผม IDA Pro กับ GLM 5.1 ใช้คู่กันได้ยอดเยี่ยม และ DeepSeek v4 pro ตามมาเป็นอันดับสองแบบเฉือนกันนิดเดียว ส่วน Kimi ปฏิเสธเฉย ๆ ส่วน Claude ต้องหลอกให้เข้าโหมดแนวฮีโร่/ผู้กอบกู้ก่อน แล้วค่อย ๆ เบนไปทาง red team ถึงจะใช้ทำ reverse engineering ได้ แต่ก็พลาดง่ายมาก
- ที่บริษัทผมมีบัญชี enterprise ของ Cursor เลยลองโมเดลกระแสหลักได้หมด ตอนนั้นกำลังใช้ Composer 2 ตรวจปัญหาในโค้ดของเราเองที่มีซอร์สอยู่ครบ แล้วขอให้มันเปิด debug flag สำหรับ bypass license check แต่มันก็ไม่ยอม
  ผมหงุดหงิดมาก มันเหมือนมีม Patrick จาก SpongeBob แบบเป๊ะ ๆ ไม่เข้าใจเลยว่าทำไมต้องพยายามทำให้โมเดลกลายเป็นเจ้าหน้าที่บังคับใช้กฎหมาย เรื่องผิดกฎหมายก็ยังผิดกฎหมายอยู่ดี และก็มีผู้เชี่ยวชาญที่รับมืออาชญากรรมอยู่แล้ว Google ไม่จำเป็นต้องเป็นผู้ตัดสินความจริงและความยุติธรรม แค่หน่วยงานบังคับใช้กฎหมายเองก็ตรวจสอบเอาผิดได้ยากพออยู่แล้ว อย่างน้อยพวกนั้นก็ทำงานเพื่อเรา
- ตรงที่บอกว่า “บัญชี OpenAI ของผมยังโดนเตือนอีก” นี่แหละ มันทั้งแปลกและดิสโทเปียสุด ๆ เพราะมันคือ ซอฟต์แวร์ที่เอาผลลัพธ์มาข่มขู่ผู้ใช้
  เพื่อนนักพัฒนา เรากำลังสร้างโลกแบบไหนกันอยู่วะ นี่มันบ้าชัด ๆ ลองนึกภาพค้อนบอกว่า “ห้ามเอาไปขันน็อต ใช้ได้กับตะปูเท่านั้น ถ้าทำอีกฉันจะระเบิดตัวเอง” ผมอยากให้เลิกสร้างซอฟต์แวร์แบบนี้ได้แล้ว
- เรื่อง “บัญชี OpenAI ของผมยังโดนเตือนอีก” ฟังดูน่ากลัวจริง ๆ และเกิดขึ้นบ่อยพอสมควร สำหรับคนธรรมดาที่ไม่มีผู้ติดตาม แทบไม่มีช่องทางเยียวยาจริงจัง และอาจถูกกันออกจากเครื่องมือพื้นฐานได้เลย
  ลองจินตนาการว่า OpenAI ซื้อบริษัทไปอีก 20 แห่ง แล้ววันหนึ่งคุณใช้ Figma หรือ Next ไม่ได้อีกเพียงเพราะเมื่อก่อนเคยข้ามเส้นที่คลุมเครือไปครั้งหนึ่ง มันไม่ใช่แค่ OpenAI แต่ทั้ง ecosystem ตอนนี้อ่านทางยากมาก
  ผมเคยถาม Gemini เกี่ยวกับคำคมจาก Catch-22 ซึ่งไม่ได้มีเนื้อหารุนแรงหรือทางเพศ แต่มันหยุดกลางสตรีมตลอดแล้วบอกว่าพูดต่อไม่ได้ ทั้งที่ในหนังสือมีเนื้อหาแบบนั้นอยู่บ้าง เลยทำให้คิดว่าแค่เรื่องนั้นก็อาจทำให้บัญชี workspace ทั้งก้อนได้คะแนนติดลบ
  ในอุดมคติ ผมรู้ว่าอนาคตควรเป็นแบบรันในเครื่อง แต่ถ้าดูต้นทุนจริงกับการใช้พลังงานในอีกไม่กี่ปีข้างหน้า ก็ไม่แน่ใจว่ามันจะเป็นจริงได้แค่ไหนสำหรับคนส่วนใหญ่ ถ้าอยู่ใน ecosystem นั้น ข้อยกเว้นคงมีประมาณชิปตระกูล M*
DeepSeek v4 Pro ให้ความรู้สึกด้านบุคลิกคล้าย Claude Opus 4.6 และเรื่องต้นทุนก็น่าประทับใจ
ผมให้มันโฟกัสแค่ endpoint เดียวใน TypeScript codebase ขนาดค่อนข้างใหญ่ แล้วไล่ดู API, DTO, service, database model แบบลึกเป็นชั้น ๆ รวมถึงทำความเข้าใจ type ที่เกี่ยวข้องทั้งหมดโดยไม่ให้เกิด type ชั่วคราวขึ้นมา
มันสรุปให้สั้นมากแต่จับประเด็น ว่ามี type ไหนถูกนำเข้ามา และตัวไหนถูกคืนค่า จากนั้นผมก็ขอให้มันช่วยทำทั้งหมดให้ง่ายลง
สองพรอมป์ต์นี้น่าจะกวาดดูหลายไฟล์พอสมควร แต่ค่าใช้จ่ายรวมของเวอร์ชัน Pro คือแค่ $0.09 ถ้าเป็น Claude Opus จากประสบการณ์ก่อนขึ้นราคา แค่สองพรอมป์ต์นี้ก็น่าจะเผาเงินไป $9~$13 ได้สบาย ๆ และประโยชน์ที่เพิ่มมาก็คงไม่ได้มากนัก
อ้างอิงไว้ก่อนว่าผมไม่ได้ใช้ OpenRouter แต่เรียก DeepSeek API ตรง เพราะ OpenRouter เองโดน rate limit จากฝั่ง DeepSeek อยู่
- ผมก็เจอแบบเดียวกัน งานประเภท “ไล่ดูทั้งโมดูลนี้แล้วจัดให้ตรงกับ style guide ที่ผมชอบแบบละเอียดเป๊ะ ๆ” เป็นอะไรที่ผมไม่อยากจ่ายหลายดอลลาร์ให้โมเดลแนว frontier ทำ DeepSeek Flash เลยเหมาะมากสำหรับโยนงานงี่เง่า ไม่จำเป็น หรือเก็งผลล้วน ๆ แบบไม่ต้องกังวลเรื่องค่าใช้จ่าย
- ความไม่มีประสิทธิภาพส่วนใหญ่ดูเหมือนมาจากการที่โมเดลชอบสุ่มจิ้มไปเรื่อย ๆ แล้วก็ grep มั่ว ๆ ซึ่งผมมองว่าเป็น ปัญหาของ harness
  เลยทำ MCP ที่ใช้ Prolog โดยให้ tree-sitter parse โค้ดเป็นกราฟ แล้วให้โมเดลถามได้ว่า “ฟังก์ชันที่เชื่อมกับฟังก์ชันนี้ทั้งหมดคืออะไรบ้าง?” ถ้าจะดูว่า endpoint หนึ่งทำอะไร ก็ไล่กราฟฝั่ง call subtree ได้แบบง่ายและคาดเดาได้
  https://github.com/yogthos/chiasmus
- ที่บอกว่า “เผาเงิน $9~$13 โดยไม่ได้อะไรเพิ่มมากนัก” นี่หมายถึงไม่ได้อะไรเพิ่มเมื่อเทียบกับ DeepSeek v4 Pro ที่ราคา 9 เซนต์ หรือหมายถึงทั้งคู่ไม่ได้อะไรเพิ่มมากนัก?
- ต่อให้คิดว่าตอนนี้เป็นราคาที่ลด 75% อยู่ มันก็ยังถูกกว่ามากอยู่ดี
- อยากรู้ว่าใช้งานยังไง ใช้ OpenRouter หรือเรียก provider API โดยตรง?
เกี่ยวข้องกันตรงที่มีไลฟ์เดโมรัน DeepSeek v4 Flash บน MacBook 128GB วิดีโอเป็นภาษาอิตาลีแต่มีซับอังกฤษ
https://www.youtube.com/watch?v=todMmp6AGCE
ผมลองต่อเข้ากับ vscode copilot แล้วใช้ทั้ง flash กับ pro สำหรับ proof of concept เล็ก ๆ แค่ flash ก็พอแล้ว เร็วพอควรและถูกมากจริง ๆ
มันค้างไปบ้างสองสามครั้ง อาจเป็นปัญหา latency แต่ผลลัพธ์ออกมาดี ส่วน pro ผมใช้กับงานหนักและการวางแผน ซึ่งมันก็ทำได้ยอดเยี่ยม
ผมจ่ายประมาณ 10 เซนต์สำหรับ proof of concept เล็ก ๆ ชิ้นหนึ่ง และมันทำงานตรงตามที่พรอมป์ต์ไว้เป๊ะ สำหรับผม นี่คือทางเลือกจริงหลังจะยกเลิก GitHub Copilot สิ้นเดือนนี้
แม้ต้นทุนจะต่ำกว่าโมเดลแนว frontier แต่มี สองปัจจัย ที่ทำให้ DS4 Pro กับ K2.6 ไม่ได้ถูกอย่างที่เห็น
DS4 Pro มีส่วนลดบน API ทางการ ซึ่งมักถูกมองข้ามหรือปนกันในบทสนทนา Simon ใช้ราคาเต็มในการเปรียบเทียบ เลยไม่ใช่ปัญหาในที่นี้
อีกประเด็นคือ DS4 Pro และ K2.6 มักใช้ reasoning token มากกว่าโมเดล frontier อย่างชัดเจน ในการทดสอบของผม มีบางกรณีแย่ ๆ ที่มันใช้ token เยอะจนค่าคำขออาจพอ ๆ กับโมเดล frontier ได้ เพื่อความยุติธรรม ต้องบอกว่าผมใช้ DS กับ Kimi ผ่าน provider ภายนอก เลยอาจเป็นปัญหาจากการตั้งค่าฝั่งนั้น
แต่ถ้าดูหน้าโมเดลของ Artificial Analysis จะเห็นว่าใน benchmark ด้านความฉลาด DSv4 Pro ใช้ 190M token, K2.6 ใช้ 170M token ขณะที่ GPT 5.5 high ใช้แค่ 45M
“Intelligence vs. Cost to Run Artificial Analysis Intelligence Index” ผมแนะนำให้ดู “Intelligence vs Cost” ใน UI โมเดล open source ยังถูกกว่าอยู่ แต่ไม่ถึงกับถูกอย่างที่คุณคาดจากราคา token อย่างเดียว
[0] https://artificialanalysis.ai/models/deepseek-v4-pro
[1] https://artificialanalysis.ai/models/kimi-k2-6
[2] https://artificialanalysis.ai/models/gpt-5-5-high
- นี่ผิดมาก และ DS4 ถูกจริง ๆ ผมแนะนำให้อ่าน release paper ก่อน
  https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main...
  มันเพิ่ม HCA และ mCH ซึ่งเป็นวิธีค่อนข้างใหม่ในการปรับปรุงประสิทธิภาพ long-context และ attention เมื่อเทียบกับ v3.2 มันต้องใช้แค่ 27% ของ FLOP สำหรับ reasoning และแค่ 10% ของ KV cache หมายความว่าด้วยทรัพยากรคำนวณเท่าเดิม จะเสิร์ฟงานได้มากกว่า 3 เท่า และใช้ KV cache เดิมเพียง 30%
  แถมนี่เป็นรีลีส PREVIEW ด้วย DeepSeek เป็นแล็บวิจัยที่เปิดจริง ๆ และในแต่ละรีลีสก็ไม่ใช่แค่ทำของออกมาเยอะ แต่ยังเปิดเผยและแชร์ด้วย ผมกำลังรันมันแบบโลคัลอยู่
  ถ้าจะพูดว่ามัน “ถูก” แค่ไหน v3.2 ตอนใช้ context 256k เคยกิน GPU memory ไม่พอจนล้นไปที่ system memory แต่ผมก็ยังโอเคกับประมาณ 7k token ต่อวินาที รอบนี้ผมใส่ context เต็ม 1 ล้าน token ลงใน GPU memory ได้ 100% วิ่งเร็วขึ้นมากกว่า 2 เท่า และผลลัพธ์ก็ดีกว่า
  อันนี้ถูกจริง ๆ Moonshot ก็พูดชัดว่าตัวเองขาด GPU ซึ่งนั่นแหละคือเหตุผล ถ้ามี capacity GPU แบบในสหรัฐฯ และได้ซัพพอร์ตโมเดลแบบที่นี่ ก็คงแจกฟรีไปแล้ว
- เรื่องแบบนั้นอาจเกิดขึ้นได้ แต่ไม่ใช่ประสบการณ์ของผม ผมทำรีแฟกเตอร์ใหญ่ ๆ ทั้งวัน คุยไปกลับหลายรอบ แก้โค้ดหลายพันบรรทัด รีวิว สืบค้น แล้วก็รันหลาย sub-agent แบบขนาน รวมค่าใช้จ่าย $0.95
  ก่อนหน้านี้ผมเคยลองทำแบบเดียวกันกับ Opus 4.6 แล้วโดนเผางบ $10 ที่ผมตั้งไว้ก่อนจะได้คำตอบแรกกลับมาด้วยซ้ำ
  ต่อให้คิดราคาส่วนลดหนักแบบนี้ คำตอบที่แก้ปัญหาได้ครบก็น่าจะยังอยู่ในหลักดอลลาร์ตัวเดียว ส่วน Opus คือเสียเงินหลักสองหลักโดยไม่ได้อะไรเลยจริง ๆ
- ตาม Artificial Analysis แล้ว Grok 4.3 เร็วกว่า ฉลาดกว่า ถูกกว่า และใช้ token น้อยกว่า DS4 แล้วทำไมไม่มีใครพูดถึง Grok ล่ะ?
  1. https://artificialanalysis.ai/models/grok-4-3
V4 ขยับขึ้นจาก V3.2 แบบชัดเจนใน multilingual benchmark ของเรา
แต่มีข้อควรระวังสองอย่าง ตอนใช้ผ่าน OpenRouter เพื่อทำ reasoning เราเจอปัญหาความเร็ว (TPS) ช้ามากและบางครั้งไม่เสถียร พอเช็กเมื่อกี้ ทุก provider ที่ใช้ได้ก็ยังอยู่แค่ 10~30 TPS ซึ่งไม่สูงสำหรับโมเดลที่ใช้เวลาคิดเยอะอย่าง DeepSeek
ส่วน DeepSeek API ทางการนั้นไม่รับประกัน data privacy แม้จะเป็นผู้ใช้แบบเสียเงินก็ตาม
ถ้าใช้ผ่าน Azure AI Foundry อาจไม่มีปัญหาทั้งสองข้อ อย่างหลังเท่าที่ผมรู้เป็นแบบนั้น แต่ผมยังไม่ได้ทดสอบ
อย่างไรก็ดี เป็นเรื่องน่ายินดีที่มี โมเดล open weight ออกมาเพิ่มและพอจะแข่งกับโมเดลระดับท็อปล่าสุดได้
DeepSeek API ทางการ ถ้าใช้ต่อเนื่องเป็นเซสชันยาว ๆ บน codebase เดิม จะมี cache hit rate เกิน 99% ทำให้ถูกกว่าโมเดล frontier มาก มีตัวอย่างเซสชัน 200M token ใน claude code
- อาจเป็นคำถามโง่ ๆ แต่ถ้าจะให้ cache ตรงกับ prefix ที่ถูกต้องในเซสชันใหม่ จำเป็นต้องอ่านไฟล์ตามลำดับเดิมไหม?
น่าแปลกใจที่คนจำนวนมาก โดยเฉพาะเวลาใช้ developer API ของผู้สร้างโมเดลโดยตรง แทบไม่สนใจเลยว่าโมเดลพวกนี้ เอาข้อมูลของพวกเขาไปฝึกแบบเปิดเผย
เวลาเกิดเรื่องแบบ “GitHub ตอนนี้ opt-in โค้ดของทุกคนเข้าฝึกโมเดลอัตโนมัติ” จะมีคอมเมนต์โกรธเป็นร้อยอย่างสมเหตุสมผล แต่พอเป็นเรื่องใช้โมเดลจีนผ่าน OpenRouter ประเด็นนี้กลับแทบไม่ถูกพูดถึงแล้ว อธิบายได้ด้วยคำว่า “เป็นคนละกลุ่มกัน” ก็จริง แต่ความต่างมันชัดเกินไปจนผมไม่คิดว่าแค่นั้นจะอธิบายหมด
- ข้อดีของโมเดล open weight คือคุณมีอิสระในการใช้ provider ทางเลือก ที่ไม่ส่งข้อมูลกลับไปให้ผู้สร้างโมเดลดั้งเดิม เช่น ใน OpenRouter ตอนนี้ผมเห็น provider ทางเลือกสำหรับ DeepSeek V4 Pro อยู่ 6 เจ้า
- ส่วนตัวผมโอเคที่จะช่วยพวกเขา ตราบใดที่พวกเขาเปิดโมเดลและไม่ปิดมันไว้ และผมก็ไม่เชื่อการตั้งค่าที่ provider บอกว่าจะไม่เอาไปฝึกด้วย
- โมเดล open weight ส่วนใหญ่สามารถใช้กับผู้ให้บริการที่มี no data retention และ no training ได้ เช่น OpenRouter กับ OpenCode Go/Zen
  นี่เป็นหนึ่งในข้อดีใหญ่ของ open weight คือทั้งจีนและสหรัฐฯ ต่างก็ไม่ได้เอาข้อมูลของผมไป
- ก็เพราะพวกเขาแจกของฟรี และ API ก็ราคาดีมากด้วย มันไม่ได้เข้าใจยากอะไร มันให้ความรู้สึกเหมือน Robin Hood ขโมยภาษีข้อมูลของเราแล้วเอามาคืนเรา
- ถ้าจะเอาโค้ดโอเพนซอร์สของผมไปฝึก ผมโอเคนะ ถึงโค้ดจะห่วยหน่อยแต่ไม่ใช่ประเด็น และยังไงก็ให้บริการฟรีอยู่แล้ว แต่ถ้า ผมจ่ายค่า enterprise แล้วมันยังเอาไปฝึกอีก ผมคงโมโหมาก และคิดว่าโปรแกรมเมอร์ส่วนใหญ่ก็น่าจะรู้สึกแบบนี้
พอมหรสพเงินอุดหนุนจบลงแล้ว และทุกอย่างไปสู่การคิดเงินตามการใช้งานจริง ก็ยังพอมีความหวังว่ามันจะไม่กีดกันคนธรรมดาที่ไม่มี งบ $200 ต่อเดือน แบบสมบูรณ์
- มีสองเหตุผลที่ผมมองโลกในแง่ดีว่าจะไม่เกิดการหักหลังครั้งใหญ่ที่ทำให้ความคุ้มค่าราคา/ประสิทธิภาพแย่ลงแบบฉับพลันเมื่อเทียบกับวันนี้
  อย่างแรกคือเรายังค้นพบวิธียัดความฉลาดให้ลงไปในโมเดลที่เล็กลงได้เรื่อย ๆ หมายความว่าสเปกฮาร์ดแวร์เดิมจะให้ความสามารถของโมเดลมากขึ้นเรื่อย ๆ ตามเวลา
  อย่างที่สองคือฮาร์ดแวร์ก็ยังพัฒนาต่อ และอุปทานก็ค่อย ๆ ไล่ทันอุปสงค์ ทำให้สเปกฮาร์ดแวร์ที่ซื้อได้ด้วยเงิน 1 ดอลลาร์ดีขึ้นเรื่อย ๆ ตามเวลา
  หวังว่าสักวันเราจะมองโมเดลแบบ “เข้าถึง AI ผ่าน provider API” แบบเดียวกับที่ตอนนี้เรามองยุค “ทุกคนต่อเข้ากับเมนเฟรมของบริษัท”
- ผมคงไม่แปลกใจถ้าพอทุกอย่างนิ่งแล้ว การใช้งานเชิงสนทนาส่วนบุคคลจะเป็นอะไรที่ทำไม่ได้ด้วยเงิน ต่ำกว่า $200 ผมลองทำโมเดลต้นทุนการเสิร์ฟของพวกนี้ดูแล้ว มันไม่ค่อยตรงกับรายงานที่เปิดเผยออกมา แม้แต่ในกรณีมองโลกแง่ร้ายน้อยกว่าก็ตาม
ช่วงไม่กี่วันที่ผ่านมาผมลองใช้ v4 pro แล้ว ในแง่คุณภาพโดยรวมมันดูใกล้กับ OpenAI 5.4 หรือ Opus 4.6 มาก ผมยังไม่ได้ลอง 4.7
เอาให้ชัดคือผมไม่ได้ทำงานระดับ cutting edge อะไร ส่วนใหญ่ใช้กับงาน frontend และเพราะผมไม่เก่งด้านนั้น เลยต้องการแค่ prototype ที่ดูใช้ได้
สำหรับเป้าหมายของผม มันเป็นโมเดลที่โอเคมากและราคาสมเหตุสมผล แต่ผมก็ยังรอโมเดล open ที่เล็กพอจะรันในเครื่องได้จริง ๆ เพราะผมไม่ชอบที่ต้องพึ่งเครื่องคนอื่นและปล่อยให้ข้อมูลของผมไหลออกไปหมดในกระบวนการนั้น
- ถ้าใช้ inference ของ Tinfoil คุณจะได้ความเป็นส่วนตัวใกล้เคียงการรันโลคัล แม้จะใช้โมเดลบนคลาวด์อยู่: https://tinfoil.sh/inference
  เพื่อความโปร่งใส ผมเป็นผู้ร่วมก่อตั้ง วิธีนี้คือรันโมเดลใน secure enclave และตรวจสอบว่าโค้ดโอเพนซอร์สที่รันอยู่ใน enclave ตรงกับ runtime attestation NVIDIA confidential computing ถูกใช้ในกระบวนการนี้
  เอกสารอธิบายขั้นตอนการตรวจสอบไว้ที่นี่: https://docs.tinfoil.sh/verification/verification-in-tinfoil
- ขอบคุณที่แชร์ประสบการณ์ใช้งาน ผมก็กำลังจะลองเหมือนกัน คุณใช้ provider อะไรสำหรับ inference อยู่? Opencode หรือ DeepSeek API?

DeepSeek V4 – เกือบแตะระดับฟรอนเทียร์แล้ว และราคาถูกกว่ามาก

การเปิดตัวโมเดลและสเปกพื้นฐาน

ทดสอบแบบง่ายผ่าน OpenRouter

ราคา ประสิทธิภาพ และตำแหน่งด้านสมรรถนะ

การเพิ่มประสิทธิภาพเป็นฐานรองรับราคาที่ต่ำ

จากเบนช์มาร์กถือว่าเข้าใกล้ฟรอนเทียร์ แต่ยังไม่ถึงระดับสูงสุด

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นบน Hacker News