3 คะแนน โดย GN⁺ 4 시간 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • ในการเปรียบเทียบแบบ 1:1 ด้วย 4 งานข้อความที่สร้างขึ้นสด ๆ เพื่อป้องกันการเตรียมตัวล่วงหน้า DeepSeek V4 Pro ทำได้ 38.0 คะแนน ขณะที่ GPT-5.5 Pro ได้ 33.0 คะแนน
  • ทั้งสองโมเดลมีความแข็งแกร่ง แต่ DeepSeek มีความเคร่งครัด ตรงตัวตามคำสั่งมากกว่า และมี ความน่าเชื่อถือภายใต้เงื่อนไขข้อจำกัด สูงกว่า ขณะที่ GPT-5.5 Pro ถูกหักคะแนนจากการปรับเปลี่ยนแบบด้นสดที่ไม่จำเป็น
  • ความได้เปรียบทางเทคนิคที่ชัดเจนที่สุดอยู่ในโจทย์ python-log-redactor ซึ่งจัดการแพตเทิร์นที่ซ้อนกันด้วยลำดับความสำคัญที่ถูกต้องโดยใช้ regex เดียวและฟังก์ชันแทนที่ พร้อมให้ผลลัพธ์ครบถ้วนไม่มีตกหล่น
  • ในโจทย์ การทำตามคำสั่ง DeepSeek ทำตามข้อกำหนดของพรอมป์ต์อย่างแม่นยำ ขณะที่ GPT-5.5 Pro เพิ่มรายละเอียดที่ไม่ได้ร้องขอ เช่น การส่งต่องานระหว่างกะและการ escalations
  • ใน งานที่ต้องการความละเอียดแม่นยำ ซึ่งความคลาดเคลื่อนเล็กน้อยอาจนำไปสู่ความล้มเหลวจริง DeepSeek ถูกประเมินว่าเป็นโมเดลที่ยับยั้งชั่งใจได้ดีกว่า แม่นยำกว่า และเชื่อถือได้มากกว่า

ผลการประเมินโดยรวม

  • จากคะแนน DeepSeek V4 Pro ชนะที่ 38.0 ต่อ 33.0 โดยมีหลักฐานรองรับช่องว่างคะแนนอย่างเพียงพอ
  • ตลอดชุดโจทย์ที่ให้คะแนน Model A (DeepSeek) มีความ เคร่งครัดและตรงตัวกว่า และเสถียรกว่าภายใต้ข้อจำกัด
    • Model B (GPT-5.5 Pro) ทำได้ยอดเยี่ยมเช่นกัน แต่มีแนวโน้ม ปรับเปลี่ยนแบบด้นสด มากเกินไปอยู่บ้าง
  • ข้อสรุปสุดท้ายคือ ในงานที่ความคลาดเคลื่อนเล็กน้อยอาจนำไปสู่ความล้มเหลวจริง DeepSeek ถูกมองว่าเป็น โมเดลที่ยับยั้งชั่งใจได้ดีกว่า แม่นยำกว่า และเชื่อถือได้มากกว่า

python-log-redactor (โจทย์เขียนโค้ด)

  • เป็นโจทย์ให้เขียนฟังก์ชัน redact_log(line: str) -> str ใน Python 3 โดยต้องมาสก์อีเมลเป็น [EMAIL], IPv4 เป็น [IP], และ ticket ID รูปแบบ INC- + ตัวเลข 6 หลักเป็น [TICKET]
    • ต้องคงข้อความส่วนอื่นไว้ตามเดิม, IP ที่ไม่ถูกต้อง เช่น 999.1.2.3 ต้องไม่ถูกมาสก์, และสมมติว่าไม่มีอินพุตหลายบรรทัด
  • ผู้ชนะ: DeepSeek V4 Pro — จัดการแพตเทิร์นที่ซ้อนกันด้วย regex เดียวและฟังก์ชันแทนที่ ทำให้รับประกันลำดับความสำคัญของการแทนที่ได้ถูกต้องและไม่มีจุดตกหล่น
    • GPT-5.5 Pro แยก regex ออกหลายตัว จึงมีความเสี่ยงเรื่อง ลำดับผิดพลาด และยังมีข้อบกพร่อง เช่น ไม่มีขอบเขตคำใน regex ของอีเมลและมีการจับคู่เกินความจำเป็น
    โฆษณา

vendor-delay-update (โจทย์เขียนข้อความงานธุรกิจ)

  • เป็นโจทย์ให้เขียนอัปเดตสถานะจาก VP ฝ่ายปฏิบัติการถึงผู้จัดการคลังสินค้าประจำภูมิภาค เพื่อแจ้งว่าการจัดส่งเครื่องทดแทน 420 เครื่องจากซัพพลายเออร์สแกนเนอร์บาร์โค้ด North Quay Devices ล่าช้าจากวันที่ 12 พฤษภาคมเป็น 19 พฤษภาคม เนื่องจากการรับรองแบตเตอรี่ไม่ผ่าน
    • สแกนเนอร์สำรองมีเพียงพอเฉพาะ Memphis และ Reno ส่วน Tulsa และ Allentown ต้องใช้เครื่องร่วมกันเป็นเวลา 1 สัปดาห์
    • ให้หยุดการตรวจนับสต็อกที่ไม่จำเป็น, ให้ความสำคัญกับการหยิบสินค้าเพื่อจัดส่งก่อน, ขอให้ รายงานยอดขาดแคลนภายในเวลา 16:00 น. ตามเวลาท้องถิ่นทุกวัน, น้ำเสียงต้องสุขุม รับผิดชอบ และใช้ได้จริง, ความยาว 140~180 คำ
  • ผู้ชนะ: DeepSeek V4 Pro — ระบุถึง VP โดยตรงตามที่พรอมป์ต์กำหนดว่าให้ "รายงานยอดขาดแคลนภายในเวลา 16:00 น. ตามเวลาท้องถิ่นทุกวัน" และคงน้ำเสียงที่สุขุม รับผิดชอบ และใช้ได้จริง
    • GPT-5.5 Pro เพิ่มรายละเอียด ที่ไม่ได้ร้องขอ เช่น การส่งมอบงานระหว่างกะและการ escalations อีกทั้งเปลี่ยนผู้รับเป็น "Operations Planning" จึงเบี่ยงเบนจากคำสั่งไปบ้าง แม้ทั้งสองฝั่งยังคงคุณภาพสูงและอยู่ในข้อจำกัดจำนวนคำ

meeting-notes-summary (โจทย์สรุปและสร้าง JSON)

  • เป็นโจทย์ให้อ่านบันทึกการประชุมแล้วสร้างสรุป 2 ประโยค พร้อม อ็อบเจ็กต์ JSON ที่มีคีย์ launch_date, owner, blocked_by, open_questions (อาร์เรย์), decisions (อาร์เรย์)
    • บันทึกการประชุมเกี่ยวข้องกับโครงการปรับปรุง tenant portal ของ Cedar Lane โดยมีเนื้อหาอย่างการอนุมัติจากฝ่ายกฎหมาย, สถานะงานฟรอนต์เอนด์ที่เสร็จแล้ว, เป้าหมายเปิดตัววันที่ 2026-03-18, ปัญหาการบล็อก duplicate receipt ID ของการ retry ACH ใน financial sandbox, และการตัดสินใจถอด dark mode ออก
    โฆษณา
  • ผู้ชนะ: DeepSeek V4 Pro — ปฏิบัติตามสคีมาที่ร้องขอได้อย่างถูกต้อง พร้อมสรุป 2 ประโยคและฟิลด์ JSON ที่เป็นชนิดข้อมูลถูกต้อง
    • GPT-5.5 Pro แม้สรุปได้ดี แต่ใส่ ข้อความเชิงเงื่อนไข ลงใน launch_date และจัดการ blocked_by ซึ่งควรเป็นค่าเดี่ยวให้เป็นอาร์เรย์ จึงผิดโครงสร้าง

messy-orders-to-json (โจทย์ปรับข้อมูลให้เป็นมาตรฐาน)

  • เป็นโจทย์ให้แปลงบรรทัดคำสั่งซื้อที่ไม่เป็นระเบียบให้เป็นอาร์เรย์ของอ็อบเจ็กต์ JSON ที่ถูกต้อง ตามสคีมาที่กำหนด โดยต้องคงลำดับอินพุตเดิมไว้
    • ต้องปรับ priority ให้เป็น true/false, แปลงวันที่จัดส่งที่หายไปอย่าง none, tbd, - ให้เป็น null, ลบช่องว่างหัวท้ายค่า, และให้รายการสินค้าแยกด้วย ; โดยแต่ละรายการอยู่ในรูปแบบ SKU xQTY
  • ผลลัพธ์: เสมอ — ทั้งสองฝั่งสร้าง JSON ที่ถูกต้อง คงลำดับอินพุตได้ และตรงตามสคีมาทั้งหมด รวมถึงจัดการ normalization ของค่า priority และ ship_by ได้ถูกต้อง
    • ในด้านคุณภาพและความแม่นยำ แทบไม่มีความต่างที่มีนัยสำคัญ แต่ผลเสมอในโจทย์จัดระเบียบที่ง่ายกว่าไม่สามารถชดเชยความผิดพลาดในงานที่ต้องการความละเอียดแม่นยำได้
    โฆษณา

วิธีทดสอบ

  • ใช้ 4 งานข้อความที่สร้างขึ้นสด ๆ สำหรับการจับคู่ เพื่อไม่ให้โมเดลใดเตรียมตัวล่วงหน้าได้
  • การให้คะแนนในแต่ละโจทย์ดำเนินการโดย grok-4-1-fast-non-reasoning
  • คะแนนสุดท้ายคือ DeepSeek V4 Pro 38.0, GPT-5.5 Pro 33.0

สเปกโมเดล

  • OpenAI: GPT-5.5 Pro

    • เป็น โมเดลประสิทธิภาพสูง ที่ปรับแต่งเพื่อการให้เหตุผลเชิงลึกและความแม่นยำ สำหรับเวิร์กโหลดที่ซับซ้อนและมีความเสี่ยงสูง
    • รองรับ คอนเท็กซ์ 1M+ โทเค็น (อินพุต 922K, เอาต์พุต 128K), รองรับอินพุตข้อความและภาพ, ออกแบบมาสำหรับการแก้ปัญหาระยะยาว, agent coding, และการทำงานอย่างแม่นยำในเวิร์กโฟลว์หลายขั้นตอน
    • ราคาอินพุต $30.00 / เอาต์พุต $180.00 (ต่อหนึ่งล้านโทเค็น), คอนเท็กซ์ 1.1M, cutoff 2025-12-01
  • DeepSeek: DeepSeek V4 Pro

    • เป็นโมเดล Mixture-of-Experts ขนาดใหญ่ที่มี พารามิเตอร์รวม 1.6T และพารามิเตอร์ที่ active 49B พร้อมรองรับคอนเท็กซ์ 1M โทเค็น
    • มุ่งเป้าไปที่งานให้เหตุผลขั้นสูง การเขียนโค้ด และเวิร์กโฟลว์เอเจนต์ระยะยาว พร้อมประสิทธิภาพแข็งแกร่งในเบนช์มาร์กด้านความรู้ คณิตศาสตร์ และวิศวกรรมซอฟต์แวร์
    • ใช้สถาปัตยกรรมเดียวกับ DeepSeek V4 Flash และนำ ระบบ hybrid attention มาใช้เพื่อการประมวลผลข้อความยาวอย่างมีประสิทธิภาพ
    • รองรับระดับการให้เหตุผล high และ xhigh โดย xhigh จับคู่กับการใช้เหตุผลสูงสุด เหมาะกับเวิร์กโหลดซับซ้อนอย่างการวิเคราะห์โค้ดเบสทั้งชุด อัตโนมัติหลายขั้นตอน และการสังเคราะห์ข้อมูลขนาดใหญ่
    • ราคาอินพุต $0.435 / เอาต์พุต $0.870 (ต่อหนึ่งล้านโทเค็น), คอนเท็กซ์ 1M

2 ความคิดเห็น

 
shakespeares 58 분 전

ไม่อยากเชื่อจริงๆ..

 
GN⁺ 4 시간 전
ความคิดเห็นจาก Hacker News
  • การทดลองที่จัดขึ้นเองแบบสุ่ม 4 อัน แทบจะบอกอะไรเกี่ยวกับความสามารถของโมเดลใด ๆ ไม่ได้เลย
    ตัวบทความเองก็อ่านแล้วเหมือน คลิกเบตที่ AI สร้างขึ้น แบบผิวเผินเพื่อโปรโมตโมเดลหรือจุดประเด็นถกเถียง
    ถ้อยคำอย่าง “where it matters”, “cleanly”, “is still strong” ในย่อหน้าเปิดนั้นคลุมเครือ และยังขาดคำอธิบายที่เป็นรูปธรรม เช่น DeepSeek ให้ผลลัพธ์ที่กระชับกว่าจริงใน 3 จาก 4 การทดสอบ ให้ 1 ดาว

    • ดูเหมือนจะเข้าใจจุดประสงค์ของ lede ผิดไป
      ตาม Merriam-Webster, lede คือ “บทนำของข่าวที่ตั้งใจชักจูงให้ผู้อ่านอ่านทั้งบทความต่อ”
      จะชอบสไตล์ที่แห้งกว่านี้ก็ได้ แต่การวิจารณ์ว่าบทนำกำลังพยายามทำหน้าที่ของมันเองนั้นไม่ค่อยสมเหตุสมผล
      https://www.merriam-webster.com/dictionary/lede
    • บทความที่ AI สร้างเกี่ยวกับ AI เป็นสิ่งที่ไม่อยากเห็นบน HN ถ้าไม่ได้เขียนออกมาดีจริง ๆ
    • ถ้าเป็น 3 จาก 4 การทดลอง ก็แน่นอนว่ายังเป็นแค่หลักฐานเชิงประสบการณ์เฉพาะกรณี แต่ผลลัพธ์ก็สอดคล้องอยู่บ้างกับ benchmark การทำตามคำสั่ง ที่เป็นระบบกว่านี้ เพียงแต่ DeepSeek V4 Pro ไม่ได้อยู่อันดับ 1 ใน benchmark นั้น
      https://artificialanalysis.ai/evaluations/ifbench
      บทความก็ดูชัดเจนและค่อนข้างสมดุลดี แม้ย่อหน้าเปิดจะออกแนวการตลาดนิดหน่อย แต่ปกติ lede ก็มักเป็นแบบนั้นอยู่แล้ว และการปัดตกทันทีเพียงเพราะ “ให้ความรู้สึกเหมือน LLM เขียน” ก็ดูเป็นปฏิกิริยาที่ไม่ค่อยใส่ใจนัก
    • ในตลาดรถยนต์ ตัวเลือกที่ดีที่สุดแบบอุดมคติก็อาจมีแค่หนึ่งหรือสองรุ่น แต่บริษัทและรุ่นที่ด้อยกว่านั้นก็ยังขายได้ต่อไปด้วยเหตุผลหลายอย่าง
      บทความนี้แสดงให้เห็นว่า DeepSeek สามารถแข่งขันกับ GPT 5.5 ได้ และบางครั้งอาจดีกว่าด้วยซ้ำ อีกทั้งยังเป็นสัญญาณว่าไม่มีคูเมืองทางธุรกิจ (moat) ที่ป้องกันได้ชัดเจน จึงมีนัยสำคัญมากพอสมควร
    • พอเป็นตัวชี้วัดแนว “นกกระทุงปั่นจักรยาน” ก็ไม่มีใครบอกว่านี่คือ การทดลองสุ่มแบบหละหลวม เลย
  • การทดสอบแบบนี้ดูเหมือนจะยิ่งเป็นการเสียเวลามากขึ้นเรื่อย ๆ
    ตอนนี้ ความฉลาดมีอยู่ชัดเจนแล้ว การพยายามวัดมันเลยดูไม่ค่อยมีความหมาย มันเหมือนกับเวลาจะซื้อค้อนที่ร้านฮาร์ดแวร์ แต่กลับอยากจัดอันดับตาม “คุณภาพของสินค้าสำเร็จรูปที่จะสร้างด้วยค้อนนี้” ซึ่งการประเมินโมเดลตอนนี้ก็ประมาณนั้น
    เวทมนตร์ถัดไปจะมาจาก harness และสภาพแวดล้อมเฉพาะโดเมน โดยตั้งใจใช้โมเดลที่อ่อนกว่านิดหน่อยเพื่อเปิดเผยจุดอ่อนของวิธีที่โดเมนนั้นถูกป้อนให้โมเดล หากยังมีประสิทธิภาพเหลือเผื่ออยู่ ความน่าเชื่อถือของโปรเจ็กต์จะเพิ่มขึ้นมาก ถ้าลูกค้าบ่นเรื่อง edge case บางอย่าง ก็แค่ยกระดับเฉพาะสถานการณ์นั้นไปเป็น gpt5.5 แต่ถ้าใช้ 5.5 อยู่แล้วตั้งแต่แรก ก็ไม่มีที่ให้ไปต่อ

    • คำว่า “ความฉลาดมีอยู่ชัดเจนแล้ว” ไม่ค่อยโดนใจเท่าไร
      สงสัยว่าเราใช้โมเดลตัวเดียวกับคนอื่นหรือเปล่า สำหรับผม LLM ให้คำตอบดี ๆ ราว 80% แต่มีอีก 20% ที่ล้มเหลวเละเทะจนเห็นชัดว่า ไม่มีความฉลาด
    • เห็นด้วย รู้สึกว่า sonnet 4.6 ก็เพียงพอสำหรับแทบทุกอย่างแล้ว พอเกินระดับนั้นไป สิ่งที่สำคัญกว่าตัวโมเดลน่าจะเป็น การ orchestration
      ถึงอย่างนั้น โมเดลก็ยังทำให้อึ้งได้ทุกวันด้วยอาการหลอนสารพัด การขาดความเข้าใจเชิงญาณวิทยา การขาดสามัญสำนึก และการไม่ทำตามคำสั่ง
      วันนี้ผมพยายามให้ opus 4.8 ทำตามแพตเทิร์นสถาปัตยกรรมง่าย ๆ ของ controller ในแอป Rails แต่รู้สึกเหมือนกำลังถอนฟันฉลาม
    • ต่อให้บอกว่า “มีอยู่ชัดเจน” ความจริงที่ว่าเราต้องถามต่อแล้วว่า “มันอยู่ตรงไหน” และการที่เราเห็นบอตที่ชัดเจนว่าไม่ฉลาด ก็ทำให้จำเป็นต้องนิยามและตรวจสอบ ตำแหน่งกับสาเหตุของความฉลาด
      เพื่อให้มั่นใจได้ว่าความฉลาดนั้นไม่ได้โผล่มาแบบบังเอิญหรือแค่ดูเหมือนมี แต่ปรากฏอย่างสม่ำเสมอและมีโครงสร้าง งานเบาใช้เครื่องมือเบา งานที่สำคัญระดับ mission-critical ก็ต้องใช้เครื่องมือที่ผ่านการรับรอง
    • ไม่เข้าใจว่าทำไมถึงเป็นการเสียเวลา
      เราเพิ่งเริ่มลงลึกในรายละเอียดของการ benchmark LLM และยังต้องไปอีกไกลอยู่มาก ถึงอย่างนั้น การที่ LLM ที่รันในเครื่อง ให้ผลใกล้เคียงกับโมเดลระดับแนวหน้าล่าสุดได้ ก็เป็นเรื่องน่าสนใจมาก
    • เวทมนตร์ไม่ได้เกิดขึ้นใน harness และสภาพแวดล้อมเฉพาะโดเมน แก่นจริง ๆ อยู่ที่ การฝึกและ reinforcement learning harness ไม่สามารถเขียนทับพฤติกรรมที่โมเดลถูกฝึกมาได้
      ถ้าโมเดลถูกฝึกมาให้ปั่นเว็บ CRUD ออกมา และคุณกำลังจะสร้างเว็บ CRUD อยู่ harness ก็อาจมีประโยชน์ได้ แต่สิ่งนั้นก็ใกล้เคียงกับการเสียเวลาไปกับการผสมสิ่งที่มีอยู่แล้วให้ดีขึ้นเท่านั้น
  • หลังจากเคยใช้ Claude แล้ว Opencode ถูกบล็อก ตอนนี้ที่ทำงานเลยใช้ GPT ส่วนตัวผมเองใช้ Deepseek บน Opencode Go แพ็กเกจเดือนละ $10 และพูดตามตรงก็แทบไม่รู้สึกถึงความต่าง
    มันเก่งพอ ๆ กัน และยังทำพลาดโง่ ๆ แบบเดียวกับอีกสองตัวที่ทำมาตลอดตั้งแต่เดือนมีนาคม ถ้าคิดเรื่องราคาแล้วก็พอใจมาก

    • 95% ของเวลา เราไม่ต้องการ ความเข้มงวดเพิ่มเติมอีก 5% ที่โมเดล frontier มอบให้เหนือกว่าโมเดลจีนที่ถูกกว่าถึง 10~100 เท่า
      แต่อีก 5% ที่เหลือ มันช่วยมากกับโจทย์ reasoning ยาก ๆ และช่วยเลี่ยงความปวดหัวได้เยอะ ถ้าตอนนี้พอจะทำนายได้แม่น ๆ ว่าเมื่อไรเราต้องการ 5% เพิ่มนั้นก็คงดี
    • ผมใช้ทั้งสองแบบสมัครสมาชิกอยู่ และรู้สึกชัดเจนว่า gpt ดีกว่าและสม่ำเสมอกว่า แต่ถ้าชนลิมิตก็ไม่ได้คิดถึงมันมากขนาดนั้น
    • ไม่รู้ว่าผมทำอะไรผิดหรือเปล่า ตลอด 7 เดือนที่ผ่านมาใช้ Claude แล้วก็ลองโมเดลอย่าง deepseek, kimi เป็นครั้งคราว แต่ไม่มีอะไรเข้าใกล้ Claude ได้เลย Claude แทบจะแก้ได้ตั้งแต่ครั้งแรกเสมอ
  • ลองเพิ่ม GPT 5.5 Pro เข้าไปในเบนช์มาร์กสแกนหาช่องโหว่ที่ทำขึ้นเองแล้ว(https://swelljoe.com/post/will-it-mythos/) แต่ดันใช้ งบ $100 หมดกลางคัน DeepSeek V4 Pro ใช้เงินราว 1 ดอลลาร์สำหรับทั้งเบนช์มาร์ก ส่วน GPT Pro เฉลี่ยอยู่ที่ $22 ต่อเคส
    GPT 5.5 Pro เจอได้ 2 จาก 4 เคสที่ประมวลผลก่อนงบจะหมด ถ้ามีงบไม่จำกัดมันอาจจะเป็นตัวที่ดีที่สุดก็ได้ แต่ Opus 4.8, DeepSeek V4 Pro และ MiMo 2.5 Pro เจอได้ 4 จาก 9 บั๊ก Opus ถูกกว่า GPT 5.5 Pro อยู่หนึ่งหลัก และถูกกว่า GPT 5.5 ราว 30% ส่วน DeepSeek กับ MiMo ถูกกว่าแบบสองหลักที่ราว 10 เซนต์ต่อเคส
    GPT Pro ใช้เวลา “คิดวน” ค่อนข้างนานและมากกว่าเมื่อเทียบกัน
    นึกไม่ออกจริงๆ ว่าจะมีกรณีใช้งานแบบไหนที่สมเหตุสมผลพอให้ใช้ GPT 5.5 Pro ในเมื่อมันมีค่าใช้จ่ายราว 31 เท่าของ Opus และคงจะไม่ใช้มันทำเบนช์มาร์กอีกแล้ว
    ในสถานการณ์ที่ต้นทุนโทเค็นยิ่งกลายเป็นประเด็นสำคัญ การที่มีโมเดลซึ่งถูกกว่าผู้ให้บริการรายใหญ่จากสหรัฐแบบทิ้งห่างมาก น่าจะเป็นปัญหาสำหรับ Anthropic และ OpenAI สำหรับงานโค้ดดิ้งแบบโต้ตอบ การยอมจ่ายพรีเมียมอย่างสมเหตุสมผลให้โมเดลที่ดีที่สุดก็พอรับได้ แต่สำหรับการใช้งานผ่าน API งานอย่างการวนรันโมเดล การเทียบข้ามโมเดล หรือการตัดสินโมเดล สามารถปล่อยให้ฮาร์เนสและเฟรมเวิร์กตรวจคำตอบจัดการได้โดยไม่ต้องให้คนนั่งเฝ้านาน จึงยากจะหาคำอธิบายว่าทำไมต้องจ่ายแพงกว่า DeepSeek ถึง 10 ถึง 200 เท่า

    • อันนี้ก็น่าสนใจเหมือนกัน
      “$3.88, 690,003,591 โทเค็น, 5 ชั่วโมง ใช้ Deepseek Pro กับ Flash ร่วมกันเพื่อทำรีเวิร์สเอนจิเนียร์ระบบไลเซนส์ของ Teamspeak 3.13.8”
      https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
    • สงสัยว่าสามารถใส่ GPT 5.5 non-pro ลงไปในชุดเปรียบเทียบได้ไหม GPT Pro เป็นตัวเลือกแบบ “ยอมเผาเงินได้เพื่อผลลัพธ์ที่ดีกว่าขึ้นมาอีกนิดเป็นครั้งคราว” มากกว่า ไม่ใช่ตัวเลือกที่คาดหวังให้คนใช้กันในชีวิตประจำวัน เหตุผลที่มันไม่ได้เข้า Codex ก็น่าจะเป็นหนึ่งในนั้น
    • เป็นบทความที่ดี แต่อ่านแล้วงงอยู่ว่า ทำไม Sonnet ถึงแย่กว่า Haiku เหมือนเขาจะบอกว่าแม้จะไม่เจอบั๊กที่ตั้งใจหา แต่มันกลับเจอบั๊กอื่นเยอะอยู่
      บั๊ก 9 ตัวดูเหมือนจะเป็นตัวอย่างที่น้อยไปหน่อยสำหรับเอามาจัดอันดับ
      แต่ถึงอย่างนั้นอันดับที่ออกมาก็โดยรวมใกล้เคียงกับที่คาดไว้
      สงสัยว่า Deepseek ที่ใช้เป็น Pro แน่ไหม แล้วไม่ใช่ Flash ใช่ไหม ช่วงนี้ใช้ Flash กับงานเล็กๆ เยอะพอสมควร แล้วมันค่อนข้างดีเลย “การใช้งานแบบโต้ตอบ” ทำได้ดี เร็วมาก และงานเล็กๆ จบแทบจะทันที
      น่าจะใช้ตรวจโค้ดเบสขนาดใหญ่ได้ด้วย เลยสงสัยว่าจะเอาไปใช้กับงานด้านความปลอดภัยได้ไหม
    • งานดีมาก ดูเหมือนสัญชาตญาณจะถูกต้องอยู่มาก ส่วนใหญ่ของ Mythos moment น่าจะทำซ้ำได้ด้วยฮาร์เนสที่เหมาะสม และโมเดลที่แข็งแรงโดยไม่มีกฎกันพลาดงี่เง่ามากเกินไป
      ดีเหมือนกันที่ได้เห็นว่าโมเดลราคาถูกก็ทำได้ดี
    • DeepSeek รันที่ไหน?
  • สงสัยว่าถ้าเปลี่ยน Claude Code ไปใช้ ราคา API ของ DeepSeek จะคุ้มเงินกว่าการใช้แพลน Max $100 ที่ใช้อยู่ตอนนี้ไหม
    ปกติจะชนลิมิต 5 ชั่วโมงแค่ประมาณไม่กี่วันครั้ง และลิมิตรายสัปดาห์ก็ต้องใช้อย่างหนักมากจริง ๆ ถึงจะไปแตะก่อนรีเซ็ต 1-2 วัน เลยไม่คิดว่าปริมาณการใช้งานจะเพิ่มขึ้นมากนัก นอกจากเรื่องไม่ติดลิมิต
    ผมก็ยังรู้สึกไม่ค่อยสบายใจกับการส่งงานของตัวเองไปให้สถาบันวิจัยที่อยู่ภายใต้รัฐบาลซึ่งเป็นปฏิปักษ์กับสหรัฐฯ ดังนั้นไม่ได้มองแค่ต้นทุนล้วน ๆ แต่คำถามตอนนี้คือมองในแง่ต้นทุน

    • มันขึ้นอยู่กับว่าคุณนิยามคำว่า ‘คุ้มเงิน’ ว่าอะไร โมเดล open weights ไม่ได้ดีกว่า openai/claude แต่ถูกกว่ามากและมีลิมิตสูงกว่ามาก เลยสั่งงานได้มากกว่าในเงินที่น้อยกว่า
      ผู้ให้บริการแบบสมัครสมาชิกทุกรายให้ความคุ้มค่าด้านลิมิตต่อเงินดีกว่า Anthropic หมด ยกเว้น GitHub ซึ่งอันนี้แพงและจำกัดแบบน่าอายอย่างท่วมท้น
      (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
      ถ้าหมายถึงไม่อยากใช้โมเดลจากสถาบันวิจัยนอกสหรัฐฯ ก็จะต้องผูกอยู่กับโมเดลสหรัฐฯ แต่ในสหรัฐฯ เองก็มีสถาบันวิจัยใหญ่หลายแห่ง ถ้ากังวลว่าอินเฟอเรนซ์รันที่ไหน ก็ใช้ผู้ให้บริการผ่าน OpenRouter ได้จาก 12 ประเทศรวมถึงสหรัฐฯ และผู้ให้บริการแบบสมัครสมาชิกหลายเจ้าก็โฮสต์ในหลายประเทศเหมือนกัน มีตัวเลือกเยอะ
    • แนะนำว่าลองทำดูเลย ใส่เงิน $5 ใน deepseek.com แล้วเอาคอนฟิกนี้ใส่ในเชลล์สคริปต์ จากนั้นรัน . ./deepseek-claude.sh แล้วใช้ claude ตามปกติได้เลย
      export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
      export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
      export ANTHROPIC_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
      export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
      export CLAUDE_CODE_EFFORT_LEVEL=max
      ตอนแรกผมใช้มันกับงานอ่านข้อมูลชิ้นใหญ่ตอนที่ใกล้ชนลิมิต พูดตามตรงมันไม่ดีเท่า Claude แต่ถูกกว่ามากและช่วยให้ทำงานต่อได้เรื่อย ๆ บางครั้งก็ถามทั้ง claude และ deepseek ให้ช่วยดูโค้ดและเสนอวิธีปรับปรุง แล้วเอาคำตอบของทั้งสองฝั่งมาเทียบกันก็ดี
    • ผมใช้ Claude แบบสมัครสมาชิกเดือนละ $100 อยู่ ตอนนี้กำลังทดลองเซ็ตอัปที่ใช้ Opus เป็นสถาปนิก, Sonnet เป็นผู้ลงมือทำ/วิศวกร และ deepseek-pro เป็นผู้รีวิวเชิงลึกกับผู้ทดสอบ ซึ่งก็ออกมาดีอย่างที่คาดไว้
      ถ้าแพตเทิร์นการใช้งานยังเป็นแบบนี้ต่อไป ผมคิดว่าจะลดแพ็กเกจสมัครสมาชิกลงมาเหลือ $20/เดือน แล้วเอาเงินไปลง Deepseek มากขึ้น
      รีโปอ้างอิง: https://github.com/aravindhsampath/agentic-template
    • ประสิทธิภาพต่อดอลลาร์ดีกว่ามาก แต่ประสิทธิภาพต่อชั่วโมงด้อยลงเล็กน้อย
      ตามปกติแล้วแต่ละโมเดลจะมีจุดที่ตันต่างกัน สำหรับการทดลองใน Cursor, การสำรวจ, และ proof of concept ส่วนใหญ่ ผมใช้ DeepSeek v4 API แต่สำหรับการเขียนโค้ดโปรดักชัน ผมยังเชื่อถือน้อยกว่า OpenAI/Claude บางครั้ง DeepSeek เก่งมากเรื่องดีบักหรือวางแผน แต่บางครั้งก็ตันหรือให้คุณภาพต่ำ โมเดลของ OpenAI และ Anthropic เองก็เป็นแบบนั้นเหมือนกัน
      โดยรวมแล้ว DeepSeek ใช้งานได้ดี แต่ดูเหมือนจะยังต่ำกว่า Opus 4.8 และ GPT 5.5 อยู่หนึ่งขั้น ผมรันทุกตัวด้วยการตั้งค่าการคิดสูงสุด
    • ถ้ากังวลเรื่องส่งข้อมูลออกไปภายนอกเพื่อทำอินเฟอเรนซ์ Fireworks ก็เป็นหนึ่งในบริษัทที่ให้บริการโอเพนโมเดลด้วยประสิทธิภาพดี พร้อมเรื่องคอมพลายแอนซ์และ no data retention ที่จัดการไว้ค่อนข้างดี OpenCode ก็รองรับ Fireworks กับผู้ให้บริการหลายราย และ Cursor เองก็ใช้ Fireworks
      มันไม่มีข้อได้เปรียบด้าน cache read ราคาถูกมากแบบเอนด์พอยต์ของ DeepSeek เอง แต่ก็ยังถูกกว่าค่า API ของ Anthropic มากอยู่ดี เพียงแต่ประเด็นสำคัญคือ ตอนนี้คุณไม่ได้จ่ายค่า API อยู่
      ส่วนลด cache read ของ DeepSeek และ Xiaomi น่าจะเกี่ยวกับการที่โมเดลเจเนอเรชันล่าสุดใช้พื้นที่เก็บ KV น้อยลง ทำให้แคชชิงถูกลง ยังไม่มีผู้ให้บริการอินเฟอเรนซ์โอเพนโมเดลรายไหนเลือกจะตั้งราคาให้เท่ากัน ซึ่งมันก็บอกอะไรบางอย่างเกี่ยวกับโครงสร้างราคาของอินเฟอเรนซ์ แต่ผมก็ไม่แน่ใจว่าคืออะไรแน่
      ผมเห็นด้วยว่าโอเพนโมเดลที่ดีที่สุดก็ยังไม่ถึงระดับ frontier ถ้าเป็นงานวางแผนภาพใหญ่ หรือสถานการณ์ที่ให้แค่กรอบกว้าง ๆ แล้วคาดหวังการเดาเติมเองเยอะ ๆ ความต่างน่าจะชัด แต่สำหรับการเขียนโค้ดตามแผนที่ชัดเจน มันดูดีพอใช้ได้ ผมใช้แค่นอกบริษัทเลยไม่มีประสบการณ์กับโค้ดเบสขนาดมหึมา แต่ดูเหมือนมันจะเก่งพอในการเก็บข้อมูลที่ต้องใช้ก่อนจะลงมือ เลยน่าจะไล่หาได้ด้วย grep ถ้าจำเป็น
      มีเบาะแสชวนหงุดหงิดอยู่อย่างหนึ่งคือ ถ้าใช้แพลนสมัครสมาชิกส่วนบุคคลหนัก ๆ มันจะถูกกว่า API มาก ดูที่ https://she-llac.com/claude-limits แล้วการคุยเรื่องต้นทุนจะซับซ้อนขึ้น ถึงอย่างนั้นผมก็ยังคิดว่าการลองเล่นกับโอเพนโมเดลมีคุณค่า เพราะมันเป็นหนึ่งในสิ่งที่ทำให้เราจัดการมันในฐานะเทคโนโลยีเดียวได้ แทนที่จะเป็นชุดผลิตภัณฑ์ที่ถูกมัดรวมโดยบริษัทไม่กี่แห่ง
  • สำหรับข่าวใหญ่แนวนี้ก็มีแนวทางอยู่ โมเดลหนึ่งถูกประกาศว่าดีกว่าอีกโมเดลจากชุดทดสอบเล็ก ๆ แต่ก็ยังน่าสงสัยว่าผลแบบนั้นจะทำซ้ำได้อย่างสม่ำเสมอจริงหรือไม่
    แทบไม่มีการเปิดเผยข้อมูลอะไรเลย จึงแทบไม่มีวัสดุให้คนอื่นนำไปตรวจสอบการทดสอบหรือดุลยพินิจได้ด้วยตัวเอง
    คุณค่าที่ใหญ่ที่สุดของ DeepSeek V4 Pro คือราคาที่ต่ำ ผมไม่ได้คาดหวังว่ามันจะทำผลงานได้ดีกว่า GPT-5.5 มากนัก และต่อให้ได้แค่ระดับ gpt-5.4 ก็ยังเป็นโมเดลที่ดีอยู่

    • ความคาดหวังไม่ได้ตรงกับความจริงเสมอไป ควรลองใช้โมเดลด้วยตัวเอง พูดตามตรงผมยังไม่ได้ใช้ Pro ด้วยซ้ำ เคยใช้แค่ Flash และทำงานพัฒนาเว็บ PHP
  • แทบไม่มีงานที่ต้องใช้โมเดลที่ดีกว่า DSv4 Flash เลย และยิ่งไม่จำเป็นต้องใช้ Pro
    ถ้าอธิบายปัญหาและวิธีแก้ได้ดีพอ Flash ก็ทำได้เองสบาย ๆ
    แต่ถ้าอธิบายปัญหาได้ไม่ดีพอ หรือขี้เกียจเลยบอกแค่ผลลัพธ์ที่ต้องการ รู้สึกได้ชัดว่าโมเดลอย่าง GPT 5.5 เก่งกว่ามากในการหาแนวทางแก้ที่แข็งแรงได้ด้วยตัวเอง
    ความต่างด้านความสามารถของโมเดลมีอยู่ชัดเจน แต่ก็ชัดเจนเหมือนกันว่าแม้แต่โมเดลโอเพนเวตขนาดเล็กกว่าก็ดีพอจะช่วยงานส่วนใหญ่ได้มาก

  • ใช้ deepseek v4 เพราะประสิทธิภาพต่อราคา โดยรวมรู้สึกว่ายังด้อยกว่าบางโมเดลอื่น แต่สุดท้ายถ้าให้เกณฑ์การยอมรับที่ถูกต้อง ก็ทำให้โมเดลไหนก็ทำงานได้
    แค่ให้สเปกกับการทดสอบที่ละเอียด และให้สิทธิ์วนซ้ำจนกว่าจะใช้ได้จริง one-shot เป็นตัวชี้วัดประสิทธิภาพที่แย่

    • ไม่คิดว่าทุกโมเดลจะลู่เข้าสู่เกณฑ์การยอมรับเสมอไป เคยทำ agent-based modeling และ scientific modeling ในสายนี้มาหลากหลายพอสมควร ต่อให้มีเกณฑ์สำหรับตรวจสอบและมีไอเดียว่าจะไปถึงจุดลู่เข้าได้อย่างไร ก็ไม่ได้แปลว่าจะลู่เข้าจริง
      มันอาจวนซ้ำอยู่ใน information space ไปเรื่อย ๆ แล้วติดอยู่โดยหาแนวทางแก้ที่ต้องการไม่เจอ
      ถึงจะช่วยได้ แต่ในเคสที่ล้มเหลว หลายครั้งต้องให้มนุษย์เข้ามาชี้ทางหรือบังคับแก้บางเส้นทาง ถึงจะไปถึงคำตอบได้
  • DeepSeek V4 Pro ที่ใช้ร่วมกับ reasonix ราคาถูกจนน่าตกใจและดีพอสำหรับงานเขียนโค้ดส่วนใหญ่ แถมยังต่างจาก GPT 5.5 และ Opus 4.8 พอสมควร เลยบางครั้งหาเจอปัญหาที่อีกสองตัวหาไม่เจอ
    มองว่าคุ้มค่าที่จะมีติดไว้ในชุดเครื่องมือ

  • DeepSeek V4 Pro ยอดเยี่ยมและถูกแบบเหลือเชื่อ แต่คนกำลังประเมิน MiMo V2.5 Pro ต่ำไป ราคาเท่ากัน ราคาฝั่งแคชก็ต่ำกว่า เป็นมัลติโหมด และอยู่สูงกว่าในเบนช์มาร์กส่วนใหญ่
    เช่นเดียวกันกับการเปรียบเทียบ MiMo V2.5 กับ DeepSeek V4 Flash

    • ณ เวลาที่เขียนโพสต์ ตาม https://news.ycombinator.com/item?id=48343690 ราคาต่อ cache hit ของ MiMo V2.5 Pro ต่ำกว่า โดยต้นฉบับระบุไว้แบบนี้
      โมเดล OSS แตกต่างกันมากขึ้นอยู่กับว่าจะใช้ผ่านผู้ให้บริการเจ้าไหน และสาเหตุหลักคืออัตรา cache hit
      Model Cheapest effectiveInputPrice (Provider)
      MiMo-V2.5-Pro 0.3720 (Xiaomi)
      DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)