13 คะแนน โดย xguru 2026-02-08 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • ใช้ โมเดล Opus 4.6 เดียวกัน แต่ปรับการตั้งค่า API เพื่อ ลดเวลาแฝงให้ต่ำที่สุด
  • ปรับแต่งมาสำหรับ งานโต้ตอบที่ไวต่อเวลา เช่น การทำซ้ำอย่างรวดเร็ว และการดีบักแบบสด
  • ใน CLI หรือส่วนขยาย VS Code พิมพ์ /fast เพื่อ สลับเปิด·ปิด หรือเปิดใช้งาน ตลอดเวลา ในไฟล์ตั้งค่าผู้ใช้ด้วย "fastMode": true
  • เมื่อเปิดใช้งานจะ สลับไปใช้ Opus 4.6 โดยอัตโนมัติ พร้อมแสดงข้อความสถานะและไอคอน
  • Fast Mode จะมี ราคาต่อโทเคนสูงขึ้นเมื่อเทียบกับ Opus 4.6 มาตรฐาน
    • คอนเท็กซ์ต่ำกว่า 200K: อินพุต $30/MTok, เอาต์พุต $150/MTok (มาตรฐานคืออินพุต $5 เอาต์พุต $25)
    • คอนเท็กซ์มากกว่า 200K: อินพุต $60/MTok, เอาต์พุต $225/MTok (มาตรฐานคืออินพุต $10 เอาต์พุต $37.5)
    • ใช้ส่วนลด 50% ได้จนถึงวันที่ 16/2
  • มีการใช้ rate limit แยกเฉพาะสำหรับ Fast Mode และหากเกินขีดจำกัดหรือเครดิตหมด จะ fallback กลับไปยังโหมดมาตรฐานโดยอัตโนมัติ
  • Fast Mode เปิดให้ใช้ในรูปแบบ research preview และฟังก์ชัน·ราคาอาจมีการเปลี่ยนแปลงได้

3 ความคิดเห็น

 
GN⁺ 2026-02-09
ความเห็นจาก Hacker News
  • ความเร็วเพิ่มขึ้น 2.5 เท่า แต่ราคาแพงขึ้น 6 เท่า
    ถือเป็นพรีเมียมที่ค่อนข้างแพง โดยเฉพาะเมื่อ Gemini 3 Pro มีความเร็วโทเคนต่อวินาทีสูงกว่า Opus 4.6 อยู่ 1.8 เท่า แต่ราคากลับอยู่ที่ราว 0.45 เท่า
    แต่ประสิทธิภาพด้านการเขียนโค้ดด้อยกว่า และ Gemini CLI ก็ยังไม่มีความสามารถแบบเอเจนต์เทียบเท่า Claude Code

    • ถ้าราคาต่อโทเคนแพงขึ้น 6 เท่า ก็เท่ากับว่าราคาต่อวินาทีแพงขึ้น 15 เท่า แถมนี่ยังเป็นราคา API ส่วนแพ็กเกจสมัครสมาชิกถูกกว่านี้มาก
      สุดท้ายแล้วมันเป็นโครงสร้างที่น่าสนใจสำหรับทำให้ลูกค้ารายใหญ่ (whale) ใช้เงินได้เร็วขึ้น
    • Gemini ค่อนข้างดีสำหรับงานฝั่งฟรอนต์เอนด์
    • สามารถใช้ OpenCode แทน Gemini CLI ก็ได้
  • ถ้ามีโหมดช้า (slow-mode) ก็น่าจะดี เป็นฟีเจอร์ที่ให้ตั้งรันงานล่วงหน้าบน spot GPU ราคาถูกได้
    ฉันมักรันโปรเซสช่วงพักเที่ยงหรือก่อนเลิกงานบ่อย ๆ ซึ่งไม่จำเป็นต้องเริ่มทันที แค่ไปรันบน GPU ว่างในราคาถูกก็พอ

    • Batches API คิดค่าบริการที่ 50% ของ API มาตรฐาน
    • OpenAI เองก็เคยมีฟังก์ชันประมวลผลแบบแบตช์คล้ายกันมาก่อน
    • ฉันก็คิดแบบเดียวกัน ถ้ารันตอนกลางคืนในราคา 50% ได้ก็คงดี แต่ Claude Code ยังไม่ได้รวมฟีเจอร์นี้ไว้
    • จริง ๆ แล้วแพ็กเกจ MAX ที่มีส่วนลดอยู่แล้ว ก็แทบทำงานเหมือนโหมดช้า
    • ถ้าไม่ซีเรียสเรื่องเวลา การรันด้วย CPU/RAM แทน GPU ก็เป็นอีกทางเลือกหนึ่ง
  • โหมดนี้ไม่สามารถใช้โควต้าที่เหลืออยู่จากแพ็กเกจสมัครสมาชิกได้
    การใช้งานโหมดเร็วจะถูกคิดเงินแยกเสมอ และมีค่าบริการเพิ่มเติมตั้งแต่โทเคนแรก โดยไม่เกี่ยวกับโทเคนที่รวมอยู่ในแพ็กเกจ
    ตอนนี้มีโปรโมชันใช้งานเพิ่มฟรี $50

    • สุดท้ายแล้วแทบไม่มีประโยชน์ ถึงจะใช้ Claude Max ก็ยังต้องคุมปริมาณการใช้ระหว่างทำ TDD
      ดูจากเครื่องมือ ccusage ถ้าคิดแบบ API วันหนึ่งอาจพุ่งถึง $200 ได้ ถ้าค่าบริการเพิ่ม 6 เท่า เงิน $50 จะหายไปใน 20 นาที
  • สำหรับฉัน ฟีเจอร์นี้คงไม่ได้มีประโยชน์มากนัก
    คอขวดไม่ใช่ตัวโมเดล แต่เป็นความเร็วที่ฉันใช้ทำความเข้าใจโค้ดที่ LLM สร้างขึ้น

    • หลายคนก็ไม่ได้อ่านโค้ดจริงจังอยู่แล้ว โลกทุกวันนี้ก็น่าสนใจดี
    • ถ้าความเร็วมากพอ ฉันก็คงใช้งานแบบโยนคำถามไปเรื่อย ๆ แทนการอ่านโค้ด แต่ตอนนี้ยังไม่ถึงระดับนั้น
    • คนที่เขียนโค้ดแบบอาศัย ‘ความรู้สึก’ จะโฟกัสที่ผลลัพธ์มากกว่าความเข้าใจ
    • ถ้าทำ test harness และขั้นตอนตรวจสอบไว้ดี ก็อาจเชื่อถือได้แม้ไม่ต้องดูโค้ดโดยตรง
  • พอดูเอกสาร “การตัดสินใจว่าจะใช้ Fast mode เมื่อไร” แล้ว

    • เอเจนต์ที่รันระยะยาวหรืองานเบื้องหลังใช้โหมดปกติ
    • สถานการณ์ที่มีมนุษย์เข้ามาเกี่ยวข้องใช้โหมดเร็ว
      ดูเหมือนว่าตั้งใจแบ่งแบบนี้ แต่ก็ยังสงสัยว่าโครงสร้างราคาสมเหตุสมผลหรือไม่
    • ค่า API ของ Opus ก็แพงอยู่แล้ว สุดท้ายก็น่าจะยังเป็นบริการระดับราคาแพงต่อไป
      คนที่เน้นความคุ้มค่าก็คงแก้ด้วยการรันแบบขนาน
  • เวิร์กโฟลว์ปกติของฉันแบ่งเป็นช่วงวางแผนกับช่วงลงมือทำ
    โหมดเร็วน่าจะมีประโยชน์ที่สุดในช่วงวางแผน
    นอกจาก “ล้างคอนเท็กซ์แล้วรันด้วยโหมดเร็ว”
    ก็อยากให้มีตัวเลือก “ล้างคอนเท็กซ์แล้วรันด้วยความเร็วปกติ” ด้วย
    เอเจนต์แบบสำรวจจะช้าหน่อยก็ไม่เป็นไร แต่ถ้าวนแผนได้เร็วขึ้นมากก็จะมีประสิทธิภาพกว่ามาก

  • บัญชี Pro ปกติก็แทบจะเป็นโหมดช้าอยู่แล้ว
    ตอนนี้ฉันกำลังทดสอบ Kimi2.5 CLI ซึ่งเร็วดีและมีเว็บอินเทอร์เฟซให้ด้วย เลยใช้จากระยะไกลในสภาพแวดล้อม VPN ได้

  • ตอนนี้น่าจะ CNAME ให้ Hacker News กลายเป็นบล็อกการตลาดของ Claudeไปเลยก็ได้

    • ถ้างั้นก็จะพลาดโพสต์โปรโมตตัวเองของ simonw
    • จริง ๆ แล้วโพสต์เกี่ยวกับ OpenAI มีเยอะกว่ามาก เปลี่ยนชื่อเป็น AINews ไปเลยอาจจะเหมาะกว่า
  • ฉันสงสัยว่าอะไรเป็นสาเหตุของความเร็วที่เพิ่มขึ้น แค่การปรับลำดับความสำคัญอย่างเดียวน่าจะอธิบายได้ยาก
    อาจเป็นฮาร์ดแวร์ใหม่ก็ได้ (เช่น Groq, Cerebras) และการที่ให้บริการเฉพาะบางคลาวด์ก็ดูเป็นไปได้
    ก็น่าสนใจว่าในอนาคตผู้ให้บริการ LLM จะคิดราคาโดยแยก “ความเร็ว vs ความฉลาด” หรือไม่

    • เป็นวิธีเพิ่ม throughput ของโทเคนด้วยการเพิ่มการประมวลผลแบบแบตช์และมัลติสตรีมบน GPU
      เมื่อเพิ่มขนาดแบตช์ ความขนานจะสูงขึ้น แต่ความเร็วของคำขอแต่ละรายการจะช้าลง
      จากกราฟ SemiAnalysis InferenceMAX™ จะเห็นว่ามีเส้นโค้งพาเรโตระหว่าง throughput ต่อ GPU กับความเร็วโทเคน
    • นอกจากการอัปเกรดฮาร์ดแวร์หรือปรับลำดับความสำคัญของทราฟฟิกแล้ว ยังสามารถจูนอย่างอื่นได้อีก เช่น ลดbatch window หรือเก็บ KV cache ไว้บน GPU
    • อาจเป็นแค่โมเดลตามลำดับความสำคัญที่ข้ามคิวไปตรง ๆ ก็ได้ เพราะเป็นวิธีหารายได้เพิ่มที่ง่ายกว่า
    • หรืออาจทำไว้ใช้ภายในก่อนแล้วก็ได้ ในทางปฏิบัติอาจเป็นแค่การปรับลำดับความสำคัญธรรมดา แต่คงคาดว่าลูกค้าภายนอกจะมีไม่มาก
    • หรืออาจใช้ GPU รุ่นใหม่อย่าง Nvidia GB300 (Blackwell) ก็ได้
  • พอเห็นโพสต์ “Claude สร้างคอมไพเลอร์ C ได้” ก็เลยสงสัยถึงความเร็วในการอนุมานภายในองค์กรของแล็บอย่าง Anthropic และ OpenAI
    ยิ่งความเร็วในการอนุมานสูง ก็ยิ่งได้เปรียบในการยึดตลาดซอฟต์แวร์
    ถ้า Anthropic เปิดเผยความเร็ว 2.5 เท่า ภายในองค์กรอาจใช้โหมดที่เร็วกว่า 5~10 เท่าก็ได้
    ในอนาคตที่เอเจนต์ต้องเจรจากันเอง พลังการประมวลผลที่เร็วที่สุดจะเป็นผู้ชนะ

    • Anthropic ระบุว่าได้ เปิดโหมด 2.5 เท่าแบบที่ใช้ภายในออกเป็น API อย่างเป็นทางการ แล้ว
      เป็นไปได้ว่าเซิร์ฟเวอร์บางส่วนยอมลด throughput รวมเพื่อเพิ่มความเร็วของคำขอแต่ละรายการ
      และอาจกำลังรันบนฮาร์ดแวร์รุ่นใหม่อยู่ก็ได้
    • แนวคิดที่ว่า “ซ่อนประสิทธิภาพไว้ 10 เท่า” ฟังไม่สมเหตุสมผล บริษัท SaaS ที่แข่งกันในตลาดคงไม่มีพื้นที่ให้ทำแบบนั้น
      ตามความเป็นจริงน่าจะเป็นแค่ความเร็วเพิ่มขึ้น 2.5 เท่าจากการทำงานแบบขนานเท่านั้น
    • มันยังดูเหมือนโมเดลแบบจับความเร็วเป็นตัวประกัน โดยจงใจทำความเร็วพื้นฐานให้ช้าลงเพื่อให้คนยอมจ่ายเงินซื้อโหมดเร็ว
 
kimjoin2 2026-02-09

"งานถัดไปควรเป็นอะไรดี?"
ดูเหมือนว่าจะมีการคิดเงินเพิ่มครั้งละ $3.46 และน่าจะไม่ครอบคลุมด้วยโมเดลแบบสมัครสมาชิกนะครับ
เมื่อไม่นานมานี้ที่ให้ $50 มาก็เหมือนจะให้มาเพื่อให้ลองใช้อันนี้ดูเหมือนกัน 555

 
elbum 2026-02-08

ตอนนี้ดูเหมือนว่า AI จะค่อย ๆ กลายเป็นสิ่งที่มีแต่คนรวยเท่านั้นที่ใช้กันแล้ว ...