- ใช้ โมเดล Opus 4.6 เดียวกัน แต่ปรับการตั้งค่า API เพื่อ ลดเวลาแฝงให้ต่ำที่สุด
- ปรับแต่งมาสำหรับ งานโต้ตอบที่ไวต่อเวลา เช่น การทำซ้ำอย่างรวดเร็ว และการดีบักแบบสด
- ใน CLI หรือส่วนขยาย VS Code พิมพ์
/fast เพื่อ สลับเปิด·ปิด หรือเปิดใช้งาน ตลอดเวลา ในไฟล์ตั้งค่าผู้ใช้ด้วย "fastMode": true
- เมื่อเปิดใช้งานจะ สลับไปใช้ Opus 4.6 โดยอัตโนมัติ พร้อมแสดงข้อความสถานะและไอคอน
↯
- Fast Mode จะมี ราคาต่อโทเคนสูงขึ้นเมื่อเทียบกับ Opus 4.6 มาตรฐาน
- คอนเท็กซ์ต่ำกว่า 200K: อินพุต $30/MTok, เอาต์พุต $150/MTok (มาตรฐานคืออินพุต $5 เอาต์พุต $25)
- คอนเท็กซ์มากกว่า 200K: อินพุต $60/MTok, เอาต์พุต $225/MTok (มาตรฐานคืออินพุต $10 เอาต์พุต $37.5)
- ใช้ส่วนลด 50% ได้จนถึงวันที่ 16/2
- มีการใช้ rate limit แยกเฉพาะสำหรับ Fast Mode และหากเกินขีดจำกัดหรือเครดิตหมด จะ fallback กลับไปยังโหมดมาตรฐานโดยอัตโนมัติ
- Fast Mode เปิดให้ใช้ในรูปแบบ research preview และฟังก์ชัน·ราคาอาจมีการเปลี่ยนแปลงได้
3 ความคิดเห็น
ความเห็นจาก Hacker News
ความเร็วเพิ่มขึ้น 2.5 เท่า แต่ราคาแพงขึ้น 6 เท่า
ถือเป็นพรีเมียมที่ค่อนข้างแพง โดยเฉพาะเมื่อ Gemini 3 Pro มีความเร็วโทเคนต่อวินาทีสูงกว่า Opus 4.6 อยู่ 1.8 เท่า แต่ราคากลับอยู่ที่ราว 0.45 เท่า
แต่ประสิทธิภาพด้านการเขียนโค้ดด้อยกว่า และ Gemini CLI ก็ยังไม่มีความสามารถแบบเอเจนต์เทียบเท่า Claude Code
สุดท้ายแล้วมันเป็นโครงสร้างที่น่าสนใจสำหรับทำให้ลูกค้ารายใหญ่ (whale) ใช้เงินได้เร็วขึ้น
ถ้ามีโหมดช้า (slow-mode) ก็น่าจะดี เป็นฟีเจอร์ที่ให้ตั้งรันงานล่วงหน้าบน spot GPU ราคาถูกได้
ฉันมักรันโปรเซสช่วงพักเที่ยงหรือก่อนเลิกงานบ่อย ๆ ซึ่งไม่จำเป็นต้องเริ่มทันที แค่ไปรันบน GPU ว่างในราคาถูกก็พอ
โหมดนี้ไม่สามารถใช้โควต้าที่เหลืออยู่จากแพ็กเกจสมัครสมาชิกได้
การใช้งานโหมดเร็วจะถูกคิดเงินแยกเสมอ และมีค่าบริการเพิ่มเติมตั้งแต่โทเคนแรก โดยไม่เกี่ยวกับโทเคนที่รวมอยู่ในแพ็กเกจ
ตอนนี้มีโปรโมชันใช้งานเพิ่มฟรี $50
ดูจากเครื่องมือ ccusage ถ้าคิดแบบ API วันหนึ่งอาจพุ่งถึง $200 ได้ ถ้าค่าบริการเพิ่ม 6 เท่า เงิน $50 จะหายไปใน 20 นาที
สำหรับฉัน ฟีเจอร์นี้คงไม่ได้มีประโยชน์มากนัก
คอขวดไม่ใช่ตัวโมเดล แต่เป็นความเร็วที่ฉันใช้ทำความเข้าใจโค้ดที่ LLM สร้างขึ้น
พอดูเอกสาร “การตัดสินใจว่าจะใช้ Fast mode เมื่อไร” แล้ว
ดูเหมือนว่าตั้งใจแบ่งแบบนี้ แต่ก็ยังสงสัยว่าโครงสร้างราคาสมเหตุสมผลหรือไม่
คนที่เน้นความคุ้มค่าก็คงแก้ด้วยการรันแบบขนาน
เวิร์กโฟลว์ปกติของฉันแบ่งเป็นช่วงวางแผนกับช่วงลงมือทำ
โหมดเร็วน่าจะมีประโยชน์ที่สุดในช่วงวางแผน
นอกจาก “ล้างคอนเท็กซ์แล้วรันด้วยโหมดเร็ว”
ก็อยากให้มีตัวเลือก “ล้างคอนเท็กซ์แล้วรันด้วยความเร็วปกติ” ด้วย
เอเจนต์แบบสำรวจจะช้าหน่อยก็ไม่เป็นไร แต่ถ้าวนแผนได้เร็วขึ้นมากก็จะมีประสิทธิภาพกว่ามาก
บัญชี Pro ปกติก็แทบจะเป็นโหมดช้าอยู่แล้ว
ตอนนี้ฉันกำลังทดสอบ Kimi2.5 CLI ซึ่งเร็วดีและมีเว็บอินเทอร์เฟซให้ด้วย เลยใช้จากระยะไกลในสภาพแวดล้อม VPN ได้
ตอนนี้น่าจะ CNAME ให้ Hacker News กลายเป็นบล็อกการตลาดของ Claudeไปเลยก็ได้
ฉันสงสัยว่าอะไรเป็นสาเหตุของความเร็วที่เพิ่มขึ้น แค่การปรับลำดับความสำคัญอย่างเดียวน่าจะอธิบายได้ยาก
อาจเป็นฮาร์ดแวร์ใหม่ก็ได้ (เช่น Groq, Cerebras) และการที่ให้บริการเฉพาะบางคลาวด์ก็ดูเป็นไปได้
ก็น่าสนใจว่าในอนาคตผู้ให้บริการ LLM จะคิดราคาโดยแยก “ความเร็ว vs ความฉลาด” หรือไม่
เมื่อเพิ่มขนาดแบตช์ ความขนานจะสูงขึ้น แต่ความเร็วของคำขอแต่ละรายการจะช้าลง
จากกราฟ SemiAnalysis InferenceMAX™ จะเห็นว่ามีเส้นโค้งพาเรโตระหว่าง throughput ต่อ GPU กับความเร็วโทเคน
พอเห็นโพสต์ “Claude สร้างคอมไพเลอร์ C ได้” ก็เลยสงสัยถึงความเร็วในการอนุมานภายในองค์กรของแล็บอย่าง Anthropic และ OpenAI
ยิ่งความเร็วในการอนุมานสูง ก็ยิ่งได้เปรียบในการยึดตลาดซอฟต์แวร์
ถ้า Anthropic เปิดเผยความเร็ว 2.5 เท่า ภายในองค์กรอาจใช้โหมดที่เร็วกว่า 5~10 เท่าก็ได้
ในอนาคตที่เอเจนต์ต้องเจรจากันเอง พลังการประมวลผลที่เร็วที่สุดจะเป็นผู้ชนะ
เป็นไปได้ว่าเซิร์ฟเวอร์บางส่วนยอมลด throughput รวมเพื่อเพิ่มความเร็วของคำขอแต่ละรายการ
และอาจกำลังรันบนฮาร์ดแวร์รุ่นใหม่อยู่ก็ได้
ตามความเป็นจริงน่าจะเป็นแค่ความเร็วเพิ่มขึ้น 2.5 เท่าจากการทำงานแบบขนานเท่านั้น
"งานถัดไปควรเป็นอะไรดี?"
ดูเหมือนว่าจะมีการคิดเงินเพิ่มครั้งละ $3.46 และน่าจะไม่ครอบคลุมด้วยโมเดลแบบสมัครสมาชิกนะครับ
เมื่อไม่นานมานี้ที่ให้ $50 มาก็เหมือนจะให้มาเพื่อให้ลองใช้อันนี้ดูเหมือนกัน 555
ตอนนี้ดูเหมือนว่า AI จะค่อย ๆ กลายเป็นสิ่งที่มีแต่คนรวยเท่านั้นที่ใช้กันแล้ว ...