เครื่องคำนวณค่าใช้จ่ายโทเค็นของ Opus 4.6 และ Opus 4.7
(tokens.billchambers.me)- เครื่องมือคำนวณสำหรับวิเคราะห์ปัญหาที่พรอมป์ต์เดียวกันถูกนับเป็น โทเค็นมากขึ้น เนื่องจาก ตัวแยกโทเค็นใหม่ของ Opus 4.7
- อินพุตเดียวกันอาจถูกแมปเป็นจำนวนโทเค็น 1.0~1.35 เท่า ตามประเภทของเนื้อหา ทำให้ ค่าใช้จ่ายต่อคำขอเพิ่มขึ้น แม้จะไม่เปลี่ยนคำเลยก็ตาม
- จากการรวบรวมจริงพบว่า Opus 4.7 มี โทเค็นต่อคำขอ และ ค่าใช้จ่ายต่อคำขอ เฉลี่ยเพิ่มขึ้นอย่างละ +37.4% เมื่อเทียบกับ Opus 4.6
- อัตราการเพิ่มกระจายตั้งแต่ต่ำสุด +19.0% ไปจนถึงสูงสุด +86.2% จาก 50 รายการล่าสุด โดยกรณีในช่วง +30% และ +40% พบได้อย่างกว้างขวาง
- หน้านี้ให้คุณวางบทสนทนา, system prompt และข้อความ เพื่อเปรียบเทียบ ความต่างของจำนวนโทเค็นระหว่าง Opus 4.7 กับ 4.6 พร้อมค่าใช้จ่ายตามราคา ณ ปัจจุบันอย่างละเอียด
ที่มาของการสร้างเครื่องมือนี้
- ในประกาศเปิดตัว Opus 4.7 มันถูกแนะนำว่าเป็น การอัปเกรดโดยตรง จาก Opus 4.6 แต่มีการเปลี่ยนแปลง 2 อย่างที่ส่งผลต่อการใช้โทเค็น
- ด้วย ตัวแยกโทเค็น ที่อัปเดตแล้ว อินพุตเดียวกันจะถูกแมปเป็นจำนวนโทเค็น 1.0~1.35 เท่า ตามประเภทของเนื้อหา
- ที่ ระดับ effort สูง โดยเฉพาะใน ช่วงท้ายของเทิร์น ในสภาพแวดล้อมแบบ agentic โมเดลจะใช้การคิดมากขึ้น ทำให้ จำนวนโทเค็นเอาต์พุตเพิ่มขึ้น
- แม้ความน่าเชื่อถือสำหรับโจทย์ยากจะดีขึ้น แต่ก็ส่งผลโดยตรงต่อ โครงสร้างต้นทุนที่อิงตามโทเค็น
ผลกระทบต่อผู้ใช้
- แม้จะเป็นข้อความพรอมป์ต์เดียวกัน ใน Opus 4.7 ก็จะ ถูกนับเป็นโทเค็นมากกว่าเดิม ทำให้ ค่าใช้จ่ายต่อคำขอสูงขึ้น โดยไม่ต้องแก้ถ้อยคำ
- Tokenomics ให้ผู้ใช้นำบทสนทนา, system prompt หรือข้อความใดๆ มาวางเพื่อดู ความต่างของจำนวนโทเค็นระหว่าง Opus 4.7 และ 4.6 ได้โดยตรง
- คำนวณ ส่วนต่างของค่าใช้จ่ายอย่างเป็นรูปธรรม ตามราคาในปัจจุบัน
หน้าค่าเฉลี่ยของชุมชน
- หน้า
/leaderboardรวบรวม ข้อมูลเปรียบเทียบแบบไม่ระบุตัวตน จากผู้ใช้เครื่องมือ - ดู ค่าเฉลี่ยอัตราการเพิ่มของโทเค็นจริง ตามประเภทพรอมป์ต์ต่างๆ จากการใช้งานจริงได้
สิ่งที่ควรรู้
- ไม่จัดเก็บข้อความพรอมป์ต์: อินพุตจะถูกแยกวิเคราะห์ในเบราว์เซอร์ก่อนส่งไปยังเซิร์ฟเวอร์ แล้วส่งต่อไปยัง Anthropic token counting API โดยจะไม่บันทึกข้อความพรอมป์ต์ลงฐานข้อมูล และเก็บไว้เพียง ตัวชี้วัดการนับโทเค็นแบบไม่ระบุตัวตน เท่านั้น
- ไม่ใช่ผลิตภัณฑ์ทางการของ Anthropic: สร้างโดย Bill Chambers และไม่มีความเกี่ยวข้องด้านพันธมิตร การรับรอง หรือการสนับสนุนจาก Anthropic
- โอเพนซอร์ส: ซอร์สโค้ดทั้งหมดเปิดเผยบน GitHub (
bllchmbrs/tokensmatter) ยินดีรับทั้งการมีส่วนร่วมและข้อเสนอแนะ
ค่าเฉลี่ยของชุมชน
- รวบรวมความต่างของโทเค็นต่อคำขอและค่าใช้จ่ายต่อคำขอของ Opus 4.7 เทียบกับ Opus 4.6 โดยอิงจาก การเปรียบเทียบคำขอใช้งานจริง ที่ส่งเข้ามาแบบไม่ระบุตัวตน
- คำนวณจากการส่งข้อมูลทั้งหมด 425 รายการ
- รายการเปรียบเทียบล่าสุดแสดง 50 รายการล่าสุด เรียงจากใหม่ไปเก่า
- อัตราการเปลี่ยนแปลงเฉลี่ยของโทเค็นต่อคำขอ +37.4%
- อัตราการเปลี่ยนแปลงเฉลี่ยของค่าใช้จ่ายต่อคำขอ +37.4%
- ขนาดคำขอเฉลี่ย 369 / 495
- ในต้นฉบับไม่มีคำอธิบายเพิ่มเติมสำหรับตัวเลขสองค่านี้
ตัวอย่างการเปรียบเทียบแบบไม่ระบุตัวตนล่าสุด
- ในตาราง 50 รายการล่าสุด กรณีส่วนใหญ่บันทึกว่า โทเค็นต่อคำขอของ Opus 4.7 เพิ่มขึ้น และ ค่าใช้จ่ายเพิ่มขึ้น ในอัตราเดียวกัน
- ตัวอย่าง 1: รายการ
6b5d3ebf, คำขอ 23 → 31, ค่าใช้จ่าย $0.000345 → $0.000465, อัตราการเปลี่ยนแปลง +34.8% - ตัวอย่าง 2: รายการ
1363973a, คำขอ 99 → 130, ค่าใช้จ่าย $0.001485 → $0.001950, อัตราการเปลี่ยนแปลง +31.3% - ตัวอย่าง 3: รายการ
17a9645e, คำขอ 16 → 20, ค่าใช้จ่าย $0.000240 → $0.000300, อัตราการเปลี่ยนแปลง +25.0%
- ตัวอย่าง 1: รายการ
- พบการเพิ่มขึ้นได้แม้ในคำขอขนาดเล็ก
- รายการ
10c3149a, คำขอ 8 → 14, ค่าใช้จ่าย $0.000120 → $0.000210, อัตราการเปลี่ยนแปลง +75.0% - รายการ
8f58e536, คำขอ 8 → 13, ค่าใช้จ่าย $0.000120 → $0.000195, อัตราการเปลี่ยนแปลง +62.5% - รายการ
942f5d38, คำขอ 12 → 19, ค่าใช้จ่าย $0.000180 → $0.000285, อัตราการเปลี่ยนแปลง +58.3%
- รายการ
- กรณีเพิ่มขึ้นลักษณะคล้ายกันยังพบซ้ำในคำขอขนาดกลาง
- รายการ
67f5f437, คำขอ 188 → 275, ค่าใช้จ่าย $0.002820 → $0.004125, อัตราการเปลี่ยนแปลง +46.3% - รายการ
04249c86, คำขอ 176 → 256, ค่าใช้จ่าย $0.002640 → $0.003840, อัตราการเปลี่ยนแปลง +45.5% - รายการ
af25da70, คำขอ 269 → 501, ค่าใช้จ่าย $0.004035 → $0.007515, อัตราการเปลี่ยนแปลง +86.2%
- รายการ
- พบรูปแบบการเพิ่มขึ้นคล้ายกันแม้ในคำขอขนาดใหญ่
- รายการ
c5d75d71, คำขอ 2,263 → 3,282, ค่าใช้จ่าย $0.0339 → $0.0492, อัตราการเปลี่ยนแปลง +45.0% - รายการ
4db385b5, คำขอ 1,592 → 2,205, ค่าใช้จ่าย $0.0239 → $0.0331, อัตราการเปลี่ยนแปลง +38.5% - รายการ
68375705, คำขอ 4,449 → 6,434, ค่าใช้จ่าย $0.0667 → $0.0965, อัตราการเปลี่ยนแปลง +44.6%
- รายการ
- มีหลายรายการที่ใช้ค่าตัวเลขซ้ำกัน
- กรณี 175 → 221 คำขอ, ค่าใช้จ่าย $0.002625 → $0.003315, อัตราการเปลี่ยนแปลง +26.3% ปรากฏซ้ำในหลาย submission ID
- กรณี 996 → 1,392 คำขอ, ค่าใช้จ่าย $0.0149 → $0.0209, อัตราการเปลี่ยนแปลง +39.8% ปรากฏซ้ำในหลาย submission ID
- กรณี 43 → 61 คำขอ, ค่าใช้จ่าย $0.000645 → $0.000915, อัตราการเปลี่ยนแปลง +41.9% ปรากฏซ้ำในหลาย submission ID
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
คิดว่าถ้าจะเทียบกันอย่างยุติธรรมควรดูที่ ต้นทุนรวม มากกว่า 4.7 ใช้โทเคนขาออกน้อยกว่า 4.6 มาก และดูเหมือนว่าค่า reasoning ก็ลดลงพอสมควรด้วย ถ้าดู การเปรียบเทียบของ Artificial Analysis จะเห็นว่า 4.7 ออกมาถูกกว่า 4.6 เล็กน้อย และ 4.5 ก็อยู่ราว ๆ เกือบครึ่งหนึ่ง โดยเฉพาะ ค่า reasoning ที่เห็นได้ชัดว่าจาก 4.6 มา 4.7 ลดลงเกือบครึ่ง แต่ในงานจริงอย่าง Claude Code สัดส่วนทั้งอินพุตและ reasoning ดูจะสูงทั้งคู่ เลยยังนึกภาพไม่ออกว่าการขึ้นราคาฝั่งอินพุตกับการลดราคาฝั่ง reasoning จะหักล้างกันแค่ไหน งานที่มี reasoning หนักอาจถูกลง แต่ถ้าเป็นงานที่ reasoning น้อยก็อาจแพงขึ้นแทน ถ้าเป็นงานแบบนั้นผมน่าจะเลือกใช้ Codex มากกว่า
จากที่ผมรู้สึกเอง การอัปเกรดจาก 4.6 ไป 4.7 แทบไม่รู้สึกถึงความสามารถที่ดีขึ้นเลย แต่กลับรู้สึกชัดมากว่า การกิน limit เร็วขึ้นมาก เมื่อวานผมใช้โควตา 5 ชั่วโมงหมดใน 2 ชั่วโมง พอเปิด batched mode เพื่อรีแฟกเตอร์ก็กินไป 30% ของโควตาใน 5 นาทีจนต้องยกเลิก หลังจากนั้นพอเปลี่ยนเป็นแบบ serial ก็เบาลงหน่อย แต่ก็ยังชัดเจนว่าใช้เร็วกว่า 4.6 มาก ตอนนี้รู้สึกว่าแค่หนึ่งบทสนทนาก็กินโควตา 5 ชั่วโมงไปราว 5% แล้ว แต่ก่อนอยู่แค่ประมาณ 1~2% ผมใช้แพ็กเกจ Max 5x เลยยังพอมีโควตารายสัปดาห์เหลืออยู่ แต่ก็อยากให้มีการอธิบายส่วนนี้ให้โปร่งใสขึ้นหรือปรับปรุงให้ดีกว่านี้ อย่างการตั้งค่า effort เองก็ยังคลุมเครือเกินไปจนช่วยอะไรได้ไม่มาก
ถ้าผลลัพธ์ดีจะจ่ายแพงขึ้นก็ไม่ติด แต่ตอนนี้รู้สึกเหมือน Anthropic กำลังพาไปทางที่ทำให้ผู้ใช้ใช้โทเคนต่อเนื่องแบบ intermittent reinforcement ตระกูล Claude สนุกกว่า GPT หรือ Codex ชัดเจน มีบุคลิก มีรสนิยมด้านดีไซน์และสุนทรียะ ให้ความรู้สึกเหมือน vibe-coding ไปด้วยกันจนสนุกเหมือนเล่นเกม แต่ผลงานที่ออกมาก็มักจะจบด้วยปัญหาเดิม ๆ แทบทุกครั้ง เช่น ลบเทสต์เพื่อให้ผ่าน เพิ่มโค้ดซ้ำ ทำ abstraction ผิด ปิด type safety และเมิน hard requirements ปัญหาแบบนี้ 4.7 ก็ยังไม่แก้ และไม่ว่า benchmark จะพูดอย่างไร ในการใช้งานจริงผมก็ยังรู้สึกแบบเดิม ไม่ค่อยแน่ใจด้วยซ้ำว่าบริษัทมีความตั้งใจจะแก้สิ่งนี้หรือไม่
การเปรียบเทียบนี้ดูเหมือนจะใช้ API นับโทเคนวัดความยาวพรอมป์ตสองแบบเพื่อ แยกวัดเฉพาะการเปลี่ยน tokenizer ถ้าโมเดลที่ฉลาดกว่าตอบสั้นลงจนใช้โทเคนขาออกน้อยลงก็เป็นอีกปัจจัยหนึ่ง ดังนั้นถ้าคิดรวมประเด็นพวกนี้ก็ยังสรุปไม่ได้จากข้อมูลชุดนี้เพียงอย่างเดียวว่า 4.7 ถูกกว่าจริงในทางปฏิบัติ แน่นอนว่าท้ายที่สุดมันอาจแพงกว่าหรือถูกกว่าก็ได้ แต่ข้อมูลนี้อย่างเดียวไม่น่าช่วยตัดสินการใช้งานจริงได้มากนัก
ช่วงนี้ผมคงยังใช้ Opus 4.5 เป็นตัวหลักใน VSCode Copilot ต่อไป เวิร์กโฟลว์ของผมคือจะให้คำสั่งกับเอเจนต์ค่อนข้างละเอียด แต่เอเจนต์ส่วนใหญ่กลับชอบทำเยอะเกินความจำเป็น สิ่งที่ Opus 4.5 ทำได้ดีที่สุดจากที่ผมเคยใช้คือ แม้พรอมป์ตจะไม่สมบูรณ์ มันก็ยังจับขอบเขตที่ผมต้องการได้และพยายามทำ เท่าที่จำเป็นจริง ๆ ส่วน 4.6 ใช้เวลานานกว่า คิดเยอะเกินไป และขอบเขตการเปลี่ยนแปลงก็กว้างขึ้น GPT ตัวท็อปก็มีปัญหาคล้ายกัน โมเดลอื่นอย่าง Sonnet เองก็อ่านเจตนาของผมจากคำสั่งที่ไม่ละเอียดได้สู้ Opus ไม่ได้ สุดท้ายผมเลยเลิกทดลองแล้วใช้ 4.5 อย่างเดียวต่อ แม้จะแพงแต่ก็ยังรู้สึกว่าคุ้มค่า แต่ตอนนี้พอได้ยินว่า 4.7 จะมาแทนทั้ง 4.5 และ 4.6 ใน VSCode Copilot แถมยังมีตัวคูณ 7.5x อีก สำหรับผมมันเลยดูเหมือนช้าลงและแพงขึ้น จนรู้สึกเหมือนถอยหลังมากกว่า
ยิ่งนานเข้ายิ่งรู้สึกว่าการมองว่าแค่ สเกล LLM ต่อไปเรื่อย ๆ ก็จะมาแทนงาน white-collar ได้ทั้งหมดนั้นเป็นสมมติฐานที่ไร้เดียงสา attention mechanism หรือ Hopfield network ดูเหมือนจะจำลองได้เพียงบางส่วนของสมองมนุษย์ และการเสริม agentic memory ที่ออกมากันไม่หยุดทุกวันนี้ก็ดูเหมือนเป็นหลักฐานกลับด้านว่าแค่ SOTA transformer ปัจจุบันยังไม่พอ ต่อให้จำกัดแค่โดเมนข้อความ ผมก็ยังรู้สึกว่าเห็นขีดจำกัดอยู่ หรือบางทีผมอาจแค่กำลังพูดซ้ำแนวคิดของ Yann LeCun ก็ได้
เมื่อวานผมใช้ Opus 4.7 สรุป best practices สำหรับเว็บไซต์หน้าเดียว แต่แค่ ประมาณ 4 พรอมป์ต ก็ชนลิมิตรายวันแล้ว จากนั้นลองต่ออีกสัก 7 ครั้งก็ชนลิมิตรายสัปดาห์ด้วย โค้ด HTML/CSS/JS ทั้งหมดมีไม่ถึง 300 บรรทัด พอเห็นว่าโควตาการใช้งานหมดเร็วขนาดนี้ก็ช็อกอยู่เหมือนกัน
ชื่อหัวข้อน่าจะเป็น 4.6 to 4.7 มากกว่าจะเป็น 4.7 ไป 4.6
ตาม คำอธิบายของ Artificial Analysis Opus 4.7 เมื่อใช้ Adaptive Reasoning และ Max Effort มีค่าใช้จ่ายราว 4,406 ดอลลาร์ในการรัน Intelligence Index ซึ่ง ถูกกว่าอยู่ประมาณ 11% เมื่อเทียบกับ 4.6 ที่อยู่ราว 4,970 ดอลลาร์ และคะแนนก็สูงกว่า 4 คะแนน ความต่างนี้อธิบายได้ว่าแม้มี tokenizer ใหม่ แต่การใช้โทเคนขาออกลดลง อย่างไรก็ตาม เขาก็ระบุด้วยว่า ส่วนลด cached input ยังไม่ได้ถูกรวมในตัวเลขนี้ และจะถูกนำเข้ามาในคำนวณต้นทุนเร็ว ๆ นี้
ความรู้สึกของผมคือคุณภาพการสนทนาดีขึ้นกว่าที่คาดไว้พอสมควร มัน วิจารณ์ตัวเอง มากขึ้น ตรวจสอบข้อเสนอของตัวเองแบบวิพากษ์มากขึ้น และตัวเลือกเริ่มต้นก็ดูดีกว่าเดิมโดยรวม ผมอาจไม่ได้ใช้ harness ต่าง ๆ มากเท่าคนอื่นในนี้ เลยทำให้ความต่างไม่เด่นเท่า แต่สำหรับผู้ใช้ที่ยังไม่พร้อมมากนัก กลับอาจยิ่งมีคุณค่ามากกว่า แค่ใช้กับงานพื้นฐานอย่างย้อนดูรีวิวช่วงหลังหรือดูการคุยกันเรื่องผลิตภัณฑ์ล่าสุด ก็รู้สึกว่า 4.6 มีประโยชน์ก็จริงแต่เสี่ยงจะกลายเป็น foot-gun ได้ง่าย ขณะที่ 4.7 ดูมีแนวโน้มจะทำตัวเหมือนสมาชิกอาวุโสในทีมมากกว่า