2 คะแนน โดย GN⁺ 11 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เครื่องมือคำนวณสำหรับวิเคราะห์ปัญหาที่พรอมป์ต์เดียวกันถูกนับเป็น โทเค็นมากขึ้น เนื่องจาก ตัวแยกโทเค็นใหม่ของ Opus 4.7
  • อินพุตเดียวกันอาจถูกแมปเป็นจำนวนโทเค็น 1.0~1.35 เท่า ตามประเภทของเนื้อหา ทำให้ ค่าใช้จ่ายต่อคำขอเพิ่มขึ้น แม้จะไม่เปลี่ยนคำเลยก็ตาม
  • จากการรวบรวมจริงพบว่า Opus 4.7 มี โทเค็นต่อคำขอ และ ค่าใช้จ่ายต่อคำขอ เฉลี่ยเพิ่มขึ้นอย่างละ +37.4% เมื่อเทียบกับ Opus 4.6
  • อัตราการเพิ่มกระจายตั้งแต่ต่ำสุด +19.0% ไปจนถึงสูงสุด +86.2% จาก 50 รายการล่าสุด โดยกรณีในช่วง +30% และ +40% พบได้อย่างกว้างขวาง
  • หน้านี้ให้คุณวางบทสนทนา, system prompt และข้อความ เพื่อเปรียบเทียบ ความต่างของจำนวนโทเค็นระหว่าง Opus 4.7 กับ 4.6 พร้อมค่าใช้จ่ายตามราคา ณ ปัจจุบันอย่างละเอียด

ที่มาของการสร้างเครื่องมือนี้

  • ในประกาศเปิดตัว Opus 4.7 มันถูกแนะนำว่าเป็น การอัปเกรดโดยตรง จาก Opus 4.6 แต่มีการเปลี่ยนแปลง 2 อย่างที่ส่งผลต่อการใช้โทเค็น
    • ด้วย ตัวแยกโทเค็น ที่อัปเดตแล้ว อินพุตเดียวกันจะถูกแมปเป็นจำนวนโทเค็น 1.0~1.35 เท่า ตามประเภทของเนื้อหา
    • ที่ ระดับ effort สูง โดยเฉพาะใน ช่วงท้ายของเทิร์น ในสภาพแวดล้อมแบบ agentic โมเดลจะใช้การคิดมากขึ้น ทำให้ จำนวนโทเค็นเอาต์พุตเพิ่มขึ้น
  • แม้ความน่าเชื่อถือสำหรับโจทย์ยากจะดีขึ้น แต่ก็ส่งผลโดยตรงต่อ โครงสร้างต้นทุนที่อิงตามโทเค็น

ผลกระทบต่อผู้ใช้

  • แม้จะเป็นข้อความพรอมป์ต์เดียวกัน ใน Opus 4.7 ก็จะ ถูกนับเป็นโทเค็นมากกว่าเดิม ทำให้ ค่าใช้จ่ายต่อคำขอสูงขึ้น โดยไม่ต้องแก้ถ้อยคำ
  • Tokenomics ให้ผู้ใช้นำบทสนทนา, system prompt หรือข้อความใดๆ มาวางเพื่อดู ความต่างของจำนวนโทเค็นระหว่าง Opus 4.7 และ 4.6 ได้โดยตรง
  • คำนวณ ส่วนต่างของค่าใช้จ่ายอย่างเป็นรูปธรรม ตามราคาในปัจจุบัน

หน้าค่าเฉลี่ยของชุมชน

  • หน้า /leaderboard รวบรวม ข้อมูลเปรียบเทียบแบบไม่ระบุตัวตน จากผู้ใช้เครื่องมือ
  • ดู ค่าเฉลี่ยอัตราการเพิ่มของโทเค็นจริง ตามประเภทพรอมป์ต์ต่างๆ จากการใช้งานจริงได้

สิ่งที่ควรรู้

  • ไม่จัดเก็บข้อความพรอมป์ต์: อินพุตจะถูกแยกวิเคราะห์ในเบราว์เซอร์ก่อนส่งไปยังเซิร์ฟเวอร์ แล้วส่งต่อไปยัง Anthropic token counting API โดยจะไม่บันทึกข้อความพรอมป์ต์ลงฐานข้อมูล และเก็บไว้เพียง ตัวชี้วัดการนับโทเค็นแบบไม่ระบุตัวตน เท่านั้น
  • ไม่ใช่ผลิตภัณฑ์ทางการของ Anthropic: สร้างโดย Bill Chambers และไม่มีความเกี่ยวข้องด้านพันธมิตร การรับรอง หรือการสนับสนุนจาก Anthropic
  • โอเพนซอร์ส: ซอร์สโค้ดทั้งหมดเปิดเผยบน GitHub (bllchmbrs/tokensmatter) ยินดีรับทั้งการมีส่วนร่วมและข้อเสนอแนะ

ค่าเฉลี่ยของชุมชน

  • รวบรวมความต่างของโทเค็นต่อคำขอและค่าใช้จ่ายต่อคำขอของ Opus 4.7 เทียบกับ Opus 4.6 โดยอิงจาก การเปรียบเทียบคำขอใช้งานจริง ที่ส่งเข้ามาแบบไม่ระบุตัวตน
    • คำนวณจากการส่งข้อมูลทั้งหมด 425 รายการ
    • รายการเปรียบเทียบล่าสุดแสดง 50 รายการล่าสุด เรียงจากใหม่ไปเก่า
  • อัตราการเปลี่ยนแปลงเฉลี่ยของโทเค็นต่อคำขอ +37.4%
  • อัตราการเปลี่ยนแปลงเฉลี่ยของค่าใช้จ่ายต่อคำขอ +37.4%
  • ขนาดคำขอเฉลี่ย 369 / 495
    • ในต้นฉบับไม่มีคำอธิบายเพิ่มเติมสำหรับตัวเลขสองค่านี้

ตัวอย่างการเปรียบเทียบแบบไม่ระบุตัวตนล่าสุด

  • ในตาราง 50 รายการล่าสุด กรณีส่วนใหญ่บันทึกว่า โทเค็นต่อคำขอของ Opus 4.7 เพิ่มขึ้น และ ค่าใช้จ่ายเพิ่มขึ้น ในอัตราเดียวกัน
    • ตัวอย่าง 1: รายการ 6b5d3ebf, คำขอ 23 → 31, ค่าใช้จ่าย $0.000345 → $0.000465, อัตราการเปลี่ยนแปลง +34.8%
    • ตัวอย่าง 2: รายการ 1363973a, คำขอ 99 → 130, ค่าใช้จ่าย $0.001485 → $0.001950, อัตราการเปลี่ยนแปลง +31.3%
    • ตัวอย่าง 3: รายการ 17a9645e, คำขอ 16 → 20, ค่าใช้จ่าย $0.000240 → $0.000300, อัตราการเปลี่ยนแปลง +25.0%
  • พบการเพิ่มขึ้นได้แม้ในคำขอขนาดเล็ก
    • รายการ 10c3149a, คำขอ 8 → 14, ค่าใช้จ่าย $0.000120 → $0.000210, อัตราการเปลี่ยนแปลง +75.0%
    • รายการ 8f58e536, คำขอ 8 → 13, ค่าใช้จ่าย $0.000120 → $0.000195, อัตราการเปลี่ยนแปลง +62.5%
    • รายการ 942f5d38, คำขอ 12 → 19, ค่าใช้จ่าย $0.000180 → $0.000285, อัตราการเปลี่ยนแปลง +58.3%
  • กรณีเพิ่มขึ้นลักษณะคล้ายกันยังพบซ้ำในคำขอขนาดกลาง
    • รายการ 67f5f437, คำขอ 188 → 275, ค่าใช้จ่าย $0.002820 → $0.004125, อัตราการเปลี่ยนแปลง +46.3%
    • รายการ 04249c86, คำขอ 176 → 256, ค่าใช้จ่าย $0.002640 → $0.003840, อัตราการเปลี่ยนแปลง +45.5%
    • รายการ af25da70, คำขอ 269 → 501, ค่าใช้จ่าย $0.004035 → $0.007515, อัตราการเปลี่ยนแปลง +86.2%
  • พบรูปแบบการเพิ่มขึ้นคล้ายกันแม้ในคำขอขนาดใหญ่
    • รายการ c5d75d71, คำขอ 2,263 → 3,282, ค่าใช้จ่าย $0.0339 → $0.0492, อัตราการเปลี่ยนแปลง +45.0%
    • รายการ 4db385b5, คำขอ 1,592 → 2,205, ค่าใช้จ่าย $0.0239 → $0.0331, อัตราการเปลี่ยนแปลง +38.5%
    • รายการ 68375705, คำขอ 4,449 → 6,434, ค่าใช้จ่าย $0.0667 → $0.0965, อัตราการเปลี่ยนแปลง +44.6%
  • มีหลายรายการที่ใช้ค่าตัวเลขซ้ำกัน
    • กรณี 175 → 221 คำขอ, ค่าใช้จ่าย $0.002625 → $0.003315, อัตราการเปลี่ยนแปลง +26.3% ปรากฏซ้ำในหลาย submission ID
    • กรณี 996 → 1,392 คำขอ, ค่าใช้จ่าย $0.0149 → $0.0209, อัตราการเปลี่ยนแปลง +39.8% ปรากฏซ้ำในหลาย submission ID
    • กรณี 43 → 61 คำขอ, ค่าใช้จ่าย $0.000645 → $0.000915, อัตราการเปลี่ยนแปลง +41.9% ปรากฏซ้ำในหลาย submission ID

1 ความคิดเห็น

 
GN⁺ 11 일 전
ความคิดเห็นจาก Hacker News
  • คิดว่าถ้าจะเทียบกันอย่างยุติธรรมควรดูที่ ต้นทุนรวม มากกว่า 4.7 ใช้โทเคนขาออกน้อยกว่า 4.6 มาก และดูเหมือนว่าค่า reasoning ก็ลดลงพอสมควรด้วย ถ้าดู การเปรียบเทียบของ Artificial Analysis จะเห็นว่า 4.7 ออกมาถูกกว่า 4.6 เล็กน้อย และ 4.5 ก็อยู่ราว ๆ เกือบครึ่งหนึ่ง โดยเฉพาะ ค่า reasoning ที่เห็นได้ชัดว่าจาก 4.6 มา 4.7 ลดลงเกือบครึ่ง แต่ในงานจริงอย่าง Claude Code สัดส่วนทั้งอินพุตและ reasoning ดูจะสูงทั้งคู่ เลยยังนึกภาพไม่ออกว่าการขึ้นราคาฝั่งอินพุตกับการลดราคาฝั่ง reasoning จะหักล้างกันแค่ไหน งานที่มี reasoning หนักอาจถูกลง แต่ถ้าเป็นงานที่ reasoning น้อยก็อาจแพงขึ้นแทน ถ้าเป็นงานแบบนั้นผมน่าจะเลือกใช้ Codex มากกว่า

    • คิดว่าที่ 4.7 คิดน้อยลงและตอบสั้นลงเป็นเพราะ forced adaptive thinking ซึ่งผู้ใช้ API ก็ปิดไม่ได้ และนี่ก็คือวิธีเดียวกับที่เคยทำให้ Opus 4.6 มีปัญหาด้านคุณภาพเมื่อแค่ 2 สัปดาห์ก่อน ตอนนั้นก็มี ความเห็นที่แนะนำให้ปิดมัน และเท่าที่จำได้ถึงขั้นมีคนตั้งค่าโทเคนความคิดเป็น 0 ตอนนี้ก็ยังมีหลายคนบ่นว่า Opus 4.7 คุณภาพตก และผมเองก็เห็นความผิดพลาดพื้นฐานบ่อยมาก มันเผาโทเคนเป็น 10 นาที แต่จริง ๆ กลับไม่ได้อ่านโค้ดอย่างถูกต้อง แล้วก็ hand-waving กลบเกลื่อน ก่อนจะย้อนคำพูดตัวเองทีหลังซ้ำ ๆ ทำให้รู้สึกว่า Opus ที่เปิด adaptive thinking ไว้นั้นเชื่อถือยาก ถ้าจำเป็นผมก็ให้ session feedback ID ได้
    • บางคนก็มองว่าแม้จะเป็นหมายเลขโมเดลเดียวกัน พฤติกรรมและการใช้โทเคนอาจต่างกันตามช่วงเวลา ดังนั้นการ ทดสอบโมเดลเดียวกันต่างช่วงเวลา จะยุติธรรมกว่า เพราะถึงชื่อเวอร์ชันจะเหมือนเดิม การทำงานภายในก็อาจเปลี่ยนได้ ทำให้ผลทดสอบล่าสุดอาจไม่เหมาะจะใช้เป็นเกณฑ์เปรียบเทียบในอนาคต
  • จากที่ผมรู้สึกเอง การอัปเกรดจาก 4.6 ไป 4.7 แทบไม่รู้สึกถึงความสามารถที่ดีขึ้นเลย แต่กลับรู้สึกชัดมากว่า การกิน limit เร็วขึ้นมาก เมื่อวานผมใช้โควตา 5 ชั่วโมงหมดใน 2 ชั่วโมง พอเปิด batched mode เพื่อรีแฟกเตอร์ก็กินไป 30% ของโควตาใน 5 นาทีจนต้องยกเลิก หลังจากนั้นพอเปลี่ยนเป็นแบบ serial ก็เบาลงหน่อย แต่ก็ยังชัดเจนว่าใช้เร็วกว่า 4.6 มาก ตอนนี้รู้สึกว่าแค่หนึ่งบทสนทนาก็กินโควตา 5 ชั่วโมงไปราว 5% แล้ว แต่ก่อนอยู่แค่ประมาณ 1~2% ผมใช้แพ็กเกจ Max 5x เลยยังพอมีโควตารายสัปดาห์เหลืออยู่ แต่ก็อยากให้มีการอธิบายส่วนนี้ให้โปร่งใสขึ้นหรือปรับปรุงให้ดีกว่านี้ อย่างการตั้งค่า effort เองก็ยังคลุมเครือเกินไปจนช่วยอะไรได้ไม่มาก

    • สิ่งที่น่าหงุดหงิดที่สุดคือคุณภาพที่ตกลงเพราะ adaptive thinking ที่ถูกบังคับใช้ มันกินการใช้งาน Max 5x ของผมไป 5~10% และใช้เวลาวนอยู่เป็น 10 นาที แต่ผลลัพธ์ที่กลับมากลับไม่น่าเชื่อถือบ่อยมาก แทนที่จะอ่านโค้ดจริงและใช้เหตุผล มันกลับเหมือนข้ามปัญหาไปแบบลวก ๆ เลยรู้สึกว่า Opus ที่เปิด adaptive thinking ไว้นั้นเชื่อถือไม่ได้
    • เท่าที่ผมเข้าใจ ถ้าปล่อยช่วงห่างระหว่างพรอมป์ตเกิน 5 นาที ก็ดูเหมือนว่าจะต้องจ่าย ค่ารีเซ็ต cache ใหม่อีกโดยไม่เกี่ยวกับ compact หรือ clear ต่อให้ใช้ compact ค่าใช้จ่ายก็ไม่ได้หายไปหมด แค่เหมือนลดจำนวนโทเคนอินพุตลงบ้างเท่านั้น แต่ตัวผมเองก็สงสัยเหมือนกันว่าการทำ compaction นั้นฟรีหรือเปล่า
  • ถ้าผลลัพธ์ดีจะจ่ายแพงขึ้นก็ไม่ติด แต่ตอนนี้รู้สึกเหมือน Anthropic กำลังพาไปทางที่ทำให้ผู้ใช้ใช้โทเคนต่อเนื่องแบบ intermittent reinforcement ตระกูล Claude สนุกกว่า GPT หรือ Codex ชัดเจน มีบุคลิก มีรสนิยมด้านดีไซน์และสุนทรียะ ให้ความรู้สึกเหมือน vibe-coding ไปด้วยกันจนสนุกเหมือนเล่นเกม แต่ผลงานที่ออกมาก็มักจะจบด้วยปัญหาเดิม ๆ แทบทุกครั้ง เช่น ลบเทสต์เพื่อให้ผ่าน เพิ่มโค้ดซ้ำ ทำ abstraction ผิด ปิด type safety และเมิน hard requirements ปัญหาแบบนี้ 4.7 ก็ยังไม่แก้ และไม่ว่า benchmark จะพูดอย่างไร ในการใช้งานจริงผมก็ยังรู้สึกแบบเดิม ไม่ค่อยแน่ใจด้วยซ้ำว่าบริษัทมีความตั้งใจจะแก้สิ่งนี้หรือไม่

    • ผมก็รู้สึกเกือบเหมือนกัน ตอนนี้เครื่องมือพวกนี้ดูมีประโยชน์มากในฐานะ ตัวแทน Google, งาน scaffolding ที่น่ารำคาญ, code review และการค้นหาขั้นสูง พอตลาด coding LLM ถูกยึดพื้นที่ได้แล้ว ก็ดูเหมือนตอนนี้เริ่มเข้าสู่โหมดหารายได้จริงจัง และผมคาดว่าในอนาคตจะมีโมเดลที่ประสิทธิภาพดีขึ้นนิดเดียวแต่ราคาขึ้นเกิน 40% ออกมาเรื่อย ๆ
    • ผมมองว่า AI ไม่ใช่อะไรที่จะปล่อยไปเฉย ๆ ได้ แต่ต้อง คอยกำกับ ถ้ามีทักษะพอที่จะนำมันไปทางที่ถูกต้อง ก็ยังดึงผลลัพธ์คุณภาพสูงออกมาได้อยู่
    • จากคำวิจารณ์ข้างบน ผมรู้สึกว่าการตีความว่า Anthropic ตั้งใจเลือกกลยุทธ์ รีดผลประโยชน์ระยะสั้น ด้วยการกระตุ้นให้ใช้โทเคนมากขึ้นนั้นสรุปแรงเกินไป การพูดเหมือนรู้กลยุทธ์บริษัทจากภายนอกคงเกินจริงไปหน่อย ถ้าให้ผมเดา ความเป็นไปได้ที่มากกว่าคือประสิทธิภาพแกว่งเพราะปัญหาโครงสร้างพื้นฐานหรือความจุ หรือไม่ก็ถูกจูนไปในทิศทางที่วิศวกรอยากได้มากกว่าสิ่งที่ลูกค้าต้องการ หรืออาจเป็นเพราะกังวลด้านความปลอดภัยจนทำให้โมเดลระวังตัวมากขึ้นแบบที่เห็นใน ข้อความด้านความปลอดภัยเกี่ยวกับ Mythos ปัจจัยพวกนี้ก็ไม่ได้ขัดกันเองด้วย ผมเองก็รู้สึกว่า Opus 4.7 ไม่ได้สร้างความประทับใจมากนัก แต่ก็ยังไม่ได้ใช้นานมากและไม่ได้รัน benchmark เอง อีกอย่างช่วงนี้งานที่ผมให้ Claude ทำก็ยากกว่าหลายสัปดาห์ก่อนมาก เป็นงานแนว Bayesian probabilistic modeling เลยก็เป็นไปได้ว่าผมกำลังกดขีดจำกัดของโมเดลแรงขึ้นเอง
  • การเปรียบเทียบนี้ดูเหมือนจะใช้ API นับโทเคนวัดความยาวพรอมป์ตสองแบบเพื่อ แยกวัดเฉพาะการเปลี่ยน tokenizer ถ้าโมเดลที่ฉลาดกว่าตอบสั้นลงจนใช้โทเคนขาออกน้อยลงก็เป็นอีกปัจจัยหนึ่ง ดังนั้นถ้าคิดรวมประเด็นพวกนี้ก็ยังสรุปไม่ได้จากข้อมูลชุดนี้เพียงอย่างเดียวว่า 4.7 ถูกกว่าจริงในทางปฏิบัติ แน่นอนว่าท้ายที่สุดมันอาจแพงกว่าหรือถูกกว่าก็ได้ แต่ข้อมูลนี้อย่างเดียวไม่น่าช่วยตัดสินการใช้งานจริงได้มากนัก

    • ถ้าจะดูข้อมูลที่ใกล้กับการใช้งานจริงมากกว่า benchmark ของ Artificial Analysis รายงานว่า 4.6 max ใช้ไปประมาณ 160 ล้านโทเคน ส่วน 4.7 max ใช้ประมาณ 100 ล้านโทเคน พอแยกต้นทุนดูแล้ว ค่าอินพุตเพิ่มขึ้น 800 ดอลลาร์ แต่ค่าขาออกลดลง 1,400 ดอลลาร์ แน่นอนว่า การหักล้างระหว่างอินพุตกับเอาต์พุต จะมากน้อยแค่ไหนขึ้นกับ use case อย่างมาก และยิ่งตั้ง effort ต่ำ ความต่างก็น่าจะยิ่งน้อยลง
    • ไม่ค่อยเข้าใจว่าทำไมถึงบอกว่าไม่มีประโยชน์ ราคา โทเคนอินพุต ของ 4.7 ยังคงเดิม แต่ตอนนี้พรอมป์ตเดียวกันเมื่อคิดตามอินพุตก็ชัดเจนว่าราคาแพงขึ้นราว 30%
    • ใช่เลย ผมเองก็เคยเห็นว่าหลังจากเริ่มตั้งทุกเซสชันใน 4.6 เป็น max effort แล้ว การใช้โทเคนกลับลดลง เพราะมันแก้ความคิดตัวเองระหว่างทาง ทำให้ลองผิดลองถูกน้อยลงและจบงานได้ในขั้นตอนน้อยกว่า ขณะที่ 4.7 ดูเหมือนจะวนไปวนมาในงานพื้นฐานมากกว่า แต่ความสามารถในการถือบริบทระยะยาวไว้ได้นานอาจดีขึ้นนิดหน่อยก็ได้
    • ฝั่ง AI นี่ดูยังไงก็รู้สึกว่าไม่เคยมี การเปรียบเทียบที่มีประโยชน์ แบบที่ทุกคนยอมรับได้เลย
  • ช่วงนี้ผมคงยังใช้ Opus 4.5 เป็นตัวหลักใน VSCode Copilot ต่อไป เวิร์กโฟลว์ของผมคือจะให้คำสั่งกับเอเจนต์ค่อนข้างละเอียด แต่เอเจนต์ส่วนใหญ่กลับชอบทำเยอะเกินความจำเป็น สิ่งที่ Opus 4.5 ทำได้ดีที่สุดจากที่ผมเคยใช้คือ แม้พรอมป์ตจะไม่สมบูรณ์ มันก็ยังจับขอบเขตที่ผมต้องการได้และพยายามทำ เท่าที่จำเป็นจริง ๆ ส่วน 4.6 ใช้เวลานานกว่า คิดเยอะเกินไป และขอบเขตการเปลี่ยนแปลงก็กว้างขึ้น GPT ตัวท็อปก็มีปัญหาคล้ายกัน โมเดลอื่นอย่าง Sonnet เองก็อ่านเจตนาของผมจากคำสั่งที่ไม่ละเอียดได้สู้ Opus ไม่ได้ สุดท้ายผมเลยเลิกทดลองแล้วใช้ 4.5 อย่างเดียวต่อ แม้จะแพงแต่ก็ยังรู้สึกว่าคุ้มค่า แต่ตอนนี้พอได้ยินว่า 4.7 จะมาแทนทั้ง 4.5 และ 4.6 ใน VSCode Copilot แถมยังมีตัวคูณ 7.5x อีก สำหรับผมมันเลยดูเหมือนช้าลงและแพงขึ้น จนรู้สึกเหมือนถอยหลังมากกว่า

    • สงสัยว่าทำไมไม่ใช้ Sonnet ไปเลย
    • ผมก็สงสัยเหมือนกันว่าที่บอกว่า 4.7 มาแทนทั้ง 4.5 และ 4.6 นี่หมายความว่า 4.5 จะหายไปเลย หรือเปล่า ผมเองก็ลงหลักอยู่กับ 4.5 แล้ว ถ้าเป็นจริงก็น่าเสียดายมาก
  • ยิ่งนานเข้ายิ่งรู้สึกว่าการมองว่าแค่ สเกล LLM ต่อไปเรื่อย ๆ ก็จะมาแทนงาน white-collar ได้ทั้งหมดนั้นเป็นสมมติฐานที่ไร้เดียงสา attention mechanism หรือ Hopfield network ดูเหมือนจะจำลองได้เพียงบางส่วนของสมองมนุษย์ และการเสริม agentic memory ที่ออกมากันไม่หยุดทุกวันนี้ก็ดูเหมือนเป็นหลักฐานกลับด้านว่าแค่ SOTA transformer ปัจจุบันยังไม่พอ ต่อให้จำกัดแค่โดเมนข้อความ ผมก็ยังรู้สึกว่าเห็นขีดจำกัดอยู่ หรือบางทีผมอาจแค่กำลังพูดซ้ำแนวคิดของ Yann LeCun ก็ได้

    • ก็อาจเป็นไปได้ว่าคุณกำลังพูดซ้ำสิ่งนั้นจริง ๆ ตรรกะเรื่อง small subset ที่บอกว่า transformer คล้ายแค่บางส่วนของสมองมนุษย์นั้น สำหรับผมดูไม่ค่อยน่าเชื่อทั้งในเชิงประสาทชีววิทยาและจากประสิทธิภาพของ LLM จริง ๆ transformer เป็นสถาปัตยกรรมที่อเนกประสงค์และมีพลังในการแทนข้อมูลสูงมาก ใช้ได้กว้างตั้งแต่ LLM ไปจนถึงวิดีโอ เสียง SLAM และ VLA การที่มันไม่ได้คัดลอกสมองมนุษย์แบบ 1:1 ไม่ได้แปลว่าจะไปถึงความฉลาดที่เทียบเท่ากันในเชิงหน้าที่ไม่ได้ สมองมนุษย์ก็เป็นเพียงหนึ่งในวิธีการติดตั้งใช้งานที่วิวัฒนาการสร้างขึ้นเท่านั้น ส่วนคำกล่าวของ LeCun ที่ว่า LLM ทำไม่ได้ ก็ถูกหักล้างจากประสบการณ์จริงมาเรื่อย ๆ แม้แต่ใน benchmark อย่าง ARC-AGI-3 ที่ออกแบบมาให้ LLM เสียเปรียบ ผมก็ยังไม่เห็นตระกูล AI ไหนที่บอกได้ว่าดีกว่า LLM ชัดเจน
    • ผมรู้สึกว่าด้วยการสเกลอย่างเดียวเราแทบชน เพดาน แล้ว แต่ด้านประสิทธิภาพยังน่าจะดีขึ้นได้ และเครื่องมือรอบข้างหรือ harness ก็คงพัฒนาต่อไป
    • ต่อให้จำกัดแค่ในโลกของข้อความก็ยังมีคำถามอยู่ ทำไมมันยังเขียน นวนิยายทั้งเล่ม ที่ดีจริงไม่ได้สักที ต่อให้ลดมาตรฐานลงเหลือแค่นวนิยายขนาดสั้นหรือเรื่องยาวระดับ Death in Venice, Candide, The Metamorphosis, Breakfast at Tiffany's ก็ยังรู้สึกว่ายังทำไม่ถึง ทั้งที่ในคอร์ปัสฝึกก็น่าจะมีหนังสือเหล่านี้อยู่แล้ว เลยสงสัยว่านี่เป็นเพียงปัญหาที่ว่ายังไม่มีใครยอมเผาค่าโทเคนระดับหลายแสนดอลลาร์เพื่อทดลองหรือเปล่า
  • เมื่อวานผมใช้ Opus 4.7 สรุป best practices สำหรับเว็บไซต์หน้าเดียว แต่แค่ ประมาณ 4 พรอมป์ต ก็ชนลิมิตรายวันแล้ว จากนั้นลองต่ออีกสัก 7 ครั้งก็ชนลิมิตรายสัปดาห์ด้วย โค้ด HTML/CSS/JS ทั้งหมดมีไม่ถึง 300 บรรทัด พอเห็นว่าโควตาการใช้งานหมดเร็วขนาดนี้ก็ช็อกอยู่เหมือนกัน

    • ผมยังไม่เคยใช้ Claude เลยเพราะเดาไว้อยู่แล้วว่าเรื่องแบบนี้น่าจะเกิดขึ้น ถ้าเป็นแพ็กเกจองค์กรก็มีแต่ บิลจะพองขึ้น และก็คงไม่ง่ายที่ VP จะประกาศย้ายทั้งบริษัททันที ถ้าผู้ใช้สมัครสมาชิกส่วนตัวเริ่มไหลออกก่อน การใช้ดาต้าเซ็นเตอร์อาจลดลงในขณะที่กำไรดีขึ้นก็ได้
    • อยากรู้ว่าตั้ง reasoning effort ไว้ที่อะไร เพราะเท่าที่รู้ตอนนี้ Max ใช้โทเคนมากกว่ามากและไม่ได้แนะนำสำหรับ use case ส่วนใหญ่ ส่วนค่าเริ่มต้นใหม่อย่าง xhigh ก็กินมากกว่าค่าเริ่มต้นเดิมอย่าง medium
    • อยากรู้ว่าใช้แพ็กเกจอะไร ถ้าเป็น Pro ก็พอเป็นไปได้ แต่ถ้าเป็น แพ็กเกจ Max แล้วยังขนาดนั้นก็คงน่าแปลกใจนิดหน่อย
    • อยากรู้ว่าใช้การสมัครสมาชิก Claude หรือเปล่า เพราะเท่าที่ผมรู้ Claude แบบสมัครสมาชิก ไม่ได้ทำงานแบบนั้น
  • ชื่อหัวข้อน่าจะเป็น 4.6 to 4.7 มากกว่าจะเป็น 4.7 ไป 4.6

    • เห็นด้วยเต็มที่
    • สำหรับคนที่อ่านจากซ้ายไปขวา Opus 4.6 to 4.7 ก็ดูเป็นธรรมชาติกว่ามาก
  • ตาม คำอธิบายของ Artificial Analysis Opus 4.7 เมื่อใช้ Adaptive Reasoning และ Max Effort มีค่าใช้จ่ายราว 4,406 ดอลลาร์ในการรัน Intelligence Index ซึ่ง ถูกกว่าอยู่ประมาณ 11% เมื่อเทียบกับ 4.6 ที่อยู่ราว 4,970 ดอลลาร์ และคะแนนก็สูงกว่า 4 คะแนน ความต่างนี้อธิบายได้ว่าแม้มี tokenizer ใหม่ แต่การใช้โทเคนขาออกลดลง อย่างไรก็ตาม เขาก็ระบุด้วยว่า ส่วนลด cached input ยังไม่ได้ถูกรวมในตัวเลขนี้ และจะถูกนำเข้ามาในคำนวณต้นทุนเร็ว ๆ นี้

  • ความรู้สึกของผมคือคุณภาพการสนทนาดีขึ้นกว่าที่คาดไว้พอสมควร มัน วิจารณ์ตัวเอง มากขึ้น ตรวจสอบข้อเสนอของตัวเองแบบวิพากษ์มากขึ้น และตัวเลือกเริ่มต้นก็ดูดีกว่าเดิมโดยรวม ผมอาจไม่ได้ใช้ harness ต่าง ๆ มากเท่าคนอื่นในนี้ เลยทำให้ความต่างไม่เด่นเท่า แต่สำหรับผู้ใช้ที่ยังไม่พร้อมมากนัก กลับอาจยิ่งมีคุณค่ามากกว่า แค่ใช้กับงานพื้นฐานอย่างย้อนดูรีวิวช่วงหลังหรือดูการคุยกันเรื่องผลิตภัณฑ์ล่าสุด ก็รู้สึกว่า 4.6 มีประโยชน์ก็จริงแต่เสี่ยงจะกลายเป็น foot-gun ได้ง่าย ขณะที่ 4.7 ดูมีแนวโน้มจะทำตัวเหมือนสมาชิกอาวุโสในทีมมากกว่า