12 คะแนน โดย flyingsquirrel 17 일 전 | 11 ความคิดเห็น | แชร์ทาง WhatsApp

Anthropic ได้เปิดตัว Claude Opus 4.8 ซึ่งเป็นเวอร์ชันอัปเกรดของ Claude Opus โมเดลระดับท็อปของบริษัท โดยต่อยอดจากเวอร์ชันก่อนหน้า 4.7 ด้วยการปรับปรุงประสิทธิภาพด้านเบนช์มาร์กและเสริมความสามารถในการทำงานร่วมกัน พร้อมคงราคาเดิมไว้

การปรับปรุงและคุณสมบัติหลัก

  • ประสิทธิภาพดีขึ้น: ทำผลงานได้โดดเด่นกว่าโมเดลรุ่นก่อนและโมเดลคู่แข่งอย่าง GPT-5.5 ในงานด้านการเขียนโค้ด ทักษะแบบเอเจนต์ การให้เหตุผล และงานความรู้เชิงปฏิบัติ
  • เสริมความซื่อตรง (Honesty): ปรับปรุงปัญหาที่ AI อาจอ้างสิ่งที่ไม่มีหลักฐานหรือสรุปผลเร็วเกินไป โดย Opus 4.8 จะระบุส่วนที่ยังไม่แน่ชัดได้ด้วยตนเอง และมีโอกาสพลาดข้อบกพร่องในโค้ดน้อยลงประมาณ 4 เท่าเมื่อเทียบกับโมเดลก่อนหน้า
  • ความสามารถแบบเอเจนต์ที่เชื่อถือได้: ผลการทดสอบเบื้องต้นพบว่า เมื่อต้องทำงานหลายขั้นตอนที่ซับซ้อน โมเดลมีวิจารณญาณที่เฉียบคมขึ้น สามารถจับความผิดพลาดของตัวเอง และโต้แย้งเมื่อแผนงานไม่สมเหตุสมผล แสดงให้เห็นถึงความสามารถในการทำงานร่วมกันที่ดีขึ้น
  • ความคุ้มค่าด้านต้นทุน: ความเร็วของ 'Fast Mode' เพิ่มขึ้น 2.5 เท่า และมีต้นทุนถูกลง 3 เท่าเมื่อเทียบกับโมเดลก่อนหน้า

ฟีเจอร์ใหม่ที่เปิดตัวพร้อมกัน

  • Dynamic Workflows: ฟีเจอร์พรีวิวงานวิจัยของ Claude Code ที่สามารถรันซับเอเจนต์แบบขนานได้หลายร้อยตัว เพื่อทำงานซับซ้อนอย่างการย้ายโค้ดเบสขนาดใหญ่
  • Effort Control: ผู้ใช้สามารถเลือกระดับความพยายามที่ต้องการให้ Claude ใช้กับงานได้ โดยการตั้งค่าสูงจะคิดลึกขึ้นเพื่อให้คำตอบคุณภาพสูง ขณะที่การตั้งค่าต่ำจะตอบได้รวดเร็วกว่า
  • อัปเดต Messages API: สามารถใส่ system entry ไว้ภายในอาร์เรย์ของข้อความได้ ทำให้อัปเดตคำสั่งระหว่างงานได้โดยไม่ทำให้ prompt cache ใช้งานไม่ได้

แผนในอนาคต

Anthropic กำลังพัฒนาโมเดลที่ให้ประสิทธิภาพระดับ Opus ด้วยต้นทุนที่ต่ำลง และกำลังเตรียมโมเดลคลาสใหม่ที่มีความฉลาดสูงกว่า Opus (Claude Mythos) ผ่าน Project Glasswing ขณะนี้อยู่ระหว่างการทดสอบความปลอดภัยกับบางองค์กร และมีกำหนดเปิดให้ลูกค้าทุกรายใช้งานภายในไม่กี่สัปดาห์

ราคาและการใช้งาน

  • โหมดปกติ: อินพุต $5 / 1M โทเค็น, เอาต์พุต $25 / 1M โทเค็น (เท่ากับ Opus 4.7)
  • Fast Mode: อินพุต $10 / 1M โทเค็น, เอาต์พุต $50 / 1M โทเค็น
  • ชื่อโมเดล: claude-opus-4-8

11 ความคิดเห็น

 
jimmy2056 16 일 전

มันชอบทำให้ต้องเสียเวลาลองผิดลองถูกอยู่เรื่อย ๆ เลยรู้สึกว่า GPT ที่เสถียรกว่าน่าจะดีกว่า
ก่อนหน้านี้ใช้ Claude แพ็กเกจ 200 ดอลลาร์ แล้วเปลี่ยนมาเป็น GPT 100 ดอลลาร์ + Claude 100 ดอลลาร์
ตั้งแต่เดือนหน้าคงจะใช้ Claude แค่ 20 ดอลลาร์พอ เพราะยังไงก็เอาไว้ใช้รีวิวเป็นหลัก ไม่ได้จำเป็นต้องใช้เยอะแล้ว แล้วถ้าไม่พอก็ยังจ่าย AGY แบบเสียเงินอยู่ด้วย ก็ใช้ตัวนั้นได้ครับ ฮ่า

 
slowandsnow 15 일 전

แล้วทำไม Sonnet กับ Haiku ถึงถูกปล่อยทิ้งล่ะ? คิดแต่จะแข่งกับ GPT มากเกินไปหรือเปล่า

 
jessyt 16 일 전

ดูเหมือนว่าเวอร์ชัน fast mode จะทำงานได้เร็วขึ้นกว่าเดิม 2.5 เท่า ขณะที่ต้นทุนก็ถูกลง 3 เท่าครับ

 
hhcrux 16 일 전

ผมลดแพ็กเกจ Claude เหลือ Pro แล้วกำลังใช้ GPT อยู่ แต่มีงานที่ทำค้างไว้เลยลองให้มันรีวิวดู ปรากฏว่าโควตาใช้งาน Pro หมดเกลี้ยงใน 10 นาทีแล้วก็หยุดเลย
สุดยอดจริง ๆ Claude!

 
dhkd63 16 일 전

ช่วงเช้าสำหรับผมมีการใช้สกิลสำหรับสรุปการประชุมหรือถอดสรุปจากไฟล์บันทึกเสียงอยู่ พอลองเปลี่ยน effort เป็น ultracode ใน 4.8 เพื่อใช้งานดู ก็พบว่าดีกว่าที่คิดไว้พอสมควรนะครับ โดยส่วนตัวรู้สึกว่ามันมีแนวทางคล้ายกับ codex พอสมควร เรื่องประสิทธิภาพต่อโทเคนตอนนี้ก็ยังสู้ codex ไม่ได้อยู่ดี แต่ context window ให้มาแบบเหลือเฟือ และเพราะ workflow ทำให้หน้าจอซับเอเจนต์ก็เปลี่ยนไปนิดหน่อย ซึ่งจุดนี้ผมก็ชอบเหมือนกันครับ.

 
dunward 16 일 전

4.7 นี่แย่จนรู้สึกได้เลยว่าใช้งานลำบากมาก แต่หวังว่า 4.8 จะดีขึ้นจริง ๆ นะครับ

 
sixmen 16 일 전

ก็แอบคิดเหมือนกันว่า นี่คงไม่ใช่การรีบเข็นออกมาเพราะคนจำนวนมากกำลังย้ายไป ChatGPT/Codex กันหรอกนะ..

 
sea715 16 일 전

พอใช้ /effort แล้วเอฟเฟกต์ที่ออกมานี่น่าสนใจดีครับ 555

 
codufdl 16 일 전

ฉันลองไปหาในต้นฉบับของคอมเมนต์ Hacker News ที่แปลด้านล่างว่าคำว่า "ผลไม้ที่ห้อยต่ำ" หมายถึงอะไร พบว่าต้นฉบับคือ
low hanging juice to squeeze out of smaller models <<
ดังนั้นจึงน่าจะตีความได้ประมาณว่า ยังมี "ผลไม้ที่อยู่ต่ำให้เก็บ" อีกมาก = ยังมีศักยภาพที่สามารถดึงออกมาได้ไม่ยากจากโมเดลขนาดเล็กอีกมาก

 
iolothebard 16 일 전

พอเถอะ กินไปเยอะแล้วนะ~

 
GN⁺ 16 일 전
ความคิดเห็นจาก Hacker News
  • นี่น่าจะเป็นครั้งแรกที่โมเดลแนวหน้าของ Anthropic ได้รับการอัปเวอร์ชันย่อยเป็นครั้งที่สาม
    ที่นี่เวอร์ชันเพิ่มทีละ 0.5 ออกมาแบบไม่ต่อเนื่องและมีการกระโดดด้านประสิทธิภาพมากพอที่จะมองเป็นเมเจอร์ได้
    ตัวอย่างเช่น Sonnet 3.5 และ Opus 4.5
    ตอนนี้สาย Opus 4.5 มีรุ่นต่ออย่าง 4.6, 4.7, 4.8 แล้ว และขอบเขตการปรับปรุงของแต่ละรุ่นก็ดูค่อนข้างค่อยเป็นค่อยไปแม้ตามคำกล่าวอ้างเอง
    จากที่ลองใช้ 4.6/4.7 ด้วยตัวเอง เทียบกับความทรงจำที่มีต่อ 4.5 ก็ยังจับไม่ชัดว่าความสามารถไหนดีขึ้น และความต่างที่รู้สึกได้ก็ค่อนข้างเลือนรางจนตัดสินยาก
    อาจเป็นไปได้ว่ารสนิยมของฉันอิ่มตัวแล้ว หรือโมเดลฉลาดกว่าฉันจนจากนี้ไปคงไม่รู้สึกถึงความก้าวหน้าอีก หรืออีกด้านหนึ่ง ถ้าเอา workflow ปัจจุบันบน 4.7 ไปรันกับ 4.5 ก็อาจสังเกตได้ทันทีว่าเป็นการปรับปรุงแบบค่อยเป็นค่อยไปจริง
    ดูเหมือนฝั่งแล็บเองก็อยู่ในสถานการณ์ลำบาก ถ้ามีของที่แรงกว่าก็อยากให้ปล่อยออกมาให้ใช้ แต่ถ้าแนวโน้มนี้ดำเนินต่อไป ต่อให้มีการพัฒนาจริง ผู้ใช้ปลายทางก็อาจมองเห็นน้อยลงเรื่อยๆ และรู้สึกเหมือนโดนเปลี่ยนของบ่อยโดยไม่ได้อะไรตอบแทน

    • คงไม่แปลกถ้าโมเดลแนวหน้ารุ่นถัดไปจะเป็นรุ่นสุดท้าย
      ยังมี ของที่เก็บง่าย เหลืออยู่อีกหลายลำดับขั้นในโมเดลขนาดเล็ก
      ภายใน 2-3 ปี โมเดลขนาด 60~90B มีโอกาสสูงมากที่จะเหนือกว่าระดับท็อปปัจจุบันในงานเขียนโค้ด แม้สถาปัตยกรรมจะยังไม่ลงตัวและคงไม่ง่ายนัก
      ในทางกลับกัน การจะดีขึ้นอย่างมีนัยสำคัญพอจะคุ้มกับการเทรนโมเดล 1.2T ยังไม่แน่นอนกว่ามาก
      ฝั่ง reasoning ถ้าดูการเปิดเผย GRAM ล่าสุด ก็อาจยังมีช่องให้ปรับปรุง reasoning บนโมเดลเล็กได้อีกหลายหลัก
      Google, OpenAI, Anthropic สามารถเทรน โมเดลที่อิง GRAM ขนาด 30B ได้ในเวลาไม่กี่วัน และโมเดลนี้ก็อาจทำ local reasoning ได้ดีกว่าโมเดลระดับท็อปในปัจจุบันที่มีพารามิเตอร์เกิน 1T ด้วยซ้ำ ถ้าขยายต่อเป็น MoE ราว 600B ในเวลาไม่กี่วัน ก็อาจมีความรู้ทั่วไปกว้างขวางทัดเทียมโมเดลชั้นนำได้
      โมเดลขนาด 1T+ พารามิเตอร์ไม่สามารถเทรนได้เร็วขนาดนั้น จะดีขึ้นมากแค่ไหนจริงจาก GRAM ยังเป็นตัวแปรใหญ่ แต่ดูไม่น่าใช่ว่าจะเล็กน้อยหรือไร้ความหมาย
      โมเดลใหญ่ตอนนี้แทบจะพูดได้เกือบทุกอย่างอยู่แล้ว แต่ตราบใดที่ยังเป็น LLM ก็คงตอบถูกทุกอย่างไม่ได้
      ดูเหมือนจะรีดอะไรเพิ่มจาก Gemini ได้ไม่มากแล้วในแง่การบอกส่วนสูงของ Ke$ha หรือบอกได้เป๊ะว่า Brittney Spears เข้าคุกครั้งล่าสุดเมื่อไหร่
    • 4.7 เป็นเวอร์ชันแรกที่สำหรับการใช้งานส่วนใหญ่ฉันต้อง ย้อนกลับไปใช้ 4.6 รุ่นก่อนหน้า หวังว่า 4.8 จะแก้เรื่องนี้ได้
    • อยากรู้ว่ามีใครรู้สึกถึงการปรับปรุงที่มีความหมายหรือสังเกตได้ชัดใน workflow การเขียนโปรแกรมระหว่าง 4.5 กับ 4.7 ไหม
      ส่วนตัวรู้สึกว่าหลัง 4.5 ออกมา การเพิ่มขึ้นของ productivity มาจาก การปรับปรุง harness และ context window ที่เพิ่มจาก 200k เป็น 1M มากกว่าตัวโมเดลเอง ทั้งใน cc, cursor cli, codex, opencode เป็นต้น
      ความฉลาดแบบ “ล้วนๆ” ของโมเดลจริงๆ หรือความสามารถในการตัดสินใจได้ดี ดูเหมือนจะนิ่งมาตั้งแต่ 4.5 แล้ว 4.6 อาจดีขึ้นเล็กน้อย แต่ก็แยกยากจากผลของ in-context learning บนหน้าต่าง 1M ส่วน 4.7 สำหรับฉันและเพื่อนร่วมงานกลับรู้สึกเหมือนความรอบคอบถดถอย และตัดสินใจได้แย่ลงและขี้เกียจลงอย่างต่อเนื่อง
    • การปล่อยออกรุ่นย่อยแบบถี่ขึ้นอาจมีเป้าหมายเพื่อปล่อยฟีเจอร์ใหม่ที่ Anthropic ใช้ควบคุมต้นทุนและจัดการการใช้ทรัพยากรด้วย
      ฉันคิดว่าหลังฟีเจอร์ควบคุมใหม่ที่เปิดให้ผู้ใช้เห็น น่าจะมีการควบคุมย่อยภายในที่ละเอียดกว่านั้นมากสำหรับการปรับเมตาตามประเภทผู้ใช้
      หมายถึงการควบคุมระดับ effort ที่ละเอียดขึ้น, “dynamic workflow”, การควบคุมความเร็วแบบ “fast mode” อะไรทำนองนั้น ภายนอกอาจแพ็กเป็นฟีเจอร์ผู้ใช้ แต่ก็ดูเหมือนเป็นคันโยกฝั่ง backend สำหรับบาลานซ์ต้นทุน มาร์จิน ARR การเติบโตของผู้ใช้ และ retention เพื่อให้ตัวเลขสำคัญในรายงานรายไตรมาสหลัง IPO ออกมาสวย
    • ในการทดสอบของเรา 4.5/4.6 ใกล้เคียงกันพอสมควร Opus 4.7 ฉลาดกว่า แต่มีปัญหาเรื่องลักษณะพฤติกรรมหลายอย่างจนใช้เป็นโปรดักต์ได้ยาก
      จนถึงตอนนี้ Opus 4.8 ก็ดูเหมือนจะไปในทางนั้น ใช้ช้ามากจนแทบใช้งานไม่ได้ แต่อาจเป็นปัญหาการทยอยเปิดใช้งานในวันเปิดตัว ตอนนี้กำลังทดสอบ Opus 4.8 แบบเต็มอยู่
      ข้อมูลอยู่ที่ https://gertlabs.com/rankings
  • ท่าทีแบบ “ผู้ใช้จะรู้สึกว่า Opus 4.8 เป็นการปรับปรุงที่ค่อยเป็นค่อยไปแต่สัมผัสได้เมื่อเทียบกับเวอร์ชันก่อน” ฟังดูสดใหม่ดี
    ฉันยังเช็กด้วยว่าในเว็บ UI สามารถปิด adaptive thinking ได้ ซึ่งก็ดี เพราะก่อนหน้านี้มีปัญหาบ่อยที่ thinking ทำงานไม่ถูกและทำให้ผลลัพธ์ของโมเดลแย่มาก
    ในที่สุดก็ปิดได้เสียที ถ้าจริงๆ ปิดได้ตลอดอยู่แล้วก็คงน่าเขินนิดหน่อย

    • สวิตช์นั้นน่าจะมีมาตลอด แต่พอปิดแล้วจะไม่ให้พฤติกรรมแบบที่ต้องการ มันคือการ ปิด thinking ไปเลยทั้งหมด
    • ฟังดูสดใหม่ก็จริง แต่ครั้งนี้คำนั้นอาจยังเบาไปด้วยซ้ำ
      ฉันดูเรื่อง web research เป็นหลัก และ Opus 4.7 ถอยหลังจาก Opus 4.6 บน BrowseComp และในการใช้งานจริงก็เป็นแบบนั้น
      ส่วน Opus 4.8 ดีขึ้นจากทั้ง 4.7 และ 4.6 มาก และในแชตบอต web search ก็เป็นหนึ่งใน use case หลัก
    • รีลีสเล็กๆ แบบนี้อาจเป็นความพยายามทำให้ผู้ใช้คุ้นกับ รอบการอัปเดตแบบค่อยเป็นค่อยไป ก็ได้
      ประมาณว่าผู้ให้บริการโมเดลรายอื่นอัปเดตใหญ่ทุก x เดือน แต่เราอัปเดตย่อยทุก x/2 เดือน
    • ตอนเปลี่ยนโมเดลจาก 4.6 ไปเป็น 4.8 extra ฉันน่าจะไปเจอบั๊กหลอกตอนปิด Adaptive แต่พอลองใหม่ก็ดูเหมือนทำงานตามที่ตั้งใจ
      สำหรับฉัน สิ่งที่สำคัญกว่าคือ CC จะตอบสนองต่อแฟล็ก “เฉพาะ” 4.6 ที่เกี่ยวกับ thinking อย่างไร แต่ตอนนี้ดูเหมือนมันยังไม่ได้เขียนทับค่าตั้งของฉัน
    • ฉันหวังว่าเว็บ UI จะดีขึ้นกว่านี้ ในแง่ค่านิยมฉันชอบ Anthropic มากกว่า OpenAI เลยอยากใช้โปรดักต์ของเขา แต่ ChatGPT ในโหมด thinking ดีกว่า claude.ai มาก
      หวังว่าการเปลี่ยนแปลงครั้งนี้จะทำให้ขึ้นมาใกล้เคียงกัน แต่พอลองใช้จริงก็ยังไม่ใช่
      ถ้าเป็น ChatGPT มันจะค้นหาเพื่อตรวจสอบข้อเท็จจริงแล้วตอบได้เลยสำหรับคำถามข้อเท็จจริงง่ายๆ แต่ Claude กับโมเดลใหม่แม้เปิด thinking high ก็ยังตอบด้วย “คำถามที่ดี!” แล้วแต่งคำตอบขึ้นมาล้วนๆ มันไม่เหมือน GPT ที่รู้เองว่าควรค้นหา และต้องสั่งชัดๆ ให้ค้นหาแม้แต่ข้อเท็จจริงพื้นฐาน
  • ส่วน Claude Mythos Preview ที่บอกว่า “มีแผนจะเปิดตัวโมเดลประเภทใหม่ที่มีสติปัญญาสูงกว่า Opus” ดูน่าสนใจกว่าการออก 4.8 เสียอีก
    บอกว่ามีองค์กรจำนวนน้อยกำลังใช้งานด้านความปลอดภัยไซเบอร์อยู่ในโครงการ Project Glasswing และโมเดลระดับนี้จำเป็นต้องมีมาตรการป้องกันด้านไซเบอร์ที่เข้มงวดยิ่งกว่าก่อนเปิดให้สาธารณะใช้งาน

    • แทนที่จะเป็น “น่าสนใจกว่า” หลายคนสงสัยว่านี่เป็นการตลาดสไตล์ Dario แบบสร้างข่าวร้ายด้วยตัวเองประมาณว่า “Mythos อันตรายเกินกว่าจะให้สาธารณะเข้าถึงได้”
      การที่ IPO กำลังใกล้เข้ามาก็น่าจะสะท้อนอยู่ในคำพูดต่อสาธารณะอย่างชัดเจนด้วย เพื่อความเป็นธรรม นั่นก็เป็นหน้าที่ของเขาเหมือนกัน
      สาเหตุที่โมเดลล่าช้าอาจไม่ใช่ “กำลังทำให้ปลอดภัย” แต่เป็น “ยังไม่รู้จะโฮสต์สิ่งนี้อย่างไรในสเกลใหญ่หรือให้คุ้มต้นทุน” ก็ได้
      GPT 5.5 ดูเหมือนจะแกะหาช่องโหว่ได้เก่งพอ ๆ กับ Mythos อยู่แล้ว
      สุดท้าย คนที่ไม่ใช่ผู้เชี่ยวชาญมักประเมิน ความสำคัญของฮาร์เนส ในประสิทธิภาพของโมเดลต่ำเกินไป OpenHands มีมาก่อน Claude Code นานกว่ามาก แต่ Claude Code เปลี่ยนเกมได้เพราะวิธีเสริมที่ชาญฉลาด Mythos เองก็น่าจะเป็นมากกว่าแค่ตัวโมเดลอย่างเดียว
    • แบบนี้ก็คงจะดึงสิทธิ์เข้าถึงโมเดลใหญ่ที่สุดออกจาก Claude Pro ถ้าจะใช้โมเดลที่ใหญ่กว่า Opus ก็น่าจะต้องอย่างน้อย สมัคร Claude Max
    • แต่ที่น่าสนใจกว่านั้นคือส่วนที่บอกว่า “กำลังพัฒนาและปล่อยโมเดลต้นทุนต่ำกว่าที่ให้ความสามารถหลายอย่างแบบเดียวกับ Opus”
      ถ้าเทียบกับโมเดลคู่แข่งจากจีนตอนนี้ Sonnet และ Haiku ดูเสียเปรียบพอสมควรในด้านประสิทธิภาพต่อราคา
    • ใน release notes ของ Opus 4.7 บอกว่าได้ลดความสามารถด้านความปลอดภัยไซเบอร์ลงโดยตั้งใจ https://www.anthropic.com/news/claude-opus-4-7
      ถ้าอย่างนั้นก็น่าสงสัยว่ากำลังทำแบบเดียวกันกับ Mythos ด้วย และ Mythos ที่เราจะได้ใช้อาจเป็นเวอร์ชันที่ถูกลดทอนด้านนี้ลง
      หรือให้แม่นกว่านั้นคือ Mythos อาจถูกแยกเป็นสองเวอร์ชัน และตัวที่น่ากลัวกว่าน่าจะยังต้องผ่านขั้นตอนเอกสารจำนวนมากต่อไป
    • ดูเหมือนเป็นนัยว่า ถ้าไม่ใช่มหาเศรษฐีหรือบริษัทระดับหลายพันล้านดอลลาร์ คุณอาจได้แค่คำสั่ง slash ของ Claude Code แบบจำกัดและลดทอนอย่าง /mythos-security-audit
      หวังว่าคนทั่วไปจะไม่ถูกกันออกจากสิทธิ์เข้าถึงแบบนั้น
  • ลองสร้าง นกกระทุงขี่จักรยาน ทั้งในระดับ thinking low และ high แล้ว
    https://gist.github.com/simonw/68560eddb0b268a8417f80ceb7304dc6?permalink_comment_id=6172953#gistcomment-6172953
    ผลของ high ดีกว่าอย่างชัดเจน ต่างจาก low ตรงที่รูปทรงเฟรมจักรยานถูกต้อง
    นี่คือผลของ Opus 4.7 สำหรับใช้เปรียบเทียบ: https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118?permalink_comment_id=6104087#gistcomment-6104087

    • รูปทรงเฟรมจักรยานไม่ได้ถูกต้องนะ แฮนด์จักรยาน ผิด
      แฮนด์ไม่ได้หมุนล้อหน้า แต่ไปหมุนเฟรมแทน แฮนด์ควรติดตั้งให้อยู่ในแนวเดียวกับล้อหน้า
      หวังว่า 4.9 จะได้อ่านคอมเมนต์ของฉัน
    • ทุกครั้งที่มีคนพูดถึงจักรยาน ฉันคงจะแชร์ลิงก์นี้ แต่ในเธรดนี้ยังไม่เห็นเลยเลยเอามาแปะ
      https://www.gianlucagimini.it/portfolio-item/velocipedia/
      มนุษย์เองก็วาดจักรยานได้แย่พอตัวเหมือนกัน
    • ชอบที่ระดับ “high thinking” มีการเพิ่มหมวกกันน็อกเข้ามา เป็นทางเลือกที่ฉลาดเสมอ
    • นี่คือผลนกกระทุงในทุกระดับ thinking: low, medium, high, xhigh, max ตามลำดับ
      https://tools.simonwillison.net/markdown-svg-renderer#url=https%3A%2F%2Fgist.github.com%2Fsimonw%2Ffea4f7546626d627862dc241a4e3a86a
    • ไม่เข้าใจเลยว่าจะเรียกว่า “รูปทรงถูกต้อง” ได้อย่างไร ในเมื่อเป็นเฟรมที่ไม่มี head tube
  • เบนช์มาร์กด้านโค้ดดิ้งที่ชอบใช้กับโมเดลระดับแนวหน้าคือให้มันสร้าง เกมวางแผนการรบแบบเรียลไทม์ ง่ายๆ ในไฟล์เดียว (js/html/css)
    Claude Code + Opus 4.8 ในโหมด ultracode ทำได้ดีจริงๆ และเป็นผลลัพธ์ที่ดีที่สุดเท่าที่เคยเห็นจนถึงตอนนี้
    https://bsky.app/profile/senko.net/post/3mmwnrkwboc2v
    พรอมป์ต์คือ “สร้างเกม RTS ที่เรียบง่ายแต่เล่นได้จริง แบบ WarCraft, StarCraft, Command & Conquer ยุคเก่า ผู้เล่นต้องสร้างอาคาร สร้างยูนิต เก็บทรัพยากร และเปิดแผนที่ทั้งหมด ไม่ต้องมี AI หรือมัลติเพลเยอร์ ใช้กราฟิกที่เรียบง่ายแต่ดูดี ไม่มีเสียง ทำทั้งหมดด้วย HTML/CSS/JS และให้อยู่ในไฟล์เดียว สามารถใช้ไลบรารีหรือเฟรมเวิร์ก js/css ของบุคคลที่สามผ่าน CDN ได้”

    • สงสัยว่ามีตารางจัดอันดับสำหรับการทดสอบแบบนี้ไหม ถ้าให้ Opus 4.8 กับ GPT 5.5 คะแนนเต็ม 100 แต่ละตัวจะได้เท่าไร?
    • โค้ดดูเหมือน โค้ดย่อขนาด มากๆ ชื่อตัวแปรสั้นและรูปแบบเหมือนพยายามลดช่องว่างให้น้อยที่สุด มันเขียนออกมาในรูปแบบบีบอัดแบบนี้เองหรือ?
    • การแชร์พรอมป์ต์มาด้วยมีประโยชน์มาก ฉันก็ใช้ให้ Claude สร้างอะไรคล้ายๆ กันเพื่อทดสอบอยู่เหมือนกัน
      น่าสนใจที่สไตล์ภาพก็ค่อนข้างคล้ายกับสิ่งที่มันเคยทำให้ฉัน
    • ชอบเบนช์มาร์กนี้นะ ถ้าเอาผลงานไปลง GitHub Pages คนก็น่าจะเข้าไปลองเล่นเกมกันได้โดยตรง
    • สงสัยว่าเก็บชุดแอปเบนช์มาร์กแบบนี้ไว้ที่ไหน โดยเฉพาะอยากเห็น ความต่างของต้นทุนเชิงเปรียบเทียบ ระหว่างโมเดลในกรณีใช้งานแบบนี้
  • สงสัยว่ามีใครไล่ดูการปล่อยรุ่นแบบนี้แล้วลอง คัดเลือกเฉพาะตัวเลขที่เข้าข้างตัวเอง จากตัวชี้วัดสุ่มๆ ที่บริษัทอื่นน่าจะเลือกมาเพื่อทำให้โมเดลตัวเองดูดีบ้างไหม
    รู้สึกเหมือนมีเบนช์มาร์กอยู่ราว 8 ล้านตัว ทุกครั้งที่มีการออกรุ่นใหม่ แต่ละโมเดลก็หยิบมาแบบสุ่ม 5-10 ตัว แล้วทำให้ดูเหมือนชนะทุกตัวนอกจากหนึ่งตัว คล้ายกับสุ่มเลือกเฉพาะเบนช์มาร์กที่น่าจะผ่านการ benchmax มาแล้ว แต่ทำเหมือนไม่ได้จงใจคัดมา

    • https://arena.ai/leaderboard ดูเป็นผู้ให้ข้อมูลอันดับที่ค่อนข้างดี
      แม้จะไม่รู้วิธีวิทยาที่แน่ชัด แต่เวลาใช้โมเดล Claude/GPT ทำงานเขียนโปรแกรมทั่วไป ผลที่เขารายงานก็ค่อนข้างตรงกับความรู้สึกเชิงคุณภาพของฉัน
    • น่าสนใจที่รอบนี้ใส่ตัวชี้วัดมาแค่ 6 ตัว Opus 4.7 มี 12 ตัว และ 4.6 มี 13 ตัว
      จากตัวชี้วัดที่รายงานใน 4.7 นั้น 4.8 ตัด BrowseComp, CharXiv Reasoning, CyberGym, GPQA Diamond, MCP Atlas, MMMLU, SWE-bench Verified ออกไป โดย 4 ตัวท้ายแทบจะถูกพูดถึงใน Opus รุ่นก่อนหน้าเกือบทุกครั้ง
    • เบนช์มาร์กทุกตัวต้องดูแบบเผื่อใจไว้บ้าง ฉันแทบไม่ใช้มันเลย
      “ฉลาดขึ้น 5%” นี่จริงๆ หมายความว่าอะไร? ประสบการณ์การใช้งานของฉันอาจต่างออกไป สู้ลองใช้เองดีกว่า
      ฉันไม่คิดว่า Anthropic จะตั้งเป้าปรับปรุงเบนช์มาร์กบางตัวโดยเฉพาะในระดับภายใน มันน่าจะเป็นแค่วิธีใช้แสดงภาพความก้าวหน้า และภายในจริงๆ คงมีตัวชี้วัดที่ซับซ้อนกว่านี้มาก
    • ในเรื่องนี้ก็สงสัยว่ามี ตัวรวบรวมเบนช์มาร์ก ที่เอาเบนช์มาร์กทั้งหมดมารวมไว้ในกริดใหญ่ๆ เดียวกันไหม
    • อย่างน้อยก็ไม่เหมือน OpenAI ที่ทำเหมือนไม่มีคู่แข่ง เพราะยังแสดงโมเดลคู่แข่งในแต่ละเบนช์มาร์กอยู่
  • จากผลเบื้องต้นของ ArtificialAnalysis.ai ตอนนี้ดูเหมือนว่า GPT 5.5 ยังให้ความคุ้มค่าต่อราคาดีกว่า
    OpenAI ใช้โทเค็นเอาต์พุตน้อยกว่าประมาณ 50% ในการแก้งาน
    https://artificialanalysis.ai/?intelligence=coding-index&intelligence-efficiency=intelligence-efficiency-vs-output-tokens&models=gpt-5-5%2Cgpt-5-5-pro%2Cgemini-3-1-pro-preview%2Cclaude-opus-4-8%2Cclaude-opus-4-7%2Cnvidia-nemotron-3-super-120b-a12b

    • ฉันลอง Codex ทุกครั้งที่มีเวอร์ชันใหม่ออกมา แต่มันไม่ค่อยเข้ากับฉัน เลยคงไม่ใช่เรื่องจริงสำหรับทุกคน
      คิดว่าคงต้องให้ Claude แพงขึ้นกว่านี้มากฉันถึงจะย้าย
  • ดีใจที่ได้เห็นการประเมินเรื่อง ความชำนาญเชิงสร้างสรรค์ ในหน้า 102 ของ system card
    ในงานของเรา เราให้ AI ระดับแนวหน้าหลายตัวลองออกแบบ API ที่จำเป็น และเปรียบเทียบ Opus 4.7 กับ GPT-5.5 เป็นต้น ปรากฏว่า Opus 4.7 เสนอการออกแบบ API ที่ทั้งสร้างสรรค์และชาญฉลาดที่สุด จนทำให้ประทับใจมาก โดยเฉพาะเมื่อ GPT-5.5 นำหน้าในหลายเบนช์มาร์กด้านโค้ดดิ้ง
    มันทำให้รู้สึกว่ายังไม่มีเบนช์มาร์กร่วมที่ใช้วัด “ความคิดสร้างสรรค์” กับ “ความแปลกใหม่” และเบนช์มาร์กแบบนั้นในบางแง่ก็อาจขัดกับ IFBench ทั่วไป
    ถึงอย่างนั้น ในการออกแบบระบบมันเป็นความสามารถที่สำคัญมาก ดีใจที่ Anthropic ให้ความสำคัญกับเรื่องนี้ และหวังว่าจะมีเบนช์มาร์กสาธารณะที่ใช้ให้โมเดลอื่นเปรียบเทียบกันได้ออกมาด้วย
    https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf

    • จากที่ฉันรู้สึกเอง 4.6 ดูเหมือนจะเป็นโค้ดเดอร์ที่ดีกว่า 4.7 ส่วน 4.7 คิดเชิงกลยุทธ์ได้ดีกว่ามาก และมี เซนส์ด้านสถาปัตยกรรม โดยรวมดีกว่า 5.5
      5.5 เก่งเรื่องโค้ดมากกว่าสองตัวนั้นเยอะ แต่ก็แพงกว่า เลยให้ 4.7 ทำแผน/สถาปัตยกรรม, 4.6 ทำโค้ด แล้วให้ 5.5 วิจารณ์และแก้ไข
    • ฉันก็รู้สึกคล้ายกัน งานอย่างการวางแผน กลยุทธ์ สถาปัตยกรรม Opus 4.7 ดีกว่า GPT-5.5 มาก
      GPT เหมือนหุ่นยนต์ที่รับคำสั่งแล้วทำตามตรงๆ ส่วน Opus บางครั้งให้ไอเดียดีๆ จริง และยังโต้แย้งเมื่อไอเดียไม่ดีได้ด้วย ให้ความรู้สึกเกือบเหมือนมนุษย์
      ตอนนี้เลยแยกใช้ Opus สำหรับงานวางแผน/สถาปัตยกรรม/กลยุทธ์ และใช้ GPT สำหรับงานโค้ดล้วนๆ
      สำหรับการเขียนโค้ดแบบเอเจนต์ การที่ GPT รับโทเค็นได้เผื่อมากกว่าก็ช่วยด้วย
  • น่าเสียดายที่ดูเหมือนว่า Claude Code จะพังยับไปเลยเพราะ backend release รอบนี้หรือไม่ก็เพราะ CC เวอร์ชันใหม่
    ข้อผิดพลาดที่บอกว่า “แก้ไข thinking blocks ไม่ได้” กำลังทำให้เซสชันที่รันยาว ๆ ใช้งานต่อไม่ได้: https://github.com/anthropics/claude-code/issues?q=is%3Aissue%20state%3Aopen%20blocks%20modified

    • ปัญหานี้เกิดใน branch stable ของ 4.7 ด้วย
      ฉันแก้ได้โดยให้ Claude สร้างสคริปต์กู้คืนเพื่อปลดล็อกเซสชันที่พัง แต่ผลอาจต่างกันไปตามสภาพแวดล้อม
      https://gist.github.com/robertfw/993dbe8643c4fbdf12005dff2eca1f90
    • ดูเหมือนว่าอัปเดต CC จะไม่ได้ถูกทดสอบก่อนปล่อยใช้งาน ทีมภายในที่ใช้ผลิตภัณฑ์หรือฟีดแบ็กจากสาธารณะกลับกลายเป็นตัวทดสอบแทน
    • ไม่แน่ใจว่าจะช่วยได้ไหม แต่ในบางเคสที่ไม่หนักมาก ฉันกู้กลับด้วย /rewind แล้วใช้งานต่อได้
    • ฉันก็เจอเหมือนกัน เรื่องแบบนี้เกิดขึ้นตรงจังหวะที่กำลัง rollout โมเดลใหม่พอดี ดูไม่ค่อยดีเลย
    • นี่ก็เป็นส่วนหนึ่งของเสน่ห์การทำงานกับ Claude พอมีอะไรออกใหม่ที ของที่คุณใช้อยู่ก็พังหมด
  • ในการทดสอบของฉัน Opus 4.8 แย่ลงเล็กน้อย และแพงกว่า Opus 4.7 เกือบ 2 เท่า
    ฉันแปลกใจที่มันพลาดในการทดสอบดึงข้อมูล จาก 3 ครั้งมันตอบถูก 2 ครั้ง แต่อีกครั้งกลับคืนค่าบางตัวเป็น null แบบสุ่ม
    ที่มันพลาดมากขึ้นในงานประเภท Trivia/ความรู้เฉพาะโดเมนก็พอเข้าใจได้ระดับหนึ่ง ดูเหมือนโมเดลจะถูกฝึกไปทาง use case แบบ agentic มากขึ้นเรื่อย ๆ มากกว่าความฉลาดทั่วไป
    https://aibenchy.com/compare/anthropic-claude-opus-4-7-medium/anthropic-claude-opus-4-8-medium/

    • เหมือนทุกอย่างจะคูณ 2 ไปหมด ทั้งต้นทุน 2 เท่า เวลาตอบสนองเฉลี่ย 2 เท่า และโทเค็นสำหรับการให้เหตุผลกับเอาต์พุต 2 เท่า
      ฉันกำลังตรวจ test harness ซ้ำอีกครั้ง แต่เพราะนี่เป็นโมเดลแรกที่มีอาการแบบนี้ ฉันเลยคิดว่าโอกาสจะเป็นปัญหาฝั่งฉันคงต่ำ
      แก้ไข: ดูเหมือนว่า harness จะปกติดี และในงานโค้ดล้วนประสิทธิภาพก็เท่าเดิม: https://i.snipboard.io/5xbpzY.jpg
    • ในบล็อกโพสต์ไม่ได้บอกหรือว่าราคาเท่าเดิมกับ 4.7?
      “Claude Opus 4.8 is available everywhere today. Pricing for regular usage is unchanged from Opus 4.7: $5 per million input tokens and $25 per million output tokens. Pricing for fast mode is $10 per million input tokens and $50 per million output tokens.”
      เลยสงสัยว่าต้นทุนที่เพิ่มเป็น 2 เท่ามาจากตรงไหน
    • การเปิดตัวโมเดลใหม่กลายเป็นวิธีใหม่ในการขึ้นราคาไปแล้ว 555