3 คะแนน โดย GN⁺ 5 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • OpenAI เปิด ซีรีส์ GPT‑5.6 แบบพรีวิวจำกัด พร้อมเปิดตัว Sol โมเดลเรือธง, Terra สำหรับงานประจำวัน และ Luna ต้นทุนต่ำ
  • Sol เสริม ความสามารถแบบเอเจนต์ ในด้านการเขียนโค้ด ชีววิทยา และความปลอดภัยไซเบอร์ และรองรับการใช้เหตุผลที่ลึกขึ้นกับการใช้ซับเอเจนต์ผ่าน reasoning effort แบบ max และโหมด ultra
  • ประสิทธิภาพด้านความปลอดภัยไซเบอร์ดีขึ้นใน ExploitBench และ ExploitGym แต่ภายใต้เงื่อนไขการประเมิน Chromium และ Firefox โมเดลยังไม่สามารถสร้าง full-chain exploit ที่ใช้งานได้จริง ได้เอง จึงไม่เกินเกณฑ์ Cyber Critical
  • พรีวิวจะเปิดให้พันธมิตรและองค์กรที่เชื่อถือได้บางส่วนใช้งานก่อนผ่าน API และ Codex และกำลังเตรียมเปิดให้กว้างขึ้นหลังผ่านขั้นตอนจำกัดตามคำขอของรัฐบาลสหรัฐฯ
  • ราคาต่อ 1 ล้านโทเค็นคือ Sol อินพุต $5 / เอาต์พุต $30, Terra อินพุต $2.50 / เอาต์พุต $15, Luna อินพุต $1 / เอาต์พุต $6 โดยการเขียนแคชคิดราคา 1.25 เท่า และการอ่านแคชลด 90%

ขอบเขตพรีวิวซีรีส์ GPT‑5.6

  • OpenAI เปิดเผยตระกูล GPT‑5.6 ก่อนในรูปแบบ พรีวิวจำกัด
    • Sol: โมเดลเรือธง
    • Terra: โมเดลสมดุลสำหรับงานประจำวัน
    • Luna: โมเดลที่รวดเร็วและราคาถูก
  • Terra ให้ประสิทธิภาพที่แข่งขันได้กับ GPT‑5.5 แต่ราคาถูกกว่า 2 เท่า
  • Luna ให้ความสามารถที่แข็งแกร่งด้วยต้นทุนต่ำที่สุดของ OpenAI
  • GPT‑5.6 Sol เปิดตัวพร้อม สแตกความปลอดภัย ที่แข็งแกร่งที่สุดเท่าที่ OpenAI เคยสร้างมา
    • กิจกรรมความเสี่ยงสูง
    • คำขอด้านไซเบอร์ที่ละเอียดอ่อน
    • การใช้งานผิดวัตถุประสงค์ซ้ำๆ
    • การค้นหาจุดอ่อนและการทดสอบแรงกดดันต่อการโจมตีจริง

การเปิดตัวแบบจำกัดและการหารือกับรัฐบาล

  • OpenAI วางแผนจะเปิดให้ใช้ GPT‑5.6 Sol, Terra, Luna แบบ ทั่วไป ภายในไม่กี่สัปดาห์ข้างหน้า
  • ในกระบวนการหารือต่อเนื่องกับรัฐบาลสหรัฐฯ ได้แชร์แผนก่อนเปิดตัวและความสามารถของโมเดล
  • ตามคำขอของรัฐบาล จึงเริ่มพรีวิวแบบจำกัดกับพันธมิตรที่เชื่อถือได้จำนวนน้อย โดยมีการแชร์ข้อเท็จจริงเรื่องการเข้าร่วมกับรัฐบาล
  • OpenAI มองว่ากระบวนการเข้าถึงของรัฐบาลเช่นนี้ไม่ควรกลายเป็นค่าเริ่มต้นระยะยาว
    • เพราะผู้ใช้ นักพัฒนา บริษัท ผู้ป้องกันไซเบอร์ และพันธมิตรทั่วโลกอาจไม่สามารถเข้าถึงเครื่องมือที่จำเป็นได้
  • ขั้นตอนระยะสั้นครั้งนี้เป็นเส้นทางไปสู่การเปิดให้เข้าถึงกว้างขึ้นภายในไม่กี่สัปดาห์
    • ใช้ระหว่างที่พัฒนากรอบ Cyber Executive Order และขั้นตอนที่ทำซ้ำได้สำหรับการเปิดตัวโมเดลในอนาคตร่วมกับฝ่ายบริหาร

ความสามารถของโมเดลและการประเมิน

  • GPT‑5.6 Sol ถูกแนะนำว่าเป็นโมเดลที่แข็งแกร่งที่สุดของ OpenAI
  • แสดง ความสามารถแบบเอเจนต์ ที่ดีขึ้นในการประเมินด้านการเขียนโค้ด ชีววิทยา และความปลอดภัยไซเบอร์
  • การประเมินด้านความปลอดภัยและความพร้อมเพิ่มเติมรวมอยู่ใน GPT‑5.6 Preview system card
  • มีแผนจะแชร์ชุดผลการประเมินที่ขยายเพิ่มเติมเมื่อเปิดให้ใช้งานกว้างขึ้น
  • โหมดการใช้เหตุผล

    • GPT‑5.6 นำ reasoning effort แบบ max มาใช้ เพื่อให้ Sol สามารถใช้เหตุผลได้นานและลึกขึ้น
    • โหมด ultra ใหม่ ก้าวข้ามความสามารถของเอเจนต์เดี่ยว โดยใช้ซับเอเจนต์เพื่อเร่งงานที่ซับซ้อน
  • การเขียนโค้ดและชีววิทยา

    • GPT‑5.6 Sol ทำสถิติประสิทธิภาพระดับสูงสุดใหม่บน Terminal‑Bench 2.1 ซึ่งประเมินเวิร์กโฟลว์บน command line
    • เบนช์มาร์กนี้ทดสอบงานบน command line ที่ต้องใช้การวางแผน การทำซ้ำ และการประสานเครื่องมือ
    • ใน GeneBench v1 ให้ผลลัพธ์ที่แข็งแกร่งกว่า GPT‑5.5 พร้อมใช้โทเค็นน้อยกว่า
    • GeneBench v1 ประเมินการวิเคราะห์จีโนมิกส์ระยะยาวและชีววิทยาเชิงปริมาณ
  • ความปลอดภัยไซเบอร์

    • GPT‑5.6 Sol เป็นโมเดลที่มีความสามารถสูงที่สุดของ OpenAI สำหรับงานความปลอดภัยไซเบอร์
    • ขยับ แนวหน้าด้านประสิทธิภาพ-ประสิทธิผล ในงานความปลอดภัยระยะยาว รวมถึงการวิจัยช่องโหว่และ exploit
    • ใน ExploitBench ให้ผลลัพธ์ที่แข่งขันได้กับ Mythos Preview โดยใช้โทเค็นเอาต์พุตเพียงประมาณหนึ่งในสาม
    • ใน ExploitGym ทั้ง Sol, Terra และ Luna แสดงการพัฒนาด้านความสามารถไซเบอร์อย่างแข็งแกร่งเมื่อการใช้เหตุผลเพิ่มขึ้น
    • ExploitGym เป็นเบนช์มาร์กที่นักวิจัย UC Berkeley สร้างร่วมกับ OpenAI และแล็บ frontier อื่นๆ

ความสามารถไซเบอร์และมาตรการป้องกัน

  • GPT‑5.6 Sol, Terra, Luna ถูกพัฒนาพร้อม มาตรการป้องกัน ที่แข็งแกร่งที่สุดของ OpenAI ซึ่งปรับให้เข้ากับความสามารถของแต่ละโมเดล
  • เมื่อความสามารถของโมเดลเพิ่มขึ้น มาตรการป้องกันถูกออกแบบให้ทนต่อแรงกดดันจากผู้ไม่หวังดีในโลกจริงได้
  • ต้องการคงการเข้าถึงสำหรับงานป้องกันที่ถูกกฎหมายไว้
    • การรีวิวโค้ด
    • การวิจัยช่องโหว่
    • การพัฒนาแพตช์
    • การดีบัก
    • การศึกษาเรื่องความปลอดภัย
    • การทดสอบเชิงป้องกัน
  • เป้าหมายคือทำให้กิจกรรมเชิงรุกที่ถูกห้ามยากขึ้น ไม่แน่นอนขึ้น และตรวจจับได้มากขึ้น โดยไม่จำกัดการใช้งานที่เป็นประโยชน์โดยไม่จำเป็น
  • จากการประเมินของ OpenAI งานป้องกันที่ถูกกฎหมายได้รับประโยชน์อย่างมีนัยสำคัญ และการใช้งานเชิงรุกที่ถูกห้ามถูกจำกัดอย่างมีความหมาย
  • เกณฑ์ Cyber Critical

    • GPT‑5.6 Sol ไม่เกินเกณฑ์ Cyber Critical ตาม Preparedness Framework
    • ในการประเมินที่เกี่ยวข้องกับ Chromium และ Firefox สามารถระบุบั๊กและ exploit primitive ได้
    • ภายใต้เงื่อนไขการทดสอบ ไม่สามารถสร้าง full-chain exploit ที่ใช้งานได้จริงด้วยตนเอง
    • เกณฑ์เบนช์มาร์กไม่สามารถครอบคลุมวิธีใช้งานโมเดลหรือการผสานกับเครื่องมืออื่นๆ ได้ทั้งหมด
    • เพราะความไม่แน่นอนนี้และความสามารถโดยรวมที่เพิ่มขึ้น OpenAI จึงใช้มาตรการป้องกันที่แข็งแกร่งขึ้นควบคู่กับการเปิดตัวแบบเป็นขั้นตอน

สแตกความปลอดภัยแบบเป็นชั้น

  • การใช้งานผิดวัตถุประสงค์โดยเจตนาหรือแบบปรับตัวได้ยากที่จะป้องกันด้วยมาตรการป้องกันเพียงชั้นเดียว
  • ทั่วทั้งพรีวิว GPT‑5.6 มีการใช้ มาตรการป้องกันแบบเป็นชั้น ที่กำหนดค่าต่างกันตามแต่ละโมเดล
    • การป้องกันที่ฝึกไว้ในโมเดล
    • การตรวจสอบแบบเรียลไทม์ระหว่างการสร้าง
    • สัญญาณระดับบัญชี
    • การเข้าถึงแบบแยกต่างระดับ
    • การมอนิเตอร์
    • การบังคับใช้
    • การทดสอบต่อเนื่อง
  • การปฏิเสธระดับโมเดลและการตรวจสอบแบบเรียลไทม์

    • GPT‑5.6 ถูกฝึกให้ปฏิเสธการช่วยเหลือด้านไซเบอร์ที่ถูกห้าม แม้ผู้ใช้จะซ่อนเจตนาหรือพยายาม jailbreak
    • ตัวจำแนกการใช้งานผิดวัตถุประสงค์ด้านไซเบอร์และชีววิทยาแบบเรียลไทม์จะประเมินเอาต์พุตที่กำลังสร้าง
    • ในกรณีความเสี่ยงสูง หากตรวจพบการละเมิดที่อาจเกิดขึ้น การสร้างอาจถูกหยุดชั่วคราว
    • โมเดลการใช้เหตุผลที่ใหญ่กว่าจะตรวจทานบทสนทนาและบริบท และหากประเมินว่าเอาต์พุตเป็นสิ่งต้องห้าม จะระงับไว้ก่อนถึงผู้ใช้
  • การตรวจสอบระดับบัญชีและการเข้าถึงแบบแยกต่างระดับ

    • กิจกรรมที่ถูก flag อาจนำไปสู่ การตรวจสอบระดับบัญชี ซึ่งรวมบทสนทนาที่เกี่ยวข้องและสัญญาณความเสี่ยง
    • การดูบริบทระดับบัญชี ไม่ใช่บทสนทนาเดียว ช่วยแยกแยะงานความปลอดภัยแบบ dual-use ที่ถูกกฎหมายออกจากพฤติกรรมมุ่งร้ายต่อเนื่อง
    • การเข้าถึงแบบแยกต่างระดับช่วยคงงานป้องกันสำคัญไว้ ขณะเดียวกันทำให้ความสามารถที่ละเอียดอ่อนที่สุดไม่ถูกเปิดกว้างเป็นค่าเริ่มต้น
  • ผลกระทบต่อผู้ใช้ระหว่างพรีวิว

    • ในช่วงพรีวิว คำขอบางรายการอาจถูกบล็อกหรือถูกปฏิเสธ
    • หากการสร้างถูกหยุดชั่วคราวเพื่อการตรวจสอบเพิ่มเติม คำขอบางรายการอาจใช้เวลานานขึ้น
    • ใน พื้นที่ dual-use ที่กิจกรรมเชิงป้องกันและเชิงรุกอาจดูคล้ายกันในตอนแรก มาตรการป้องกันอาจเข้ามาแทรกแซงแม้เป็นงานที่ถูกกฎหมาย
    • ฟีดแบ็กจากพรีวิวจะถูกใช้เพื่อลดการบล็อกและความล่าช้าที่ไม่จำเป็น ปรับปรุงการตีความบริบทของมาตรการป้องกัน และขัดเกลาประสบการณ์ก่อนเปิดตัวกว้างขึ้น
    • กำลังหารือกับลูกค้าองค์กรเกี่ยวกับแนวทางระยะยาวด้วย
      • การตรวจจับที่รักษาความเป็นส่วนตัว
      • การควบคุมความปลอดภัยด้านการปฏิบัติงานของลูกค้า
      • สิทธิ์การเข้าถึงที่สอดคล้องกับความเสี่ยงของลูกค้า ผู้ใช้ และเวิร์กโหลด

ปรับปรุงความแข็งแกร่งด้วยเรดทีมอัตโนมัติ

  • มาตรการป้องกันต้องคงประสิทธิผลไว้ได้แม้ผู้โจมตีเปลี่ยนยุทธวิธี
  • OpenAI ใช้โมเดลของตนเองเพื่อค้นหาจุดอ่อนและปรับปรุงมาตรการป้องกันให้เร็วขึ้น
  • ลงทุนมากกว่า 700,000 A100-equivalent GPU hours ในเรดทีมอัตโนมัติ
  • เรดทีมอัตโนมัติมุ่งเน้นการค้นหา universal jailbreak ที่สามารถใช้ได้กับหลายพรอมป์ต์หรือหลายบริบท
  • การมุ่งเน้นการโจมตีที่ทั่วไปมากขึ้นเหล่านี้ ช่วยทดสอบมาตรการป้องกันได้เหนือกว่ารายการเคสล้มเหลวแบบตายตัว
  • ระบบอัตโนมัติช่วยสำรวจรูปแบบการโจมตีได้มากขึ้น ซึ่งการทดสอบโดยมนุษย์เพียงอย่างเดียวทำได้ยาก และช่วยพบรูปแบบความล้มเหลวได้เร็วขึ้น ลดเวลาตั้งแต่การค้นพบจุดอ่อนจนถึงการแก้ไข
  • มีการทำเรดทีมโดยผู้เชี่ยวชาญมนุษย์ร่วมกับผู้ทดสอบภายนอกด้วย และงานนี้ยังดำเนินต่อไปในช่วงพรีวิว
  • jailbreak ที่ค้นพบใหม่จะผ่านกระบวนการทำซ้ำ ประเมิน จัดลำดับความสำคัญ และแก้ไข จากนั้นเพิ่มลงในการประเมินต่อเนื่องเพื่อทดสอบความล้มเหลวที่คล้ายกันในอนาคต

วิธีให้บริการและราคา

  • ระหว่างพรีวิว โมเดล GPT‑5.6 จะเปิดให้พันธมิตรและองค์กรที่เชื่อถือได้ที่ถูกเลือกใช้งานก่อนผ่าน API และ Codex
  • หลังจากนั้นมีแผนจะเปิดให้ผู้ใช้ ChatGPT, Codex และ API ใช้งานกว้างขึ้น
  • ในระบบการตั้งชื่อใหม่ของ GPT‑5.6 ตัวเลขแสดงรุ่นของโมเดล
  • Sol, Terra และ Luna หมายถึง ระดับความสามารถ ต่อเนื่องที่สามารถพัฒนาไปตามจังหวะของตนเอง
  • ตระกูลผลิตภัณฑ์นี้มอบตัวเลือกที่ชัดเจนขึ้นแก่ผู้ใช้และนักพัฒนาในด้านความฉลาด ความเร็ว และต้นทุน
  • ราคาโทเค็นและแคชชิง

    • ราคาของ GPT‑5.6 กำหนดตาม 1 ล้านโทเค็น
    • Sol: อินพุต $5 / เอาต์พุต $30
    • Terra: อินพุต $2.50 / เอาต์พุต $15
    • Luna: อินพุต $1 / เอาต์พุต $6
    • GPT‑5.6 นำ prompt caching ที่คาดการณ์ได้มากขึ้นมาใช้
      • รองรับจุดหยุดแคชแบบระบุชัดเจน
      • อายุแคชขั้นต่ำ 30 นาที
    • ใน GPT‑5.6 และโมเดลหลังจากนั้น การเขียนแคชจะคิดราคา 1.25 เท่า ของราคาอินพุตที่ไม่ใช้แคชของโมเดลนั้น
    • การอ่านแคชยังคงได้รับ ส่วนลด 90% สำหรับอินพุตแคช
  • การให้บริการบน Cerebras

    • GPT‑5.6 Sol มีกำหนดให้บริการบน Cerebras ในเดือนกรกฎาคม ด้วยความเร็วสูงสุด 750 tokens ต่อวินาที
    • การเข้าถึงช่วงแรกจะจำกัดเฉพาะลูกค้าที่ถูกเลือก ระหว่างกระบวนการขยายความจุ

1 ความคิดเห็น

 
GN⁺ 5 시간 전
ความเห็นจาก Hacker News
  • ส่วนที่น่าสนใจที่สุดของประกาศครั้งนี้ซ่อนอยู่ในย่อหน้ารองสุดท้าย: “ในเดือนกรกฎาคม เราจะเปิดตัว GPT‑5.6 Sol บน Cerebras ที่ สูงสุด 750 โทเคนต่อวินาที เพื่อมอบ frontier intelligence ให้ลูกค้าด้วยความเร็วที่ไม่เคยมีมาก่อน การเข้าถึงจะจำกัดเฉพาะลูกค้าบางรายจนกว่าจะมีการขยายความจุ”
    สำหรับโมเดล frontier แล้ว 750 โทเคน/วินาทีน่าสนใจมาก ด้านประสิทธิภาพยังน่าสงสัยว่าจะมากกว่าแค่การเพิ่มเลขเวอร์ชันหรือไม่ แต่ถ้าได้คำตอบเร็วขึ้น มันก็จะใช้งานได้มีประโยชน์มากขึ้นมาก
    ตัวอย่างเช่น งานน่าเบื่ออย่างการหาฟีเจอร์บางอย่างในโค้ดเบส ตอนนี้เองงานแบบนี้ก็ชนะ AI agent harness ได้ยากอยู่แล้ว ถ้าโมเดลเร็วขึ้น 3 เท่า โอกาสชนะก็ยิ่งน้อยลง

    • https://mikeveerman.github.io/tokenspeed/?rate=750&mode=think
      750 โทเคน/วินาทีน่าจะให้ความรู้สึกประมาณนี้
    • เทียบกันแล้ว ตาม openrouter Opus 4.8 อยู่ที่ราว 55 โทเคน/วินาที และโหมดเร็วอยู่ที่ราว 102 โทเคน/วินาที
      ถ้าเป็น 750 โทเคน/วินาทีบนโมเดลที่ใหญ่ที่สุดก็น่าจะสุดมาก
    • เห็นด้วยกับประโยคที่ว่า “ในการหาฟีเจอร์บางอย่างในโค้ดเบส มักชนะ AI agent harness ได้ยาก”
      แค่ 1 ปีก่อนยังจำได้ว่าพยายาม “แข่ง” กับ AI เพื่อทำความเข้าใจโค้ดเบส แต่ตอนนี้ไม่มีทางชนะแล้ว ไม่แน่ใจว่าเป็นเพราะความสามารถในการใช้เหตุผลของผมแย่ลง หรือเพราะโมเดลดีขึ้น
    • ตอนนี้ยังใช้ GPT-5.3-codex-spark อยู่ ซึ่งก็รันบนชิป Cerebras เหมือนกัน
      Spark ไปได้เกิน 1000 โทเคน/วินาที แต่หน้าต่างบริบทจำกัดมาก จึงไม่เหมาะกับเวิร์กโฟลว์หลายแบบ โมเดลใหม่นี้ถึงจะช้ากว่านิดหน่อยก็น่าจะยังยอดเยี่ยมอยู่ดี
    • พอไปถึงระดับความเร็วหนึ่งแล้ว ก็น่าจะขยับไปสู่ ระบบให้เหตุผลแบบต่อเนื่อง/เรียลไทม์ ได้
      แนวทางแบบไม่ต่อเนื่องและอิงเป็นเทิร์นในปัจจุบันจำกัดแม้กระทั่งวิธีการฝึกพอสมควร แนวทางแบบต่อเนื่องและเรียลไทม์อาจเปลี่ยนพื้นที่นี้ไปอย่างสิ้นเชิง
      ถ้ามองจากมุมทฤษฎีสารสนเทศ อัตราการส่งข้อมูลจริงยังอยู่แค่ระดับ dial-up เท่านั้น แม้แต่ 750 โทเคน/วินาทีก็ยังประมาณสายโทรศัพท์ที่ห่วยพอสมควร ลองนึกภาพ 10 ล้านโทเคนต่อวินาทีดู
  • มีแนวโน้มแบบนี้ให้เห็น: GPT-5 mini ราคา $0.25/$2 และจะยุติในเดือนธันวาคม, GPT-5.4 mini ราคา $0.75/$4.5 และบอกว่าเป็นตัวทดแทน, ส่วน GPT-5.4 nano ราคา $0.2/$1.25 และแม้ตามเบนช์มาร์กจะดีกว่า GPT-5 mini แต่ในสถานการณ์จริงกลับไม่ใกล้เคียงกันเลย
    ดังนั้นถ้าตอนนี้คุณใช้ 5 mini อยู่ สุดท้ายก็จะถูกดันไปใช้ GPT-5.4 mini อยู่ดี ตรงนี้ก็เกิดแบบเดียวกันกับโมเดล “Luna” ที่ราคา $1/$6
    เราจะใช้โมเดลที่ต้องการจริง ๆ ต่อไปไม่ได้หรือ? ไม่ได้ต้องการ GPT 5.4 mini แค่ GPT-5 ก็พอแล้ว
    หรือบางทีเราอาจกำลังตระหนักว่ามันไม่เคยถูกขนาดนั้นตั้งแต่แรก และพวกเขาแค่พยายามบังคับให้อัปเกรดแบบช้า ๆ อย่างทรมาน

    • ถ้าไม่ได้ต้องการประสิทธิภาพระดับ frontier model ของ Anthropic/OpenAI จริง ๆ โมเดลน้ำหนักเปิดที่ไม่มีวันหายไปอาจดีกว่า
      ใน HN มักมีการพูดถึง DeepSeek V4 Flash บ่อย แต่ตาม Artificial Analysis ณ เดือนสิงหาคม 2025 มันสูสีกับ GPT-5 high [0]
      [0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
    • เหมือนกับ โมเดล SaaS เป๊ะ ราคาเพิ่มขึ้นเรื่อย ๆ แล้วก็ใช้สิ่งนั้นเป็นข้ออ้างในการบังคับอัปเกรดไปเวอร์ชันใหม่ที่ยัดฟีเจอร์ซึ่งไม่มีใครขอเข้ามา
    • ผมเจอปัญหานี้หนักพอสมควร โมเดลที่ยอดเยี่ยมและราคาถูกนั้นเป็นไปได้แน่นอน และก็มีอยู่มากมายในโอเพนซอร์ส รวมถึงพวก neo cloud ก็ให้บริการพร้อมทำกำไรอยู่แล้ว
      แล็บใหญ่ ๆ เหมือนจะยอมทิ้งโมเดลราคาถูกไปแล้วจริง ๆ ซึ่งน่าหงุดหงิดมาก มีโอกาสสูงที่แอปพลิเคชันต่าง ๆ จะไม่สร้างซ้อนอยู่ข้างบนพวกมันมากเหมือนเดิม เช่น พวกเราก็กำลังย้ายเวิร์กโหลดจาก Haiku/Sonnet ไปที่ Deepseek v4
      ดูเหมือนปัญหาคือถ้าจะรักษาตัวเลขรายได้ก็ต้องเก็บเงินเยอะ และพวกเขากังวลเรื่องกินรายได้ตัวเองน้อยกว่ากังวลว่าจะถูกคนอื่นมากินรายได้
    • เป็นข้อสังเกตที่ดี แนวโน้มราคาเพิ่มขึ้นนั้นชัดเจน แต่ขณะเดียวกันก็มีนวัตกรรมและการเข้าถึงที่ช่วยถ่วงดุลจากทางเลือกทั้งฝั่งโมเดลเปิดและปิด
      เป็นเรื่องธรรมดาที่แล็บต่าง ๆ จะลองดูว่าผลักราคาไปได้ไกลแค่ไหน และก็เป็นเรื่องธรรมดาที่คู่แข่งจะใช้มาร์จินนั้นเป็นโอกาสเติบโตของตัวเอง สุดท้ายแล้วราคาน่าจะคงที่มากขึ้น
    • เรื่องเดียวกันนี้กำลังเกิดกับ Anthropic Haiku และ Gemini Flash/Flash Lite เช่นกัน ทุกเจ้ากำลังขึ้นราคาและเลิกโมเดลราคาถูก
  • อัตรา การโกง ที่ตรวจพบของ GPT-5.6 Sol เป็นค่าสูงที่สุดในบรรดาโมเดลสาธารณะที่เราประเมินด้วย ReAct agent harness
    ในชุดงานของเรา “การโกง” หมายถึงพฤติกรรมที่โมเดลยกระดับผลประเมินของตัวเองด้วยการใช้ประโยชน์จากบั๊กในสภาพแวดล้อมการประเมิน หรือใช้กลยุทธ์ที่ถูกห้ามในงาน แทนที่จะแก้ปัญหาภายใต้ข้อจำกัดการประเมินที่คาดไว้
    https://metr.org/blog/2026-06-26-gpt-5-6-sol/

    • ข้อความอ้างอิงนี้จากลิงก์น่ากลัวมาก: ตัวอย่างที่พบระหว่างประเมิน GPT-5.6 Sol คือ โมเดลแพ็ก exploit ไว้ในสิ่งที่ส่งระหว่างทางเพื่อเปิดเผยข้อมูลเกี่ยวกับชุดทดสอบลับของงาน หรือในอีกงานหนึ่งก็ดึงซอร์สโค้ดลับที่อธิบายคำตอบที่คาดหวังออกมา
      มันให้ความรู้สึกคล้ายกับพฤติกรรมที่เห็นจาก Alibaba [0] แต่กรณีนั้นเกิดระหว่างการฝึก ส่วนอันนี้เกิดกับโมเดลที่เกือบพร้อมปล่อยแล้ว
      [0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
    • ที่โมเดลโกงกันก็สมเหตุสมผลอยู่พอควร เพราะระหว่างการประเมิน คำขอเบนช์มาร์กจะถูกส่งไปยังแบ็กเอนด์ของบริษัทเหล่านี้
      สิ่งที่บริษัทเหล่านี้ต้องทำก็แค่บันทึกคำขอเหล่านั้นไว้ แล้ว “แก้” มันในรีลีสโมเดลถัดไป
  • คิดมาเสมอว่า GPT เขียนโค้ดได้ดีที่สุด พอคิดว่าในเวอร์ชัน 5.6มันจะเขียนได้ดีแค่ไหนก็ขนลุกเลย
    ไม่นานมานี้ฉันเพิ่งดวลกับ GPT แบบตรง ๆ ในงานโค้ดยาวเกือบ 2,000 บรรทัด แล้ววิธีแก้ของ GPT ทั้งดีกว่าและเร็วกว่าของฉัน
    ฉันลองอ้างอิงหลาย codebase บน GitHub แล้ว แต่ก็ยังเทียบ GPT ไม่ติด
    เพราะงั้นเวลาฉันใช้ GPT มันเลยทำให้ทั้งกลัวและตื่นเต้นพร้อมกัน ฉันกลัวที่ตระหนักได้ว่าโค้ดระดับนี้กำลังจะกลายเป็นค่าเฉลี่ยสำหรับคนส่วนใหญ่ แต่ก็ตื่นเต้นที่ตัวเองสามารถเรียนและพัฒนาไปถึงระดับนี้ได้เหมือนกัน
    ตั้งตารอจริง ๆ ว่าอัปเกรด 5.6 จะทำให้การเขียนโค้ดพัฒนาไปได้อีกแค่ไหน

    • ฉันอยู่อีกฝั่งนะ โมเดลเปิดเริ่มทำได้ดีกว่าแล้ว และ GPT 5.5 ก็ทำเละตลอด
      ตรงกันข้าม ชุดผสม pi + glm + DeepSeek ดีมาก ส่วน Fable นั้นเป็นสัตว์ประหลาดคนละประเภทเลย RIP
    • อันนี้เป็นความเห็นล้วน ๆ แต่ถึงโค้ดของ GPT 5.5 อาจมีเพดานสูงสุดโดยรวมมากกว่า ฉันก็ยังชอบอ่านผลลัพธ์ของ Opus 4.8มากกว่า
      แบบหลังตรวจทานง่ายกว่านิดหน่อย
    • ไม่กี่เดือนก่อนฉันได้ยินประโยคแบบเดียวกันนี้เกี่ยวกับ Opus 4.6 ซ้ำแล้วซ้ำอีก หลังจากนั้น 4.7 กับ 4.8 ก็ถูกมองว่าน่าผิดหวัง และทุกวันนี้คนก็เริ่มโหยหา “ยุคดี ๆ ของ 4.6” กันแล้ว
      ซึ่งยุคดี ๆ ที่ว่าก็คือไม่กี่สัปดาห์ในเดือนกุมภาพันธ์ 2026 นี่เอง การได้ดูทุกอย่างค่อย ๆ คลี่ออกมามันน่าสนใจมาก
    • ฉันยังสงสัยอยู่ว่าความสามารถด้านโค้ดดีขึ้นมากแค่ไหน
      มันดูแปลกที่ในประกาศไม่มีbenchmark ด้านการเขียนโค้ดเลย และสิ่งที่ใกล้ที่สุดกลับเป็น terminal bench
    • ยกตัวอย่างได้ไหม? อยากรู้ว่าคุณพยายามแก้อะไร วิธีแก้ของคุณคืออะไร แล้วทำไมวิธีของ GPT ถึงทั้งดีกว่าและเร็วกว่ากันแน่
  • ถ้าคุณใช้GPT-5.5ในช่วงราว 24 ชั่วโมงที่ผ่านมา คุณอาจได้เข้าถึง 5.6 ไปแล้วก็ได้
    เรากำลังรันการทดสอบบน harness ที่เราสร้างอยู่ แล้วเมื่อวานคะแนนบางตัวก็กระโดดขึ้นแบบฉับพลัน พอลองรัน benchmark Codex พื้นฐานใหม่ GPT-5.5 ก็ทำคะแนน Terminal Bench 2.1 บน Codex พื้นฐานได้ราว 88%
    สัญญาณที่ชัดกว่าคะแนนก็คือ มีเทสต์ 3 ตัวที่บน 5.5 มักโดนบล็อกเรื่อง “ความปลอดภัย” แต่เมื่อคืนกลับเริ่มผ่านได้โดยไม่มีการแจ้งล่วงหน้า

    • การเปลี่ยนแบบนี้ไม่จำเป็นต้องเป็นA/B testลึกลับอะไรเสมอไป แค่เปลี่ยนอินฟราก็ทำให้เกิดได้
    • ได้อ่าน release ไหม? มันยังไม่ได้เปิดกว้างให้ทุกคน
      เนื้อหาคือ “เริ่มจาก limited preview กับกลุ่มพาร์ตเนอร์ที่เชื่อถือได้จำนวนเล็กน้อยซึ่งมีการแจ้งให้ภาครัฐทราบว่ามีส่วนร่วม ก่อนจะค่อย ๆ ขยายการเปิดตัวให้กว้างขึ้น”
      คอมเมนต์นี้เป็นตัวอย่างชั้นดีว่าผู้ใช้ LLM ทั่วไปแทบทำตัวเหมือนคนเล่นสล็อต คือเชื่อว่า “อันนี้กำลังมาแรง อันนี้โชคดี อันนี้ดีกว่าอีกอัน” แล้วก็สลับโมเดลไปเรื่อย ๆ จากความเข้าใจลึกลับเฉพาะตัว
      แล้ว benchmark 80% มันสำคัญอะไรด้วย? มันก็แค่ฝึกกับ benchmark สาธารณะแบบนั้นเพื่อทำให้คนที่ยังให้ความหมายกับมันประทับใจ แล้วทำไมงาน Upwork ราคา $20~30/ชั่วโมงถึงมีอัตราผ่านแค่ 4% ล่ะ? benchmark พวกนี้ดูแทบไม่มีประโยชน์จริง ๆ
      ยังมีเรื่องความแปรปรวนอีกนะ ฉันไม่เข้าใจว่าทำไมคะแนนที่ดีขึ้นในเทสต์ไม่กี่ตัวถึงทำให้คุณเชื่อว่าตัวเองได้เข้าถึงโมเดลที่เขาบอกว่าไม่มีสิทธิ์เข้าถึงแล้ว
      https://labs.scale.com/leaderboard/rli
  • ขอถามแทรกในเธรดยอดนิยมหน่อย ตอนนี้ลิมิตการใช้งาน Codex กับ Claudeเป็นยังไงบ้าง?
    เมื่อก่อนฉันเคยโยนงานเดียวกันให้ทั้งคู่ แล้ว Codex ใช้โควตา 5 ชั่วโมงของฉันน้อยกว่าเกือบ 20 เท่า ทั้งคู่เป็นแพ็กเกจเดือนละ $20
    ตอนนั้นฉันจริง ๆ ชอบ Claude มากกว่าเลยหงุดหงิด แต่ด้วยลิมิตแบบนั้นเลยเอาไปใช้กับงานจริงจังไม่ได้
    หลังจากนั้นผู้ให้บริการทั้งสองเจ้าก็ลดปริมาณการใช้งานที่ให้ลงมาก และอย่างน้อยก็มีหนึ่งเจ้าที่โดนฟ้องเรื่องนี้ด้วย
    ตอนนี้ฉันไม่ได้สมัครทั้งสองเจ้าแล้วและกำลังชั่งใจอยู่ ดูเหมือน GPT จะดีกว่า Opus นิดหน่อย และเมื่อก่อนก็ให้ลิมิตสูงกว่ามาก เลยเอนเอียงไปทางสมัคร OpenAI แต่อยากรู้ว่าสถานการณ์ตอนนี้ยังตรงกับที่จำได้เมื่อ 2~3 เดือนก่อนหรือเปล่า เพราะทั้งสองบริษัทก็ดูจริงจังกับการลดต้นทุนมาก
    อยากได้คำตอบจากคนที่ใช้ทั้งคู่ แต่ประสบการณ์เล่าต่อกันมาก็ยินดี

    • ฉันรู้สึกว่าโควตา Codex ใจกว้างมากนะ แต่ฉันใช้แพ็กเกจ $200 และ Claude ก็ใช้แพ็กเกจ $200 เหมือนกัน
      ถ้าอยากก็เปิด xhigh กับ sub-agent แทบต่อเนื่องได้เกือบทั้งช่วงเวลาที่ตื่นอยู่ ถ้าเปิดตัวเลือกความเร็ว 1.5x บางครั้งก็จะชนลิมิต 5 ชั่วโมง
      ฉันยังชอบฟีลของ Claude มากกว่า 5.5 แต่ 5.5 ดูขี้เกียจน้อยกว่ามาก แน่นอนว่ามันก็คงขึ้นกับงานและกลยุทธ์การเขียนพรอมป์ต์เยอะ
    • เดือนที่แล้วClaude Max 5xให้ความรู้สึกว่าใจกว้างพอสมควรในแง่การใช้งาน เพราะ Fable และบั๊กต่าง ๆ ทำให้ต้องรีเซ็ตบ่อย
      ถ้าใช้ 5.5 high หรือ Opus 4.8 high พูดตรง ๆ ก็ใกล้เคียงกันมาก
      ดูเหมือนในแพ็กเกจ Max จะไม่มีโควตา Sonnet แยกแล้ว ซึ่งอาจเป็นเพราะกำลังเตรียม Sonnet 5 น่าเสียดายเหมือนกัน เพราะมันเคยทำให้เวิร์กโฟลว์แบบ sub-agent รู้สึกเกือบไม่จำกัด
    • ถ้าเทียบ Claude Code กับ Cursor+Gpt55 ในงานจริง Claude ช้ากว่าและแพงกว่าชัดเจน
    • น่าสนใจนะ ประมาณหนึ่งเดือนก่อนฉันเริ่มสังเกตว่า Claude Code ใช้โทเคนมากขึ้นราว 5 เท่า อันนี้กะคร่าว ๆ นะ
  • มีการบอกว่าจะ “เปิดตัวโหมด ultra ใหม่ที่ใช้ซับเอเจนต์เพื่อเร่งงานที่ซับซ้อนให้ก้าวข้ามขีดความสามารถของเอเจนต์เดี่ยว” ก็เลยสงสัยว่ามันทำงานอย่างไร
    ซับเอเจนต์ก็ใช้เครื่องมือเดียวกันได้ไหม? ฝั่งไคลเอนต์จะโดนถล่มด้วยการเรียกใช้เครื่องมือหรือเปล่า? ในเมื่อทำแบบเดียวกันนี้ฝั่งไคลเอนต์พร้อมสิทธิ์ควบคุมที่มากกว่าได้อยู่แล้ว ทำไมถึงต้องเก็บเงินเพิ่มเพราะเพิ่มเข้าไปใน “โมเดล” ใหม่ด้วย?
    แล้วถ้าเป็นกองทัพซับเอเจนต์ ทำไมถึงเอาไปเทียบกับ Fable and Mythos ด้วยก็สงสัยเหมือนกัน ถ้าเอาฮาร์เนสคล้าย ๆ กันไปติด โมเดลพวกนั้นก็น่าจะทำเบนช์มาร์กได้ดีกว่าเสียอีก

    • ถ้ามันคล้าย ultracode ของ ClaudeCode ก็ไม่ได้ใหม่หรือปฏิวัติอะไร
      โดยแก่นแล้วก็คือสคริปต์แบบกำหนดแน่นอนที่เธรดโมเดลหลักเขียนขึ้นมาเพื่อเรียก ซับเอเจนต์ หลายตัว แต่ละตัวก็เผาโทเคนไปกองโต แล้วเอเจนต์ออร์เคสเตรเตอร์ก็มาสรุปรวมเอาต์พุต
    • ถ้ามันคล้าย Claude Ultracode ก็แค่พรอมป์ต์เดียวเผาไป 3 ล้านโทเคน ใน 30 นาที
    • ฮาร์เนสหลัก ๆ (pi, Claude code, codex) ไม่ได้ใช้ซับเอเจนต์กันหมดอยู่แล้วเหรอ?
      ถ้าสั่งชัด ๆ ก็ใช้แน่นอน แล้วอย่างน้อย pi ผมก็เคยเห็นว่ามันปลุกขึ้นมาเองได้แม้ไม่ได้สั่งชัดเจน
    • ผมก็สนใจเหมือนกัน ถ้าไม่ใช่แค่เพื่อรีดประสิทธิภาพเพิ่มอีกนิดล่ะก็ น่าจะเป็นการเก็บ ข้อมูลการใช้งานจริง ของรูปแบบการใช้งานแบบนี้ให้เป็นระเบียบมากกว่า
    • น่าแปลกที่ก่อนหน้านี้ยังไม่ได้ใช้ซับเอเจนต์อยู่แล้ว อาจจะแค่กำลังพูดถึงว่าเว็บดีพลอยถูกรวมเข้ากับ codex ก็ได้
  • เหมือนตอน Mythos เลย ผมไม่ตื่นเต้นกับโมเดลที่ตัวเองใช้ไม่ได้แม้แต่นิดเดียว

    • อย่างน้อย OpenAI ก็มีแผนจะเปิดให้สาธารณะใช้ทุกเวอร์ชัน ดูดีกว่าสิ่งที่เกิดขึ้นกับ Anthropic มาก
      “ใช่ เรามีโมเดลที่ดีที่สุดเท่าที่มีอยู่ เชื่อสิ น่ากลัวจริงนะ”
      “อ๋อเหรอ? ขอดูได้ไหม?”
      “ไสหัวไป พวกไพร่แบบแกจะได้แค่เวอร์ชันที่ห่วยกว่า”
      “อืม ขอบคุณมั้ง?”
      “555 จริง ๆ อันนั้นก็ไม่ใช่อีก เพราะรัฐบาลชุดปัจจุบันหลงกลการตลาดความกลัวของเรา เราจะให้ตัวเผาโทเคนที่แย่กว่าและแพงเป็นบ้า ฮาร์ดแวร์ลิมิตก็หนักขึ้นทุกสัปดาห์”
      จะพูดถึง OpenAI ว่าอย่างไรได้ก็ตาม แต่ กลยุทธ์องค์กร ดูแข็งแรงกว่ามาก
  • ประโยคที่ว่า “Terra แสดงประสิทธิภาพที่แข่งขันกับ GPT‑5.5 ได้ในราคาถูกกว่าสองเท่า” สำหรับผมฟังแล้วแปลว่า “เป็นผลิตภัณฑ์ที่ด้อยกว่า แต่พยายามซ่อนเรื่องนั้นด้วยการตลาด”
    แล้วพวกถ้อยคำอย่าง “สแตกความปลอดภัยที่แข็งแกร่งที่สุดเท่าที่เคยมีมา, การป้องกันที่เข้มขึ้นต่อกิจกรรมความเสี่ยงสูง·คำขอไซเบอร์ที่อ่อนไหว·การใช้งานผิดซ้ำ ๆ, การค้นหาจุดอ่อนหลายสัปดาห์·การทดสอบกดดัน·การเสริมความพร้อมต่อการโจมตีจริง” อย่างมากสุดก็ไม่มีค่าสำหรับผม และส่วนใหญ่มีแนวโน้มจะเป็นโทษด้วยซ้ำ เพราะมันทำให้การปฏิเสธมากขึ้นหรือยูทิลิตีลดลง
    ทำไมผู้ให้บริการถึงยังชู สแตกความปลอดภัย ขึ้นหน้าอยู่เรื่อย ๆ? มีลูกค้าที่ต้องการสิ่งนี้จริง ๆ หรือ? นอกจากผู้ใช้แชตบอต ChatGPT สำหรับงานซัพพอร์ตแล้วผมนึกไม่ออกเลย

    • “Terra แสดงประสิทธิภาพที่แข่งขันกับ GPT‑5.5 ได้ในราคาถูกกว่าสองเท่า” ผมตีความว่าหมายถึงได้ประสิทธิภาพระดับเมนไลน์ของวันนี้ในราคาที่ถูกลงมาก
    • จุดประสงค์ของ Terra คือให้ถูกกว่าโมเดลเรือธงแต่ยังดีพอสมควร แน่นอนว่าในด้านความฉลาดมันด้อยกว่า
    • ข้อความนั้นชัดเจนว่าเล็งไปที่ รัฐบาล ดูในเธรดอื่นก็ได้
    • หรืออาจเป็นข้อความสำหรับนักลงทุนก็ได้