พรีวิว GPT‑5.6 Sol: โมเดลรุ่นถัดไป

(openai.com)

3 คะแนน โดย GN⁺ 5 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI เปิด ซีรีส์ GPT‑5.6 แบบพรีวิวจำกัด พร้อมเปิดตัว Sol โมเดลเรือธง, Terra สำหรับงานประจำวัน และ Luna ต้นทุนต่ำ
Sol เสริม ความสามารถแบบเอเจนต์ ในด้านการเขียนโค้ด ชีววิทยา และความปลอดภัยไซเบอร์ และรองรับการใช้เหตุผลที่ลึกขึ้นกับการใช้ซับเอเจนต์ผ่าน reasoning effort แบบ max และโหมด ultra
ประสิทธิภาพด้านความปลอดภัยไซเบอร์ดีขึ้นใน ExploitBench และ ExploitGym แต่ภายใต้เงื่อนไขการประเมิน Chromium และ Firefox โมเดลยังไม่สามารถสร้าง full-chain exploit ที่ใช้งานได้จริง ได้เอง จึงไม่เกินเกณฑ์ Cyber Critical
พรีวิวจะเปิดให้พันธมิตรและองค์กรที่เชื่อถือได้บางส่วนใช้งานก่อนผ่าน API และ Codex และกำลังเตรียมเปิดให้กว้างขึ้นหลังผ่านขั้นตอนจำกัดตามคำขอของรัฐบาลสหรัฐฯ
ราคาต่อ 1 ล้านโทเค็นคือ Sol อินพุต $5 / เอาต์พุต $30, Terra อินพุต $2.50 / เอาต์พุต $15, Luna อินพุต $1 / เอาต์พุต $6 โดยการเขียนแคชคิดราคา 1.25 เท่า และการอ่านแคชลด 90%

ขอบเขตพรีวิวซีรีส์ GPT‑5.6

OpenAI เปิดเผยตระกูล GPT‑5.6 ก่อนในรูปแบบ พรีวิวจำกัด
- Sol: โมเดลเรือธง
- Terra: โมเดลสมดุลสำหรับงานประจำวัน
- Luna: โมเดลที่รวดเร็วและราคาถูก
Terra ให้ประสิทธิภาพที่แข่งขันได้กับ GPT‑5.5 แต่ราคาถูกกว่า 2 เท่า
Luna ให้ความสามารถที่แข็งแกร่งด้วยต้นทุนต่ำที่สุดของ OpenAI
GPT‑5.6 Sol เปิดตัวพร้อม สแตกความปลอดภัย ที่แข็งแกร่งที่สุดเท่าที่ OpenAI เคยสร้างมา
- กิจกรรมความเสี่ยงสูง
- คำขอด้านไซเบอร์ที่ละเอียดอ่อน
- การใช้งานผิดวัตถุประสงค์ซ้ำๆ
- การค้นหาจุดอ่อนและการทดสอบแรงกดดันต่อการโจมตีจริง

การเปิดตัวแบบจำกัดและการหารือกับรัฐบาล

OpenAI วางแผนจะเปิดให้ใช้ GPT‑5.6 Sol, Terra, Luna แบบ ทั่วไป ภายในไม่กี่สัปดาห์ข้างหน้า
ในกระบวนการหารือต่อเนื่องกับรัฐบาลสหรัฐฯ ได้แชร์แผนก่อนเปิดตัวและความสามารถของโมเดล
ตามคำขอของรัฐบาล จึงเริ่มพรีวิวแบบจำกัดกับพันธมิตรที่เชื่อถือได้จำนวนน้อย โดยมีการแชร์ข้อเท็จจริงเรื่องการเข้าร่วมกับรัฐบาล
OpenAI มองว่ากระบวนการเข้าถึงของรัฐบาลเช่นนี้ไม่ควรกลายเป็นค่าเริ่มต้นระยะยาว
- เพราะผู้ใช้ นักพัฒนา บริษัท ผู้ป้องกันไซเบอร์ และพันธมิตรทั่วโลกอาจไม่สามารถเข้าถึงเครื่องมือที่จำเป็นได้
ขั้นตอนระยะสั้นครั้งนี้เป็นเส้นทางไปสู่การเปิดให้เข้าถึงกว้างขึ้นภายในไม่กี่สัปดาห์
- ใช้ระหว่างที่พัฒนากรอบ Cyber Executive Order และขั้นตอนที่ทำซ้ำได้สำหรับการเปิดตัวโมเดลในอนาคตร่วมกับฝ่ายบริหาร

ความสามารถของโมเดลและการประเมิน

GPT‑5.6 Sol ถูกแนะนำว่าเป็นโมเดลที่แข็งแกร่งที่สุดของ OpenAI
แสดง ความสามารถแบบเอเจนต์ ที่ดีขึ้นในการประเมินด้านการเขียนโค้ด ชีววิทยา และความปลอดภัยไซเบอร์
การประเมินด้านความปลอดภัยและความพร้อมเพิ่มเติมรวมอยู่ใน GPT‑5.6 Preview system card
มีแผนจะแชร์ชุดผลการประเมินที่ขยายเพิ่มเติมเมื่อเปิดให้ใช้งานกว้างขึ้น
โหมดการใช้เหตุผล
- GPT‑5.6 นำ reasoning effort แบบ max มาใช้ เพื่อให้ Sol สามารถใช้เหตุผลได้นานและลึกขึ้น
- โหมด ultra ใหม่ ก้าวข้ามความสามารถของเอเจนต์เดี่ยว โดยใช้ซับเอเจนต์เพื่อเร่งงานที่ซับซ้อน
การเขียนโค้ดและชีววิทยา
- GPT‑5.6 Sol ทำสถิติประสิทธิภาพระดับสูงสุดใหม่บน Terminal‑Bench 2.1 ซึ่งประเมินเวิร์กโฟลว์บน command line
- เบนช์มาร์กนี้ทดสอบงานบน command line ที่ต้องใช้การวางแผน การทำซ้ำ และการประสานเครื่องมือ
- ใน GeneBench v1 ให้ผลลัพธ์ที่แข็งแกร่งกว่า GPT‑5.5 พร้อมใช้โทเค็นน้อยกว่า
- GeneBench v1 ประเมินการวิเคราะห์จีโนมิกส์ระยะยาวและชีววิทยาเชิงปริมาณ
ความปลอดภัยไซเบอร์
- GPT‑5.6 Sol เป็นโมเดลที่มีความสามารถสูงที่สุดของ OpenAI สำหรับงานความปลอดภัยไซเบอร์
- ขยับ แนวหน้าด้านประสิทธิภาพ-ประสิทธิผล ในงานความปลอดภัยระยะยาว รวมถึงการวิจัยช่องโหว่และ exploit
- ใน ExploitBench ให้ผลลัพธ์ที่แข่งขันได้กับ Mythos Preview โดยใช้โทเค็นเอาต์พุตเพียงประมาณหนึ่งในสาม
- ใน ExploitGym ทั้ง Sol, Terra และ Luna แสดงการพัฒนาด้านความสามารถไซเบอร์อย่างแข็งแกร่งเมื่อการใช้เหตุผลเพิ่มขึ้น
- ExploitGym เป็นเบนช์มาร์กที่นักวิจัย UC Berkeley สร้างร่วมกับ OpenAI และแล็บ frontier อื่นๆ

ความสามารถไซเบอร์และมาตรการป้องกัน

GPT‑5.6 Sol, Terra, Luna ถูกพัฒนาพร้อม มาตรการป้องกัน ที่แข็งแกร่งที่สุดของ OpenAI ซึ่งปรับให้เข้ากับความสามารถของแต่ละโมเดล
เมื่อความสามารถของโมเดลเพิ่มขึ้น มาตรการป้องกันถูกออกแบบให้ทนต่อแรงกดดันจากผู้ไม่หวังดีในโลกจริงได้
ต้องการคงการเข้าถึงสำหรับงานป้องกันที่ถูกกฎหมายไว้
- การรีวิวโค้ด
- การวิจัยช่องโหว่
- การพัฒนาแพตช์
- การดีบัก
- การศึกษาเรื่องความปลอดภัย
- การทดสอบเชิงป้องกัน
เป้าหมายคือทำให้กิจกรรมเชิงรุกที่ถูกห้ามยากขึ้น ไม่แน่นอนขึ้น และตรวจจับได้มากขึ้น โดยไม่จำกัดการใช้งานที่เป็นประโยชน์โดยไม่จำเป็น
จากการประเมินของ OpenAI งานป้องกันที่ถูกกฎหมายได้รับประโยชน์อย่างมีนัยสำคัญ และการใช้งานเชิงรุกที่ถูกห้ามถูกจำกัดอย่างมีความหมาย
เกณฑ์ Cyber Critical
- GPT‑5.6 Sol ไม่เกินเกณฑ์ Cyber Critical ตาม Preparedness Framework
- ในการประเมินที่เกี่ยวข้องกับ Chromium และ Firefox สามารถระบุบั๊กและ exploit primitive ได้
- ภายใต้เงื่อนไขการทดสอบ ไม่สามารถสร้าง full-chain exploit ที่ใช้งานได้จริงด้วยตนเอง
- เกณฑ์เบนช์มาร์กไม่สามารถครอบคลุมวิธีใช้งานโมเดลหรือการผสานกับเครื่องมืออื่นๆ ได้ทั้งหมด
- เพราะความไม่แน่นอนนี้และความสามารถโดยรวมที่เพิ่มขึ้น OpenAI จึงใช้มาตรการป้องกันที่แข็งแกร่งขึ้นควบคู่กับการเปิดตัวแบบเป็นขั้นตอน

สแตกความปลอดภัยแบบเป็นชั้น

การใช้งานผิดวัตถุประสงค์โดยเจตนาหรือแบบปรับตัวได้ยากที่จะป้องกันด้วยมาตรการป้องกันเพียงชั้นเดียว
ทั่วทั้งพรีวิว GPT‑5.6 มีการใช้ มาตรการป้องกันแบบเป็นชั้น ที่กำหนดค่าต่างกันตามแต่ละโมเดล
- การป้องกันที่ฝึกไว้ในโมเดล
- การตรวจสอบแบบเรียลไทม์ระหว่างการสร้าง
- สัญญาณระดับบัญชี
- การเข้าถึงแบบแยกต่างระดับ
- การมอนิเตอร์
- การบังคับใช้
- การทดสอบต่อเนื่อง
การปฏิเสธระดับโมเดลและการตรวจสอบแบบเรียลไทม์
- GPT‑5.6 ถูกฝึกให้ปฏิเสธการช่วยเหลือด้านไซเบอร์ที่ถูกห้าม แม้ผู้ใช้จะซ่อนเจตนาหรือพยายาม jailbreak
- ตัวจำแนกการใช้งานผิดวัตถุประสงค์ด้านไซเบอร์และชีววิทยาแบบเรียลไทม์จะประเมินเอาต์พุตที่กำลังสร้าง
- ในกรณีความเสี่ยงสูง หากตรวจพบการละเมิดที่อาจเกิดขึ้น การสร้างอาจถูกหยุดชั่วคราว
- โมเดลการใช้เหตุผลที่ใหญ่กว่าจะตรวจทานบทสนทนาและบริบท และหากประเมินว่าเอาต์พุตเป็นสิ่งต้องห้าม จะระงับไว้ก่อนถึงผู้ใช้
การตรวจสอบระดับบัญชีและการเข้าถึงแบบแยกต่างระดับ
- กิจกรรมที่ถูก flag อาจนำไปสู่ การตรวจสอบระดับบัญชี ซึ่งรวมบทสนทนาที่เกี่ยวข้องและสัญญาณความเสี่ยง
- การดูบริบทระดับบัญชี ไม่ใช่บทสนทนาเดียว ช่วยแยกแยะงานความปลอดภัยแบบ dual-use ที่ถูกกฎหมายออกจากพฤติกรรมมุ่งร้ายต่อเนื่อง
- การเข้าถึงแบบแยกต่างระดับช่วยคงงานป้องกันสำคัญไว้ ขณะเดียวกันทำให้ความสามารถที่ละเอียดอ่อนที่สุดไม่ถูกเปิดกว้างเป็นค่าเริ่มต้น
ผลกระทบต่อผู้ใช้ระหว่างพรีวิว
- ในช่วงพรีวิว คำขอบางรายการอาจถูกบล็อกหรือถูกปฏิเสธ
- หากการสร้างถูกหยุดชั่วคราวเพื่อการตรวจสอบเพิ่มเติม คำขอบางรายการอาจใช้เวลานานขึ้น
- ใน พื้นที่ dual-use ที่กิจกรรมเชิงป้องกันและเชิงรุกอาจดูคล้ายกันในตอนแรก มาตรการป้องกันอาจเข้ามาแทรกแซงแม้เป็นงานที่ถูกกฎหมาย
- ฟีดแบ็กจากพรีวิวจะถูกใช้เพื่อลดการบล็อกและความล่าช้าที่ไม่จำเป็น ปรับปรุงการตีความบริบทของมาตรการป้องกัน และขัดเกลาประสบการณ์ก่อนเปิดตัวกว้างขึ้น
- กำลังหารือกับลูกค้าองค์กรเกี่ยวกับแนวทางระยะยาวด้วย
  - การตรวจจับที่รักษาความเป็นส่วนตัว
  - การควบคุมความปลอดภัยด้านการปฏิบัติงานของลูกค้า
  - สิทธิ์การเข้าถึงที่สอดคล้องกับความเสี่ยงของลูกค้า ผู้ใช้ และเวิร์กโหลด

ปรับปรุงความแข็งแกร่งด้วยเรดทีมอัตโนมัติ

มาตรการป้องกันต้องคงประสิทธิผลไว้ได้แม้ผู้โจมตีเปลี่ยนยุทธวิธี
OpenAI ใช้โมเดลของตนเองเพื่อค้นหาจุดอ่อนและปรับปรุงมาตรการป้องกันให้เร็วขึ้น
ลงทุนมากกว่า 700,000 A100-equivalent GPU hours ในเรดทีมอัตโนมัติ
เรดทีมอัตโนมัติมุ่งเน้นการค้นหา universal jailbreak ที่สามารถใช้ได้กับหลายพรอมป์ต์หรือหลายบริบท
การมุ่งเน้นการโจมตีที่ทั่วไปมากขึ้นเหล่านี้ ช่วยทดสอบมาตรการป้องกันได้เหนือกว่ารายการเคสล้มเหลวแบบตายตัว
ระบบอัตโนมัติช่วยสำรวจรูปแบบการโจมตีได้มากขึ้น ซึ่งการทดสอบโดยมนุษย์เพียงอย่างเดียวทำได้ยาก และช่วยพบรูปแบบความล้มเหลวได้เร็วขึ้น ลดเวลาตั้งแต่การค้นพบจุดอ่อนจนถึงการแก้ไข
มีการทำเรดทีมโดยผู้เชี่ยวชาญมนุษย์ร่วมกับผู้ทดสอบภายนอกด้วย และงานนี้ยังดำเนินต่อไปในช่วงพรีวิว
jailbreak ที่ค้นพบใหม่จะผ่านกระบวนการทำซ้ำ ประเมิน จัดลำดับความสำคัญ และแก้ไข จากนั้นเพิ่มลงในการประเมินต่อเนื่องเพื่อทดสอบความล้มเหลวที่คล้ายกันในอนาคต

วิธีให้บริการและราคา

ระหว่างพรีวิว โมเดล GPT‑5.6 จะเปิดให้พันธมิตรและองค์กรที่เชื่อถือได้ที่ถูกเลือกใช้งานก่อนผ่าน API และ Codex
หลังจากนั้นมีแผนจะเปิดให้ผู้ใช้ ChatGPT, Codex และ API ใช้งานกว้างขึ้น
ในระบบการตั้งชื่อใหม่ของ GPT‑5.6 ตัวเลขแสดงรุ่นของโมเดล
Sol, Terra และ Luna หมายถึง ระดับความสามารถ ต่อเนื่องที่สามารถพัฒนาไปตามจังหวะของตนเอง
ตระกูลผลิตภัณฑ์นี้มอบตัวเลือกที่ชัดเจนขึ้นแก่ผู้ใช้และนักพัฒนาในด้านความฉลาด ความเร็ว และต้นทุน
ราคาโทเค็นและแคชชิง
- ราคาของ GPT‑5.6 กำหนดตาม 1 ล้านโทเค็น
- Sol: อินพุต $5 / เอาต์พุต $30
- Terra: อินพุต $2.50 / เอาต์พุต $15
- Luna: อินพุต $1 / เอาต์พุต $6
- GPT‑5.6 นำ prompt caching ที่คาดการณ์ได้มากขึ้นมาใช้
  - รองรับจุดหยุดแคชแบบระบุชัดเจน
  - อายุแคชขั้นต่ำ 30 นาที
- ใน GPT‑5.6 และโมเดลหลังจากนั้น การเขียนแคชจะคิดราคา 1.25 เท่า ของราคาอินพุตที่ไม่ใช้แคชของโมเดลนั้น
- การอ่านแคชยังคงได้รับ ส่วนลด 90% สำหรับอินพุตแคช
การให้บริการบน Cerebras
- GPT‑5.6 Sol มีกำหนดให้บริการบน Cerebras ในเดือนกรกฎาคม ด้วยความเร็วสูงสุด 750 tokens ต่อวินาที
- การเข้าถึงช่วงแรกจะจำกัดเฉพาะลูกค้าที่ถูกเลือก ระหว่างกระบวนการขยายความจุ

1 ความคิดเห็น

GN⁺ 5 시간 전

ความเห็นจาก Hacker News

ส่วนที่น่าสนใจที่สุดของประกาศครั้งนี้ซ่อนอยู่ในย่อหน้ารองสุดท้าย: “ในเดือนกรกฎาคม เราจะเปิดตัว GPT‑5.6 Sol บน Cerebras ที่ สูงสุด 750 โทเคนต่อวินาที เพื่อมอบ frontier intelligence ให้ลูกค้าด้วยความเร็วที่ไม่เคยมีมาก่อน การเข้าถึงจะจำกัดเฉพาะลูกค้าบางรายจนกว่าจะมีการขยายความจุ”
สำหรับโมเดล frontier แล้ว 750 โทเคน/วินาทีน่าสนใจมาก ด้านประสิทธิภาพยังน่าสงสัยว่าจะมากกว่าแค่การเพิ่มเลขเวอร์ชันหรือไม่ แต่ถ้าได้คำตอบเร็วขึ้น มันก็จะใช้งานได้มีประโยชน์มากขึ้นมาก
ตัวอย่างเช่น งานน่าเบื่ออย่างการหาฟีเจอร์บางอย่างในโค้ดเบส ตอนนี้เองงานแบบนี้ก็ชนะ AI agent harness ได้ยากอยู่แล้ว ถ้าโมเดลเร็วขึ้น 3 เท่า โอกาสชนะก็ยิ่งน้อยลง
- https://mikeveerman.github.io/tokenspeed/?rate=750&mode=think
  750 โทเคน/วินาทีน่าจะให้ความรู้สึกประมาณนี้
- เทียบกันแล้ว ตาม openrouter Opus 4.8 อยู่ที่ราว 55 โทเคน/วินาที และโหมดเร็วอยู่ที่ราว 102 โทเคน/วินาที
  ถ้าเป็น 750 โทเคน/วินาทีบนโมเดลที่ใหญ่ที่สุดก็น่าจะสุดมาก
- เห็นด้วยกับประโยคที่ว่า “ในการหาฟีเจอร์บางอย่างในโค้ดเบส มักชนะ AI agent harness ได้ยาก”
  แค่ 1 ปีก่อนยังจำได้ว่าพยายาม “แข่ง” กับ AI เพื่อทำความเข้าใจโค้ดเบส แต่ตอนนี้ไม่มีทางชนะแล้ว ไม่แน่ใจว่าเป็นเพราะความสามารถในการใช้เหตุผลของผมแย่ลง หรือเพราะโมเดลดีขึ้น
- ตอนนี้ยังใช้ GPT-5.3-codex-spark อยู่ ซึ่งก็รันบนชิป Cerebras เหมือนกัน
  Spark ไปได้เกิน 1000 โทเคน/วินาที แต่หน้าต่างบริบทจำกัดมาก จึงไม่เหมาะกับเวิร์กโฟลว์หลายแบบ โมเดลใหม่นี้ถึงจะช้ากว่านิดหน่อยก็น่าจะยังยอดเยี่ยมอยู่ดี
- พอไปถึงระดับความเร็วหนึ่งแล้ว ก็น่าจะขยับไปสู่ ระบบให้เหตุผลแบบต่อเนื่อง/เรียลไทม์ ได้
  แนวทางแบบไม่ต่อเนื่องและอิงเป็นเทิร์นในปัจจุบันจำกัดแม้กระทั่งวิธีการฝึกพอสมควร แนวทางแบบต่อเนื่องและเรียลไทม์อาจเปลี่ยนพื้นที่นี้ไปอย่างสิ้นเชิง
  ถ้ามองจากมุมทฤษฎีสารสนเทศ อัตราการส่งข้อมูลจริงยังอยู่แค่ระดับ dial-up เท่านั้น แม้แต่ 750 โทเคน/วินาทีก็ยังประมาณสายโทรศัพท์ที่ห่วยพอสมควร ลองนึกภาพ 10 ล้านโทเคนต่อวินาทีดู
มีแนวโน้มแบบนี้ให้เห็น: GPT-5 mini ราคา $0.25/$2 และจะยุติในเดือนธันวาคม, GPT-5.4 mini ราคา $0.75/$4.5 และบอกว่าเป็นตัวทดแทน, ส่วน GPT-5.4 nano ราคา $0.2/$1.25 และแม้ตามเบนช์มาร์กจะดีกว่า GPT-5 mini แต่ในสถานการณ์จริงกลับไม่ใกล้เคียงกันเลย
ดังนั้นถ้าตอนนี้คุณใช้ 5 mini อยู่ สุดท้ายก็จะถูกดันไปใช้ GPT-5.4 mini อยู่ดี ตรงนี้ก็เกิดแบบเดียวกันกับโมเดล “Luna” ที่ราคา $1/$6
เราจะใช้โมเดลที่ต้องการจริง ๆ ต่อไปไม่ได้หรือ? ไม่ได้ต้องการ GPT 5.4 mini แค่ GPT-5 ก็พอแล้ว
หรือบางทีเราอาจกำลังตระหนักว่ามันไม่เคยถูกขนาดนั้นตั้งแต่แรก และพวกเขาแค่พยายามบังคับให้อัปเกรดแบบช้า ๆ อย่างทรมาน
- ถ้าไม่ได้ต้องการประสิทธิภาพระดับ frontier model ของ Anthropic/OpenAI จริง ๆ โมเดลน้ำหนักเปิดที่ไม่มีวันหายไปอาจดีกว่า
  ใน HN มักมีการพูดถึง DeepSeek V4 Flash บ่อย แต่ตาม Artificial Analysis ณ เดือนสิงหาคม 2025 มันสูสีกับ GPT-5 high [0]
  [0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
- เหมือนกับ โมเดล SaaS เป๊ะ ราคาเพิ่มขึ้นเรื่อย ๆ แล้วก็ใช้สิ่งนั้นเป็นข้ออ้างในการบังคับอัปเกรดไปเวอร์ชันใหม่ที่ยัดฟีเจอร์ซึ่งไม่มีใครขอเข้ามา
- ผมเจอปัญหานี้หนักพอสมควร โมเดลที่ยอดเยี่ยมและราคาถูกนั้นเป็นไปได้แน่นอน และก็มีอยู่มากมายในโอเพนซอร์ส รวมถึงพวก neo cloud ก็ให้บริการพร้อมทำกำไรอยู่แล้ว
  แล็บใหญ่ ๆ เหมือนจะยอมทิ้งโมเดลราคาถูกไปแล้วจริง ๆ ซึ่งน่าหงุดหงิดมาก มีโอกาสสูงที่แอปพลิเคชันต่าง ๆ จะไม่สร้างซ้อนอยู่ข้างบนพวกมันมากเหมือนเดิม เช่น พวกเราก็กำลังย้ายเวิร์กโหลดจาก Haiku/Sonnet ไปที่ Deepseek v4
  ดูเหมือนปัญหาคือถ้าจะรักษาตัวเลขรายได้ก็ต้องเก็บเงินเยอะ และพวกเขากังวลเรื่องกินรายได้ตัวเองน้อยกว่ากังวลว่าจะถูกคนอื่นมากินรายได้
- เป็นข้อสังเกตที่ดี แนวโน้มราคาเพิ่มขึ้นนั้นชัดเจน แต่ขณะเดียวกันก็มีนวัตกรรมและการเข้าถึงที่ช่วยถ่วงดุลจากทางเลือกทั้งฝั่งโมเดลเปิดและปิด
  เป็นเรื่องธรรมดาที่แล็บต่าง ๆ จะลองดูว่าผลักราคาไปได้ไกลแค่ไหน และก็เป็นเรื่องธรรมดาที่คู่แข่งจะใช้มาร์จินนั้นเป็นโอกาสเติบโตของตัวเอง สุดท้ายแล้วราคาน่าจะคงที่มากขึ้น
- เรื่องเดียวกันนี้กำลังเกิดกับ Anthropic Haiku และ Gemini Flash/Flash Lite เช่นกัน ทุกเจ้ากำลังขึ้นราคาและเลิกโมเดลราคาถูก
อัตรา การโกง ที่ตรวจพบของ GPT-5.6 Sol เป็นค่าสูงที่สุดในบรรดาโมเดลสาธารณะที่เราประเมินด้วย ReAct agent harness
ในชุดงานของเรา “การโกง” หมายถึงพฤติกรรมที่โมเดลยกระดับผลประเมินของตัวเองด้วยการใช้ประโยชน์จากบั๊กในสภาพแวดล้อมการประเมิน หรือใช้กลยุทธ์ที่ถูกห้ามในงาน แทนที่จะแก้ปัญหาภายใต้ข้อจำกัดการประเมินที่คาดไว้
https://metr.org/blog/2026-06-26-gpt-5-6-sol/
- ข้อความอ้างอิงนี้จากลิงก์น่ากลัวมาก: ตัวอย่างที่พบระหว่างประเมิน GPT-5.6 Sol คือ โมเดลแพ็ก exploit ไว้ในสิ่งที่ส่งระหว่างทางเพื่อเปิดเผยข้อมูลเกี่ยวกับชุดทดสอบลับของงาน หรือในอีกงานหนึ่งก็ดึงซอร์สโค้ดลับที่อธิบายคำตอบที่คาดหวังออกมา
  มันให้ความรู้สึกคล้ายกับพฤติกรรมที่เห็นจาก Alibaba [0] แต่กรณีนั้นเกิดระหว่างการฝึก ส่วนอันนี้เกิดกับโมเดลที่เกือบพร้อมปล่อยแล้ว
  [0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
- ที่โมเดลโกงกันก็สมเหตุสมผลอยู่พอควร เพราะระหว่างการประเมิน คำขอเบนช์มาร์กจะถูกส่งไปยังแบ็กเอนด์ของบริษัทเหล่านี้
  สิ่งที่บริษัทเหล่านี้ต้องทำก็แค่บันทึกคำขอเหล่านั้นไว้ แล้ว “แก้” มันในรีลีสโมเดลถัดไป
คิดมาเสมอว่า GPT เขียนโค้ดได้ดีที่สุด พอคิดว่าในเวอร์ชัน 5.6มันจะเขียนได้ดีแค่ไหนก็ขนลุกเลย
ไม่นานมานี้ฉันเพิ่งดวลกับ GPT แบบตรง ๆ ในงานโค้ดยาวเกือบ 2,000 บรรทัด แล้ววิธีแก้ของ GPT ทั้งดีกว่าและเร็วกว่าของฉัน
ฉันลองอ้างอิงหลาย codebase บน GitHub แล้ว แต่ก็ยังเทียบ GPT ไม่ติด
เพราะงั้นเวลาฉันใช้ GPT มันเลยทำให้ทั้งกลัวและตื่นเต้นพร้อมกัน ฉันกลัวที่ตระหนักได้ว่าโค้ดระดับนี้กำลังจะกลายเป็นค่าเฉลี่ยสำหรับคนส่วนใหญ่ แต่ก็ตื่นเต้นที่ตัวเองสามารถเรียนและพัฒนาไปถึงระดับนี้ได้เหมือนกัน
ตั้งตารอจริง ๆ ว่าอัปเกรด 5.6 จะทำให้การเขียนโค้ดพัฒนาไปได้อีกแค่ไหน
- ฉันอยู่อีกฝั่งนะ โมเดลเปิดเริ่มทำได้ดีกว่าแล้ว และ GPT 5.5 ก็ทำเละตลอด
  ตรงกันข้าม ชุดผสม pi + glm + DeepSeek ดีมาก ส่วน Fable นั้นเป็นสัตว์ประหลาดคนละประเภทเลย RIP
- อันนี้เป็นความเห็นล้วน ๆ แต่ถึงโค้ดของ GPT 5.5 อาจมีเพดานสูงสุดโดยรวมมากกว่า ฉันก็ยังชอบอ่านผลลัพธ์ของ Opus 4.8มากกว่า
  แบบหลังตรวจทานง่ายกว่านิดหน่อย
- ไม่กี่เดือนก่อนฉันได้ยินประโยคแบบเดียวกันนี้เกี่ยวกับ Opus 4.6 ซ้ำแล้วซ้ำอีก หลังจากนั้น 4.7 กับ 4.8 ก็ถูกมองว่าน่าผิดหวัง และทุกวันนี้คนก็เริ่มโหยหา “ยุคดี ๆ ของ 4.6” กันแล้ว
  ซึ่งยุคดี ๆ ที่ว่าก็คือไม่กี่สัปดาห์ในเดือนกุมภาพันธ์ 2026 นี่เอง การได้ดูทุกอย่างค่อย ๆ คลี่ออกมามันน่าสนใจมาก
- ฉันยังสงสัยอยู่ว่าความสามารถด้านโค้ดดีขึ้นมากแค่ไหน
  มันดูแปลกที่ในประกาศไม่มีbenchmark ด้านการเขียนโค้ดเลย และสิ่งที่ใกล้ที่สุดกลับเป็น terminal bench
- ยกตัวอย่างได้ไหม? อยากรู้ว่าคุณพยายามแก้อะไร วิธีแก้ของคุณคืออะไร แล้วทำไมวิธีของ GPT ถึงทั้งดีกว่าและเร็วกว่ากันแน่
ถ้าคุณใช้GPT-5.5ในช่วงราว 24 ชั่วโมงที่ผ่านมา คุณอาจได้เข้าถึง 5.6 ไปแล้วก็ได้
เรากำลังรันการทดสอบบน harness ที่เราสร้างอยู่ แล้วเมื่อวานคะแนนบางตัวก็กระโดดขึ้นแบบฉับพลัน พอลองรัน benchmark Codex พื้นฐานใหม่ GPT-5.5 ก็ทำคะแนน Terminal Bench 2.1 บน Codex พื้นฐานได้ราว 88%
สัญญาณที่ชัดกว่าคะแนนก็คือ มีเทสต์ 3 ตัวที่บน 5.5 มักโดนบล็อกเรื่อง “ความปลอดภัย” แต่เมื่อคืนกลับเริ่มผ่านได้โดยไม่มีการแจ้งล่วงหน้า
- การเปลี่ยนแบบนี้ไม่จำเป็นต้องเป็นA/B testลึกลับอะไรเสมอไป แค่เปลี่ยนอินฟราก็ทำให้เกิดได้
- ได้อ่าน release ไหม? มันยังไม่ได้เปิดกว้างให้ทุกคน
  เนื้อหาคือ “เริ่มจาก limited preview กับกลุ่มพาร์ตเนอร์ที่เชื่อถือได้จำนวนเล็กน้อยซึ่งมีการแจ้งให้ภาครัฐทราบว่ามีส่วนร่วม ก่อนจะค่อย ๆ ขยายการเปิดตัวให้กว้างขึ้น”
  คอมเมนต์นี้เป็นตัวอย่างชั้นดีว่าผู้ใช้ LLM ทั่วไปแทบทำตัวเหมือนคนเล่นสล็อต คือเชื่อว่า “อันนี้กำลังมาแรง อันนี้โชคดี อันนี้ดีกว่าอีกอัน” แล้วก็สลับโมเดลไปเรื่อย ๆ จากความเข้าใจลึกลับเฉพาะตัว
  แล้ว benchmark 80% มันสำคัญอะไรด้วย? มันก็แค่ฝึกกับ benchmark สาธารณะแบบนั้นเพื่อทำให้คนที่ยังให้ความหมายกับมันประทับใจ แล้วทำไมงาน Upwork ราคา $20~30/ชั่วโมงถึงมีอัตราผ่านแค่ 4% ล่ะ? benchmark พวกนี้ดูแทบไม่มีประโยชน์จริง ๆ
  ยังมีเรื่องความแปรปรวนอีกนะ ฉันไม่เข้าใจว่าทำไมคะแนนที่ดีขึ้นในเทสต์ไม่กี่ตัวถึงทำให้คุณเชื่อว่าตัวเองได้เข้าถึงโมเดลที่เขาบอกว่าไม่มีสิทธิ์เข้าถึงแล้ว
  https://labs.scale.com/leaderboard/rli
ขอถามแทรกในเธรดยอดนิยมหน่อย ตอนนี้ลิมิตการใช้งาน Codex กับ Claudeเป็นยังไงบ้าง?
เมื่อก่อนฉันเคยโยนงานเดียวกันให้ทั้งคู่ แล้ว Codex ใช้โควตา 5 ชั่วโมงของฉันน้อยกว่าเกือบ 20 เท่า ทั้งคู่เป็นแพ็กเกจเดือนละ $20
ตอนนั้นฉันจริง ๆ ชอบ Claude มากกว่าเลยหงุดหงิด แต่ด้วยลิมิตแบบนั้นเลยเอาไปใช้กับงานจริงจังไม่ได้
หลังจากนั้นผู้ให้บริการทั้งสองเจ้าก็ลดปริมาณการใช้งานที่ให้ลงมาก และอย่างน้อยก็มีหนึ่งเจ้าที่โดนฟ้องเรื่องนี้ด้วย
ตอนนี้ฉันไม่ได้สมัครทั้งสองเจ้าแล้วและกำลังชั่งใจอยู่ ดูเหมือน GPT จะดีกว่า Opus นิดหน่อย และเมื่อก่อนก็ให้ลิมิตสูงกว่ามาก เลยเอนเอียงไปทางสมัคร OpenAI แต่อยากรู้ว่าสถานการณ์ตอนนี้ยังตรงกับที่จำได้เมื่อ 2~3 เดือนก่อนหรือเปล่า เพราะทั้งสองบริษัทก็ดูจริงจังกับการลดต้นทุนมาก
อยากได้คำตอบจากคนที่ใช้ทั้งคู่ แต่ประสบการณ์เล่าต่อกันมาก็ยินดี
- ฉันรู้สึกว่าโควตา Codex ใจกว้างมากนะ แต่ฉันใช้แพ็กเกจ $200 และ Claude ก็ใช้แพ็กเกจ $200 เหมือนกัน
  ถ้าอยากก็เปิด xhigh กับ sub-agent แทบต่อเนื่องได้เกือบทั้งช่วงเวลาที่ตื่นอยู่ ถ้าเปิดตัวเลือกความเร็ว 1.5x บางครั้งก็จะชนลิมิต 5 ชั่วโมง
  ฉันยังชอบฟีลของ Claude มากกว่า 5.5 แต่ 5.5 ดูขี้เกียจน้อยกว่ามาก แน่นอนว่ามันก็คงขึ้นกับงานและกลยุทธ์การเขียนพรอมป์ต์เยอะ
- เดือนที่แล้วClaude Max 5xให้ความรู้สึกว่าใจกว้างพอสมควรในแง่การใช้งาน เพราะ Fable และบั๊กต่าง ๆ ทำให้ต้องรีเซ็ตบ่อย
  ถ้าใช้ 5.5 high หรือ Opus 4.8 high พูดตรง ๆ ก็ใกล้เคียงกันมาก
  ดูเหมือนในแพ็กเกจ Max จะไม่มีโควตา Sonnet แยกแล้ว ซึ่งอาจเป็นเพราะกำลังเตรียม Sonnet 5 น่าเสียดายเหมือนกัน เพราะมันเคยทำให้เวิร์กโฟลว์แบบ sub-agent รู้สึกเกือบไม่จำกัด
- ถ้าเทียบ Claude Code กับ Cursor+Gpt55 ในงานจริง Claude ช้ากว่าและแพงกว่าชัดเจน
- น่าสนใจนะ ประมาณหนึ่งเดือนก่อนฉันเริ่มสังเกตว่า Claude Code ใช้โทเคนมากขึ้นราว 5 เท่า อันนี้กะคร่าว ๆ นะ
มีการบอกว่าจะ “เปิดตัวโหมด ultra ใหม่ที่ใช้ซับเอเจนต์เพื่อเร่งงานที่ซับซ้อนให้ก้าวข้ามขีดความสามารถของเอเจนต์เดี่ยว” ก็เลยสงสัยว่ามันทำงานอย่างไร
ซับเอเจนต์ก็ใช้เครื่องมือเดียวกันได้ไหม? ฝั่งไคลเอนต์จะโดนถล่มด้วยการเรียกใช้เครื่องมือหรือเปล่า? ในเมื่อทำแบบเดียวกันนี้ฝั่งไคลเอนต์พร้อมสิทธิ์ควบคุมที่มากกว่าได้อยู่แล้ว ทำไมถึงต้องเก็บเงินเพิ่มเพราะเพิ่มเข้าไปใน “โมเดล” ใหม่ด้วย?
แล้วถ้าเป็นกองทัพซับเอเจนต์ ทำไมถึงเอาไปเทียบกับ Fable and Mythos ด้วยก็สงสัยเหมือนกัน ถ้าเอาฮาร์เนสคล้าย ๆ กันไปติด โมเดลพวกนั้นก็น่าจะทำเบนช์มาร์กได้ดีกว่าเสียอีก
- ถ้ามันคล้าย ultracode ของ ClaudeCode ก็ไม่ได้ใหม่หรือปฏิวัติอะไร
  โดยแก่นแล้วก็คือสคริปต์แบบกำหนดแน่นอนที่เธรดโมเดลหลักเขียนขึ้นมาเพื่อเรียก ซับเอเจนต์ หลายตัว แต่ละตัวก็เผาโทเคนไปกองโต แล้วเอเจนต์ออร์เคสเตรเตอร์ก็มาสรุปรวมเอาต์พุต
- ถ้ามันคล้าย Claude Ultracode ก็แค่พรอมป์ต์เดียวเผาไป 3 ล้านโทเคน ใน 30 นาที
- ฮาร์เนสหลัก ๆ (pi, Claude code, codex) ไม่ได้ใช้ซับเอเจนต์กันหมดอยู่แล้วเหรอ?
  ถ้าสั่งชัด ๆ ก็ใช้แน่นอน แล้วอย่างน้อย pi ผมก็เคยเห็นว่ามันปลุกขึ้นมาเองได้แม้ไม่ได้สั่งชัดเจน
- ผมก็สนใจเหมือนกัน ถ้าไม่ใช่แค่เพื่อรีดประสิทธิภาพเพิ่มอีกนิดล่ะก็ น่าจะเป็นการเก็บ ข้อมูลการใช้งานจริง ของรูปแบบการใช้งานแบบนี้ให้เป็นระเบียบมากกว่า
- น่าแปลกที่ก่อนหน้านี้ยังไม่ได้ใช้ซับเอเจนต์อยู่แล้ว อาจจะแค่กำลังพูดถึงว่าเว็บดีพลอยถูกรวมเข้ากับ codex ก็ได้
เหมือนตอน Mythos เลย ผมไม่ตื่นเต้นกับโมเดลที่ตัวเองใช้ไม่ได้แม้แต่นิดเดียว
- อย่างน้อย OpenAI ก็มีแผนจะเปิดให้สาธารณะใช้ทุกเวอร์ชัน ดูดีกว่าสิ่งที่เกิดขึ้นกับ Anthropic มาก
  “ใช่ เรามีโมเดลที่ดีที่สุดเท่าที่มีอยู่ เชื่อสิ น่ากลัวจริงนะ”
  “อ๋อเหรอ? ขอดูได้ไหม?”
  “ไสหัวไป พวกไพร่แบบแกจะได้แค่เวอร์ชันที่ห่วยกว่า”
  “อืม ขอบคุณมั้ง?”
  “555 จริง ๆ อันนั้นก็ไม่ใช่อีก เพราะรัฐบาลชุดปัจจุบันหลงกลการตลาดความกลัวของเรา เราจะให้ตัวเผาโทเคนที่แย่กว่าและแพงเป็นบ้า ฮาร์ดแวร์ลิมิตก็หนักขึ้นทุกสัปดาห์”
  จะพูดถึง OpenAI ว่าอย่างไรได้ก็ตาม แต่ กลยุทธ์องค์กร ดูแข็งแรงกว่ามาก
ประโยคที่ว่า “Terra แสดงประสิทธิภาพที่แข่งขันกับ GPT‑5.5 ได้ในราคาถูกกว่าสองเท่า” สำหรับผมฟังแล้วแปลว่า “เป็นผลิตภัณฑ์ที่ด้อยกว่า แต่พยายามซ่อนเรื่องนั้นด้วยการตลาด”
แล้วพวกถ้อยคำอย่าง “สแตกความปลอดภัยที่แข็งแกร่งที่สุดเท่าที่เคยมีมา, การป้องกันที่เข้มขึ้นต่อกิจกรรมความเสี่ยงสูง·คำขอไซเบอร์ที่อ่อนไหว·การใช้งานผิดซ้ำ ๆ, การค้นหาจุดอ่อนหลายสัปดาห์·การทดสอบกดดัน·การเสริมความพร้อมต่อการโจมตีจริง” อย่างมากสุดก็ไม่มีค่าสำหรับผม และส่วนใหญ่มีแนวโน้มจะเป็นโทษด้วยซ้ำ เพราะมันทำให้การปฏิเสธมากขึ้นหรือยูทิลิตีลดลง
ทำไมผู้ให้บริการถึงยังชู สแตกความปลอดภัย ขึ้นหน้าอยู่เรื่อย ๆ? มีลูกค้าที่ต้องการสิ่งนี้จริง ๆ หรือ? นอกจากผู้ใช้แชตบอต ChatGPT สำหรับงานซัพพอร์ตแล้วผมนึกไม่ออกเลย
- “Terra แสดงประสิทธิภาพที่แข่งขันกับ GPT‑5.5 ได้ในราคาถูกกว่าสองเท่า” ผมตีความว่าหมายถึงได้ประสิทธิภาพระดับเมนไลน์ของวันนี้ในราคาที่ถูกลงมาก
- จุดประสงค์ของ Terra คือให้ถูกกว่าโมเดลเรือธงแต่ยังดีพอสมควร แน่นอนว่าในด้านความฉลาดมันด้อยกว่า
- ข้อความนั้นชัดเจนว่าเล็งไปที่ รัฐบาล ดูในเธรดอื่นก็ได้
- หรืออาจเป็นข้อความสำหรับนักลงทุนก็ได้

พรีวิว GPT‑5.6 Sol: โมเดลรุ่นถัดไป

ขอบเขตพรีวิวซีรีส์ GPT‑5.6

การเปิดตัวแบบจำกัดและการหารือกับรัฐบาล

ความสามารถของโมเดลและการประเมิน

โหมดการใช้เหตุผล

การเขียนโค้ดและชีววิทยา

ความปลอดภัยไซเบอร์

ความสามารถไซเบอร์และมาตรการป้องกัน

เกณฑ์ Cyber Critical

สแตกความปลอดภัยแบบเป็นชั้น

การปฏิเสธระดับโมเดลและการตรวจสอบแบบเรียลไทม์

การตรวจสอบระดับบัญชีและการเข้าถึงแบบแยกต่างระดับ

ผลกระทบต่อผู้ใช้ระหว่างพรีวิว

ปรับปรุงความแข็งแกร่งด้วยเรดทีมอัตโนมัติ

วิธีให้บริการและราคา

ราคาโทเค็นและแคชชิง

การให้บริการบน Cerebras

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News