พรีวิว GPT‑5.6 Sol: โมเดลรุ่นถัดไป
(openai.com)- OpenAI เปิด ซีรีส์ GPT‑5.6 แบบพรีวิวจำกัด พร้อมเปิดตัว Sol โมเดลเรือธง, Terra สำหรับงานประจำวัน และ Luna ต้นทุนต่ำ
- Sol เสริม ความสามารถแบบเอเจนต์ ในด้านการเขียนโค้ด ชีววิทยา และความปลอดภัยไซเบอร์ และรองรับการใช้เหตุผลที่ลึกขึ้นกับการใช้ซับเอเจนต์ผ่าน reasoning effort แบบ
maxและโหมดultra - ประสิทธิภาพด้านความปลอดภัยไซเบอร์ดีขึ้นใน ExploitBench และ ExploitGym แต่ภายใต้เงื่อนไขการประเมิน Chromium และ Firefox โมเดลยังไม่สามารถสร้าง full-chain exploit ที่ใช้งานได้จริง ได้เอง จึงไม่เกินเกณฑ์ Cyber Critical
- พรีวิวจะเปิดให้พันธมิตรและองค์กรที่เชื่อถือได้บางส่วนใช้งานก่อนผ่าน API และ Codex และกำลังเตรียมเปิดให้กว้างขึ้นหลังผ่านขั้นตอนจำกัดตามคำขอของรัฐบาลสหรัฐฯ
- ราคาต่อ 1 ล้านโทเค็นคือ Sol อินพุต $5 / เอาต์พุต $30, Terra อินพุต $2.50 / เอาต์พุต $15, Luna อินพุต $1 / เอาต์พุต $6 โดยการเขียนแคชคิดราคา 1.25 เท่า และการอ่านแคชลด 90%
ขอบเขตพรีวิวซีรีส์ GPT‑5.6
- OpenAI เปิดเผยตระกูล GPT‑5.6 ก่อนในรูปแบบ พรีวิวจำกัด
- Sol: โมเดลเรือธง
- Terra: โมเดลสมดุลสำหรับงานประจำวัน
- Luna: โมเดลที่รวดเร็วและราคาถูก
- Terra ให้ประสิทธิภาพที่แข่งขันได้กับ GPT‑5.5 แต่ราคาถูกกว่า 2 เท่า
- Luna ให้ความสามารถที่แข็งแกร่งด้วยต้นทุนต่ำที่สุดของ OpenAI
- GPT‑5.6 Sol เปิดตัวพร้อม สแตกความปลอดภัย ที่แข็งแกร่งที่สุดเท่าที่ OpenAI เคยสร้างมา
- กิจกรรมความเสี่ยงสูง
- คำขอด้านไซเบอร์ที่ละเอียดอ่อน
- การใช้งานผิดวัตถุประสงค์ซ้ำๆ
- การค้นหาจุดอ่อนและการทดสอบแรงกดดันต่อการโจมตีจริง
การเปิดตัวแบบจำกัดและการหารือกับรัฐบาล
- OpenAI วางแผนจะเปิดให้ใช้ GPT‑5.6 Sol, Terra, Luna แบบ ทั่วไป ภายในไม่กี่สัปดาห์ข้างหน้า
- ในกระบวนการหารือต่อเนื่องกับรัฐบาลสหรัฐฯ ได้แชร์แผนก่อนเปิดตัวและความสามารถของโมเดล
- ตามคำขอของรัฐบาล จึงเริ่มพรีวิวแบบจำกัดกับพันธมิตรที่เชื่อถือได้จำนวนน้อย โดยมีการแชร์ข้อเท็จจริงเรื่องการเข้าร่วมกับรัฐบาล
- OpenAI มองว่ากระบวนการเข้าถึงของรัฐบาลเช่นนี้ไม่ควรกลายเป็นค่าเริ่มต้นระยะยาว
- เพราะผู้ใช้ นักพัฒนา บริษัท ผู้ป้องกันไซเบอร์ และพันธมิตรทั่วโลกอาจไม่สามารถเข้าถึงเครื่องมือที่จำเป็นได้
- ขั้นตอนระยะสั้นครั้งนี้เป็นเส้นทางไปสู่การเปิดให้เข้าถึงกว้างขึ้นภายในไม่กี่สัปดาห์
- ใช้ระหว่างที่พัฒนากรอบ Cyber Executive Order และขั้นตอนที่ทำซ้ำได้สำหรับการเปิดตัวโมเดลในอนาคตร่วมกับฝ่ายบริหาร
ความสามารถของโมเดลและการประเมิน
- GPT‑5.6 Sol ถูกแนะนำว่าเป็นโมเดลที่แข็งแกร่งที่สุดของ OpenAI
- แสดง ความสามารถแบบเอเจนต์ ที่ดีขึ้นในการประเมินด้านการเขียนโค้ด ชีววิทยา และความปลอดภัยไซเบอร์
- การประเมินด้านความปลอดภัยและความพร้อมเพิ่มเติมรวมอยู่ใน GPT‑5.6 Preview system card
- มีแผนจะแชร์ชุดผลการประเมินที่ขยายเพิ่มเติมเมื่อเปิดให้ใช้งานกว้างขึ้น
-
โหมดการใช้เหตุผล
- GPT‑5.6 นำ reasoning effort แบบ
maxมาใช้ เพื่อให้ Sol สามารถใช้เหตุผลได้นานและลึกขึ้น - โหมด
ultraใหม่ ก้าวข้ามความสามารถของเอเจนต์เดี่ยว โดยใช้ซับเอเจนต์เพื่อเร่งงานที่ซับซ้อน
- GPT‑5.6 นำ reasoning effort แบบ
-
การเขียนโค้ดและชีววิทยา
- GPT‑5.6 Sol ทำสถิติประสิทธิภาพระดับสูงสุดใหม่บน Terminal‑Bench 2.1 ซึ่งประเมินเวิร์กโฟลว์บน command line
- เบนช์มาร์กนี้ทดสอบงานบน command line ที่ต้องใช้การวางแผน การทำซ้ำ และการประสานเครื่องมือ
- ใน GeneBench v1 ให้ผลลัพธ์ที่แข็งแกร่งกว่า GPT‑5.5 พร้อมใช้โทเค็นน้อยกว่า
- GeneBench v1 ประเมินการวิเคราะห์จีโนมิกส์ระยะยาวและชีววิทยาเชิงปริมาณ
-
ความปลอดภัยไซเบอร์
- GPT‑5.6 Sol เป็นโมเดลที่มีความสามารถสูงที่สุดของ OpenAI สำหรับงานความปลอดภัยไซเบอร์
- ขยับ แนวหน้าด้านประสิทธิภาพ-ประสิทธิผล ในงานความปลอดภัยระยะยาว รวมถึงการวิจัยช่องโหว่และ exploit
- ใน ExploitBench ให้ผลลัพธ์ที่แข่งขันได้กับ Mythos Preview โดยใช้โทเค็นเอาต์พุตเพียงประมาณหนึ่งในสาม
- ใน ExploitGym ทั้ง Sol, Terra และ Luna แสดงการพัฒนาด้านความสามารถไซเบอร์อย่างแข็งแกร่งเมื่อการใช้เหตุผลเพิ่มขึ้น
- ExploitGym เป็นเบนช์มาร์กที่นักวิจัย UC Berkeley สร้างร่วมกับ OpenAI และแล็บ frontier อื่นๆ
ความสามารถไซเบอร์และมาตรการป้องกัน
- GPT‑5.6 Sol, Terra, Luna ถูกพัฒนาพร้อม มาตรการป้องกัน ที่แข็งแกร่งที่สุดของ OpenAI ซึ่งปรับให้เข้ากับความสามารถของแต่ละโมเดล
- เมื่อความสามารถของโมเดลเพิ่มขึ้น มาตรการป้องกันถูกออกแบบให้ทนต่อแรงกดดันจากผู้ไม่หวังดีในโลกจริงได้
- ต้องการคงการเข้าถึงสำหรับงานป้องกันที่ถูกกฎหมายไว้
- การรีวิวโค้ด
- การวิจัยช่องโหว่
- การพัฒนาแพตช์
- การดีบัก
- การศึกษาเรื่องความปลอดภัย
- การทดสอบเชิงป้องกัน
- เป้าหมายคือทำให้กิจกรรมเชิงรุกที่ถูกห้ามยากขึ้น ไม่แน่นอนขึ้น และตรวจจับได้มากขึ้น โดยไม่จำกัดการใช้งานที่เป็นประโยชน์โดยไม่จำเป็น
- จากการประเมินของ OpenAI งานป้องกันที่ถูกกฎหมายได้รับประโยชน์อย่างมีนัยสำคัญ และการใช้งานเชิงรุกที่ถูกห้ามถูกจำกัดอย่างมีความหมาย
-
เกณฑ์ Cyber Critical
- GPT‑5.6 Sol ไม่เกินเกณฑ์ Cyber Critical ตาม Preparedness Framework
- ในการประเมินที่เกี่ยวข้องกับ Chromium และ Firefox สามารถระบุบั๊กและ exploit primitive ได้
- ภายใต้เงื่อนไขการทดสอบ ไม่สามารถสร้าง full-chain exploit ที่ใช้งานได้จริงด้วยตนเอง
- เกณฑ์เบนช์มาร์กไม่สามารถครอบคลุมวิธีใช้งานโมเดลหรือการผสานกับเครื่องมืออื่นๆ ได้ทั้งหมด
- เพราะความไม่แน่นอนนี้และความสามารถโดยรวมที่เพิ่มขึ้น OpenAI จึงใช้มาตรการป้องกันที่แข็งแกร่งขึ้นควบคู่กับการเปิดตัวแบบเป็นขั้นตอน
สแตกความปลอดภัยแบบเป็นชั้น
- การใช้งานผิดวัตถุประสงค์โดยเจตนาหรือแบบปรับตัวได้ยากที่จะป้องกันด้วยมาตรการป้องกันเพียงชั้นเดียว
- ทั่วทั้งพรีวิว GPT‑5.6 มีการใช้ มาตรการป้องกันแบบเป็นชั้น ที่กำหนดค่าต่างกันตามแต่ละโมเดล
- การป้องกันที่ฝึกไว้ในโมเดล
- การตรวจสอบแบบเรียลไทม์ระหว่างการสร้าง
- สัญญาณระดับบัญชี
- การเข้าถึงแบบแยกต่างระดับ
- การมอนิเตอร์
- การบังคับใช้
- การทดสอบต่อเนื่อง
-
การปฏิเสธระดับโมเดลและการตรวจสอบแบบเรียลไทม์
- GPT‑5.6 ถูกฝึกให้ปฏิเสธการช่วยเหลือด้านไซเบอร์ที่ถูกห้าม แม้ผู้ใช้จะซ่อนเจตนาหรือพยายาม jailbreak
- ตัวจำแนกการใช้งานผิดวัตถุประสงค์ด้านไซเบอร์และชีววิทยาแบบเรียลไทม์จะประเมินเอาต์พุตที่กำลังสร้าง
- ในกรณีความเสี่ยงสูง หากตรวจพบการละเมิดที่อาจเกิดขึ้น การสร้างอาจถูกหยุดชั่วคราว
- โมเดลการใช้เหตุผลที่ใหญ่กว่าจะตรวจทานบทสนทนาและบริบท และหากประเมินว่าเอาต์พุตเป็นสิ่งต้องห้าม จะระงับไว้ก่อนถึงผู้ใช้
-
การตรวจสอบระดับบัญชีและการเข้าถึงแบบแยกต่างระดับ
- กิจกรรมที่ถูก flag อาจนำไปสู่ การตรวจสอบระดับบัญชี ซึ่งรวมบทสนทนาที่เกี่ยวข้องและสัญญาณความเสี่ยง
- การดูบริบทระดับบัญชี ไม่ใช่บทสนทนาเดียว ช่วยแยกแยะงานความปลอดภัยแบบ dual-use ที่ถูกกฎหมายออกจากพฤติกรรมมุ่งร้ายต่อเนื่อง
- การเข้าถึงแบบแยกต่างระดับช่วยคงงานป้องกันสำคัญไว้ ขณะเดียวกันทำให้ความสามารถที่ละเอียดอ่อนที่สุดไม่ถูกเปิดกว้างเป็นค่าเริ่มต้น
-
ผลกระทบต่อผู้ใช้ระหว่างพรีวิว
- ในช่วงพรีวิว คำขอบางรายการอาจถูกบล็อกหรือถูกปฏิเสธ
- หากการสร้างถูกหยุดชั่วคราวเพื่อการตรวจสอบเพิ่มเติม คำขอบางรายการอาจใช้เวลานานขึ้น
- ใน พื้นที่ dual-use ที่กิจกรรมเชิงป้องกันและเชิงรุกอาจดูคล้ายกันในตอนแรก มาตรการป้องกันอาจเข้ามาแทรกแซงแม้เป็นงานที่ถูกกฎหมาย
- ฟีดแบ็กจากพรีวิวจะถูกใช้เพื่อลดการบล็อกและความล่าช้าที่ไม่จำเป็น ปรับปรุงการตีความบริบทของมาตรการป้องกัน และขัดเกลาประสบการณ์ก่อนเปิดตัวกว้างขึ้น
- กำลังหารือกับลูกค้าองค์กรเกี่ยวกับแนวทางระยะยาวด้วย
- การตรวจจับที่รักษาความเป็นส่วนตัว
- การควบคุมความปลอดภัยด้านการปฏิบัติงานของลูกค้า
- สิทธิ์การเข้าถึงที่สอดคล้องกับความเสี่ยงของลูกค้า ผู้ใช้ และเวิร์กโหลด
ปรับปรุงความแข็งแกร่งด้วยเรดทีมอัตโนมัติ
- มาตรการป้องกันต้องคงประสิทธิผลไว้ได้แม้ผู้โจมตีเปลี่ยนยุทธวิธี
- OpenAI ใช้โมเดลของตนเองเพื่อค้นหาจุดอ่อนและปรับปรุงมาตรการป้องกันให้เร็วขึ้น
- ลงทุนมากกว่า 700,000 A100-equivalent GPU hours ในเรดทีมอัตโนมัติ
- เรดทีมอัตโนมัติมุ่งเน้นการค้นหา universal jailbreak ที่สามารถใช้ได้กับหลายพรอมป์ต์หรือหลายบริบท
- การมุ่งเน้นการโจมตีที่ทั่วไปมากขึ้นเหล่านี้ ช่วยทดสอบมาตรการป้องกันได้เหนือกว่ารายการเคสล้มเหลวแบบตายตัว
- ระบบอัตโนมัติช่วยสำรวจรูปแบบการโจมตีได้มากขึ้น ซึ่งการทดสอบโดยมนุษย์เพียงอย่างเดียวทำได้ยาก และช่วยพบรูปแบบความล้มเหลวได้เร็วขึ้น ลดเวลาตั้งแต่การค้นพบจุดอ่อนจนถึงการแก้ไข
- มีการทำเรดทีมโดยผู้เชี่ยวชาญมนุษย์ร่วมกับผู้ทดสอบภายนอกด้วย และงานนี้ยังดำเนินต่อไปในช่วงพรีวิว
- jailbreak ที่ค้นพบใหม่จะผ่านกระบวนการทำซ้ำ ประเมิน จัดลำดับความสำคัญ และแก้ไข จากนั้นเพิ่มลงในการประเมินต่อเนื่องเพื่อทดสอบความล้มเหลวที่คล้ายกันในอนาคต
วิธีให้บริการและราคา
- ระหว่างพรีวิว โมเดล GPT‑5.6 จะเปิดให้พันธมิตรและองค์กรที่เชื่อถือได้ที่ถูกเลือกใช้งานก่อนผ่าน API และ Codex
- หลังจากนั้นมีแผนจะเปิดให้ผู้ใช้ ChatGPT, Codex และ API ใช้งานกว้างขึ้น
- ในระบบการตั้งชื่อใหม่ของ GPT‑5.6 ตัวเลขแสดงรุ่นของโมเดล
- Sol, Terra และ Luna หมายถึง ระดับความสามารถ ต่อเนื่องที่สามารถพัฒนาไปตามจังหวะของตนเอง
- ตระกูลผลิตภัณฑ์นี้มอบตัวเลือกที่ชัดเจนขึ้นแก่ผู้ใช้และนักพัฒนาในด้านความฉลาด ความเร็ว และต้นทุน
-
ราคาโทเค็นและแคชชิง
- ราคาของ GPT‑5.6 กำหนดตาม 1 ล้านโทเค็น
- Sol: อินพุต $5 / เอาต์พุต $30
- Terra: อินพุต $2.50 / เอาต์พุต $15
- Luna: อินพุต $1 / เอาต์พุต $6
- GPT‑5.6 นำ prompt caching ที่คาดการณ์ได้มากขึ้นมาใช้
- รองรับจุดหยุดแคชแบบระบุชัดเจน
- อายุแคชขั้นต่ำ 30 นาที
- ใน GPT‑5.6 และโมเดลหลังจากนั้น การเขียนแคชจะคิดราคา 1.25 เท่า ของราคาอินพุตที่ไม่ใช้แคชของโมเดลนั้น
- การอ่านแคชยังคงได้รับ ส่วนลด 90% สำหรับอินพุตแคช
-
การให้บริการบน Cerebras
- GPT‑5.6 Sol มีกำหนดให้บริการบน Cerebras ในเดือนกรกฎาคม ด้วยความเร็วสูงสุด 750 tokens ต่อวินาที
- การเข้าถึงช่วงแรกจะจำกัดเฉพาะลูกค้าที่ถูกเลือก ระหว่างกระบวนการขยายความจุ
1 ความคิดเห็น
ความเห็นจาก Hacker News
ส่วนที่น่าสนใจที่สุดของประกาศครั้งนี้ซ่อนอยู่ในย่อหน้ารองสุดท้าย: “ในเดือนกรกฎาคม เราจะเปิดตัว GPT‑5.6 Sol บน Cerebras ที่ สูงสุด 750 โทเคนต่อวินาที เพื่อมอบ frontier intelligence ให้ลูกค้าด้วยความเร็วที่ไม่เคยมีมาก่อน การเข้าถึงจะจำกัดเฉพาะลูกค้าบางรายจนกว่าจะมีการขยายความจุ”
สำหรับโมเดล frontier แล้ว 750 โทเคน/วินาทีน่าสนใจมาก ด้านประสิทธิภาพยังน่าสงสัยว่าจะมากกว่าแค่การเพิ่มเลขเวอร์ชันหรือไม่ แต่ถ้าได้คำตอบเร็วขึ้น มันก็จะใช้งานได้มีประโยชน์มากขึ้นมาก
ตัวอย่างเช่น งานน่าเบื่ออย่างการหาฟีเจอร์บางอย่างในโค้ดเบส ตอนนี้เองงานแบบนี้ก็ชนะ AI agent harness ได้ยากอยู่แล้ว ถ้าโมเดลเร็วขึ้น 3 เท่า โอกาสชนะก็ยิ่งน้อยลง
750 โทเคน/วินาทีน่าจะให้ความรู้สึกประมาณนี้
ถ้าเป็น 750 โทเคน/วินาทีบนโมเดลที่ใหญ่ที่สุดก็น่าจะสุดมาก
แค่ 1 ปีก่อนยังจำได้ว่าพยายาม “แข่ง” กับ AI เพื่อทำความเข้าใจโค้ดเบส แต่ตอนนี้ไม่มีทางชนะแล้ว ไม่แน่ใจว่าเป็นเพราะความสามารถในการใช้เหตุผลของผมแย่ลง หรือเพราะโมเดลดีขึ้น
Spark ไปได้เกิน 1000 โทเคน/วินาที แต่หน้าต่างบริบทจำกัดมาก จึงไม่เหมาะกับเวิร์กโฟลว์หลายแบบ โมเดลใหม่นี้ถึงจะช้ากว่านิดหน่อยก็น่าจะยังยอดเยี่ยมอยู่ดี
แนวทางแบบไม่ต่อเนื่องและอิงเป็นเทิร์นในปัจจุบันจำกัดแม้กระทั่งวิธีการฝึกพอสมควร แนวทางแบบต่อเนื่องและเรียลไทม์อาจเปลี่ยนพื้นที่นี้ไปอย่างสิ้นเชิง
ถ้ามองจากมุมทฤษฎีสารสนเทศ อัตราการส่งข้อมูลจริงยังอยู่แค่ระดับ dial-up เท่านั้น แม้แต่ 750 โทเคน/วินาทีก็ยังประมาณสายโทรศัพท์ที่ห่วยพอสมควร ลองนึกภาพ 10 ล้านโทเคนต่อวินาทีดู
มีแนวโน้มแบบนี้ให้เห็น: GPT-5 mini ราคา $0.25/$2 และจะยุติในเดือนธันวาคม, GPT-5.4 mini ราคา $0.75/$4.5 และบอกว่าเป็นตัวทดแทน, ส่วน GPT-5.4 nano ราคา $0.2/$1.25 และแม้ตามเบนช์มาร์กจะดีกว่า GPT-5 mini แต่ในสถานการณ์จริงกลับไม่ใกล้เคียงกันเลย
ดังนั้นถ้าตอนนี้คุณใช้ 5 mini อยู่ สุดท้ายก็จะถูกดันไปใช้ GPT-5.4 mini อยู่ดี ตรงนี้ก็เกิดแบบเดียวกันกับโมเดล “Luna” ที่ราคา $1/$6
เราจะใช้โมเดลที่ต้องการจริง ๆ ต่อไปไม่ได้หรือ? ไม่ได้ต้องการ GPT 5.4 mini แค่ GPT-5 ก็พอแล้ว
หรือบางทีเราอาจกำลังตระหนักว่ามันไม่เคยถูกขนาดนั้นตั้งแต่แรก และพวกเขาแค่พยายามบังคับให้อัปเกรดแบบช้า ๆ อย่างทรมาน
ใน HN มักมีการพูดถึง DeepSeek V4 Flash บ่อย แต่ตาม Artificial Analysis ณ เดือนสิงหาคม 2025 มันสูสีกับ GPT-5 high [0]
[0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
แล็บใหญ่ ๆ เหมือนจะยอมทิ้งโมเดลราคาถูกไปแล้วจริง ๆ ซึ่งน่าหงุดหงิดมาก มีโอกาสสูงที่แอปพลิเคชันต่าง ๆ จะไม่สร้างซ้อนอยู่ข้างบนพวกมันมากเหมือนเดิม เช่น พวกเราก็กำลังย้ายเวิร์กโหลดจาก Haiku/Sonnet ไปที่ Deepseek v4
ดูเหมือนปัญหาคือถ้าจะรักษาตัวเลขรายได้ก็ต้องเก็บเงินเยอะ และพวกเขากังวลเรื่องกินรายได้ตัวเองน้อยกว่ากังวลว่าจะถูกคนอื่นมากินรายได้
เป็นเรื่องธรรมดาที่แล็บต่าง ๆ จะลองดูว่าผลักราคาไปได้ไกลแค่ไหน และก็เป็นเรื่องธรรมดาที่คู่แข่งจะใช้มาร์จินนั้นเป็นโอกาสเติบโตของตัวเอง สุดท้ายแล้วราคาน่าจะคงที่มากขึ้น
อัตรา การโกง ที่ตรวจพบของ GPT-5.6 Sol เป็นค่าสูงที่สุดในบรรดาโมเดลสาธารณะที่เราประเมินด้วย ReAct agent harness
ในชุดงานของเรา “การโกง” หมายถึงพฤติกรรมที่โมเดลยกระดับผลประเมินของตัวเองด้วยการใช้ประโยชน์จากบั๊กในสภาพแวดล้อมการประเมิน หรือใช้กลยุทธ์ที่ถูกห้ามในงาน แทนที่จะแก้ปัญหาภายใต้ข้อจำกัดการประเมินที่คาดไว้
https://metr.org/blog/2026-06-26-gpt-5-6-sol/
มันให้ความรู้สึกคล้ายกับพฤติกรรมที่เห็นจาก Alibaba [0] แต่กรณีนั้นเกิดระหว่างการฝึก ส่วนอันนี้เกิดกับโมเดลที่เกือบพร้อมปล่อยแล้ว
[0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
สิ่งที่บริษัทเหล่านี้ต้องทำก็แค่บันทึกคำขอเหล่านั้นไว้ แล้ว “แก้” มันในรีลีสโมเดลถัดไป
คิดมาเสมอว่า GPT เขียนโค้ดได้ดีที่สุด พอคิดว่าในเวอร์ชัน 5.6มันจะเขียนได้ดีแค่ไหนก็ขนลุกเลย
ไม่นานมานี้ฉันเพิ่งดวลกับ GPT แบบตรง ๆ ในงานโค้ดยาวเกือบ 2,000 บรรทัด แล้ววิธีแก้ของ GPT ทั้งดีกว่าและเร็วกว่าของฉัน
ฉันลองอ้างอิงหลาย codebase บน GitHub แล้ว แต่ก็ยังเทียบ GPT ไม่ติด
เพราะงั้นเวลาฉันใช้ GPT มันเลยทำให้ทั้งกลัวและตื่นเต้นพร้อมกัน ฉันกลัวที่ตระหนักได้ว่าโค้ดระดับนี้กำลังจะกลายเป็นค่าเฉลี่ยสำหรับคนส่วนใหญ่ แต่ก็ตื่นเต้นที่ตัวเองสามารถเรียนและพัฒนาไปถึงระดับนี้ได้เหมือนกัน
ตั้งตารอจริง ๆ ว่าอัปเกรด 5.6 จะทำให้การเขียนโค้ดพัฒนาไปได้อีกแค่ไหน
ตรงกันข้าม ชุดผสม pi + glm + DeepSeek ดีมาก ส่วน Fable นั้นเป็นสัตว์ประหลาดคนละประเภทเลย RIP
แบบหลังตรวจทานง่ายกว่านิดหน่อย
ซึ่งยุคดี ๆ ที่ว่าก็คือไม่กี่สัปดาห์ในเดือนกุมภาพันธ์ 2026 นี่เอง การได้ดูทุกอย่างค่อย ๆ คลี่ออกมามันน่าสนใจมาก
มันดูแปลกที่ในประกาศไม่มีbenchmark ด้านการเขียนโค้ดเลย และสิ่งที่ใกล้ที่สุดกลับเป็น terminal bench
ถ้าคุณใช้GPT-5.5ในช่วงราว 24 ชั่วโมงที่ผ่านมา คุณอาจได้เข้าถึง 5.6 ไปแล้วก็ได้
เรากำลังรันการทดสอบบน harness ที่เราสร้างอยู่ แล้วเมื่อวานคะแนนบางตัวก็กระโดดขึ้นแบบฉับพลัน พอลองรัน benchmark Codex พื้นฐานใหม่ GPT-5.5 ก็ทำคะแนน Terminal Bench 2.1 บน Codex พื้นฐานได้ราว 88%
สัญญาณที่ชัดกว่าคะแนนก็คือ มีเทสต์ 3 ตัวที่บน 5.5 มักโดนบล็อกเรื่อง “ความปลอดภัย” แต่เมื่อคืนกลับเริ่มผ่านได้โดยไม่มีการแจ้งล่วงหน้า
เนื้อหาคือ “เริ่มจาก limited preview กับกลุ่มพาร์ตเนอร์ที่เชื่อถือได้จำนวนเล็กน้อยซึ่งมีการแจ้งให้ภาครัฐทราบว่ามีส่วนร่วม ก่อนจะค่อย ๆ ขยายการเปิดตัวให้กว้างขึ้น”
คอมเมนต์นี้เป็นตัวอย่างชั้นดีว่าผู้ใช้ LLM ทั่วไปแทบทำตัวเหมือนคนเล่นสล็อต คือเชื่อว่า “อันนี้กำลังมาแรง อันนี้โชคดี อันนี้ดีกว่าอีกอัน” แล้วก็สลับโมเดลไปเรื่อย ๆ จากความเข้าใจลึกลับเฉพาะตัว
แล้ว benchmark 80% มันสำคัญอะไรด้วย? มันก็แค่ฝึกกับ benchmark สาธารณะแบบนั้นเพื่อทำให้คนที่ยังให้ความหมายกับมันประทับใจ แล้วทำไมงาน Upwork ราคา $20~30/ชั่วโมงถึงมีอัตราผ่านแค่ 4% ล่ะ? benchmark พวกนี้ดูแทบไม่มีประโยชน์จริง ๆ
ยังมีเรื่องความแปรปรวนอีกนะ ฉันไม่เข้าใจว่าทำไมคะแนนที่ดีขึ้นในเทสต์ไม่กี่ตัวถึงทำให้คุณเชื่อว่าตัวเองได้เข้าถึงโมเดลที่เขาบอกว่าไม่มีสิทธิ์เข้าถึงแล้ว
https://labs.scale.com/leaderboard/rli
ขอถามแทรกในเธรดยอดนิยมหน่อย ตอนนี้ลิมิตการใช้งาน Codex กับ Claudeเป็นยังไงบ้าง?
เมื่อก่อนฉันเคยโยนงานเดียวกันให้ทั้งคู่ แล้ว Codex ใช้โควตา 5 ชั่วโมงของฉันน้อยกว่าเกือบ 20 เท่า ทั้งคู่เป็นแพ็กเกจเดือนละ $20
ตอนนั้นฉันจริง ๆ ชอบ Claude มากกว่าเลยหงุดหงิด แต่ด้วยลิมิตแบบนั้นเลยเอาไปใช้กับงานจริงจังไม่ได้
หลังจากนั้นผู้ให้บริการทั้งสองเจ้าก็ลดปริมาณการใช้งานที่ให้ลงมาก และอย่างน้อยก็มีหนึ่งเจ้าที่โดนฟ้องเรื่องนี้ด้วย
ตอนนี้ฉันไม่ได้สมัครทั้งสองเจ้าแล้วและกำลังชั่งใจอยู่ ดูเหมือน GPT จะดีกว่า Opus นิดหน่อย และเมื่อก่อนก็ให้ลิมิตสูงกว่ามาก เลยเอนเอียงไปทางสมัคร OpenAI แต่อยากรู้ว่าสถานการณ์ตอนนี้ยังตรงกับที่จำได้เมื่อ 2~3 เดือนก่อนหรือเปล่า เพราะทั้งสองบริษัทก็ดูจริงจังกับการลดต้นทุนมาก
อยากได้คำตอบจากคนที่ใช้ทั้งคู่ แต่ประสบการณ์เล่าต่อกันมาก็ยินดี
ถ้าอยากก็เปิด xhigh กับ sub-agent แทบต่อเนื่องได้เกือบทั้งช่วงเวลาที่ตื่นอยู่ ถ้าเปิดตัวเลือกความเร็ว 1.5x บางครั้งก็จะชนลิมิต 5 ชั่วโมง
ฉันยังชอบฟีลของ Claude มากกว่า 5.5 แต่ 5.5 ดูขี้เกียจน้อยกว่ามาก แน่นอนว่ามันก็คงขึ้นกับงานและกลยุทธ์การเขียนพรอมป์ต์เยอะ
ถ้าใช้ 5.5 high หรือ Opus 4.8 high พูดตรง ๆ ก็ใกล้เคียงกันมาก
ดูเหมือนในแพ็กเกจ Max จะไม่มีโควตา Sonnet แยกแล้ว ซึ่งอาจเป็นเพราะกำลังเตรียม Sonnet 5 น่าเสียดายเหมือนกัน เพราะมันเคยทำให้เวิร์กโฟลว์แบบ sub-agent รู้สึกเกือบไม่จำกัด
มีการบอกว่าจะ “เปิดตัวโหมด
ultraใหม่ที่ใช้ซับเอเจนต์เพื่อเร่งงานที่ซับซ้อนให้ก้าวข้ามขีดความสามารถของเอเจนต์เดี่ยว” ก็เลยสงสัยว่ามันทำงานอย่างไรซับเอเจนต์ก็ใช้เครื่องมือเดียวกันได้ไหม? ฝั่งไคลเอนต์จะโดนถล่มด้วยการเรียกใช้เครื่องมือหรือเปล่า? ในเมื่อทำแบบเดียวกันนี้ฝั่งไคลเอนต์พร้อมสิทธิ์ควบคุมที่มากกว่าได้อยู่แล้ว ทำไมถึงต้องเก็บเงินเพิ่มเพราะเพิ่มเข้าไปใน “โมเดล” ใหม่ด้วย?
แล้วถ้าเป็นกองทัพซับเอเจนต์ ทำไมถึงเอาไปเทียบกับ Fable and Mythos ด้วยก็สงสัยเหมือนกัน ถ้าเอาฮาร์เนสคล้าย ๆ กันไปติด โมเดลพวกนั้นก็น่าจะทำเบนช์มาร์กได้ดีกว่าเสียอีก
โดยแก่นแล้วก็คือสคริปต์แบบกำหนดแน่นอนที่เธรดโมเดลหลักเขียนขึ้นมาเพื่อเรียก ซับเอเจนต์ หลายตัว แต่ละตัวก็เผาโทเคนไปกองโต แล้วเอเจนต์ออร์เคสเตรเตอร์ก็มาสรุปรวมเอาต์พุต
ถ้าสั่งชัด ๆ ก็ใช้แน่นอน แล้วอย่างน้อย pi ผมก็เคยเห็นว่ามันปลุกขึ้นมาเองได้แม้ไม่ได้สั่งชัดเจน
เหมือนตอน Mythos เลย ผมไม่ตื่นเต้นกับโมเดลที่ตัวเองใช้ไม่ได้แม้แต่นิดเดียว
“ใช่ เรามีโมเดลที่ดีที่สุดเท่าที่มีอยู่ เชื่อสิ น่ากลัวจริงนะ”
“อ๋อเหรอ? ขอดูได้ไหม?”
“ไสหัวไป พวกไพร่แบบแกจะได้แค่เวอร์ชันที่ห่วยกว่า”
“อืม ขอบคุณมั้ง?”
“555 จริง ๆ อันนั้นก็ไม่ใช่อีก เพราะรัฐบาลชุดปัจจุบันหลงกลการตลาดความกลัวของเรา เราจะให้ตัวเผาโทเคนที่แย่กว่าและแพงเป็นบ้า ฮาร์ดแวร์ลิมิตก็หนักขึ้นทุกสัปดาห์”
จะพูดถึง OpenAI ว่าอย่างไรได้ก็ตาม แต่ กลยุทธ์องค์กร ดูแข็งแรงกว่ามาก
ประโยคที่ว่า “Terra แสดงประสิทธิภาพที่แข่งขันกับ GPT‑5.5 ได้ในราคาถูกกว่าสองเท่า” สำหรับผมฟังแล้วแปลว่า “เป็นผลิตภัณฑ์ที่ด้อยกว่า แต่พยายามซ่อนเรื่องนั้นด้วยการตลาด”
แล้วพวกถ้อยคำอย่าง “สแตกความปลอดภัยที่แข็งแกร่งที่สุดเท่าที่เคยมีมา, การป้องกันที่เข้มขึ้นต่อกิจกรรมความเสี่ยงสูง·คำขอไซเบอร์ที่อ่อนไหว·การใช้งานผิดซ้ำ ๆ, การค้นหาจุดอ่อนหลายสัปดาห์·การทดสอบกดดัน·การเสริมความพร้อมต่อการโจมตีจริง” อย่างมากสุดก็ไม่มีค่าสำหรับผม และส่วนใหญ่มีแนวโน้มจะเป็นโทษด้วยซ้ำ เพราะมันทำให้การปฏิเสธมากขึ้นหรือยูทิลิตีลดลง
ทำไมผู้ให้บริการถึงยังชู สแตกความปลอดภัย ขึ้นหน้าอยู่เรื่อย ๆ? มีลูกค้าที่ต้องการสิ่งนี้จริง ๆ หรือ? นอกจากผู้ใช้แชตบอต ChatGPT สำหรับงานซัพพอร์ตแล้วผมนึกไม่ออกเลย