4 คะแนน โดย GN⁺ 6 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลแบบเอเจนต์ที่สามารถวางแผนงานซับซ้อนด้วยตัวเอง ผสานการใช้เครื่องมือ และทำงานจนจบได้ ครอบคลุมตั้งแต่การเขียนโค้ดและดีบัก ไปจนถึงการค้นคว้าบนเว็บ การวิเคราะห์ข้อมูล การสร้างเอกสาร·สเปรดชีต และการควบคุมซอฟต์แวร์
  • ยังคงรักษา per-token latency ระดับเดียวกับ GPT-5.4 แต่ยกระดับประสิทธิภาพด้าน coding, computer use, งานความรู้ และงานวิจัยวิทยาศาสตร์ระยะเริ่มต้น พร้อมเพิ่มประสิทธิภาพด้วยการจบงาน Codex แบบเดียวกันโดยใช้โทเคนน้อยลง
  • ในงานวิศวกรรมซอฟต์แวร์ ทำได้ Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, SWE-Bench Pro 58.6% และแสดงจุดเด่นด้านการพัฒนา รีแฟกเตอร์ ดีบัก ทดสอบ ตรวจสอบ และการรักษาบริบทของโค้ดเบสขนาดใหญ่
  • ในเวิร์กโฟลว์งานทั่วไปและงานวิจัย ก็เสริมความสามารถในลำดับงานที่ต่อเนื่องตั้งแต่การสร้างเอกสาร·สเปรดชีต·สไลด์, computer use แบบควบคุมหน้าจอ, การวิเคราะห์ข้อมูลหลายขั้น, การตรวจสอบสมมติฐาน ไปจนถึงการตีความผลลัพธ์ โดย GPT-5.5 Pro มุ่งเน้นความแม่นยำและความครอบคลุมที่สูงกว่า
  • ก่อนเปิดตัวได้ผ่านการเสริมมาตรการความปลอดภัยและการทดสอบทั้งภายใน·ภายนอก และกำลังทยอยเปิดให้ใช้งานใน ChatGPT และ Codex สำหรับผู้ใช้ Plus, Pro, Business, Enterprise เป็นหลัก จึงดูเป็นอีกขั้นของการขยายขอบเขตการใช้ AI เชิงปฏิบัติงาน

ภาพรวมของโมเดลและขอบเขตการเปิดให้ใช้งาน

  • GPT-5.5 ถูกอธิบายว่าเป็นโมเดลที่เข้าใจเจตนาได้เร็วขึ้น วางแผนงานหลายขั้นที่ซับซ้อนด้วยตัวเอง และใช้เครื่องมือผลักดันงานไปจนจบ
    • สามารถทำงานได้ตั้งแต่การเขียนโค้ดและดีบัก การค้นคว้าบนเว็บ การวิเคราะห์ข้อมูล การจัดทำเอกสารและสเปรดชีต การควบคุมซอฟต์แวร์ และงานที่ต้องสลับใช้หลายเครื่องมือ
    • แทนที่จะต้องคอยกำกับทีละขั้นอย่างละเอียด โมเดลนี้ถูกออกแบบมาให้รับงานที่ซับซ้อนและยังไม่เป็นระเบียบได้ในครั้งเดียว แล้วดำเนินต่อเนื่องตั้งแต่การวางแผน การใช้เครื่องมือ การตรวจสอบ ไปจนถึงการจัดการความคลุมเครือ
  • มีการเน้นเป็นพิเศษถึงการพัฒนาในงานแบบเอเจนต์ โดยแสดงประสิทธิภาพสูงในด้าน coding, computer use, knowledge work และงานวิจัยวิทยาศาสตร์ระยะเริ่มต้น
    • แม้โมเดลขนาดใหญ่มักช้าลง แต่ในบริการจริงยังคง per-token latency เท่ากับ GPT-5.4
    • และยังเพิ่มประสิทธิภาพด้วยการทำงาน Codex แบบเดียวกันให้เสร็จโดยใช้โทเคนน้อยลง
  • ก่อนเปิดตัวได้เสริม มาตรการความปลอดภัย ให้เข้มขึ้น และสะท้อนผลจากการทดสอบ red team ทั้งภายในและภายนอก การทดสอบเพิ่มเติมด้านความสามารถ cybersecurity และ biology ขั้นสูง รวมถึงฟีดแบ็กการใช้งานเบื้องต้นจากพาร์ตเนอร์ที่เชื่อถือได้ราว 200 ราย
  • ขณะนี้กำลังทยอยเปิดให้ผู้ใช้ Plus, Pro, Business, Enterprise ใน ChatGPT และ Codex โดย GPT-5.5 Pro จะให้บริการใน ChatGPT สำหรับ Pro, Business และ Enterprise
    • ส่วน API อยู่ระหว่างทำให้สอดคล้องกับข้อกำหนดด้านความปลอดภัยเพิ่มเติม และมีกำหนดให้บริการ GPT-5.5 และ GPT-5.5 Pro ในเร็ว ๆ นี้

วิศวกรรมซอฟต์แวร์และการเขียนโค้ดแบบเอเจนต์

  • OpenAI กำลังสร้าง agentic AI infrastructure และในช่วง 1 ปีที่ผ่านมา AI ได้เร่งความเร็วงานวิศวกรรมซอฟต์แวร์อย่างมาก
    • เมื่อ GPT-5.5 ถูกนำเข้าไปใน Codex และ ChatGPT การเปลี่ยนแปลงนี้ก็เริ่มขยายไปสู่งานวิจัยทางวิทยาศาสตร์และงานคอมพิวเตอร์ทั่วไป
  • ตามเกณฑ์ Artificial Analysis Coding Index โมเดลนี้มอบความฉลาดระดับแนวหน้าสูงสุดในต้นทุนเพียงครึ่งเดียวเมื่อเทียบกับ frontier coding model คู่แข่ง
  • GPT-5.5 ถูกแนะนำว่าเป็น agentic coding model ที่แข็งแกร่งที่สุด ของ OpenAI จนถึงตอนนี้
    • ทำได้ 82.7% ใน Terminal-Bench 2.0 ซึ่งประเมินเวิร์กโฟลว์ command line ที่ซับซ้อนและต้องอาศัยการวางแผน การวนซ้ำ และการผสานใช้เครื่องมือ
    • ใน SWE-Bench Pro ได้ 58.6% และสามารถแก้ปัญหา GitHub issue จริงแบบ end-to-end ได้มากกว่าโมเดลก่อนหน้าในรอบเดียว
    • ในการประเมินภายในอย่าง Expert-SWE ก็ทำได้ดีกว่า GPT-5.4
  • ในการประเมินด้าน coding ทั้งสามชุด โมเดลนี้ทำคะแนนสูงกว่าโดยใช้ โทเคนน้อยกว่า GPT-5.4
  • จุดแข็งใน Codex ปรากฏชัดตลอดทั้งงานพัฒนา รีแฟกเตอร์ ดีบัก ทดสอบ และตรวจสอบ
    • มีความสามารถดีขึ้นในพฤติกรรมเชิงวิศวกรรมจริง เช่น การรักษาบริบทของระบบขนาดใหญ่ การตามหาสาเหตุของความล้มเหลวที่ไม่ชัดเจน การยืนยันสมมติฐานผ่านเครื่องมือ และการสะท้อนการเปลี่ยนแปลงให้ครอบคลุมทั้งโค้ดเบส

ตัวอย่างการใช้งานด้านการเขียนโค้ดและการทดสอบช่วงต้น

  • มีตัวอย่างพรอมป์ตสำหรับสร้างแอป WebGL + Vite โดยใช้ข้อมูลจริงของ Artemis II
    • ใช้ข้อมูลเวกเตอร์จาก NASA/JPL Horizons เพื่อเรนเดอร์วิถีโคจรของ Orion, Moon และ Sun
    • มีการใช้มาตราส่วนการแสดงผลเพื่อให้อ่านง่ายขึ้น
  • ผู้ทดสอบช่วงแรกประเมินว่า GPT-5.5 เข้าใจ โครงสร้างของระบบ ได้ดีกว่า
    • ระบุได้แม่นยำขึ้นว่าอะไรล้มเหลวเพราะอะไร ควรแก้ตรงไหน และจะส่งผลต่อส่วนอื่นของโค้ดเบสอย่างไร
  • Dan Shipper ทดสอบด้วยการย้อนสถานะระบบหลังเกิดปัญหา แล้วดูว่าสามารถสร้างการออกแบบใหม่ในระดับเดียวกันได้หรือไม่ โดย GPT-5.4 ทำไม่สำเร็จ แต่ GPT-5.5 ทำได้สำเร็จ
  • Pietro Schirano รวมบรাঞ্চที่มีการเปลี่ยนแปลง frontend และ refactor หลายร้อยรายการเข้ากับเมนบรাঞ্চที่เปลี่ยนไปมากแล้วได้ ในครั้งเดียวภายในราว 20 นาที
  • ในการทดสอบโดยวิศวกรอาวุโส โมเดลนี้โดดเด่นด้าน reasoning และ autonomy มากกว่า GPT-5.4 และ Claude Opus 4.7
    • สามารถจับปัญหาล่วงหน้าและคาดการณ์ความจำเป็นของการทดสอบและรีวิวได้ แม้ไม่มีพรอมป์ตที่ระบุชัด
    • เมื่อถูกขอให้ออกแบบระบบคอมเมนต์ของ collaborative markdown editor ใหม่ ก็ให้ผลลัพธ์เป็นสแตก 12-diff ที่เกือบเสร็จสมบูรณ์
    • การแก้ไข implementation ที่ต้องทำเพิ่มมีน้อยกว่าที่คาด และความเชื่อมั่นต่อแผนงานก็สูงกว่า GPT-5.4
  • ในคำกล่าวของ Michael Truell จาก Cursor ยังสะท้อนคุณสมบัติที่สามารถ ทำงานต่อเนื่องได้นานกว่า และเหมาะกับงานที่ซับซ้อนและใช้เวลารันยาวโดยไม่หยุดก่อนเวลา

งานความรู้ทั่วไปและการใช้งานคอมพิวเตอร์

  • จุดแข็งที่เห็นในงาน coding ส่งต่อมายัง งานคอมพิวเตอร์ในชีวิตประจำวัน ได้โดยตรง
    • เพราะเข้าใจเจตนาได้ดีกว่า จึงทำได้เป็นธรรมชาติมากขึ้นตลอดทั้งกระบวนการ ตั้งแต่การค้นหาข้อมูล การคัดเลือกข้อมูลสำคัญ การใช้เครื่องมือ การตรวจสอบผลลัพธ์ ไปจนถึงการเปลี่ยนวัตถุดิบให้เป็นผลงานที่นำไปใช้ได้
  • ใน Codex นั้น GPT-5.5 เก่งกว่า GPT-5.4 ในการสร้าง เอกสาร สเปรดชีต และสไลด์
    • ผู้ทดสอบ alpha ระบุว่ามันทำได้ดีกว่าโมเดลก่อนหน้าในงานอย่าง operational research, การทำแบบจำลองในสเปรดชีต และการเปลี่ยนข้อมูลธุรกิจที่ยังไม่เป็นระเบียบให้กลายเป็นแผนงาน
  • เมื่อรวมกับความสามารถด้าน computer use ของ Codex ก็สามารถมองหน้าจอ คลิก พิมพ์ สำรวจอินเทอร์เฟซ และสลับใช้งานหลายเครื่องมือได้อย่างแม่นยำ
  • ภายใน OpenAI เองก็เริ่มใช้งานในเวิร์กโฟลว์จริงแล้ว โดยปัจจุบัน พนักงานมากกว่า 85% ใช้ Codex ทุกสัปดาห์
    • มีการใช้งานครอบคลุมทั้งวิศวกรรมซอฟต์แวร์ การเงิน การสื่อสาร การตลาด วิทยาศาสตร์ข้อมูล และการจัดการผลิตภัณฑ์
  • ทีมสื่อสารวิเคราะห์ข้อมูล speaking request ย้อนหลัง 6 เดือน เพื่อสร้าง framework สำหรับให้คะแนนและประเมินความเสี่ยง และตรวจสอบ Slack agent ที่จะจัดการคำขอความเสี่ยงต่ำแบบอัตโนมัติ และส่งคำขอความเสี่ยงสูงให้มนุษย์ตรวจทาน
  • ทีม Finance ตรวจสอบ แบบฟอร์มภาษี K-1 จำนวน 24,771 ฉบับ รวมทั้งสิ้น 71,637 หน้า และด้วยเวิร์กโฟลว์ที่ตัดข้อมูลส่วนบุคคลออก จึงทำงานเสร็จเร็วขึ้น 2 สัปดาห์เมื่อเทียบกับปีก่อน
  • ในทีม Go-to-Market มีการทำระบบสร้างรายงานธุรกิจประจำสัปดาห์แบบอัตโนมัติ ช่วยประหยัดเวลาได้ 5~10 ชั่วโมงต่อสัปดาห์

GPT-5.5 Thinking และ GPT-5.5 Pro ใน ChatGPT

  • GPT-5.5 Thinking ของ ChatGPT ถูกออกแบบมาให้ตอบปัญหาที่ยากขึ้นได้เร็วขึ้น และช่วยให้งานที่ซับซ้อนดำเนินไปอย่างมีประสิทธิภาพมากขึ้นด้วยคำตอบที่ฉลาดและกระชับกว่าเดิม
    • เด่นด้าน coding, research, การสังเคราะห์และวิเคราะห์ข้อมูล, งานที่ยึดเอกสารเป็นศูนย์กลาง และได้เปรียบเป็นพิเศษเมื่อใช้ plugin
  • GPT-5.5 Pro มุ่งเป้าไปที่งานที่ยากขึ้นและคุณภาพที่สูงขึ้น พร้อมลด latency ทำให้นำไปใช้จริงในงานได้มากขึ้น
    • เมื่อเทียบกับ GPT-5.4 Pro คำตอบมีความครอบคลุมมากขึ้น โครงสร้างดีกว่า แม่นยำกว่า ตรงประเด็นกว่า และมีประโยชน์กว่า
    • เด่นเป็นพิเศษใน business, legal, education และ data science
  • ยังแสดงตัวเลขที่สูงในเบนช์มาร์กระดับงานวิชาชีพ
    • ทำได้ GDPval 84.9%, OSWorld-Verified 78.7% และ Tau2-bench Telecom 98.0%
    • Tau2-bench Telecom ทำได้โดย ไม่ต้อง prompt tuning
    • นอกจากนี้ยังมี FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5% และ OfficeQA Pro 54.1%
  • ในคำกล่าวของ Justin Boitano แห่ง NVIDIA มีการระบุว่าให้บริการบนระบบ NVIDIA GB200 NVL72 ส่งมอบความสามารถแบบ end-to-end ด้วยพรอมป์ภาษาธรรมชาติ ลดเวลาดีบักจากหลายวันเหลือไม่กี่ชั่วโมง และเปลี่ยนการทดลองที่เดิมอาจใช้เวลาหลายสัปดาห์ให้จบได้ภายในข้ามคืน

เวิร์กโฟลว์การวิจัยทางวิทยาศาสตร์และเทคโนโลยี

  • GPT-5.5 ยังแสดงการปรับปรุงประสิทธิภาพใน เวิร์กโฟลว์การวิจัยทางวิทยาศาสตร์และเทคโนโลยี
    • ไม่ได้แค่ตอบคำถามยาก ๆ ได้ดีขึ้น แต่ยังรักษาลูปการทำงานตั้งแต่การสำรวจไอเดีย การรวบรวมหลักฐาน การตรวจสอบสมมติฐาน การตีความผลลัพธ์ ไปจนถึงการตัดสินใจทดลองถัดไปได้ดีขึ้น
  • ใน GeneBench แสดงการพัฒนาที่ชัดเจนเมื่อเทียบกับ GPT-5.4
    • เป็นการประเมินใหม่ที่มุ่งวัดการวิเคราะห์ข้อมูลหลายขั้นตอนใน genetics และ quantitative biology
    • ครอบคลุมข้อมูลที่กำกวมหรือมีข้อผิดพลาด, confounder ที่ซ่อนอยู่, ความล้มเหลวของ QC และการนำเทคนิคสถิติสมัยใหม่ไปใช้พร้อมการตีความ
    • งานในชุดนี้แม้แต่สำหรับผู้เชี่ยวชาญด้านวิทยาศาสตร์ก็ยังเทียบได้กับโปรเจกต์ที่ใช้เวลาหลายวัน
  • ใน BixBench ก็ทำผลงานระดับนำในกลุ่มโมเดลที่มีคะแนนสาธารณะเช่นกัน
    • ถูกแนะนำว่าเป็นเบนช์มาร์กที่สะท้อนงาน bioinformatics และการวิเคราะห์ข้อมูลจริง
    • แสดงศักยภาพในการเร่งงานระดับ co-scientist ในแนวหน้าของ biomedical research
  • GPT-5.5 เวอร์ชันภายในและ custom harness ยังถูกใช้เพื่อค้นหาบทพิสูจน์ใหม่เกี่ยวกับ Ramsey numbers
    • ลิงก์บทพิสูจน์ใหม่
    • ค้นพบบทพิสูจน์เกี่ยวกับข้อเท็จจริงเชิงเส้นกำกับแบบ asymptotic ของ off-diagonal Ramsey numbers ที่เป็นปัญหามายาวนานใน combinatorics และภายหลังตรวจสอบด้วย Lean
    • มีส่วนช่วยต่อยอดไปถึงการให้เหตุผลทางคณิตศาสตร์ที่มีประโยชน์ในสาขาวิจัยแกนหลัก ไม่ใช่เพียงแค่โค้ดหรือคำอธิบาย
  • ผู้ทดสอบกลุ่มแรก ๆ ใช้งาน GPT-5.5 Pro ในฐานะ พาร์ตเนอร์วิจัยมากกว่าเอนจินตอบคำถามแบบครั้งเดียวจบ
    • ใช้ตรวจทานต้นฉบับเชิงวิพากษ์หลายรอบ, stress test ข้อโต้แย้งทางเทคนิค, เสนอการวิเคราะห์ และทำงานร่วมกับบริบทจากโค้ด โน้ต และ PDF
    • ช่วยสนับสนุนเวิร์กโฟลว์จากคำถามไปสู่การทดลองและผลลัพธ์ได้ดียิ่งขึ้น

กรณีศึกษาด้านการวิจัย

  • Derya Unutmaz จาก Jackson Laboratory for Genomic Medicine ใช้ GPT-5.5 Pro วิเคราะห์ชุดข้อมูล gene-expression ที่มี 62 ตัวอย่าง และยีนราว 28,000 ตัว
    • สร้างรายงานการวิจัยแบบละเอียด และไม่ได้สรุปเพียงผลลัพธ์ แต่ยังชี้ให้เห็นคำถามสำคัญและอินไซต์ด้วย
    • หากให้ทีมของเขาทำ งานนี้จะเป็นงานขนาดที่ต้องใช้เวลาหลายเดือน
  • Bartosz Naskręcki จาก Adam Mickiewicz University ใช้ Codex สร้างแอป algebraic-geometry ภายใน 11 นาทีจากพรอมป์เดียว
    • ใช้แสดงภาพการตัดกันของ quadratic surface สองชิ้น และแปลงเส้นโค้งผลลัพธ์เป็น Weierstrass model
    • จากนั้นยังทำให้การแสดงภาพ singularity มีเสถียรภาพมากขึ้น และเพิ่ม exact coefficients ที่นำกลับไปใช้ต่อในงานถัดไปได้
    • Codex ยังช่วยในการทำเวิร์กโฟลว์ด้านการแสดงภาพคณิตศาสตร์แบบเฉพาะทางและ computer-algebra ที่เดิมต้องพึ่งเครื่องมือเฉพาะทาง
  • Credit: Bartosz Naskręcki
  • ในคำกล่าวของ Brandon White แห่ง Axiom Bio ระบุว่าสามารถอนุมานจาก biochemical dataset ขนาดมหาศาลเพื่อทำนาย human drug outcomes และพบการเพิ่มขึ้นของความแม่นยำอย่างมีนัยสำคัญในการประเมินด้าน drug discovery ที่ยากที่สุด

โครงสร้างพื้นฐานสำหรับ inference และการเพิ่มประสิทธิภาพ

  • เพื่อ ให้บริการ GPT-5.5 ด้วย latency ระดับเดียวกับ GPT-5.4 จำเป็นต้องออกแบบ inference ใหม่ทั้งระบบ แทนการมองเป็นชุดการเพิ่มประสิทธิภาพแยกส่วน
    • GPT-5.5 ถูกออกแบบร่วม ฝึกร่วม และให้บริการโดยตั้งต้นบนระบบ NVIDIA GB200 และ GB300 NVL72
  • ทั้ง Codex และ GPT-5.5 เองก็ มีส่วนช่วยโดยตรง ในการบรรลุเป้าหมายด้านประสิทธิภาพ
    • Codex ถูกใช้เพื่อเปลี่ยนไอเดียให้เป็นการนำไปใช้ที่วัดผลด้วยเบนช์มาร์กได้อย่างรวดเร็ว, ร่างแนวทาง, เชื่อมต่อการทดลอง และค้นหาการเพิ่มประสิทธิภาพที่ควรลงทุนต่อในเชิงลึก
    • GPT-5.5 ช่วยค้นหาและลงมือทำการปรับปรุงแกนสำคัญภายในสแตก
    • สุดท้ายแล้วโมเดลยังมีส่วนช่วยปรับปรุงโครงสร้างพื้นฐานที่ใช้ให้บริการตัวมันเองด้วย
  • ตัวอย่างการปรับปรุงที่เป็นตัวแทนคือ load balancing และ partitioning heuristics
    • ก่อนหน้านี้มีการแบ่งคำขอบน accelerator ออกเป็นจำนวน chunk คงที่ ทำให้คำขอขนาดใหญ่และขนาดเล็กไปรันบน GPU เดียวกัน
    • แต่จำนวน chunk แบบคงที่ไม่ได้เหมาะสมที่สุดกับรูปแบบทราฟฟิกทุกแบบ
    • Codex วิเคราะห์รูปแบบ production traffic หลายสัปดาห์ และเขียนอัลกอริทึม heuristic แบบปรับแต่งเฉพาะเพื่อแบ่งและถ่วงดุลงานอย่างเหมาะสมที่สุด
    • งานนี้ทำให้ความเร็วในการสร้างโทเค็นเพิ่มขึ้น มากกว่า 20%

ความปลอดภัยทางไซเบอร์และมาตรการป้องกัน

  • การเตรียมโมเดลที่เก่งด้านการตรวจหาช่องโหว่และการแพตช์ออกสู่โลกจริงนั้นใกล้เคียงกับการเป็น กีฬาประเภททีม และต้องอาศัยความยืดหยุ่นของทั้งระบบนิเวศเพื่อก้าวสู่ยุคถัดไปของการป้องกันทางไซเบอร์
  • ความสามารถด้าน cybersecurity ของโมเดล frontier กำลังแข็งแกร่งขึ้นเรื่อย ๆ และเมื่อความสามารถนี้จะแพร่หลายออกไป เส้นทางที่จะทำให้มันถูกใช้เพื่อเร่งการป้องกันทางไซเบอร์และเสริมความแข็งแกร่งของระบบนิเวศจึงยิ่งสำคัญ
  • GPT-5.5 ถูกวางตำแหน่งเป็น ก้าวที่ค่อยเป็นค่อยไปแต่สำคัญ ไปสู่ AI ที่แก้ปัญหายากอย่าง cybersecurity ได้
    • ใน GPT-5.2 มีการนำ cyber safeguards มาใช้งานล่วงหน้าเพื่อจำกัดการนำไปใช้ในทางที่ผิดด้าน cyber ที่อาจเกิดขึ้น
    • ใน GPT-5.5 มีการนำ classifier ที่เข้มงวดยิ่งขึ้นมาใช้กับ potential cyber risk ซึ่งในช่วงแรกอาจทำให้ผู้ใช้บางส่วนรู้สึกไม่สะดวก
  • ตลอดหลายปีที่ผ่านมา OpenAI จัดให้ cybersecurity เป็นหมวดแยกต่างหากภายใน Preparedness Framework และได้ปรับมาตรการบรรเทาความเสี่ยงอย่างต่อเนื่องตามระดับความสามารถที่เพิ่มขึ้น
  • มีการนำ safeguards ระดับผู้นำอุตสาหกรรม มาใช้ให้สอดคล้องกับระดับความสามารถด้าน cyber นี้
    • เริ่มนำ cyber-specific safeguard มาใช้ครั้งแรกใน GPT-5.2 และหลังจากนั้นก็ทดสอบ ปรับแต่ง และขยายผลในทุกการเปิดตัว
    • ใน GPT-5.5 มีการเพิ่มความเข้มงวดของการป้องกันสำหรับกิจกรรมความเสี่ยงสูง คำขอด้าน cyber ที่อ่อนไหว และการนำไปใช้ในทางที่ผิดแบบซ้ำ ๆ
    • การเปิดให้เข้าถึงในวงกว้างเป็นไปได้จากการลงทุนด้านความปลอดภัยของโมเดล การใช้งานโดยผู้ใช้ที่ผ่านการยืนยัน และการเฝ้าติดตามการใช้งานที่ไม่ได้รับอนุญาต
    • มีการพัฒนา ทดสอบ และปรับปรุง robustness ร่วมกับผู้เชี่ยวชาญภายนอกเป็นเวลาหลายเดือน
    • ช่วยให้นักพัฒนาปกป้องโค้ดได้ง่ายขึ้น ขณะเดียวกันก็วางการควบคุมที่เข้มงวดมากขึ้นต่อเวิร์กโฟลว์ด้าน cyber ที่เอื้อต่อการก่ออันตรายโดยผู้ไม่หวังดี
  • มีการเดินหน้าขยาย การเข้าถึงเพื่อวัตถุประสงค์ด้านการป้องกัน ควบคู่กันไปด้วย
    • ผ่าน Trusted Access for Cyber เพื่อให้เข้าถึงโมเดลแบบ cyber-permissive โดยมี Codex เป็นจุดเริ่มต้น
    • ผู้ใช้ที่ผ่านการตรวจสอบและตรงตาม trust signals ที่กำหนด จะได้รับฟีเจอร์ cybersecurity ขั้นสูงของ GPT-5.5 โดยมีข้อจำกัดน้อยลง
    • องค์กรที่รับผิดชอบ การป้องกัน critical infrastructure สามารถยื่นขอเข้าถึงโมเดลแบบ cyber-permissive เช่น GPT-5.4-Cyber ได้
    • มีเป้าหมายเพื่อมอบเครื่องมือที่มีแรงเสียดทานน้อยลงสำหรับงานด้านความปลอดภัยที่ชอบธรรมแก่ผู้รับผิดชอบด้านการป้องกันที่ผ่านการยืนยันแล้ว
    • ลิงก์สมัคร: chatgpt.com/cyber
  • รวมถึง ความร่วมมือกับพันธมิตรภาครัฐ
    • กำลังสำรวจร่วมกันว่า AI ขั้นสูงจะช่วยสนับสนุนเจ้าหน้าที่ภาครัฐที่ปกป้องโครงสร้างพื้นฐานสำคัญอย่างระบบดิจิทัลสำหรับปกป้องข้อมูลภาษี โครงข่ายไฟฟ้า และระบบน้ำประปาชุมชนได้อย่างไร
  • ความสามารถด้าน biological/chemical และ cybersecurity ของ GPT-5.5 ถูกจัดอยู่ในระดับ High ตาม Preparedness Framework
    • แม้จะยังไม่ถึงระดับความสามารถด้าน cybersecurity ขั้น Critical แต่การประเมินและการทดสอบยืนยันว่าความสามารถด้าน cyber ของ GPT-5.5 สูงกว่า GPT-5.4 อยู่หนึ่งขั้น
  • ผ่าน กระบวนการด้าน safety and governance อย่างครบถ้วนก่อนเปิดตัว
    • ครอบคลุมการประเมินด้าน preparedness การทดสอบรายสาขา การประเมินแบบเจาะจงใหม่สำหรับ biology และ cybersecurity ขั้นสูง และการทดสอบความทนทานอย่างเข้มข้นร่วมกับผู้เชี่ยวชาญภายนอก
    • รายละเอียดเพิ่มเติมมีอยู่ใน GPT-5.5 system card
  • แนวทางนี้เป็นส่วนหนึ่งของยุทธศาสตร์ AI resilience ที่จำเป็นในยุคของโมเดลที่ทรงพลังยิ่งขึ้น
    • AI ที่ทรงพลังต้องถูกมอบให้กับผู้ที่ทำหน้าที่ปกป้องระบบ สถาบัน และสาธารณะด้วยเช่นกัน โดยเสนอให้การเข้าถึงบนฐานความเชื่อถือ safeguards ที่เข้มงวดขึ้นตามระดับความสามารถ และขีดความสามารถเชิงปฏิบัติการในการตรวจจับและตอบสนองต่อการใช้งานในทางที่ผิดอย่างร้ายแรงเป็นเส้นทางสำคัญ

แผนที่ใช้งานได้และราคา

  • ขณะนี้ใน ChatGPT และ Codex นั้น GPT-5.5 กำลังทยอยเปิดให้ผู้ใช้ Plus, Pro, Business และ Enterprise ใช้งาน ส่วน GPT-5.5 Pro มีให้ใน ChatGPT สำหรับ Pro, Business และ Enterprise
  • ใน ChatGPT มี GPT-5.5 Thinking ให้สำหรับ Plus, Pro, Business และ Enterprise
    • GPT-5.5 Pro มุ่งเน้นคำถามที่ยากขึ้นและความแม่นยำที่สูงกว่า และใช้งานได้ใน Pro, Business และ Enterprise
  • ใน Codex นั้น GPT-5.5 มีให้ในแพ็กเกจ Plus, Pro, Business, Enterprise, Edu, Go และมี 400K context window
    • มี Fast mode ให้ด้วย โดยความเร็วในการสร้างโทเค็นเร็วขึ้น 1.5 เท่า และมีค่าใช้จ่าย 2.5 เท่า
  • gpt-5.5 สำหรับนักพัฒนา API จะเปิดให้ใช้งานใน Responses API และ Chat Completions API เร็ว ๆ นี้
    • ระบุราคาไว้ที่ 5 ดอลลาร์ต่อ 1M โทเค็นอินพุต, 30 ดอลลาร์ต่อ 1M โทเค็นเอาต์พุต และมี 1M context window
    • ราคา Batch และ Flex อยู่ที่ครึ่งหนึ่งของอัตรา API มาตรฐาน ส่วน Priority processing คิดค่าบริการที่ 2.5 เท่า
  • gpt-5.5-pro ก็มีแผนจะเปิดตัวบน API เช่นกัน และมุ่งเป้าไปที่ความแม่นยำที่สูงขึ้น
    • ระบุราคาไว้ที่ 30 ดอลลาร์ต่อ 1M โทเค็นอินพุต และ 180 ดอลลาร์ต่อ 1M โทเค็นเอาต์พุต
    • ข้อมูลราคาทั้งหมดลิงก์ไปที่ pricing page
  • GPT-5.5 มี ราคาสูงกว่า GPT-5.4 แต่ก็มีทั้งความฉลาดและประสิทธิภาพการใช้โทเค็นที่สูงกว่า
    • ใน Codex มีการปรับประสบการณ์ให้ผู้ใช้ส่วนใหญ่ได้ผลลัพธ์ที่ดีกว่า GPT-5.4 โดยใช้โทเค็นน้อยลง
    • ยังคงให้ปริมาณการใช้งานที่เอื้อเฟื้ออย่างต่อเนื่องในทุกระดับการสมัครสมาชิก

เกณฑ์วัดผลโดยละเอียด

  • Coding

    • ใน SWE-Bench Pro (Public) GPT-5.5 ได้ 58.6%, GPT-5.4 ได้ 57.7%, Claude Opus 4.7 ได้ 64.3%, และ Gemini 3.1 Pro ได้ 54.2%
    • Terminal-Bench 2.0: GPT-5.5 82.7%, GPT-5.4 75.1%, Claude Opus 4.7 69.4%, Gemini 3.1 Pro 68.5%
    • Expert-SWE (Internal) ระบุว่า GPT-5.5 ได้ 73.1% และ GPT-5.4 ได้ 68.5%
  • งานเฉพาะทาง

    • GDPval (wins or ties): GPT-5.5 84.9%, GPT-5.4 83.0%, GPT-5.5 Pro 82.3%, GPT-5.4 Pro 82.0%, Claude Opus 4.7 80.3%, Gemini 3.1 Pro 67.3%
    • FinanceAgent v1.1: GPT-5.5 60.0%, GPT-5.4 56.0%, GPT-5.4 Pro 61.5%, Claude Opus 4.7 64.4%, Gemini 3.1 Pro 59.7%
    • Investment Banking Modeling Tasks (Internal): GPT-5.5 88.5%, GPT-5.4 87.3%, GPT-5.5 Pro 88.6%, GPT-5.4 Pro 83.6%
    • OfficeQA Pro: GPT-5.5 54.1%, GPT-5.4 53.2%, Claude Opus 4.7 43.6%, Gemini 3.1 Pro 18.1%
  • การใช้งานคอมพิวเตอร์และวิชัน

    • OSWorld-Verified: GPT-5.5 78.7%, GPT-5.4 75.0%, Claude Opus 4.7 78.0%
    • MMMU Pro (no tools): GPT-5.5 และ GPT-5.4 เท่ากันที่ 81.2% และ Gemini 3.1 Pro ได้ 80.5%
    • MMMU Pro (with tools): GPT-5.5 83.2%, GPT-5.4 82.1%
  • การใช้เครื่องมือ

    • BrowseComp: GPT-5.5 84.4%, GPT-5.4 82.7%, GPT-5.5 Pro 90.1%, GPT-5.4 Pro 89.3%, Claude Opus 4.7 79.3%, Gemini 3.1 Pro 85.9%
    • MCP Atlas: GPT-5.5 75.3%, GPT-5.4 70.6%, Claude Opus 4.7 79.1%, Gemini 3.1 Pro 78.2%
    • Toolathlon: GPT-5.5 55.6%, GPT-5.4 54.6%, Gemini 3.1 Pro 48.8%
    • Tau2-bench Telecom: อิงตามพรอมป์ต์ดั้งเดิม GPT-5.5 98.0%, GPT-5.4 92.8%
    • หมายเหตุของ MCP Atlas ระบุว่าเป็น ผลลัพธ์หลังอัปเดตล่าสุดเดือนเมษายน 2026 ของ Scale AI
    • หมายเหตุของ Tau2-bench Telecom ระบุว่าเป็นผลการประเมิน โดยไม่มี prompt adjustment และไม่รวมผล prompt adjustment จากสถาบันวิจัยอื่น
  • วิชาการ

    • GeneBench: GPT-5.5 25.0%, GPT-5.4 19.0%, GPT-5.5 Pro 33.2%, GPT-5.4 Pro 25.6%
    • FrontierMath Tier 1–3: GPT-5.5 51.7%, GPT-5.4 47.6%, GPT-5.5 Pro 52.4%, GPT-5.4 Pro 50.0%, Claude Opus 4.7 43.8%, Gemini 3.1 Pro 36.9%
    • FrontierMath Tier 4: GPT-5.5 35.4%, GPT-5.4 27.1%, GPT-5.5 Pro 39.6%, GPT-5.4 Pro 38.0%, Claude Opus 4.7 22.9%, Gemini 3.1 Pro 16.7%
    • BixBench: GPT-5.5 80.5%, GPT-5.4 74.0%
    • GPQA Diamond: GPT-5.5 93.6%, GPT-5.4 92.8%, GPT-5.4 Pro 94.4%, Claude Opus 4.7 94.2%, Gemini 3.1 Pro 94.3%
    • Humanity's Last Exam (no tools): GPT-5.5 41.4%, GPT-5.4 39.8%, GPT-5.5 Pro 43.1%, GPT-5.4 Pro 42.7%, Claude Opus 4.7 46.9%, Gemini 3.1 Pro 44.4%
    • Humanity's Last Exam (with tools): GPT-5.5 52.2%, GPT-5.4 52.1%, GPT-5.5 Pro 57.2%, GPT-5.4 Pro 58.7%, Claude Opus 4.7 54.7%, Gemini 3.1 Pro 51.4%
  • ความปลอดภัยไซเบอร์

    • Capture-the-Flags challenge tasks (Internal): GPT-5.5 88.1%, GPT-5.4 83.7%
    • CyberGym: GPT-5.5 81.8%, GPT-5.4 79.0%, Claude Opus 4.7 73.1%
    • หมายเหตุระบุว่าเป็นผลลัพธ์จากการขยาย CTF ที่ยากที่สุดซึ่งเขียนไว้ใน system card และเพิ่มชาเลนจ์ความยากสูงเพิ่มเติม
  • บริบทยาว

    • Graphwalks BFS 256k f1: GPT-5.5 73.7%, GPT-5.4 62.5%, Claude Opus 4.7 76.9%
    • Graphwalks BFS 1mil f1: GPT-5.5 45.4%, GPT-5.4 9.4%, Claude Opus 4.6 ได้ 41.2%
    • Graphwalks parents 256k f1: GPT-5.5 90.1%, GPT-5.4 82.8%, Claude Opus 4.7 93.6%
    • Graphwalks parents 1mil f1: GPT-5.5 58.5%, GPT-5.4 44.4%, Claude Opus 4.6 ได้ 72.0%
    • OpenAI MRCR v2 8-needle แสดงผลตามความยาวบริบท โดยได้ 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, 512K-1M 74.0%
    • ในรายการเดียวกัน GPT-5.4 ได้ตามลำดับคือ 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, 36.6%
    • ในช่วง 128K-256K มีการระบุ Claude Opus 4.7 ที่ 59.2% และในช่วง 512K-1M มีการระบุ Claude Opus 4.7 ที่ 32.2%
  • การให้เหตุผลเชิงนามธรรม

    • ARC-AGI-1 (Verified): GPT-5.5 95.0%, GPT-5.4 93.7%, GPT-5.4 Pro 94.5%, Claude Opus 4.7 93.5%, Gemini 3.1 Pro 98.0%
    • ARC-AGI-2 (Verified): GPT-5.5 85.0%, GPT-5.4 73.3%, GPT-5.4 Pro 83.3%, Claude Opus 4.7 75.8%, Gemini 3.1 Pro 77.1%
    • มีการระบุว่าการประเมินตระกูล GPT ดำเนินการในสภาพแวดล้อมวิจัยที่ตั้งค่า reasoning effort เป็น xhigh และในบางกรณีผลลัพธ์อาจต่างจาก ChatGPT เวอร์ชันใช้งานจริงเล็กน้อย

1 ความคิดเห็น

 
GN⁺ 6 일 전
ความคิดเห็นจาก Hacker News
  • คำพูดจากฝั่ง NVIDIA ที่ว่า การสูญเสียสิทธิ์เข้าถึง GPT-5.5 ให้ความรู้สึกราวกับเสียแขนขา ฟังดูน่าขนลุกกว่าที่น่าจะตั้งใจไว้มาก
    ดูเหมือนจะเป็นเรื่องที่ใช้ได้กับการ พึ่งพาโมเดลเขียนโค้ด ระดับแนวหน้าทั้งหมด และยิ่งประสิทธิภาพดีขึ้นก็ยิ่งเผลอพึ่งมันเวลาเขียนโค้ดอย่างรวดเร็ว
    พอเจอกับตัวแล้วความรู้สึกไม่สบายใจก็มีมาก ทุกวันนี้การให้โมเดลจัดการให้ทีเดียวเร็วกว่าเขียนโค้ดเองแบบลงมือทีละบรรทัดราว 10 เท่า และบทบาทของฉันก็เปลี่ยนไปแล้ว
    มันน่าทึ่งที่ทำให้สิ่งต่างๆ เดินหน้าได้มากขนาดนั้น แต่ถ้าโทเคนหมด งานก็แทบจะหยุดไปด้วย
    ตอน Claude ล่ม บางทีกลับออกไปเดินเล่นยังคุ้มกว่าฝืนเขียนโค้ดเองเสียอีก ถ้าอีกหนึ่งชั่วโมง Claude กลับมาใช้ได้ เราจะคืบหน้าได้มากกว่าการนั่งฝืนไล่แก้ปัญหาในโค้ดที่ LLM สร้างให้จนหมดแรง
    ยังไงก็ตาม สภาพแบบนี้ก็น่ากังวลอยู่เหมือนกัน

    • รู้สึกเหมือนว่า ทฤษฎีแรงงาน เองกำลังถูก LLM พลิกคว่ำ
      ตอนนี้ตลาดตั้งอยู่บนสมมติฐานว่าแรงงานถูกทำให้เป็นชิ้นเล็กชิ้นน้อยและมีอำนาจต่อรองต่ำ ขณะที่ทุนมีอำนาจต่อรองสูงกว่ามากและเป็นฝ่ายกำหนดราคาแรงงานโดยพฤตินัยมาโดยตลอด
      แต่ถ้าแรงงานนั้นถูกจัดหาโดยบริษัทที่ใหญ่กว่าอีกแห่งหนึ่ง และแรงงานนั้นต่างจากแรงงานแบบดั้งเดิมตรงที่สามารถตัดอุปทานได้ไม่มีกำหนดล่ะจะเกิดอะไรขึ้น
      ตอนนี้แรงงานได้กลายเป็น ทุน อีกรูปแบบหนึ่งแล้ว และทุนไม่จำเป็นต้องกินข้าว
      บริษัทที่ไม่ได้ใช้โมเดลของตัวเองคงได้เรียนรู้ผลลัพธ์นี้ด้วยตัวเอง
    • จะมองว่าไม่ต่างจากการใช้ library abstraction มากนักก็ได้
      สร้างของได้เร็วขึ้น โค้ดที่เขียนเองน้อยลง และเรื่องจัดการสถานะภายในหรือหน่วยความจำก็ให้ไลบรารีรับไปแทน
      บางคนอาจไม่สบายใจกับการต้องพึ่งการเรียกใช้ไลบรารีแทนการจับ pointer กับ malloc() เอง แต่สำหรับบางคน มันให้ความรู้สึกเป็นอิสระเพราะช่วยให้โฟกัสกับสถาปัตยกรรมระดับสูงได้โดยไม่ต้องจมกับการสลับบริบทระดับล่าง
    • มีวิธีใช้งานแบบตั้งใจเพื่อ ไม่ขุดหลุมศพตัวเองเร็วเกินไป
      ฉันมักจะขอให้มันสร้าง CLI หรือเครื่องมือที่รันได้แบบแยกเดี่ยว แทนที่จะขอคำตอบสำเร็จรูป
      ยังถามด้วยว่ามันมาถึงข้อสรุปนั้นได้อย่างไร เพื่อขยายมุมมองของตัวเอง และให้มันอธิบายวิธีจัดหมวดหมู่ในระดับ metadata ของตัวมันเอง
      โดยเฉพาะใน codebase ขนาดใหญ่ที่ความยากอยู่ที่ ขนาดของ reference graph มากกว่าตัวแนวคิด ฉันพยายามใช้สิ่งนี้เพื่อพัฒนาความสามารถในการแก้ปัญหาของตัวเอง
    • ถ้า โมเดล local ยังรักษาช่องว่างกับโมเดล hosted รุ่นล่าสุดไว้ได้ในระดับพอเหมาะ เช่นตามหลังอยู่ราว 12 เดือน และฮาร์ดแวร์ local ก็ยังเข้าถึงได้ต่อเนื่อง ความเสี่ยงอาจถูกจำกัดไว้ได้
      เพราะต่อให้โมเดล hosted หายไปหรือแพงเกินไป เราก็แค่เสียความต่างด้านประสิทธิภาพเล็กน้อยนั้นไป
      แน่นอนว่าสมมติฐานทั้งสองข้อนี้ไม่ได้ชัดเจนเลย จึงได้แต่หวังว่ามันจะเป็นแบบนั้น
    • ถ้าคิดถึง ผลประโยชน์ด้านราคาหุ้น ของ NVIDIA และ OpenAI ก็ไม่แปลกที่จะมีคำพูดแบบนั้นออกมา
      และที่ยังได้ยินสโลแกน เพิ่มผลิตภาพ 10 เท่า ซ้ำๆ อยู่ ก็พูดตรงๆ ว่ายังเชื่อได้ยาก
  • วันนี้คือวัน เปิดตัว GPT-5.5 แต่การปล่อยให้ใช้ใน ChatGPT และ Codex จะค่อยๆ ทยอยทำในช่วงหลายชั่วโมง
    เพื่อความเสถียรของบริการจึงจะเปิดแบบเป็นขั้นๆ เหมือนรอบก่อนๆ โดยปกติจะเริ่มจาก Pro/Enterprise แล้วค่อยลงมาที่ Plus
    ถ้ายังไม่เห็นก็ให้กลับมาตรวจอีกทีภายหลัง
    การต้องรอแบบสุ่มอาจน่าหงุดหงิด แต่ทำเพื่อความเสถียร
    ผู้แสดงความเห็นระบุว่าทำงานที่ OpenAI

    • ลองรัน OpenClaw ด้วย GPT-5.4 API xhigh แล้ว แต่ทำให้โมเดลลงมือทำงานไม่ได้เลย
      ตั้งใจจะใช้แทนหลัง Anthropic OAuthgate แต่แม้แต่งานย่อยที่เร็ว ปลอดภัย และไม่เป็นอันตรายก็ยังทำไม่สำเร็จ
      บทสนทนาจบลงด้วยการขอโทษวนไปมาว่า “ตรงนี้ควรทำ X” “ใช่ ล้มเหลว” “งั้นทำตอนนี้สิ” “ควรทำแต่ไม่ได้ทำ” ไม่รู้จบ
      พอภายหลังเห็นว่า GLM, Kimi, Minimax ทำได้ไม่มีปัญหา ก็ยิ่งน่าอึ้ง และทำให้ต้องเลิกใช้ OpenAI ทันที
    • ถ้ามี dashboard สำหรับ rollout แบบสาธารณะ ความสับสนน่าจะลดลงมาก
      ยิ่งไปกว่านั้น ถ้าใน UI บอกได้ว่าโมเดลมีอยู่แต่บัญชีของเรายังไม่ถูกเปิดให้ใช้ก็น่าจะดี
      ถ้ามี ETA ด้วยจะดีที่สุด แต่ก็คงคาดเดายากเพราะอาจมีปัญหาเกิดขึ้นระหว่าง rollout ได้
    • ขอแสดงความยินดีกับการเปิดตัว
      สงสัยว่า Images 2.0 จะถูกปล่อยใน ChatGPT พร้อมกันด้วยหรือไม่ หรือจะยังเป็นฟีเจอร์เฉพาะ API/Playground ไปอีกสักพัก
    • ในมุมของผู้ใช้ Plus ยังไม่ค่อยกล้าลองใช้ Codex เพราะไม่รู้ว่ามันจะกินโควต้าการใช้งานไปมากแค่ไหน
    • สงสัยว่า GPT-5.5 fine-tuning จะมาเร็วๆ นี้ด้วยไหม
  • แม้ยังไม่มี สิทธิ์เข้าถึง API อย่างเป็นทางการ แต่ช่วงนี้ OpenAI ดูเหมือนจะปล่อยผ่านแบ็กดอร์ Codex API ที่ OpenClaw ใช้อยู่โดยพฤตินัย
    https://twitter.com/steipete/status/2046775849769148838 และ https://twitter.com/romainhuet/status/2038699202834841962
    ในแบ็กดอร์ API นั้นมี GPT-5.5 รวมอยู่ด้วย
    จึงลองรันตัวอย่าง pelican ดู https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
    โดยใช้ปลั๊กอินใหม่สำหรับ LLM https://github.com/simonw/llm-openai-via-codex
    พอทีหลังเพิ่ม reasoning effort เป็น xhigh ก็ได้ pelican ที่ดีกว่ามาก
    https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...

    • pelican จากโมเดล local ที่โพสต์เมื่อวานยังดูดีกว่านี้อีก
      แต่ตัวนี้ก็ยังตลกดีเพราะมันไขว้ขาอยู่
    • อันนี้พูดตรงๆ ว่าแย่มาก
      ออกมา ถึงเวอร์ชัน 5.5 แล้ว แต่ยังวาดโครงจักรยานพื้นฐานให้ถูกไม่ได้จะไหวหรือ
      ล้อหน้ามันไม่ได้มีโครงสร้างให้หันไปด้านข้างได้ แต่ภาพกลับทำไม่ถูก
    • การที่ตั้งค่าเริ่มต้นใช้แค่ reasoning tokens 39 ตัว แล้วทำได้ขนาดนั้นก็ถือว่าน่าทึ่งมาก
      ไม่รู้เหมือนกันว่า reasoning token คืออะไรแน่ แต่จำนวนโทเคนมันดูน้อยจนน่าตกใจ
    • สงสัยว่าการ ใช้ API ตรงแบบนี้ ได้รับอนุญาตตามข้อกำหนดหรือไม่
      จำได้ว่า Anthropic ไม่ชอบการใช้งานแนวนี้มาก
    • สงสัยว่าทำไมมันถึง วาดได้แย่กว่าของอื่นๆ ที่โพสต์ช่วงหลังมาก
      แม้แต่โมเดล local แบบ open weights อย่าง Qwen ที่โพสต์เมื่อวานก็ดูดีกว่า
  • ทุกคนเอาแต่พูดถึง Mythos gating ของ Anthropic กับการตลาดเรื่อง CyberGym 83% แต่ OpenAI ปล่อย GPT-5.5 ออกมาเลยและได้ 82%
    การที่ใครๆ ก็ลองใช้ได้สำคัญกว่ามาก
    ถ้าเป็นคนทำงานด้าน cybersecurity เชิงรุก/เชิงรับ ก็น่าจะควรลองแตะโมเดลที่ปล่อยใช้งานจริงแบบนี้ด้วยตัวเอง มากกว่าจะเชื่อคำโฆษณาเกินจริง
    ไม่คิดว่าจะได้พูดแบบนี้ แต่ตอนนี้ OpenAI ดูกลับมาเป็นตัวเลือกที่ เปิดกว่า อีกครั้ง

    • กระแส hype ที่แท้จริงคือทันทีที่ Anthropic ประกาศ Mythos ทุกคนก็รู้ว่า OpenAI จะปล่อยโมเดลคู่แข่งภายในไม่กี่สัปดาห์ และ Sam ก็คงไม่ปิดกั้นการเข้าถึง
      นั่นจึงเป็นเหตุผลที่วงการความปลอดภัยตื่นตระหนก เพราะมองว่าเวลาสำหรับป้องกัน zero-day ใหม่ๆ อาจเหลือจริงๆ แค่ราวสองสัปดาห์ ก่อนจะเข้าสู่ open season ที่พวก black hat จะค้นพบและนำไปใช้ประโยชน์กันเป็นวงกว้าง
    • เมื่อเทียบกับ Anthropic แล้ว OpenAI ก็ เปิดกว่า มาตั้งแต่แรก
      Anthropic ไม่เคยปล่อยโมเดลสาธารณะเลย ไม่เคยเปิด ซอร์สของ Claude Code ด้วยความสมัครใจ และยังไม่ปล่อย tokenizer ด้วย
    • OpenAI เหมือนจะโกรธเมื่อถูกถามเรื่อง cybersecurity และจะให้เราอัปโหลดบัตรประชาชนของรัฐ ไม่งั้นก็เงียบๆ ส่งเราไปใช้โมเดลที่ด้อยกว่า
      ในเอกสารก็เขียนว่างานที่เกี่ยวกับ cybersecurity ถ้าถูกระบบตรวจจับอัตโนมัติจับได้ อาจถูก fallback ไป GPT-5.2
      https://developers.openai.com/codex/concepts/cyber-safety
      https://chatgpt.com/cyber
    • ฉัน ไม่สนข่าว hype พวกนั้นเลย
      สำหรับฉัน Anthropic แทบเหมือนภาพแทนของการโม้
      หลังจากเคยอ่าน Cialdini มาก่อน การจัดฉากแบบ Anthropic ก็ชวนเบื่อ
      ตรงกันข้าม OpenAI ฉลาดมาก พอ Claude ดังขึ้นก็หายจากพาดหัวไปพักหนึ่ง แต่ตอนนี้ด้วยฐานผู้ใช้มหาศาล แค่ตามรอบปล่อยของ Anthropic ก็ทำให้อีกฝ่ายดูน่าขันได้แล้ว
      ในมุมของ Anthropic ยิ่งมี GPT เวอร์ชัน ใหม่ออกมาแต่ละครั้งก็น่าจะยิ่งน่าอนาถ และภาพรวมก็ดูเหมือน OpenAI จะยึดเกมไปหมด
    • เหมือน OpenAI ก็ ส่งคำถามด้านไซเบอร์ ไปให้โมเดลที่โง่กว่าจัดการเหมือนกันหรือเปล่า
  • อยากให้ดูส่วน ราคา/ข้อจำกัดการใช้งาน ของหน้านี้
    https://developers.openai.com/codex/pricing?codex-usage-limi...
    ให้ดูความต่างของ Local Messages ระหว่าง 5.3, 5.4, 5.5
    เคยอ่านคำอ้างว่า 5.5 มีประสิทธิภาพมากกว่า จึงใกล้จุดคุ้มทุนกับ 5.4 แต่ไม่ว่าอย่างไร แนวโน้มก็ดูเหมือนข้อจำกัดเข้มขึ้นและราคาสูงขึ้น

    • ถ้าอิง API แล้ว ราคา GPT-5.5 เป็น 2 เท่าของ GPT-5.4, ราว 4 เท่าของ GPT-5.1 และราว 10 เท่าของ Kimi-2.6
      ดูเหมือนบทเรียนที่ได้จากกรณี Anthropic คือ นักพัฒนาจะพึ่ง coding agent อย่างรวดเร็วและถึงขั้นเสพติด ดังนั้นขอแค่ดีขึ้นนิดหน่อยก็พร้อมจ่ายเท่าไรก็ได้
  • ต้นแบบ 3D dungeon arena ที่ทำด้วย Codex และ GPT ดูใช้ได้ทีเดียว
    ระบุว่า Codex รับผิดชอบสถาปัตยกรรมเกม การพัฒนา TypeScript/Three.js ระบบต่อสู้ การเผชิญหน้าศัตรู และ HUD feedback ส่วนเท็กซ์เจอร์สภาพแวดล้อมสร้างโดย GPT และโมเดลตัวละครกับแอนิเมชันทำด้วยเครื่องมือสร้างแอสเซ็ตจาก third party
    สาเหตุที่ภาพออกมาดูโอเคก็น่าจะเป็นเพราะ mesh ไม่ได้สร้างโดย GPT-5.5 โดยตรง แต่สร้างด้วยเครื่องมือแยกต่างหาก
    พอเห็นแบบนี้ก็รู้สึกว่ายุคที่เกมเมอร์หรือนักพัฒนางานอดิเรกสามารถปั้นคอนเซปต์เกมได้เร็วแล้วปล่อยขึ้นเว็บได้ทันที แบบยุค Flash อาจกำลังกลับมา
    โดยเฉพาะ Three.js ทั้งที่ไม่ใช่ game engine ด้วยซ้ำ แต่กลับเหมือนกำลังกลายเป็นเครื่องมือหลักโดยพฤตินัยสำหรับการออกแบบเกมด้วย AI

    • ตลอด 3 ปีที่ผ่านมา ฉันทดลอง Three.js กับ AI มาเรื่อยๆ และรู้สึกถึงการก้าวกระโดดครั้งใหญ่เป็นพิเศษใน 5.4
      ถ้ามองเฉพาะด้าน Three.js นี่คือการกระโดดข้ามรุ่นครั้งใหญ่ที่สุดครั้งหนึ่ง โดยเด่นมากใน GLSL shader และการจัดโครงสร้างฉากที่แยกเป็นหลายหน้า/หลายคอมโพเนนต์ก็ดีขึ้น
      การสร้าง shader ทั้งชุดจากศูนย์ยังยากอยู่ แต่ความสามารถในการแก้ shader ที่มีอยู่แล้วตอนนี้ใช้งานได้จริงมากขึ้นมาก
      ใน 5.2 หรือต่ำกว่านั้น มันทำแพตเทิร์น one canvas, multiple page ที่ต้องคง background canvas เดียวไว้ข้ามหลาย route ได้แย่มาก แต่ 5.4 แม้ยังต้องช่วยประคองอยู่บ้าง ก็ตอบสนองต่อพรอมป์ตเรื่อง refactor และ optimization ได้ดีกว่ามาก
      เลยตื่นเต้นที่จะได้ลองดูว่า 5.5 เป็นอย่างไรจริงๆ
    • ยุคแบบ Flash มาถึงมาพักใหญ่แล้ว และคอขวดก็เป็นเรื่องความคิดสร้างสรรค์มาตลอด
    • ฉันเคยให้ LLM ช่วยเยอะมากกับ เกมและโปรเจกต์ที่ใช้ Three.js และผลก็ออกมาดี
      งานภาพนาฬิกาประหลาดที่ฉันทำก็พึ่งพามันไม่น้อย
      มันไม่ใช่ game engine แต่สำหรับ WebGL 3D บนเว็บ มันแทบเป็นมาตรฐานอยู่แล้ว และเพราะอยู่มานาน ข้อมูลสำหรับการเรียนรู้ ก็เลยมหาศาล
      ก่อนยุค LLM ฉันพึ่ง Babylon.js มากกว่า เพราะมีฟีเจอร์ระดับสูงให้มากกว่า
    • คนรู้จักของฉันกำลังทำ Jamboree
      ชื่อเดิมคือ Spielwerk เป็นแอปบน iOS สำหรับสร้างและแชร์เกม
      ทุกอย่างอยู่บนเว็บทั้งหมด เลยแชร์ได้ง่าย
      https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
    • LLM ยัง คิดเชิงพื้นที่ ไม่ได้
      ฉันยังไม่ได้ลองกับ GPT แต่กับ Claude ไม่ว่าทำ prompt engineering ยังไงก็แก้ Rubik's Cube ไม่ได้ และแม้แต่ Opus 4.6 ก็ยังทำถูกได้แค่ราว 70% ของพัซเซิลก่อนจะตัน
      แถมหนึ่งครั้งลองก็เสีย 20 ดอลลาร์ ทำให้ค่าใช้จ่ายรับไม่ไหว
      ถ้าทำให้มันให้เหตุผลเชิงสามมิติได้จริง อาจขยายแนวทางเดียวกันนี้ไปยังโจทย์คณิตศาสตร์ที่ตอนนี้ยังแก้ไม่ได้ด้วย
      ฉันกำลังคิดว่าจะเปิด เซิร์ฟเวอร์ MCP สำหรับ Rubik's Cube ของตัวเอง เพื่อให้คนมาท้าทายกันว่าใครจะใช้แค่พรอมป์ตแก้ลูกบาศก์ได้
  • ในการประกาศครั้งนี้ สิ่งที่น่าสนใจกว่า benchmark คือประเด็นที่ว่า Codex วิเคราะห์แพตเทิร์นทราฟฟิกจริงหลายสัปดาห์เพื่อเพิ่มการใช้ GPU และเขียน อัลกอริทึม heuristic แบบกำหนดเอง สำหรับแบ่งงานและทำ balancing จนดันความเร็วในการสร้างโทเคนขึ้นได้มากกว่า 20%
    พื้นที่ที่ agentic LLM ทำ การเพิ่มประสิทธิภาพเชิงคำนวณ แบบนี้ได้มีผลกระทบสูงมาก แต่กลับดูถูกทดสอบน้อยกว่า benchmark
    จากประสบการณ์ของฉัน ส่วนนี้ Opus ยังดีกว่า GPT/Codex แต่เมื่อ OpenAI ได้ประโยชน์จริงจากการรีดประสิทธิภาพแบบนี้ภายใต้แรงกดดันเรื่องต้นทุนและความจุ ก็คงจะเดินหน้าทางนี้ต่อไป

    • ตอนทำ ประมวลผลข้อมูลประสิทธิภาพสูง ด้วย Rust ฉันเจอกำแพงที่ต้องเร่งประสิทธิภาพให้ดีขึ้นมากกว่า 100 เท่า
      มันทำให้ฉันนึกถึงการ optimize แบบ code golf ของ Intel FizzBuzz ที่เคยดังมาก เลยให้ gemini pro ดูโค้ดของฉันแล้วขอว่า “ช่วยเสนอ optimization ฉลาดๆ แบบนั้นหน่อย” ซึ่งข้อเสนอที่ได้ออกมายอดเยี่ยมจริงๆ
      LLM ทำให้ประหลาดใจได้ทุกวัน
    • มี KernelBench ทดสอบการ optimize CUDA kernel อยู่แล้ว
      และทุกบริษัทก็รู้กันดีว่าการ optimize ทั้งโครงสร้างพื้นฐานและตัวโมเดลของตนเองคือเส้นทางหลักสู่ชัยชนะในการแข่งขัน ดังนั้นส่วนนี้คงถูกเอาจริงเอาจังมาก
    • ปัญหาคือคำกล่าวอ้างแบบนี้มัน อิงประสบการณ์เฉพาะ มากเกินไปจนทำซ้ำได้ยาก
      ดีใจที่เห็นการก้าวออกจาก benchmark แบบดั้งเดิมอย่าง MMLU แต่การพูดตัวเลขลักษณะนี้โดยไม่มีการทดลองควบคุมที่เหมาะสมก็ไม่ได้ช่วยอะไรนัก
  • ถ้ามอง Mythos vs GPT-5.5 แบบตัวเลข จะเห็นว่าใน SWE-bench Pro ยังห่างกันมาก แต่ที่เหลือนอกนั้นค่อนข้างใกล้กัน
    SWE-bench Pro 77.8% ต่อ 58.6%
    Terminal-bench-2.0 82.0% ต่อ 82.7%
    GPQA Diamond 94.6% ต่อ 93.6%
    H. Last Exam 56.8% ต่อ 41.4%
    H. Last Exam (tools) 64.7% ต่อ 52.2%
    BrowseComp 86.9% ต่อ 84.4%, แบบ Pro คือ 90.1%
    OSWorld-Verified 79.6% ต่อ 78.7%
    แหล่งที่มาของตัวเลข Mythos คือ https://www.anthropic.com/glasswing

    • Mythos จะมีความหมายก็ต่อเมื่อใช้งานได้จริงเท่านั้น
      ตอนนี้พอลองใช้ Opus 4.7 ก็รู้สึกว่าความเป็นอัตโนมัติถูกเนิร์ฟลงหนักมาก และถูกจำกัดอย่างหนักเพราะเรื่องความปลอดภัยที่เรียกกันว่า safety
      เลยยังไม่ค่อยมั่นใจว่าในทางปฏิบัติมันจะสุดยอดอย่างที่ Anthropic โฆษณาหรือไม่
    • ตามหน้าประกาศของ Anthropic ระบุว่าทีม Claude ยืนยันการ ท่องจำ SWE-bench และบอกว่าชุดทดสอบนั้นเข้าไปอยู่ในข้อมูลฝึกจริง
      อยู่ตรงนี้
      https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
    • ฉันลองดู SWE-bench Verified อยู่บ้าง และตัวเลขของ Mythos ทิ้งคำถามไว้หลายอย่าง
      พอคัดจากผลส่งอย่างเป็นทางการที่ https://github.com/SWE-bench/experiments/tree/main/evaluatio... เอาเฉพาะโมเดลหลัง Sonnet 4 แล้วรวมทั้ง 500 ปัญหา พบว่าอัตราแก้ได้ของทุกโมเดลรวมกันอยู่ที่ 93% พอดี
      แต่ Mythos กลับทำได้ 93.7% ซึ่งแปลว่ามันแก้โจทย์ที่โมเดลอื่นไม่มีตัวไหนแก้ได้ด้วย และพอฉันไปดูโจทย์เหล่านั้นเองกลับยิ่งน่าสงสัย
      7% สุดท้ายของโจทย์ดูแทบเป็นไปไม่ได้เลยหากไม่ได้เห็น test patch ล่วงหน้า และวิธีแก้จริงก็ไปคนละทางกับคำอธิบายโจทย์มากจนเหมือนกำลังแก้อีกปัญหาหนึ่งอยู่
      ฉันไม่ได้จะสรุปว่า Mythos โกง แต่ก็อาจเป็นไปได้ว่ามันจำสถานะต่างๆ ของ repository ได้ดีเกินไป จนสามารถย้อนอนุมาน คำอธิบายปัญหาที่แท้จริง จาก diff ในความทรงจำภายในได้
      มิฉะนั้นก็ยากจะอธิบายว่าทำไมมันถึงตีความคำอธิบายที่กำกวมเหล่านั้นได้แม่นยำขนาดนั้น
    • benchmark เดี่ยวๆ ไม่มีความหมายอะไรเลย
      ใน benchmark มักมีผลลัพธ์ประหลาดโผล่มาเสมอ
  • ยังน่าเสียดายที่ อัตราหลอน 86%
    เทียบกันแล้ว Opus อยู่ราว 36%
    แหล่งที่มาคือ https://artificialanalysis.ai/models?omniscience=omniscience...

    • Grok อยู่ที่ 17% และเป็นค่าต่ำสุด ขณะที่โมเดลส่วนใหญ่เกิน 80% นั้นดูแปลก
      แล้วขึ้นกับคำถาม บางครั้งอาการหลอนก็ดูเหมือนใกล้ 100% ด้วยซ้ำ benchmark นี้เลยไม่ค่อยตรงกับสัญชาตญาณเท่าไร
    • มันมีอะไรแปลกๆ Haiku ไม่น่าจะออกมาดีขนาดนั้นได้
    • มันอ่านได้เหมือนเป็นสัญญาณว่าบริษัทต่างๆ ต้องการพฤติกรรมแบบนั้น
      คนที่ถามมีแนวโน้มว่าจะยังไม่เข้าใจปัญหาอย่างถ่องแท้ จึงดูเหมือนจะชอบคำตอบที่มั่นใจไว้ก่อน ไม่ว่าผลลัพธ์จะเป็นอย่างไร
      เป้าหมายดูเหมือนเป็นการขาย ภาพลักษณ์ว่าดูมีความสามารถ มากกว่าความสามารถจริงของเทคโนโลยี
      LLM อาจทำลายผลิตภัณฑ์ได้ แต่ถ้าจะเชื่อว่าเครื่องจักรความคิดของมหาเศรษฐีแทนพนักงานได้จริง แล้วเทงบแรงงาน 75% ลงไปกับมัน ก็เชิญรับผลกันตามสบาย
  • โมเดลนี้เก่งมากกับ งานระยะยาว และตอนนี้ Codex ก็มี heartbeats แล้ว จึงคอยตรวจสถานะได้เรื่อยๆ
    ระบุว่าถ้าลองมอบปัญหายากๆ ที่ต้องใช้เวลาหลายชั่วโมงและมีข้อจำกัดที่ตรวจสอบได้ จะเห็นเลยว่ามันดีแค่ไหน
    ผู้แสดงความเห็นระบุว่าทำงานที่ OpenAI

    • ฟีเจอร์นี้ดูดีมาก อยากลองทดสอบเร็วๆ
      ช่วงนี้เหนื่อยกับโมเดลอื่นๆ โดยเฉพาะ Opus ที่ชอบหยุดกลางงานบ่อยๆ
    • ใน การประเมินภายในของ Canva GPT-5.5 แก้โจทย์ frontier challenge แบบงานระยะยาวได้หลายข้อ และหลายครั้งก็เป็นครั้งแรกในบรรดาโมเดล AI ที่เราทดสอบ
      ยินดีกับการเปิดตัว
    • อยากให้ช่วยอธิบายว่า heartbeats คืออะไรกันแน่