4 คะแนน โดย GN⁺ 2026-04-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลแบบเอเจนต์ที่วางแผนงานซับซ้อนได้ด้วยตัวเองและผสานการใช้เครื่องมือเพื่อทำงานจนจบ ครอบคลุมตั้งแต่การเขียนโค้ดและดีบัก ไปจนถึงการค้นคว้าบนเว็บ การวิเคราะห์ข้อมูล การสร้างเอกสาร·สเปรดชีต และการควบคุมซอฟต์แวร์
  • ยังคง per-token latency ระดับเดียวกับ GPT-5.4 แต่ยกระดับประสิทธิภาพในด้าน coding, computer use, งานความรู้ และการวิจัยวิทยาศาสตร์ระยะเริ่มต้น อีกทั้งยังจบงาน Codex แบบเดียวกันได้ด้วยจำนวนโทเค็นที่น้อยลง ทำให้มีประสิทธิภาพมากขึ้น
  • ในงานวิศวกรรมซอฟต์แวร์ ทำได้ Terminal-Bench 2.0 82.7%, Expert-SWE 73.1%, SWE-Bench Pro 58.6% และแสดงจุดแข็งด้านการ implement, refactor, debug, test, verify รวมถึงการรักษาบริบทของโค้ดเบสขนาดใหญ่
  • ในเวิร์กโฟลว์งานทั่วไปและงานวิจัย ก็เสริมความสามารถของกระบวนการที่ต่อเนื่องตั้งแต่ การสร้างเอกสาร·สเปรดชีต·สไลด์, computer use แบบควบคุมหน้าจอ, การวิเคราะห์ข้อมูลหลายขั้นตอน, การตรวจสอบสมมติฐาน ไปจนถึงการตีความผลลัพธ์ โดย GPT-5.5 Pro มุ่งเน้นความแม่นยำและความครอบคลุมที่สูงกว่า
  • ก่อนเปิดตัว ได้ผ่าน มาตรการความปลอดภัยที่เข้มงวดยิ่งขึ้น และการทดสอบทั้งภายในและภายนอก และกำลังทยอยเปิดให้ใช้ใน ChatGPT และ Codex สำหรับผู้ใช้ Plus, Pro, Business และ Enterprise เป็นหลัก จึงดูเป็นอีกขั้นของการขยายขอบเขตการใช้งาน AI เชิงปฏิบัติในงานจริง

ภาพรวมโมเดลและขอบเขตการเปิดให้ใช้งาน

  • GPT-5.5 ถูกแนะนำว่าเป็นโมเดลที่เข้าใจเจตนาได้เร็วขึ้น วางแผนงานที่เกี่ยวข้องกันหลายขั้นตอนด้วยตัวเอง และใช้เครื่องมือเพื่อผลักดันงานให้เสร็จจนถึงที่สุด
    • สามารถทำงานได้ทั้งการเขียนโค้ดและดีบัก การค้นคว้าบนเว็บ การวิเคราะห์ข้อมูล การสร้างเอกสารและสเปรดชีต การควบคุมซอฟต์แวร์ และงานที่ต้องสลับไปมาระหว่างหลายเครื่องมือ
    • แทนที่จะต้องควบคุมทุกขั้นตอนอย่างละเอียด โมเดลนี้ถูกออกแบบมาให้รับงานที่ซับซ้อนและยังไม่เป็นระเบียบในคราวเดียว แล้วดำเนินต่อเนื่องตั้งแต่การวางแผน การใช้เครื่องมือ การตรวจสอบ ไปจนถึงการจัดการกับความกำกวม
  • มีการเน้นย้ำเป็นพิเศษถึงการพัฒนาในงาน แบบเอเจนต์ โดยแสดงประสิทธิภาพสูงในด้าน coding·computer use·knowledge work·การวิจัยวิทยาศาสตร์ระยะเริ่มต้น
    • แม้โมเดลขนาดใหญ่กว่ามักจะช้าลง แต่ per-token latency ในการใช้งานจริงยังคงเท่ากับ GPT-5.4
    • และยังทำงาน Codex แบบเดียวกันให้เสร็จได้ด้วยจำนวนโทเค็นที่น้อยกว่า จึงมีประสิทธิภาพสูงขึ้นด้วย
  • ก่อนเปิดตัว ได้เสริม มาตรการความปลอดภัย ให้เข้มงวดยิ่งขึ้น และสะท้อนผลจากการทดสอบ red team ทั้งภายในและภายนอก การทดสอบเพิ่มเติมด้าน cybersecurity และ biology ขั้นสูง รวมถึงฟีดแบ็กการใช้งานระยะแรกจากพาร์ตเนอร์ที่เชื่อถือได้ราว 200 ราย
  • ขณะนี้กำลังทยอยเปิดให้ผู้ใช้ Plus, Pro, Business, Enterprise ใน ChatGPT และ Codex ส่วน GPT-5.5 Pro จะให้ใช้งานใน ChatGPT สำหรับ Pro·Business·Enterprise
    • ส่วน API กำลังอยู่ระหว่างการปรับให้ตรงตามข้อกำหนดด้านความปลอดภัยแยกต่างหาก และมีแผนจะเปิดให้ใช้ GPT-5.5 และ GPT-5.5 Pro ในเร็ว ๆ นี้

วิศวกรรมซอฟต์แวร์และการเขียนโค้ดแบบเอเจนต์

  • OpenAI กำลังสร้าง agentic AI infrastructure และในช่วง 1 ปีที่ผ่านมา AI ได้เร่งความเร็วของวิศวกรรมซอฟต์แวร์อย่างมาก
    • เมื่อ GPT-5.5 ถูกนำเข้าไปใน Codex และ ChatGPT การเปลี่ยนแปลงนี้ก็เริ่มขยายไปสู่งานวิจัยวิทยาศาสตร์และงานคอมพิวเตอร์ทั่วไป
  • ตามเกณฑ์ Artificial Analysis Coding Index โมเดลนี้มอบสติปัญญาระดับแนวหน้าสูงสุดด้วยต้นทุนเพียงครึ่งเดียวเมื่อเทียบกับ frontier coding model ที่แข่งขันกันอยู่
  • GPT-5.5 ถูกนำเสนอว่าเป็น agentic coding model ที่แข็งแกร่งที่สุด ตามเกณฑ์ของ OpenAI
    • ทำได้ 82.7% บน Terminal-Bench 2.0 ซึ่งใช้ประเมินเวิร์กโฟลว์ command line ที่ซับซ้อนและต้องอาศัยการวางแผน การทำซ้ำ และการผสานการใช้เครื่องมือ
    • ทำได้ 58.6% บน SWE-Bench Pro และสามารถแก้ปัญหา GitHub issue จริงแบบ end-to-end ใน single pass ได้มากกว่าโมเดลก่อนหน้า
    • ในการประเมินภายในอย่าง Expert-SWE ก็ยังเหนือกว่า GPT-5.4
  • ตลอดทั้งสามการประเมินด้าน coding โมเดลนี้ทำคะแนนได้สูงกว่า พร้อมใช้โทเค็นน้อยกว่า GPT-5.4
  • จุดแข็งใน Codex ปรากฏชัดทั้งในงาน implement, refactor, debug, test และ verify
    • มีความสามารถสูงขึ้นในการกระทำแบบวิศวกรรมจริง เช่น การรักษาบริบทของระบบขนาดใหญ่ การตามหาสาเหตุของความล้มเหลวที่คลุมเครือ การยืนยันสมมติฐานด้วยเครื่องมือ และการสะท้อนการเปลี่ยนแปลงไปทั่วทั้งโค้ดเบส

ตัวอย่างการใช้งานด้านโค้ดและการทดสอบระยะแรก

  • มีการยกตัวอย่างพรอมป์ตสำหรับสร้างแอป WebGL + Vite โดยใช้ข้อมูลจริงจาก Artemis II
    • ใช้ข้อมูลเวกเตอร์ NASA/JPL Horizons เพื่อเรนเดอร์เส้นทางโคจรของ Orion, Moon และ Sun
    • มีการใช้สเกลการแสดงผลเพื่อให้อ่านได้ง่ายขึ้น
  • ผู้ทดสอบระยะแรกประเมินว่า GPT-5.5 เข้าใจ โครงสร้างระบบ ได้ดีกว่า
    • ชี้ได้แม่นยำขึ้นว่าอะไรล้มเหลวเพราะเหตุใด ควรแก้ตรงไหน และจะส่งผลต่อส่วนอื่นของโค้ดเบสอย่างไร
  • Dan Shipper ทดสอบว่าสามารถย้อนสถานะหลังเกิดปัญหาแล้วสร้างการออกแบบใหม่ในระดับเดียวกันได้หรือไม่ โดย GPT-5.4 ทำไม่สำเร็จ แต่ GPT-5.5 ทำได้สำเร็จ
  • Pietro Schirano รวมบรাঞ্চที่มีการเปลี่ยนแปลง frontend และ refactor หลายร้อยรายการเข้ากับเมนบรাঞ্চที่เปลี่ยนไปมากแล้วได้ ในครั้งเดียวภายในราว 20 นาที
  • ในการทดสอบโดยวิศวกรอาวุโส พบว่า reasoning และ autonomy เด่นชัดกว่า GPT-5.4 และ Claude Opus 4.7
    • สามารถจับปัญหาได้ล่วงหน้าแม้ไม่มีพรอมป์ตระบุชัด และยังคาดการณ์ความจำเป็นของการทดสอบและการรีวิวได้ด้วย
    • เมื่อขอให้ออกแบบ comment system ใหม่สำหรับ collaborative markdown editor ก็ได้สแต็ก 12-diff ที่เกือบเสร็จสมบูรณ์ออกมา
    • ต้องแก้ implementation เพิ่มน้อยกว่าที่คาด และความเชื่อมั่นต่อแผนงานก็สูงกว่า GPT-5.4
  • ในคำกล่าวของ Michael Truell จาก Cursor ยังสะท้อนว่ามีคุณสมบัติในการ ทำงานต่อเนื่องได้นานกว่า และเหมาะกับงานซับซ้อนที่รันยาวโดยไม่หยุดกลางคันก่อนเวลา

งานความรู้ทั่วไปและการใช้งานคอมพิวเตอร์

  • จุดแข็งที่เห็นในงาน coding ขยายต่อมาได้ตรง ๆ สู่ งานคอมพิวเตอร์ในชีวิตประจำวัน
    • เพราะเข้าใจเจตนาได้ดีกว่า จึงทำทั้งการค้นหาข้อมูล การคัดเลือกข้อมูลสำคัญ การใช้เครื่องมือ การตรวจสอบผลลัพธ์ และการแปลงวัตถุดิบให้เป็นผลงานที่ใช้งานได้จริงได้อย่างเป็นธรรมชาติมากขึ้น
  • ใน Codex นั้น GPT-5.5 เหนือกว่า GPT-5.4 ในการสร้าง เอกสาร, สเปรดชีต, สไลด์
    • ผู้ทดสอบ alpha ระบุว่าทำงานได้ดีกว่าโมเดลก่อนหน้าในงานวิจัยเชิงปฏิบัติการ การทำแบบจำลองสเปรดชีต และการเปลี่ยนข้อมูลธุรกิจที่ยังไม่เป็นระเบียบให้กลายเป็นแผนงาน
  • เมื่อรวมกับความสามารถ computer use ของ Codex ก็สามารถมองหน้าจอ คลิก พิมพ์ สำรวจอินเทอร์เฟซ และสลับไปมาระหว่างหลายเครื่องมือได้อย่างแม่นยำ
  • ภายใน OpenAI เองก็มีการใช้งานในเวิร์กโฟลว์จริงแล้ว และปัจจุบัน พนักงานมากกว่า 85% ใช้ Codex ทุกสัปดาห์
    • มีการนำไปใช้ครอบคลุมทั้งวิศวกรรมซอฟต์แวร์ การเงิน การสื่อสาร การตลาด data science และ product management
  • ทีมสื่อสารวิเคราะห์ข้อมูล speaking request ย้อนหลัง 6 เดือนเพื่อสร้าง กรอบการให้คะแนน·กรอบความเสี่ยง และตรวจสอบ Slack agent ที่ให้จัดการคำขอความเสี่ยงต่ำโดยอัตโนมัติ ส่วนคำขอความเสี่ยงสูงให้มนุษย์เป็นผู้ตรวจทาน
  • ทีม Finance ตรวจสอบ แบบฟอร์มภาษี K-1 จำนวน 24,771 ฉบับ รวม 71,637 หน้า และเร่งงานได้เร็วขึ้น 2 สัปดาห์จากปีก่อนผ่านเวิร์กโฟลว์ที่ตัดข้อมูลส่วนบุคคลออก
  • ในทีม Go-to-Market มีการทำระบบสร้างรายงานธุรกิจรายสัปดาห์อัตโนมัติ ช่วยประหยัดเวลาได้ 5~10 ชั่วโมงต่อสัปดาห์

GPT-5.5 Thinking และ GPT-5.5 Pro ใน ChatGPT

  • GPT-5.5 Thinking ของ ChatGPT ถูกออกแบบมาให้ตอบปัญหาที่ยากขึ้นได้เร็วขึ้น และช่วยให้งานที่ซับซ้อนดำเนินไปได้มีประสิทธิภาพมากขึ้นด้วยคำตอบที่ฉลาดและกระชับกว่าเดิม
    • เด่นด้าน coding, research, การสังเคราะห์และวิเคราะห์ข้อมูล, งานที่เน้นเอกสาร และได้เปรียบเป็นพิเศษเมื่อใช้ plugin
  • GPT-5.5 Pro มุ่งเป้าไปที่งานที่ยากกว่าและคุณภาพที่สูงกว่า พร้อมลด latency ลง ทำให้นำไปใช้จริงในงานได้มากขึ้น
    • เมื่อเทียบกับ GPT-5.4 Pro คำตอบมีความครอบคลุมกว่า จัดโครงสร้างดีกว่า แม่นยำกว่า ตรงประเด็นกว่า และมีประโยชน์มากกว่า
    • เด่นเป็นพิเศษในด้าน business, legal, education และ data science
  • ยังแสดงตัวเลขที่สูงในเบนช์มาร์กที่ใกล้เคียงงานวิชาชีพ
    • ทำได้ GDPval 84.9%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%
    • Tau2-bench Telecom ทำได้ โดยไม่ต้องทำ prompt tuning
    • ยังมีการนำเสนอ FinanceAgent 60.0%, internal investment-banking modeling tasks 88.5%, OfficeQA Pro 54.1% ด้วย
  • ในคำกล่าวอ้างของ Justin Boitano จาก NVIDIA ระบุว่าระบบนี้ให้บริการบน NVIDIA GB200 NVL72, ส่งมอบความสามารถแบบ end-to-end ด้วยพรอมป์ต์ภาษาธรรมชาติ, ลดเวลา debug จากหลายวันเหลือไม่กี่ชั่วโมง และเปลี่ยนการทดลองที่อาจกินเวลาหลายสัปดาห์ให้เหลือเพียงข้ามคืน

เวิร์กโฟลว์การวิจัยทางวิทยาศาสตร์และเทคนิค

  • GPT-5.5 ยังแสดงการปรับปรุงประสิทธิภาพใน เวิร์กโฟลว์การวิจัยทางวิทยาศาสตร์และเทคนิค
    • ไม่ได้แค่ตอบคำถามยาก ๆ ได้ดีขึ้น แต่ยังรักษาลูปการทำงานตั้งแต่การสำรวจไอเดีย การรวบรวมหลักฐาน การตรวจสอบสมมติฐาน การตีความผลลัพธ์ ไปจนถึงการตัดสินใจการทดลองถัดไปได้ดีขึ้น
  • ใน GeneBench แสดงการปรับปรุงที่ชัดเจนเหนือกว่า GPT-5.4
    • เป็นการประเมินใหม่ที่มุ่งไปยังการวิเคราะห์ข้อมูลหลายขั้นตอนใน genetics และ quantitative biology
    • ครอบคลุมข้อมูลที่กำกวมหรือมีข้อผิดพลาด, hidden confounder, ความล้มเหลวของ QC, และการนำไปใช้พร้อมการตีความเทคนิคสถิติยุคใหม่
    • งานในที่นี้แม้สำหรับผู้เชี่ยวชาญทางวิทยาศาสตร์ก็ถือเป็นโปรเจกต์ที่ใช้เวลาหลายวัน
  • ใน BixBench ก็ทำผลงานระดับแนวหน้าในบรรดาโมเดลที่มีคะแนนเผยแพร่ต่อสาธารณะ
    • ถูกแนะนำว่าเป็นเบนช์มาร์กที่สะท้อน bioinformatics และการวิเคราะห์ข้อมูลจริง
    • แสดงศักยภาพในการเร่งงานระดับ co-scientist บนแนวหน้าของ biomedical research
  • GPT-5.5 เวอร์ชันภายในและ custom harness ยังถูกใช้เพื่อค้นหาบทพิสูจน์ใหม่เกี่ยวกับ Ramsey numbers
    • ลิงก์บทพิสูจน์ใหม่
    • พบบทพิสูจน์ของข้อเท็จจริงเชิงเส้นกำกับสำหรับ off-diagonal Ramsey numbers ที่เป็นปัญหามายาวนานใน combinatorics และต่อมาตรวจสอบด้วย Lean
    • มีส่วนช่วยต่อข้อโต้แย้งทางคณิตศาสตร์ที่เป็นประโยชน์ในสาขาวิจัยแกนหลัก ไม่ได้จำกัดแค่โค้ดหรือคำอธิบาย
  • ผู้ทดสอบช่วงแรกใช้งาน GPT-5.5 Pro ในฐานะ พาร์ตเนอร์งานวิจัยมากกว่าเครื่องตอบคำถามแบบครั้งเดียวจบ
    • ใช้ตรวจทานต้นฉบับเชิงวิพากษ์หลายรอบ, ทำ stress test ให้กับข้อโต้แย้งทางเทคนิค, เสนอการวิเคราะห์ และทำงานร่วมกับบริบทจากโค้ด โน้ต และ PDF
    • ช่วยสนับสนุนเวิร์กโฟลว์ตั้งแต่คำถาม การทดลอง ไปจนถึงผลลัพธ์ส่งมอบได้ดีกว่าเดิม

กรณีศึกษาวิจัย

  • Derya Unutmaz จาก Jackson Laboratory for Genomic Medicine ใช้ GPT-5.5 Pro วิเคราะห์ชุดข้อมูล gene-expression ที่มี 62 ตัวอย่าง และราว 28,000 ยีน
    • สร้างรายงานวิจัยแบบละเอียด และไม่เพียงสรุปผลลัพธ์ แต่ยังดึงคำถามสำคัญและอินไซต์ออกมาได้ด้วย
    • หากให้ทีมของเขาทำ งานนี้จะมีขนาดที่ต้องใช้เวลาหลายเดือน
  • Bartosz Naskręcki จาก Adam Mickiewicz University ใช้ Codex สร้างแอป algebraic-geometry ได้ ภายใน 11 นาทีจากพรอมป์ต์เดียว
    • แสดงภาพการตัดกันของ quadratic surface สองตัว และแปลงเส้นโค้งผลลัพธ์เป็น Weierstrass model
    • จากนั้นยังทำให้ singularity visualization เสถียรขึ้น และเพิ่ม exact coefficients ที่นำกลับไปใช้ต่อในงานถัดไปได้
    • Codex ยังช่วยในการทำงานด้านการแสดงภาพทางคณิตศาสตร์แบบเฉพาะทางและเวิร์กโฟลว์ computer-algebra ที่เดิมต้องใช้เครื่องมือเฉพาะ
  • Credit: Bartosz Naskręcki
  • ในคำกล่าวของ Brandon White จาก Axiom Bio ระบุว่าระบบสามารถอนุมานจาก biochemical dataset ขนาดใหญ่เพื่อทำนาย human drug outcomes และแสดงการเพิ่มขึ้นของความแม่นยำอย่างมีนัยสำคัญในการประเมิน drug discovery ที่ยากที่สุด

อินฟราสตรักเจอร์ด้าน inference และการปรับแต่งประสิทธิภาพ

  • การจะ ให้บริการ GPT-5.5 ด้วย latency ระดับเดียวกับ GPT-5.4 จำเป็นต้องออกแบบ inference ใหม่ในฐานะระบบบูรณาการ ไม่ใช่เพียงชุดการปรับแต่งแยกส่วน
    • GPT-5.5 ถูกออกแบบร่วม ฝึกร่วม และให้บริการร่วม โดยตั้งอยู่บนสมมติฐานของระบบ NVIDIA GB200 และ GB300 NVL72
  • Codex และตัว GPT-5.5 เองก็มี ส่วนช่วยโดยตรง ในการบรรลุเป้าหมายด้านประสิทธิภาพ
    • Codex ถูกใช้เพื่อย้ายไอเดียไปสู่ implementation ที่วัดผลด้วยเบนช์มาร์กได้อย่างรวดเร็ว, ร่างแนวทาง, เชื่อมการทดลอง และค้นหาการปรับแต่งที่ควรลงทุนต่อในเชิงลึก
    • GPT-5.5 ช่วยค้นหาและลงมือทำการปรับปรุงสำคัญภายในสแตก
    • สุดท้ายแล้ว โมเดลยังมีส่วนช่วยปรับปรุงอินฟราสตรักเจอร์ที่ใช้ให้บริการตัวมันเองด้วย
  • ตัวอย่างการปรับปรุงสำคัญที่ยกมาคือ load balancing และ partitioning heuristics
    • ก่อนหน้านี้ ระบบจะแบ่งคำขอบน accelerator ออกเป็นจำนวน chunk คงที่ เพื่อให้คำขอขนาดใหญ่และเล็กวิ่งบน GPU ตัวเดียวกัน
    • แต่จำนวน chunk แบบคงที่ไม่ได้เหมาะที่สุดกับรูปแบบทราฟฟิกทุกแบบ
    • Codex วิเคราะห์รูปแบบ production traffic หลายสัปดาห์ และเขียนอัลกอริทึม heuristic แบบปรับแต่งเฉพาะเพื่อแบ่งและถ่วงดุลงานอย่างเหมาะสมที่สุด
    • งานนี้ทำให้ token generation speed เพิ่มขึ้น มากกว่า 20%

ความมั่นคงปลอดภัยไซเบอร์และมาตรการป้องกัน

  • การทำให้โมเดลที่เก่งในการตรวจหาช่องโหว่และแพตช์พร้อมใช้งานในโลกจริงนั้นใกล้เคียงกับการเป็น กีฬาประเภททีม และจำเป็นต้องมีความยืดหยุ่นของทั้งระบบนิเวศเพื่อยุคถัดไปของการป้องกันไซเบอร์
  • ความสามารถด้าน cybersecurity ของโมเดล frontier กำลังแข็งแกร่งขึ้นเรื่อย ๆ และเนื่องจากความสามารถนี้จะแพร่หลายออกไป เส้นทางที่จะทำให้มันถูกใช้เพื่อเร่งการป้องกันไซเบอร์และเสริมความแข็งแรงให้ระบบนิเวศจึงมีความสำคัญมากขึ้น
  • GPT-5.5 ถูกวางตำแหน่งให้เป็น ก้าวที่ค่อยเป็นค่อยไปแต่สำคัญ สู่ AI ที่ใช้แก้ปัญหายาก ๆ อย่าง cybersecurity
    • ในช่วง GPT-5.2 ได้วาง cyber safeguards ล่วงหน้าเพื่อจำกัดการนำ cyber ไปใช้ในทางที่ผิดที่อาจเกิดขึ้น
    • ใน GPT-5.5 ได้วาง classifier ที่เข้มงวดยิ่งขึ้นสำหรับ potential cyber risk และในช่วงแรกอาจทำให้ผู้ใช้บางส่วนรู้สึกรำคาญได้
  • OpenAI ได้จัดให้ cybersecurity เป็นหมวดแยกต่างหากภายใน Preparedness Framework มานานหลายปี และได้ปรับมาตรการบรรเทาอย่างต่อเนื่องให้สอดคล้องกับความสามารถที่เพิ่มขึ้น
  • ได้วาง safeguards ระดับผู้นำอุตสาหกรรม ให้สอดคล้องกับระดับความสามารถด้าน cyber นี้
    • ใน GPT-5.2 ได้เริ่มนำ cyber-specific safeguard มาใช้เป็นครั้งแรก และนับจากนั้นก็ได้ทดสอบ ปรับแต่ง และขยายผลในทุกการเปิดตัว
    • ใน GPT-5.5 ได้เสริมการป้องกันให้เข้มขึ้นอีกสำหรับกิจกรรมความเสี่ยงสูง คำขอ cyber ที่อ่อนไหว และการนำไปใช้ในทางที่ผิดแบบซ้ำ ๆ
    • การเข้าถึงอย่างกว้างขวางเป็นไปได้ด้วยการลงทุนด้านความปลอดภัยของโมเดล การยืนยันตัวตนผู้ใช้ และการติดตามการใช้งานที่ไม่ได้รับอนุญาต
    • ได้พัฒนา ทดสอบ และปรับปรุง robustness ร่วมกับผู้เชี่ยวชาญภายนอกเป็นเวลาหลายเดือน
    • ทำให้นักพัฒนาปกป้องโค้ดได้ง่ายขึ้น ขณะเดียวกันก็ใช้การควบคุมที่เข้มกว่าเดิมกับเวิร์กโฟลว์ cyber ที่เอื้อต่อการก่ออันตรายโดยผู้ไม่หวังดี
  • เดินหน้าควบคู่ไปกับ การขยายการเข้าถึงเพื่อวัตถุประสงค์ด้านการป้องกัน
    • ให้การเข้าถึงโมเดลแบบ cyber-permissive ผ่าน Trusted Access for Cyber โดยมี Codex เป็นจุดเริ่มต้น
    • สำหรับผู้ใช้ที่ผ่านการตรวจสอบและตรงตาม trust signals ที่กำหนด จะเปิดให้ใช้ความสามารถ cybersecurity ขั้นสูงของ GPT-5.5 ด้วยข้อจำกัดที่น้อยลง
    • องค์กรที่รับผิดชอบการป้องกัน critical infrastructure สามารถสมัครขอเข้าถึงโมเดล cyber-permissive อย่าง GPT-5.4-Cyber ได้
    • มีเป้าหมายเพื่อมอบเครื่องมือสำหรับงานด้านความปลอดภัยที่ชอบธรรมให้กับผู้รับผิดชอบด้านการป้องกันที่ผ่านการตรวจสอบ โดยมีอุปสรรคน้อยลง
    • ลิงก์สมัคร: chatgpt.com/cyber
  • รวมถึง ความร่วมมือกับพันธมิตรภาครัฐ
    • กำลังสำรวจร่วมกันว่า AI ขั้นสูงจะช่วยสนับสนุนเจ้าหน้าที่ภาครัฐที่ปกป้องโครงสร้างพื้นฐานสำคัญ เช่น ระบบดิจิทัลสำหรับปกป้องข้อมูลภาษี โครงข่ายไฟฟ้า และระบบน้ำประปาของชุมชนท้องถิ่น ได้อย่างไร
  • ความสามารถด้าน biological/chemical และ cybersecurity ของ GPT-5.5 ถูกจัดเป็นระดับ High ตาม Preparedness Framework
    • แม้ยังไม่ถึงระดับ Critical ของ cybersecurity capability แต่การประเมินและการทดสอบยืนยันว่าความสามารถด้าน cyber ของ GPT-5.5 สูงกว่า GPT-5.4 อยู่หนึ่งขั้น
  • ผ่าน กระบวนการด้าน safety and governance ทั้งหมดก่อนเปิดตัว
    • รวมถึงการประเมิน preparedness การทดสอบเฉพาะสาขา การประเมินเป้าหมายใหม่สำหรับ biology และ cybersecurity ระดับสูง และการทดสอบความทนทานอย่างเข้มข้นร่วมกับผู้เชี่ยวชาญภายนอก
    • รายละเอียดเพิ่มเติมมีอยู่ใน GPT-5.5 system card
  • แนวทางนี้เป็นส่วนหนึ่งของกลยุทธ์ AI resilience ที่จำเป็นในยุคของโมเดลที่ทรงพลังยิ่งขึ้น
    • ต้องทำให้ AI ที่ทรงพลังพร้อมใช้งานสำหรับผู้ที่ปกป้องระบบ สถาบัน และสาธารณะด้วยเช่นกัน โดยการเข้าถึงบนฐานความไว้วางใจ มาตรการ safeguards ที่เข้มขึ้นตามระดับความสามารถ และความสามารถเชิงปฏิบัติการในการตรวจจับและตอบสนองต่อการนำไปใช้ในทางที่ผิดอย่างร้ายแรง ถูกเสนอเป็นเส้นทางหลัก

แผนที่ใช้งานได้และราคา

  • ขณะนี้ใน ChatGPT และ Codex, GPT-5.5 กำลังทยอยเปิดให้ผู้ใช้ Plus, Pro, Business และ Enterprise โดย GPT-5.5 Pro ให้ใช้งานใน ChatGPT สำหรับ Pro, Business และ Enterprise
  • ใน ChatGPT มี GPT-5.5 Thinking ให้สำหรับ Plus, Pro, Business และ Enterprise
    • GPT-5.5 Pro มุ่งเป้าไปที่คำถามที่ยากกว่าและความแม่นยำที่สูงกว่า และใช้งานได้ใน Pro, Business และ Enterprise
  • ใน Codex, GPT-5.5 มีให้ในแผน Plus, Pro, Business, Enterprise, Edu, Go และมี 400K context window
    • มี Fast mode ให้ด้วย โดยความเร็วในการสร้างโทเค็นเร็วขึ้น 1.5 เท่า และมีค่าใช้จ่าย 2.5 เท่า
  • gpt-5.5 สำหรับนักพัฒนา API จะพร้อมให้ใช้ใน Responses API และ Chat Completions API เร็ว ๆ นี้
    • ระบุราคาไว้ที่ 5 ดอลลาร์ต่อโทเค็นอินพุต 1M, 30 ดอลลาร์ต่อโทเค็นเอาต์พุต 1M และ 1M context window
    • ราคา Batch และ Flex อยู่ที่ครึ่งหนึ่งของค่า API มาตรฐาน และ Priority processing คิดค่าบริการ 2.5 เท่า
  • gpt-5.5-pro ก็มีแผนจะเปิดตัวใน API เช่นกัน โดยมุ่งเป้าไปที่ความแม่นยำที่สูงกว่า
    • ระบุราคาไว้ที่ 30 ดอลลาร์ต่อโทเค็นอินพุต 1M และ 180 ดอลลาร์ต่อโทเค็นเอาต์พุต 1M
    • ข้อมูลราคาทั้งหมดลิงก์ไปที่ pricing page
  • GPT-5.5 มี ราคาสูงกว่า GPT-5.4 แต่ก็มีทั้งความฉลาดและประสิทธิภาพการใช้โทเค็นที่สูงกว่า
    • ใน Codex ได้ปรับประสบการณ์ให้สำหรับผู้ใช้ส่วนใหญ่ GPT-5.5 ให้ผลลัพธ์ที่ดีกว่าโดยใช้โทเค็นน้อยกว่า GPT-5.4
    • ยังคงมอบปริมาณการใช้งานที่ใจกว้างต่อไปในทุกระดับการสมัครสมาชิก

เบนช์มาร์กโดยละเอียด

  • Coding

    • ใน SWE-Bench Pro (Public) GPT-5.5 ได้ 58.6%, GPT-5.4 ได้ 57.7%, Claude Opus 4.7 ได้ 64.3%, Gemini 3.1 Pro ได้ 54.2%
    • Terminal-Bench 2.0: GPT-5.5 ได้ 82.7%, GPT-5.4 ได้ 75.1%, Claude Opus 4.7 ได้ 69.4%, Gemini 3.1 Pro ได้ 68.5%
    • Expert-SWE (Internal) ระบุว่า GPT-5.5 ได้ 73.1%, GPT-5.4 ได้ 68.5%
  • งานเฉพาะทาง

    • GDPval (wins or ties): GPT-5.5 ได้ 84.9%, GPT-5.4 ได้ 83.0%, GPT-5.5 Pro ได้ 82.3%, GPT-5.4 Pro ได้ 82.0%, Claude Opus 4.7 ได้ 80.3%, Gemini 3.1 Pro ได้ 67.3%
    • FinanceAgent v1.1: GPT-5.5 ได้ 60.0%, GPT-5.4 ได้ 56.0%, GPT-5.4 Pro ได้ 61.5%, Claude Opus 4.7 ได้ 64.4%, Gemini 3.1 Pro ได้ 59.7%
    • Investment Banking Modeling Tasks (Internal): GPT-5.5 ได้ 88.5%, GPT-5.4 ได้ 87.3%, GPT-5.5 Pro ได้ 88.6%, GPT-5.4 Pro ได้ 83.6%
    • OfficeQA Pro: GPT-5.5 ได้ 54.1%, GPT-5.4 ได้ 53.2%, Claude Opus 4.7 ได้ 43.6%, Gemini 3.1 Pro ได้ 18.1%
  • การใช้งานคอมพิวเตอร์และวิชัน

    • OSWorld-Verified: GPT-5.5 ได้ 78.7%, GPT-5.4 ได้ 75.0%, Claude Opus 4.7 ได้ 78.0%
    • MMMU Pro (no tools): GPT-5.5 และ GPT-5.4 ได้เท่ากันที่ 81.2%, ส่วน Gemini 3.1 Pro ได้ 80.5%
    • MMMU Pro (with tools): GPT-5.5 ได้ 83.2%, GPT-5.4 ได้ 82.1%
  • การใช้เครื่องมือ

    • BrowseComp: GPT-5.5 ได้ 84.4%, GPT-5.4 ได้ 82.7%, GPT-5.5 Pro ได้ 90.1%, GPT-5.4 Pro ได้ 89.3%, Claude Opus 4.7 ได้ 79.3%, Gemini 3.1 Pro ได้ 85.9%
    • MCP Atlas: GPT-5.5 ได้ 75.3%, GPT-5.4 ได้ 70.6%, Claude Opus 4.7 ได้ 79.1%, Gemini 3.1 Pro ได้ 78.2%
    • Toolathlon: GPT-5.5 ได้ 55.6%, GPT-5.4 ได้ 54.6%, Gemini 3.1 Pro ได้ 48.8%
    • Tau2-bench Telecom: ตามพรอมต์ต้นฉบับ GPT-5.5 ได้ 98.0%, GPT-5.4 ได้ 92.8%
    • หมายเหตุของ MCP Atlas ระบุว่าเป็น ผลลัพธ์หลังอัปเดตล่าสุดเดือนเมษายน 2026 ของ Scale AI
    • หมายเหตุของ Tau2-bench Telecom ระบุว่าเป็นผลการประเมิน โดยไม่มี prompt adjustment และไม่รวมผล prompt adjustment ของสถาบันวิจัยอื่น
  • วิชาการ

    • GeneBench: GPT-5.5 ได้ 25.0%, GPT-5.4 ได้ 19.0%, GPT-5.5 Pro ได้ 33.2%, GPT-5.4 Pro ได้ 25.6%
    • FrontierMath Tier 1–3: GPT-5.5 ได้ 51.7%, GPT-5.4 ได้ 47.6%, GPT-5.5 Pro ได้ 52.4%, GPT-5.4 Pro ได้ 50.0%, Claude Opus 4.7 ได้ 43.8%, Gemini 3.1 Pro ได้ 36.9%
    • FrontierMath Tier 4: GPT-5.5 ได้ 35.4%, GPT-5.4 ได้ 27.1%, GPT-5.5 Pro ได้ 39.6%, GPT-5.4 Pro ได้ 38.0%, Claude Opus 4.7 ได้ 22.9%, Gemini 3.1 Pro ได้ 16.7%
    • BixBench: GPT-5.5 ได้ 80.5%, GPT-5.4 ได้ 74.0%
    • GPQA Diamond: GPT-5.5 ได้ 93.6%, GPT-5.4 ได้ 92.8%, GPT-5.4 Pro ได้ 94.4%, Claude Opus 4.7 ได้ 94.2%, Gemini 3.1 Pro ได้ 94.3%
    • Humanity's Last Exam (no tools): GPT-5.5 ได้ 41.4%, GPT-5.4 ได้ 39.8%, GPT-5.5 Pro ได้ 43.1%, GPT-5.4 Pro ได้ 42.7%, Claude Opus 4.7 ได้ 46.9%, Gemini 3.1 Pro ได้ 44.4%
    • Humanity's Last Exam (with tools): GPT-5.5 ได้ 52.2%, GPT-5.4 ได้ 52.1%, GPT-5.5 Pro ได้ 57.2%, GPT-5.4 Pro ได้ 58.7%, Claude Opus 4.7 ได้ 54.7%, Gemini 3.1 Pro ได้ 51.4%
  • ความปลอดภัยไซเบอร์

    • Capture-the-Flags challenge tasks (Internal): GPT-5.5 ได้ 88.1%, GPT-5.4 ได้ 83.7%
    • CyberGym: GPT-5.5 ได้ 81.8%, GPT-5.4 ได้ 79.0%, Claude Opus 4.7 ได้ 73.1%
    • หมายเหตุระบุว่าเป็นผลจากการขยาย CTF ที่ยากที่สุดซึ่งเขียนไว้ใน system card และเพิ่มชาเลนจ์ความยากสูงเพิ่มเติม
  • บริบทยาว

    • Graphwalks BFS 256k f1: GPT-5.5 ได้ 73.7%, GPT-5.4 ได้ 62.5%, Claude Opus 4.7 ได้ 76.9%
    • Graphwalks BFS 1mil f1: GPT-5.5 ได้ 45.4%, GPT-5.4 ได้ 9.4%, Claude Opus 4.6 ได้ 41.2%
    • Graphwalks parents 256k f1: GPT-5.5 ได้ 90.1%, GPT-5.4 ได้ 82.8%, Claude Opus 4.7 ได้ 93.6%
    • Graphwalks parents 1mil f1: GPT-5.5 ได้ 58.5%, GPT-5.4 ได้ 44.4%, Claude Opus 4.6 ได้ 72.0%
    • OpenAI MRCR v2 8-needle แสดงผลตามความยาวบริบท โดยได้ 4K-8K 98.1%, 8K-16K 93.0%, 16K-32K 96.5%, 32K-64K 90.0%, 64K-128K 83.1%, 128K-256K 87.5%, 256K-512K 81.5%, 512K-1M 74.0%
    • ในหัวข้อเดียวกัน GPT-5.4 ได้ตามลำดับ 97.3%, 91.4%, 97.2%, 90.5%, 86.0%, 79.3%, 57.5%, 36.6%
    • ในช่วง 128K-256K มีการระบุ Claude Opus 4.7 ที่ 59.2% และในช่วง 512K-1M มีการระบุ Claude Opus 4.7 ที่ 32.2%
  • การให้เหตุผลเชิงนามธรรม

    • ARC-AGI-1 (Verified): GPT-5.5 ได้ 95.0%, GPT-5.4 ได้ 93.7%, GPT-5.4 Pro ได้ 94.5%, Claude Opus 4.7 ได้ 93.5%, Gemini 3.1 Pro ได้ 98.0%
    • ARC-AGI-2 (Verified): GPT-5.5 ได้ 85.0%, GPT-5.4 ได้ 73.3%, GPT-5.4 Pro ได้ 83.3%, Claude Opus 4.7 ได้ 75.8%, Gemini 3.1 Pro ได้ 77.1%
    • มีการระบุว่าการประเมินในตระกูล GPT ดำเนินการในสภาพแวดล้อมวิจัยที่ตั้งค่า reasoning effort เป็น xhigh และในบางกรณีผลลัพธ์อาจแตกต่างจาก ChatGPT ในสภาพแวดล้อมใช้งานจริงเล็กน้อย

1 ความคิดเห็น

 
GN⁺ 2026-04-24
ความคิดเห็นจาก Hacker News
  • คำพูดจากฝั่ง NVIDIA ที่ว่า การสูญเสียสิทธิ์เข้าถึง GPT-5.5 ให้ความรู้สึกราวกับเสียแขนขา ฟังดูน่าขนลุกกว่าที่น่าจะตั้งใจไว้มาก
    ดูเหมือนจะเป็นเรื่องที่ใช้ได้กับการ พึ่งพาโมเดลเขียนโค้ด ระดับแนวหน้าทั้งหมด และยิ่งประสิทธิภาพดีขึ้นก็ยิ่งเผลอพึ่งมันเวลาเขียนโค้ดอย่างรวดเร็ว
    พอเจอกับตัวแล้วความรู้สึกไม่สบายใจก็มีมาก ทุกวันนี้การให้โมเดลจัดการให้ทีเดียวเร็วกว่าเขียนโค้ดเองแบบลงมือทีละบรรทัดราว 10 เท่า และบทบาทของฉันก็เปลี่ยนไปแล้ว
    มันน่าทึ่งที่ทำให้สิ่งต่างๆ เดินหน้าได้มากขนาดนั้น แต่ถ้าโทเคนหมด งานก็แทบจะหยุดไปด้วย
    ตอน Claude ล่ม บางทีกลับออกไปเดินเล่นยังคุ้มกว่าฝืนเขียนโค้ดเองเสียอีก ถ้าอีกหนึ่งชั่วโมง Claude กลับมาใช้ได้ เราจะคืบหน้าได้มากกว่าการนั่งฝืนไล่แก้ปัญหาในโค้ดที่ LLM สร้างให้จนหมดแรง
    ยังไงก็ตาม สภาพแบบนี้ก็น่ากังวลอยู่เหมือนกัน

    • รู้สึกเหมือนว่า ทฤษฎีแรงงาน เองกำลังถูก LLM พลิกคว่ำ
      ตอนนี้ตลาดตั้งอยู่บนสมมติฐานว่าแรงงานถูกทำให้เป็นชิ้นเล็กชิ้นน้อยและมีอำนาจต่อรองต่ำ ขณะที่ทุนมีอำนาจต่อรองสูงกว่ามากและเป็นฝ่ายกำหนดราคาแรงงานโดยพฤตินัยมาโดยตลอด
      แต่ถ้าแรงงานนั้นถูกจัดหาโดยบริษัทที่ใหญ่กว่าอีกแห่งหนึ่ง และแรงงานนั้นต่างจากแรงงานแบบดั้งเดิมตรงที่สามารถตัดอุปทานได้ไม่มีกำหนดล่ะจะเกิดอะไรขึ้น
      ตอนนี้แรงงานได้กลายเป็น ทุน อีกรูปแบบหนึ่งแล้ว และทุนไม่จำเป็นต้องกินข้าว
      บริษัทที่ไม่ได้ใช้โมเดลของตัวเองคงได้เรียนรู้ผลลัพธ์นี้ด้วยตัวเอง
    • จะมองว่าไม่ต่างจากการใช้ library abstraction มากนักก็ได้
      สร้างของได้เร็วขึ้น โค้ดที่เขียนเองน้อยลง และเรื่องจัดการสถานะภายในหรือหน่วยความจำก็ให้ไลบรารีรับไปแทน
      บางคนอาจไม่สบายใจกับการต้องพึ่งการเรียกใช้ไลบรารีแทนการจับ pointer กับ malloc() เอง แต่สำหรับบางคน มันให้ความรู้สึกเป็นอิสระเพราะช่วยให้โฟกัสกับสถาปัตยกรรมระดับสูงได้โดยไม่ต้องจมกับการสลับบริบทระดับล่าง
    • มีวิธีใช้งานแบบตั้งใจเพื่อ ไม่ขุดหลุมศพตัวเองเร็วเกินไป
      ฉันมักจะขอให้มันสร้าง CLI หรือเครื่องมือที่รันได้แบบแยกเดี่ยว แทนที่จะขอคำตอบสำเร็จรูป
      ยังถามด้วยว่ามันมาถึงข้อสรุปนั้นได้อย่างไร เพื่อขยายมุมมองของตัวเอง และให้มันอธิบายวิธีจัดหมวดหมู่ในระดับ metadata ของตัวมันเอง
      โดยเฉพาะใน codebase ขนาดใหญ่ที่ความยากอยู่ที่ ขนาดของ reference graph มากกว่าตัวแนวคิด ฉันพยายามใช้สิ่งนี้เพื่อพัฒนาความสามารถในการแก้ปัญหาของตัวเอง
    • ถ้า โมเดล local ยังรักษาช่องว่างกับโมเดล hosted รุ่นล่าสุดไว้ได้ในระดับพอเหมาะ เช่นตามหลังอยู่ราว 12 เดือน และฮาร์ดแวร์ local ก็ยังเข้าถึงได้ต่อเนื่อง ความเสี่ยงอาจถูกจำกัดไว้ได้
      เพราะต่อให้โมเดล hosted หายไปหรือแพงเกินไป เราก็แค่เสียความต่างด้านประสิทธิภาพเล็กน้อยนั้นไป
      แน่นอนว่าสมมติฐานทั้งสองข้อนี้ไม่ได้ชัดเจนเลย จึงได้แต่หวังว่ามันจะเป็นแบบนั้น
    • ถ้าคิดถึง ผลประโยชน์ด้านราคาหุ้น ของ NVIDIA และ OpenAI ก็ไม่แปลกที่จะมีคำพูดแบบนั้นออกมา
      และที่ยังได้ยินสโลแกน เพิ่มผลิตภาพ 10 เท่า ซ้ำๆ อยู่ ก็พูดตรงๆ ว่ายังเชื่อได้ยาก
  • วันนี้คือวัน เปิดตัว GPT-5.5 แต่การปล่อยให้ใช้ใน ChatGPT และ Codex จะค่อยๆ ทยอยทำในช่วงหลายชั่วโมง
    เพื่อความเสถียรของบริการจึงจะเปิดแบบเป็นขั้นๆ เหมือนรอบก่อนๆ โดยปกติจะเริ่มจาก Pro/Enterprise แล้วค่อยลงมาที่ Plus
    ถ้ายังไม่เห็นก็ให้กลับมาตรวจอีกทีภายหลัง
    การต้องรอแบบสุ่มอาจน่าหงุดหงิด แต่ทำเพื่อความเสถียร
    ผู้แสดงความเห็นระบุว่าทำงานที่ OpenAI

    • ลองรัน OpenClaw ด้วย GPT-5.4 API xhigh แล้ว แต่ทำให้โมเดลลงมือทำงานไม่ได้เลย
      ตั้งใจจะใช้แทนหลัง Anthropic OAuthgate แต่แม้แต่งานย่อยที่เร็ว ปลอดภัย และไม่เป็นอันตรายก็ยังทำไม่สำเร็จ
      บทสนทนาจบลงด้วยการขอโทษวนไปมาว่า “ตรงนี้ควรทำ X” “ใช่ ล้มเหลว” “งั้นทำตอนนี้สิ” “ควรทำแต่ไม่ได้ทำ” ไม่รู้จบ
      พอภายหลังเห็นว่า GLM, Kimi, Minimax ทำได้ไม่มีปัญหา ก็ยิ่งน่าอึ้ง และทำให้ต้องเลิกใช้ OpenAI ทันที
    • ถ้ามี dashboard สำหรับ rollout แบบสาธารณะ ความสับสนน่าจะลดลงมาก
      ยิ่งไปกว่านั้น ถ้าใน UI บอกได้ว่าโมเดลมีอยู่แต่บัญชีของเรายังไม่ถูกเปิดให้ใช้ก็น่าจะดี
      ถ้ามี ETA ด้วยจะดีที่สุด แต่ก็คงคาดเดายากเพราะอาจมีปัญหาเกิดขึ้นระหว่าง rollout ได้
    • ขอแสดงความยินดีกับการเปิดตัว
      สงสัยว่า Images 2.0 จะถูกปล่อยใน ChatGPT พร้อมกันด้วยหรือไม่ หรือจะยังเป็นฟีเจอร์เฉพาะ API/Playground ไปอีกสักพัก
    • ในมุมของผู้ใช้ Plus ยังไม่ค่อยกล้าลองใช้ Codex เพราะไม่รู้ว่ามันจะกินโควต้าการใช้งานไปมากแค่ไหน
    • สงสัยว่า GPT-5.5 fine-tuning จะมาเร็วๆ นี้ด้วยไหม
  • แม้ยังไม่มี สิทธิ์เข้าถึง API อย่างเป็นทางการ แต่ช่วงนี้ OpenAI ดูเหมือนจะปล่อยผ่านแบ็กดอร์ Codex API ที่ OpenClaw ใช้อยู่โดยพฤตินัย
    https://twitter.com/steipete/status/2046775849769148838 และ https://twitter.com/romainhuet/status/2038699202834841962
    ในแบ็กดอร์ API นั้นมี GPT-5.5 รวมอยู่ด้วย
    จึงลองรันตัวอย่าง pelican ดู https://simonwillison.net/2026/Apr/23/gpt-5-5/#and-some-peli...
    โดยใช้ปลั๊กอินใหม่สำหรับ LLM https://github.com/simonw/llm-openai-via-codex
    พอทีหลังเพิ่ม reasoning effort เป็น xhigh ก็ได้ pelican ที่ดีกว่ามาก
    https://gist.github.com/simonw/a6168e4165a258e4d664aeae8e602...

    • pelican จากโมเดล local ที่โพสต์เมื่อวานยังดูดีกว่านี้อีก
      แต่ตัวนี้ก็ยังตลกดีเพราะมันไขว้ขาอยู่
    • อันนี้พูดตรงๆ ว่าแย่มาก
      ออกมา ถึงเวอร์ชัน 5.5 แล้ว แต่ยังวาดโครงจักรยานพื้นฐานให้ถูกไม่ได้จะไหวหรือ
      ล้อหน้ามันไม่ได้มีโครงสร้างให้หันไปด้านข้างได้ แต่ภาพกลับทำไม่ถูก
    • การที่ตั้งค่าเริ่มต้นใช้แค่ reasoning tokens 39 ตัว แล้วทำได้ขนาดนั้นก็ถือว่าน่าทึ่งมาก
      ไม่รู้เหมือนกันว่า reasoning token คืออะไรแน่ แต่จำนวนโทเคนมันดูน้อยจนน่าตกใจ
    • สงสัยว่าการ ใช้ API ตรงแบบนี้ ได้รับอนุญาตตามข้อกำหนดหรือไม่
      จำได้ว่า Anthropic ไม่ชอบการใช้งานแนวนี้มาก
    • สงสัยว่าทำไมมันถึง วาดได้แย่กว่าของอื่นๆ ที่โพสต์ช่วงหลังมาก
      แม้แต่โมเดล local แบบ open weights อย่าง Qwen ที่โพสต์เมื่อวานก็ดูดีกว่า
  • ทุกคนเอาแต่พูดถึง Mythos gating ของ Anthropic กับการตลาดเรื่อง CyberGym 83% แต่ OpenAI ปล่อย GPT-5.5 ออกมาเลยและได้ 82%
    การที่ใครๆ ก็ลองใช้ได้สำคัญกว่ามาก
    ถ้าเป็นคนทำงานด้าน cybersecurity เชิงรุก/เชิงรับ ก็น่าจะควรลองแตะโมเดลที่ปล่อยใช้งานจริงแบบนี้ด้วยตัวเอง มากกว่าจะเชื่อคำโฆษณาเกินจริง
    ไม่คิดว่าจะได้พูดแบบนี้ แต่ตอนนี้ OpenAI ดูกลับมาเป็นตัวเลือกที่ เปิดกว่า อีกครั้ง

    • กระแส hype ที่แท้จริงคือทันทีที่ Anthropic ประกาศ Mythos ทุกคนก็รู้ว่า OpenAI จะปล่อยโมเดลคู่แข่งภายในไม่กี่สัปดาห์ และ Sam ก็คงไม่ปิดกั้นการเข้าถึง
      นั่นจึงเป็นเหตุผลที่วงการความปลอดภัยตื่นตระหนก เพราะมองว่าเวลาสำหรับป้องกัน zero-day ใหม่ๆ อาจเหลือจริงๆ แค่ราวสองสัปดาห์ ก่อนจะเข้าสู่ open season ที่พวก black hat จะค้นพบและนำไปใช้ประโยชน์กันเป็นวงกว้าง
    • เมื่อเทียบกับ Anthropic แล้ว OpenAI ก็ เปิดกว่า มาตั้งแต่แรก
      Anthropic ไม่เคยปล่อยโมเดลสาธารณะเลย ไม่เคยเปิด ซอร์สของ Claude Code ด้วยความสมัครใจ และยังไม่ปล่อย tokenizer ด้วย
    • OpenAI เหมือนจะโกรธเมื่อถูกถามเรื่อง cybersecurity และจะให้เราอัปโหลดบัตรประชาชนของรัฐ ไม่งั้นก็เงียบๆ ส่งเราไปใช้โมเดลที่ด้อยกว่า
      ในเอกสารก็เขียนว่างานที่เกี่ยวกับ cybersecurity ถ้าถูกระบบตรวจจับอัตโนมัติจับได้ อาจถูก fallback ไป GPT-5.2
      https://developers.openai.com/codex/concepts/cyber-safety
      https://chatgpt.com/cyber
    • ฉัน ไม่สนข่าว hype พวกนั้นเลย
      สำหรับฉัน Anthropic แทบเหมือนภาพแทนของการโม้
      หลังจากเคยอ่าน Cialdini มาก่อน การจัดฉากแบบ Anthropic ก็ชวนเบื่อ
      ตรงกันข้าม OpenAI ฉลาดมาก พอ Claude ดังขึ้นก็หายจากพาดหัวไปพักหนึ่ง แต่ตอนนี้ด้วยฐานผู้ใช้มหาศาล แค่ตามรอบปล่อยของ Anthropic ก็ทำให้อีกฝ่ายดูน่าขันได้แล้ว
      ในมุมของ Anthropic ยิ่งมี GPT เวอร์ชัน ใหม่ออกมาแต่ละครั้งก็น่าจะยิ่งน่าอนาถ และภาพรวมก็ดูเหมือน OpenAI จะยึดเกมไปหมด
    • เหมือน OpenAI ก็ ส่งคำถามด้านไซเบอร์ ไปให้โมเดลที่โง่กว่าจัดการเหมือนกันหรือเปล่า
  • อยากให้ดูส่วน ราคา/ข้อจำกัดการใช้งาน ของหน้านี้
    https://developers.openai.com/codex/pricing?codex-usage-limi...
    ให้ดูความต่างของ Local Messages ระหว่าง 5.3, 5.4, 5.5
    เคยอ่านคำอ้างว่า 5.5 มีประสิทธิภาพมากกว่า จึงใกล้จุดคุ้มทุนกับ 5.4 แต่ไม่ว่าอย่างไร แนวโน้มก็ดูเหมือนข้อจำกัดเข้มขึ้นและราคาสูงขึ้น

    • ถ้าอิง API แล้ว ราคา GPT-5.5 เป็น 2 เท่าของ GPT-5.4, ราว 4 เท่าของ GPT-5.1 และราว 10 เท่าของ Kimi-2.6
      ดูเหมือนบทเรียนที่ได้จากกรณี Anthropic คือ นักพัฒนาจะพึ่ง coding agent อย่างรวดเร็วและถึงขั้นเสพติด ดังนั้นขอแค่ดีขึ้นนิดหน่อยก็พร้อมจ่ายเท่าไรก็ได้
  • ต้นแบบ 3D dungeon arena ที่ทำด้วย Codex และ GPT ดูใช้ได้ทีเดียว
    ระบุว่า Codex รับผิดชอบสถาปัตยกรรมเกม การพัฒนา TypeScript/Three.js ระบบต่อสู้ การเผชิญหน้าศัตรู และ HUD feedback ส่วนเท็กซ์เจอร์สภาพแวดล้อมสร้างโดย GPT และโมเดลตัวละครกับแอนิเมชันทำด้วยเครื่องมือสร้างแอสเซ็ตจาก third party
    สาเหตุที่ภาพออกมาดูโอเคก็น่าจะเป็นเพราะ mesh ไม่ได้สร้างโดย GPT-5.5 โดยตรง แต่สร้างด้วยเครื่องมือแยกต่างหาก
    พอเห็นแบบนี้ก็รู้สึกว่ายุคที่เกมเมอร์หรือนักพัฒนางานอดิเรกสามารถปั้นคอนเซปต์เกมได้เร็วแล้วปล่อยขึ้นเว็บได้ทันที แบบยุค Flash อาจกำลังกลับมา
    โดยเฉพาะ Three.js ทั้งที่ไม่ใช่ game engine ด้วยซ้ำ แต่กลับเหมือนกำลังกลายเป็นเครื่องมือหลักโดยพฤตินัยสำหรับการออกแบบเกมด้วย AI

    • ตลอด 3 ปีที่ผ่านมา ฉันทดลอง Three.js กับ AI มาเรื่อยๆ และรู้สึกถึงการก้าวกระโดดครั้งใหญ่เป็นพิเศษใน 5.4
      ถ้ามองเฉพาะด้าน Three.js นี่คือการกระโดดข้ามรุ่นครั้งใหญ่ที่สุดครั้งหนึ่ง โดยเด่นมากใน GLSL shader และการจัดโครงสร้างฉากที่แยกเป็นหลายหน้า/หลายคอมโพเนนต์ก็ดีขึ้น
      การสร้าง shader ทั้งชุดจากศูนย์ยังยากอยู่ แต่ความสามารถในการแก้ shader ที่มีอยู่แล้วตอนนี้ใช้งานได้จริงมากขึ้นมาก
      ใน 5.2 หรือต่ำกว่านั้น มันทำแพตเทิร์น one canvas, multiple page ที่ต้องคง background canvas เดียวไว้ข้ามหลาย route ได้แย่มาก แต่ 5.4 แม้ยังต้องช่วยประคองอยู่บ้าง ก็ตอบสนองต่อพรอมป์ตเรื่อง refactor และ optimization ได้ดีกว่ามาก
      เลยตื่นเต้นที่จะได้ลองดูว่า 5.5 เป็นอย่างไรจริงๆ
    • ยุคแบบ Flash มาถึงมาพักใหญ่แล้ว และคอขวดก็เป็นเรื่องความคิดสร้างสรรค์มาตลอด
    • ฉันเคยให้ LLM ช่วยเยอะมากกับ เกมและโปรเจกต์ที่ใช้ Three.js และผลก็ออกมาดี
      งานภาพนาฬิกาประหลาดที่ฉันทำก็พึ่งพามันไม่น้อย
      มันไม่ใช่ game engine แต่สำหรับ WebGL 3D บนเว็บ มันแทบเป็นมาตรฐานอยู่แล้ว และเพราะอยู่มานาน ข้อมูลสำหรับการเรียนรู้ ก็เลยมหาศาล
      ก่อนยุค LLM ฉันพึ่ง Babylon.js มากกว่า เพราะมีฟีเจอร์ระดับสูงให้มากกว่า
    • คนรู้จักของฉันกำลังทำ Jamboree
      ชื่อเดิมคือ Spielwerk เป็นแอปบน iOS สำหรับสร้างและแชร์เกม
      ทุกอย่างอยู่บนเว็บทั้งหมด เลยแชร์ได้ง่าย
      https://apps.apple.com/uz/app/jamboree-game-maker/id67473110...
    • LLM ยัง คิดเชิงพื้นที่ ไม่ได้
      ฉันยังไม่ได้ลองกับ GPT แต่กับ Claude ไม่ว่าทำ prompt engineering ยังไงก็แก้ Rubik's Cube ไม่ได้ และแม้แต่ Opus 4.6 ก็ยังทำถูกได้แค่ราว 70% ของพัซเซิลก่อนจะตัน
      แถมหนึ่งครั้งลองก็เสีย 20 ดอลลาร์ ทำให้ค่าใช้จ่ายรับไม่ไหว
      ถ้าทำให้มันให้เหตุผลเชิงสามมิติได้จริง อาจขยายแนวทางเดียวกันนี้ไปยังโจทย์คณิตศาสตร์ที่ตอนนี้ยังแก้ไม่ได้ด้วย
      ฉันกำลังคิดว่าจะเปิด เซิร์ฟเวอร์ MCP สำหรับ Rubik's Cube ของตัวเอง เพื่อให้คนมาท้าทายกันว่าใครจะใช้แค่พรอมป์ตแก้ลูกบาศก์ได้
  • ในการประกาศครั้งนี้ สิ่งที่น่าสนใจกว่า benchmark คือประเด็นที่ว่า Codex วิเคราะห์แพตเทิร์นทราฟฟิกจริงหลายสัปดาห์เพื่อเพิ่มการใช้ GPU และเขียน อัลกอริทึม heuristic แบบกำหนดเอง สำหรับแบ่งงานและทำ balancing จนดันความเร็วในการสร้างโทเคนขึ้นได้มากกว่า 20%
    พื้นที่ที่ agentic LLM ทำ การเพิ่มประสิทธิภาพเชิงคำนวณ แบบนี้ได้มีผลกระทบสูงมาก แต่กลับดูถูกทดสอบน้อยกว่า benchmark
    จากประสบการณ์ของฉัน ส่วนนี้ Opus ยังดีกว่า GPT/Codex แต่เมื่อ OpenAI ได้ประโยชน์จริงจากการรีดประสิทธิภาพแบบนี้ภายใต้แรงกดดันเรื่องต้นทุนและความจุ ก็คงจะเดินหน้าทางนี้ต่อไป

    • ตอนทำ ประมวลผลข้อมูลประสิทธิภาพสูง ด้วย Rust ฉันเจอกำแพงที่ต้องเร่งประสิทธิภาพให้ดีขึ้นมากกว่า 100 เท่า
      มันทำให้ฉันนึกถึงการ optimize แบบ code golf ของ Intel FizzBuzz ที่เคยดังมาก เลยให้ gemini pro ดูโค้ดของฉันแล้วขอว่า “ช่วยเสนอ optimization ฉลาดๆ แบบนั้นหน่อย” ซึ่งข้อเสนอที่ได้ออกมายอดเยี่ยมจริงๆ
      LLM ทำให้ประหลาดใจได้ทุกวัน
    • มี KernelBench ทดสอบการ optimize CUDA kernel อยู่แล้ว
      และทุกบริษัทก็รู้กันดีว่าการ optimize ทั้งโครงสร้างพื้นฐานและตัวโมเดลของตนเองคือเส้นทางหลักสู่ชัยชนะในการแข่งขัน ดังนั้นส่วนนี้คงถูกเอาจริงเอาจังมาก
    • ปัญหาคือคำกล่าวอ้างแบบนี้มัน อิงประสบการณ์เฉพาะ มากเกินไปจนทำซ้ำได้ยาก
      ดีใจที่เห็นการก้าวออกจาก benchmark แบบดั้งเดิมอย่าง MMLU แต่การพูดตัวเลขลักษณะนี้โดยไม่มีการทดลองควบคุมที่เหมาะสมก็ไม่ได้ช่วยอะไรนัก
  • ถ้ามอง Mythos vs GPT-5.5 แบบตัวเลข จะเห็นว่าใน SWE-bench Pro ยังห่างกันมาก แต่ที่เหลือนอกนั้นค่อนข้างใกล้กัน
    SWE-bench Pro 77.8% ต่อ 58.6%
    Terminal-bench-2.0 82.0% ต่อ 82.7%
    GPQA Diamond 94.6% ต่อ 93.6%
    H. Last Exam 56.8% ต่อ 41.4%
    H. Last Exam (tools) 64.7% ต่อ 52.2%
    BrowseComp 86.9% ต่อ 84.4%, แบบ Pro คือ 90.1%
    OSWorld-Verified 79.6% ต่อ 78.7%
    แหล่งที่มาของตัวเลข Mythos คือ https://www.anthropic.com/glasswing

    • Mythos จะมีความหมายก็ต่อเมื่อใช้งานได้จริงเท่านั้น
      ตอนนี้พอลองใช้ Opus 4.7 ก็รู้สึกว่าความเป็นอัตโนมัติถูกเนิร์ฟลงหนักมาก และถูกจำกัดอย่างหนักเพราะเรื่องความปลอดภัยที่เรียกกันว่า safety
      เลยยังไม่ค่อยมั่นใจว่าในทางปฏิบัติมันจะสุดยอดอย่างที่ Anthropic โฆษณาหรือไม่
    • ตามหน้าประกาศของ Anthropic ระบุว่าทีม Claude ยืนยันการ ท่องจำ SWE-bench และบอกว่าชุดทดสอบนั้นเข้าไปอยู่ในข้อมูลฝึกจริง
      อยู่ตรงนี้
      https://www.anthropic.com/news/claude-opus-4-7#:~:text=memor...
    • ฉันลองดู SWE-bench Verified อยู่บ้าง และตัวเลขของ Mythos ทิ้งคำถามไว้หลายอย่าง
      พอคัดจากผลส่งอย่างเป็นทางการที่ https://github.com/SWE-bench/experiments/tree/main/evaluatio... เอาเฉพาะโมเดลหลัง Sonnet 4 แล้วรวมทั้ง 500 ปัญหา พบว่าอัตราแก้ได้ของทุกโมเดลรวมกันอยู่ที่ 93% พอดี
      แต่ Mythos กลับทำได้ 93.7% ซึ่งแปลว่ามันแก้โจทย์ที่โมเดลอื่นไม่มีตัวไหนแก้ได้ด้วย และพอฉันไปดูโจทย์เหล่านั้นเองกลับยิ่งน่าสงสัย
      7% สุดท้ายของโจทย์ดูแทบเป็นไปไม่ได้เลยหากไม่ได้เห็น test patch ล่วงหน้า และวิธีแก้จริงก็ไปคนละทางกับคำอธิบายโจทย์มากจนเหมือนกำลังแก้อีกปัญหาหนึ่งอยู่
      ฉันไม่ได้จะสรุปว่า Mythos โกง แต่ก็อาจเป็นไปได้ว่ามันจำสถานะต่างๆ ของ repository ได้ดีเกินไป จนสามารถย้อนอนุมาน คำอธิบายปัญหาที่แท้จริง จาก diff ในความทรงจำภายในได้
      มิฉะนั้นก็ยากจะอธิบายว่าทำไมมันถึงตีความคำอธิบายที่กำกวมเหล่านั้นได้แม่นยำขนาดนั้น
    • benchmark เดี่ยวๆ ไม่มีความหมายอะไรเลย
      ใน benchmark มักมีผลลัพธ์ประหลาดโผล่มาเสมอ
  • ยังน่าเสียดายที่ อัตราหลอน 86%
    เทียบกันแล้ว Opus อยู่ราว 36%
    แหล่งที่มาคือ https://artificialanalysis.ai/models?omniscience=omniscience...

    • Grok อยู่ที่ 17% และเป็นค่าต่ำสุด ขณะที่โมเดลส่วนใหญ่เกิน 80% นั้นดูแปลก
      แล้วขึ้นกับคำถาม บางครั้งอาการหลอนก็ดูเหมือนใกล้ 100% ด้วยซ้ำ benchmark นี้เลยไม่ค่อยตรงกับสัญชาตญาณเท่าไร
    • มันมีอะไรแปลกๆ Haiku ไม่น่าจะออกมาดีขนาดนั้นได้
    • มันอ่านได้เหมือนเป็นสัญญาณว่าบริษัทต่างๆ ต้องการพฤติกรรมแบบนั้น
      คนที่ถามมีแนวโน้มว่าจะยังไม่เข้าใจปัญหาอย่างถ่องแท้ จึงดูเหมือนจะชอบคำตอบที่มั่นใจไว้ก่อน ไม่ว่าผลลัพธ์จะเป็นอย่างไร
      เป้าหมายดูเหมือนเป็นการขาย ภาพลักษณ์ว่าดูมีความสามารถ มากกว่าความสามารถจริงของเทคโนโลยี
      LLM อาจทำลายผลิตภัณฑ์ได้ แต่ถ้าจะเชื่อว่าเครื่องจักรความคิดของมหาเศรษฐีแทนพนักงานได้จริง แล้วเทงบแรงงาน 75% ลงไปกับมัน ก็เชิญรับผลกันตามสบาย
  • โมเดลนี้เก่งมากกับ งานระยะยาว และตอนนี้ Codex ก็มี heartbeats แล้ว จึงคอยตรวจสถานะได้เรื่อยๆ
    ระบุว่าถ้าลองมอบปัญหายากๆ ที่ต้องใช้เวลาหลายชั่วโมงและมีข้อจำกัดที่ตรวจสอบได้ จะเห็นเลยว่ามันดีแค่ไหน
    ผู้แสดงความเห็นระบุว่าทำงานที่ OpenAI

    • ฟีเจอร์นี้ดูดีมาก อยากลองทดสอบเร็วๆ
      ช่วงนี้เหนื่อยกับโมเดลอื่นๆ โดยเฉพาะ Opus ที่ชอบหยุดกลางงานบ่อยๆ
    • ใน การประเมินภายในของ Canva GPT-5.5 แก้โจทย์ frontier challenge แบบงานระยะยาวได้หลายข้อ และหลายครั้งก็เป็นครั้งแรกในบรรดาโมเดล AI ที่เราทดสอบ
      ยินดีกับการเปิดตัว
    • อยากให้ช่วยอธิบายว่า heartbeats คืออะไรกันแน่