• GPT-5 API ได้รับการเปิดตัวอย่างเป็นทางการ ให้ระดับใหม่ของประสิทธิภาพสำหรับ การเขียนโค้ดและงานเอเจนต์ ที่ออกแบบมาเพื่อผู้พัฒนา
  • บันทึกสถิติ SOTA (สมรรถนะสูงสุดตามมาตรฐาน) ในการประเมินสำคัญอย่าง SWE-bench Verified และ Aider polyglot และได้รับการยืนยันความยอดเยี่ยมจากกรณีลูกค้าหลายราย เช่น Cursor, Windsurf, Vercel
  • แสดงความแข็งแกร่งในงานเอเจนต์ที่ต้องใช้เวลาทำนาน การ เชื่อมต่อเครื่องมืออย่างละเอียด และการจัดการบริบทข้อความยาวใน งานจริงที่ซับซ้อน
  • สามารถควบคุมตามความต้องการของนักพัฒนาได้ด้วยพารามิเตอร์ละเอียดเช่น verbosity, reasoning_effort และการรองรับเครื่องมือที่กำหนดเอง
  • มีตัวเลือกราคา/ประสิทธิภาพที่หลากหลายด้วย gpt-5, gpt-5-mini, gpt-5-nano และได้รับการผสานเข้ากับ Microsoft และเครื่องมือพัฒนาหลากหลาย

การเปิดตัว GPT-5 และความสำคัญ

  • OpenAI ประกาศเปิดตัว GPT-5 บนแพลตฟอร์ม API โดยเน้นว่ามันคือโมเดลที่ทำได้ดีที่สุดในงาน การเขียนโค้ดและงานเอเจนต์ จากโมเดลทั้งหมดที่เคยปล่อย
  • ทำสถิติ SOTA ในเกณฑ์การเขียนโค้ดหลัก และร่วมฝึกสอนร่วมกับ สตาร์ทอัปและทีมทดสอบขององค์กรจริง
  • แสดงศักยภาพเด่นในงานจริงของนักพัฒนา เช่น การสร้างโค้ด การแก้บั๊ก การแก้ไขโค้ด และการ query codebase ที่ซับซ้อน
  • มีความสามารถในการปฏิบัติตามคำสั่งละเอียดอย่างแม่นยำขึ้น และอธิบายพฤติกรรมรวมถึงแผนงานก่อนและหลังการเรียกเครื่องมือ
  • ประสิทธิภาพด้าน การพัฒนา front-end ก็โดดเด่นเช่นกัน โดยในการทดสอบภายในรับการประเมินว่าดีกว่าโมเดลก่อนหน้า 70%

ลูกค้าหลักและกรณีใช้งานจริง

  • Cursor, Windsurf, Vercel, Manus, Notion, Inditex ให้คะแนนสูงเกี่ยวกับ ความฉลาด ความง่ายในการปรับแต่ง การจัดการข้อผิดพลาดของเครื่องมือ และคุณภาพโค้ด ของ GPT-5
  • ในสภาพแวดล้อมการใช้งานจริง แสดงความเสถียรและประสิทธิภาพที่ดีเด่นกว่ารุ่นก่อนในการทำงานที่มีความซับซ้อน เช่น งานเบื้องหลังจำนวนมาก บทบาทเอเจนต์ที่ทำงานระยะยาว และการเชื่อมต่อเครื่องมืออย่างละเอียด

มาตรฐานการประเมินและตัวชี้วัดประสิทธิภาพ

  • SWE-bench Verified (การแพตช์ปัญหาซอฟต์แวร์จริง): ทำได้เหนือกว่า o3 ด้วย 74.9% และประหยัดโทเค็นได้ 22% และการเรียกเครื่องมือได้ 45% ลดลงเพื่อเพิ่มประสิทธิภาพ
  • Aider polyglot (การประเมินการแก้ไขโค้ด): ทำสถิติ 88% ลดอัตราผิดพลาดลงเหลือประมาณ 1/3 เมื่อเทียบกับ o3
  • วิเคราะห์ codebase ที่ซับซ้อนอย่างละเอียด และสามารถปรับ LLM ขนาดใหญ่ให้เข้ากับคำถามของผู้ใช้ เพื่อให้นักพัฒนา/นักวิจัยใช้ได้ง่ายขึ้น
  • การสร้างโค้ด front-end ได้เปรียบเหนือกว่าในด้านความรู้สึกสวยงามและความแม่นยำถึง 70% ในการทดสอบ

ผลงานด้านงานเอเจนต์และคอนเท็กซ์ระยะยาว

  • ใน τ2-bench telecom (benchmarks การเรียกเครื่องมือ) ทำสถิติ SOTA ล่าสุดที่ 96.7%
  • แสดงความสามารถในการทำงานเสร็จสมบูรณ์สูงเมื่อรันการเรียกเครื่องมือเป็นชุดต่อเนื่องหรือแบบขนานจำนวนมาก
  • ได้คะแนนสูงสุดในการปฏิบัติตามคำสั่งใน COLLIE, Scale MultiChallenge
  • ในงาน Q&A คอนเท็กซ์ยาวเช่น OpenAI-MRCR, BrowseComp Long Context แสดงผลเหนือกว่า o3 และ GPT-4.1
  • รองรับความยาวบริบทได้ถึง 400,000 โทเค็น เหมาะกับการวิเคราะห์เอกสาร/บทสนทนาในระดับใหญ่

ความน่าเชื่อถือและความปลอดภัย

  • ในการประเมิน LongFact, FactScore ลดข้อผิดพลาดทางข้อเท็จจริงได้มากกว่า 80% เมื่อเทียบกับ o3
  • รับรู้และแจ้งเตือนขีดจำกัดของตนเอง และเสริมความแม่นยำเป็นพิเศษในพื้นที่คำถามด้านสุขภาพ
  • ในการใช้งานจริงยังคงแนะนำให้มีการยืนยันผลโดยนักพัฒนาในพื้นที่ที่สำคัญอยู่ดี

การควบคุมสำหรับนักพัฒนาและฟีเจอร์ใหม่ใน API

  • reasoning_effort: ควบคุมการสมดุลระหว่างความเร็วในการตอบกับคุณภาพการให้เหตุผลด้วยค่า minimal/low/medium/high
    • minimal: ตอบสนองเร็ว, high: ให้เหตุผลเชิงตรรกะคุณภาพสูง
  • verbosity: ปรับความยาวผลลัพธ์ได้ด้วย low/medium/high
    • หากมีคำสั่งแบบชัดแจ้ง จะให้ความสำคัญกับคำสั่งนั้นมากกว่าพารามิเตอร์
  • เครื่องมือแบบกำหนดเอง: รองรับรูปแบบ plaintext นอกเหนือจาก JSON และสามารถจำกัดรูปแบบ input ของเครื่องมือด้วย regex หรือ Context-Free Grammar ได้
  • ลดความเสี่ยงปัญหา JSON escape ที่อาจเกิดขึ้นกับ code snippets หรือรายงานขนาดใหญ่ และเพิ่มความง่ายในการผสานระบบเครื่องมือของนักพัฒนา

โมเดล API และนโยบายราคาแบบหลากหลาย

  • gpt-5: $1.25 ต่อ 1 ล้าน input token, $10 ต่อ 1 ล้าน output token
  • gpt-5-mini: $0.25 ต่อ 1 ล้าน input token, $2 ต่อ 1 ล้าน output token
  • gpt-5-nano: $0.05 ต่อ 1 ล้าน input token, $0.40 ต่อ 1 ล้าน output token
  • ทุกโมเดลรองรับ reasoning_effort, verbosity, custom tools, การเรียกเครื่องมือแบบขนาน, เครื่องมือเว็บ/ไฟล์/ภาพแบบในตัว, สตรีมมิ่ง และฟีเจอร์หลักอื่น ๆ
  • gpt-5-chat-latest เปิดตัวเป็นโมเดล non-reasoning สำหรับ ChatGPT ในราคาเดียวกัน

การผสานรวมและความสามารถขยายตัว

  • เปิดตัวการผสานกับแพลตฟอร์ม Microsoft หลากหลายเช่น Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry
  • ถูกนำมาใช้เป็นเอนจินหลักในระบบเอเจนต์ของนักพัฒนาใน Cursor, Windsurf, GitHub Copilot และ Codex CLI
  • ในการประเมินภายในของ alpha-tester และผลิตภัณฑ์อัตโนมัติด้านโค้ด/งานต่าง ๆ มาจัดเป็นมาตรฐานใหม่เมื่อเทียบกับรุ่นก่อน

ความน่าเชื่อถือ ความปลอดภัย และข้อมูลเพิ่มเติม

  • ความเสี่ยงการตอบผิด (hallucination) ลดลงอย่างมีนัยสำคัญ และอธิบายขั้นตอนการทำงานและข้อจำกัดได้ตรงไปตรงมามากขึ้น
  • ระบบการ์ด (system card), บล็อกวิจัยภายใน และแหล่งข้อมูลอื่น ๆ ให้รายละเอียดการนำไปใช้ การประเมิน และมาตรการความปลอดภัยอย่างโปร่งใส
  • ทำหน้าที่เป็นผู้ช่วยเขียนโค้ดอัตโนมัติระดับสูง และเชี่ยวชาญการทำงานอัตโนมัติของ workflow เชิงเอเจนต์ที่ซับซ้อน

บทสรุป

  • GPT-5 คือโมเดลที่มีสมรรถนะแข็งแกร่งที่สุดที่ OpenAI เคยปล่อยสำหรับงาน การเขียนโค้ดและงานเอเจนต์ และเป็นหุ้นส่วนนวัตกรรมที่เหมาะกับสภาพแวดล้อมพัฒนาจริงและการทำงานอัตโนมัติ
  • ด้วย API และระบบเครื่องมือที่พัฒนาไปอีกขั้น และตัวเลือกปริมาณ/ราคาที่หลากหลาย ผนวกกับผลการประเมินสูง ทำให้ GPT-5 เปิดยุคใหม่แห่งประสิทธิผลให้แก่นักพัฒนาและองค์กร

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น