- GPT-5 API ได้รับการเปิดตัวอย่างเป็นทางการ ให้ระดับใหม่ของประสิทธิภาพสำหรับ การเขียนโค้ดและงานเอเจนต์ ที่ออกแบบมาเพื่อผู้พัฒนา
- บันทึกสถิติ SOTA (สมรรถนะสูงสุดตามมาตรฐาน) ในการประเมินสำคัญอย่าง SWE-bench Verified และ Aider polyglot และได้รับการยืนยันความยอดเยี่ยมจากกรณีลูกค้าหลายราย เช่น Cursor, Windsurf, Vercel
- แสดงความแข็งแกร่งในงานเอเจนต์ที่ต้องใช้เวลาทำนาน การ เชื่อมต่อเครื่องมืออย่างละเอียด และการจัดการบริบทข้อความยาวใน งานจริงที่ซับซ้อน
- สามารถควบคุมตามความต้องการของนักพัฒนาได้ด้วยพารามิเตอร์ละเอียดเช่น
verbosity, reasoning_effort และการรองรับเครื่องมือที่กำหนดเอง
- มีตัวเลือกราคา/ประสิทธิภาพที่หลากหลายด้วย gpt-5, gpt-5-mini, gpt-5-nano และได้รับการผสานเข้ากับ Microsoft และเครื่องมือพัฒนาหลากหลาย
การเปิดตัว GPT-5 และความสำคัญ
- OpenAI ประกาศเปิดตัว GPT-5 บนแพลตฟอร์ม API โดยเน้นว่ามันคือโมเดลที่ทำได้ดีที่สุดในงาน การเขียนโค้ดและงานเอเจนต์ จากโมเดลทั้งหมดที่เคยปล่อย
- ทำสถิติ SOTA ในเกณฑ์การเขียนโค้ดหลัก และร่วมฝึกสอนร่วมกับ สตาร์ทอัปและทีมทดสอบขององค์กรจริง
- แสดงศักยภาพเด่นในงานจริงของนักพัฒนา เช่น การสร้างโค้ด การแก้บั๊ก การแก้ไขโค้ด และการ query codebase ที่ซับซ้อน
- มีความสามารถในการปฏิบัติตามคำสั่งละเอียดอย่างแม่นยำขึ้น และอธิบายพฤติกรรมรวมถึงแผนงานก่อนและหลังการเรียกเครื่องมือ
- ประสิทธิภาพด้าน การพัฒนา front-end ก็โดดเด่นเช่นกัน โดยในการทดสอบภายในรับการประเมินว่าดีกว่าโมเดลก่อนหน้า 70%
ลูกค้าหลักและกรณีใช้งานจริง
- Cursor, Windsurf, Vercel, Manus, Notion, Inditex ให้คะแนนสูงเกี่ยวกับ ความฉลาด ความง่ายในการปรับแต่ง การจัดการข้อผิดพลาดของเครื่องมือ และคุณภาพโค้ด ของ GPT-5
- ในสภาพแวดล้อมการใช้งานจริง แสดงความเสถียรและประสิทธิภาพที่ดีเด่นกว่ารุ่นก่อนในการทำงานที่มีความซับซ้อน เช่น งานเบื้องหลังจำนวนมาก บทบาทเอเจนต์ที่ทำงานระยะยาว และการเชื่อมต่อเครื่องมืออย่างละเอียด
มาตรฐานการประเมินและตัวชี้วัดประสิทธิภาพ
- SWE-bench Verified (การแพตช์ปัญหาซอฟต์แวร์จริง): ทำได้เหนือกว่า o3 ด้วย 74.9% และประหยัดโทเค็นได้ 22% และการเรียกเครื่องมือได้ 45% ลดลงเพื่อเพิ่มประสิทธิภาพ
- Aider polyglot (การประเมินการแก้ไขโค้ด): ทำสถิติ 88% ลดอัตราผิดพลาดลงเหลือประมาณ 1/3 เมื่อเทียบกับ o3
- วิเคราะห์ codebase ที่ซับซ้อนอย่างละเอียด และสามารถปรับ LLM ขนาดใหญ่ให้เข้ากับคำถามของผู้ใช้ เพื่อให้นักพัฒนา/นักวิจัยใช้ได้ง่ายขึ้น
- การสร้างโค้ด front-end ได้เปรียบเหนือกว่าในด้านความรู้สึกสวยงามและความแม่นยำถึง 70% ในการทดสอบ
ผลงานด้านงานเอเจนต์และคอนเท็กซ์ระยะยาว
- ใน τ2-bench telecom (benchmarks การเรียกเครื่องมือ) ทำสถิติ SOTA ล่าสุดที่ 96.7%
- แสดงความสามารถในการทำงานเสร็จสมบูรณ์สูงเมื่อรันการเรียกเครื่องมือเป็นชุดต่อเนื่องหรือแบบขนานจำนวนมาก
- ได้คะแนนสูงสุดในการปฏิบัติตามคำสั่งใน COLLIE, Scale MultiChallenge
- ในงาน Q&A คอนเท็กซ์ยาวเช่น OpenAI-MRCR, BrowseComp Long Context แสดงผลเหนือกว่า o3 และ GPT-4.1
- รองรับความยาวบริบทได้ถึง 400,000 โทเค็น เหมาะกับการวิเคราะห์เอกสาร/บทสนทนาในระดับใหญ่
ความน่าเชื่อถือและความปลอดภัย
- ในการประเมิน LongFact, FactScore ลดข้อผิดพลาดทางข้อเท็จจริงได้มากกว่า 80% เมื่อเทียบกับ o3
- รับรู้และแจ้งเตือนขีดจำกัดของตนเอง และเสริมความแม่นยำเป็นพิเศษในพื้นที่คำถามด้านสุขภาพ
- ในการใช้งานจริงยังคงแนะนำให้มีการยืนยันผลโดยนักพัฒนาในพื้นที่ที่สำคัญอยู่ดี
การควบคุมสำหรับนักพัฒนาและฟีเจอร์ใหม่ใน API
reasoning_effort: ควบคุมการสมดุลระหว่างความเร็วในการตอบกับคุณภาพการให้เหตุผลด้วยค่า minimal/low/medium/high
- minimal: ตอบสนองเร็ว, high: ให้เหตุผลเชิงตรรกะคุณภาพสูง
verbosity: ปรับความยาวผลลัพธ์ได้ด้วย low/medium/high
- หากมีคำสั่งแบบชัดแจ้ง จะให้ความสำคัญกับคำสั่งนั้นมากกว่าพารามิเตอร์
- เครื่องมือแบบกำหนดเอง: รองรับรูปแบบ plaintext นอกเหนือจาก JSON และสามารถจำกัดรูปแบบ input ของเครื่องมือด้วย regex หรือ Context-Free Grammar ได้
- ลดความเสี่ยงปัญหา JSON escape ที่อาจเกิดขึ้นกับ code snippets หรือรายงานขนาดใหญ่ และเพิ่มความง่ายในการผสานระบบเครื่องมือของนักพัฒนา
โมเดล API และนโยบายราคาแบบหลากหลาย
- gpt-5: $1.25 ต่อ 1 ล้าน input token, $10 ต่อ 1 ล้าน output token
- gpt-5-mini: $0.25 ต่อ 1 ล้าน input token, $2 ต่อ 1 ล้าน output token
- gpt-5-nano: $0.05 ต่อ 1 ล้าน input token, $0.40 ต่อ 1 ล้าน output token
- ทุกโมเดลรองรับ reasoning_effort, verbosity, custom tools, การเรียกเครื่องมือแบบขนาน, เครื่องมือเว็บ/ไฟล์/ภาพแบบในตัว, สตรีมมิ่ง และฟีเจอร์หลักอื่น ๆ
- gpt-5-chat-latest เปิดตัวเป็นโมเดล non-reasoning สำหรับ ChatGPT ในราคาเดียวกัน
การผสานรวมและความสามารถขยายตัว
- เปิดตัวการผสานกับแพลตฟอร์ม Microsoft หลากหลายเช่น Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry
- ถูกนำมาใช้เป็นเอนจินหลักในระบบเอเจนต์ของนักพัฒนาใน Cursor, Windsurf, GitHub Copilot และ Codex CLI
- ในการประเมินภายในของ alpha-tester และผลิตภัณฑ์อัตโนมัติด้านโค้ด/งานต่าง ๆ มาจัดเป็นมาตรฐานใหม่เมื่อเทียบกับรุ่นก่อน
ความน่าเชื่อถือ ความปลอดภัย และข้อมูลเพิ่มเติม
- ความเสี่ยงการตอบผิด (hallucination) ลดลงอย่างมีนัยสำคัญ และอธิบายขั้นตอนการทำงานและข้อจำกัดได้ตรงไปตรงมามากขึ้น
- ระบบการ์ด (system card), บล็อกวิจัยภายใน และแหล่งข้อมูลอื่น ๆ ให้รายละเอียดการนำไปใช้ การประเมิน และมาตรการความปลอดภัยอย่างโปร่งใส
- ทำหน้าที่เป็นผู้ช่วยเขียนโค้ดอัตโนมัติระดับสูง และเชี่ยวชาญการทำงานอัตโนมัติของ workflow เชิงเอเจนต์ที่ซับซ้อน
บทสรุป
- GPT-5 คือโมเดลที่มีสมรรถนะแข็งแกร่งที่สุดที่ OpenAI เคยปล่อยสำหรับงาน การเขียนโค้ดและงานเอเจนต์ และเป็นหุ้นส่วนนวัตกรรมที่เหมาะกับสภาพแวดล้อมพัฒนาจริงและการทำงานอัตโนมัติ
- ด้วย API และระบบเครื่องมือที่พัฒนาไปอีกขั้น และตัวเลือกปริมาณ/ราคาที่หลากหลาย ผนวกกับผลการประเมินสูง ทำให้ GPT-5 เปิดยุคใหม่แห่งประสิทธิผลให้แก่นักพัฒนาและองค์กร
ยังไม่มีความคิดเห็น