เปิดตัว GPT-5
(openai.com)- GPT-5 มอบประสิทธิภาพที่เหนือกว่ารุ่นก่อนหน้าในทุกด้าน ทั้งการเขียนโค้ด คณิตศาสตร์ การเขียน งานด้านสุขภาพ และการรับรู้ภาพ โดยเป็น ระบบแบบบูรณาการ ที่ผสานการตอบสนองที่รวดเร็วกับการให้เหตุผลเชิงลึกตามความเหมาะสมของสถานการณ์
- ‘GPT-5 Thinking’ ใช้การให้เหตุผลที่ยาวขึ้นกับปัญหาที่ซับซ้อนเพื่อเพิ่มความแม่นยำ และผู้ใช้แพ็กเกจ Pro สามารถใช้ GPT-5 Pro ซึ่งขยายความสามารถส่วนนี้เพื่อประสิทธิภาพระดับสูงสุดได้
- ในการใช้งานจริง มีการลดสัดส่วน อาการหลอน (การสร้างข้อเท็จจริงที่ไม่ถูกต้อง) ลงอย่างมาก พร้อมปรับปรุงความสามารถด้านความเข้าใจหลายโมดัล การทำตามคำสั่ง และงานซับซ้อนที่เชื่อมต่อกับเครื่องมือหลายตัว
- เสริมความสามารถช่วยนักพัฒนา เช่น การสร้าง UI ฝั่งฟรอนต์เอนด์และการดีบักโค้ดขนาดใหญ่ และในด้านสุขภาพก็ทำคะแนนสูงสุดบน HealthBench พร้อมทำหน้าที่เป็นพาร์ตเนอร์ด้านสุขภาพเชิงรุก
- ในด้านความปลอดภัย มีการนำการฝึกแบบ ‘safe completion’ มาใช้เพื่อลดการปฏิเสธที่ไม่จำเป็น และมีระบบป้องกันหลายชั้นระดับสูงสำหรับด้านชีววิทยาและเคมี
ภาพรวม GPT-5
ระบบแบบบูรณาการ
- ภายในระบบเดียวประกอบด้วย โมเดลอัจฉริยะและมีประสิทธิภาพ, โมเดลให้เหตุผลเชิงลึก (GPT-5 Thinking) และ ตัวกำหนดเส้นทางแบบเรียลไทม์ ที่เลือกใช้ตามสถานการณ์ ความซับซ้อน ความจำเป็นด้านเครื่องมือ และเจตนาของผู้ใช้
- เมื่อเกินขีดจำกัดการใช้งาน เวอร์ชัน ‘mini’ ของแต่ละโมเดลจะเข้ามาจัดการคำถามที่เหลือ
- ในอนาคต ฟังก์ชันเหล่านี้จะถูกรวมเป็นโมเดลเดียว
การปรับปรุงด้านประสิทธิภาพและการใช้งาน
- ทำผลงานได้เหนือกว่า GPT-4o อย่างชัดเจนในเบนช์มาร์กโดยรวม
- ลดอาการหลอน, ทำตามคำสั่งได้ดีขึ้น, ลดคำตอบเอาใจผู้ใช้เกินไป (sycophancy)
- มีการปรับปรุงใน 3 ด้านหลัก
- การเขียนโค้ด: เสริมความสามารถในการสร้างฟรอนต์เอนด์ที่ซับซ้อน ดีบักรีโพซิทอรีขนาดใหญ่ และสร้าง UI/UX ที่มีสุนทรียะ
- การเขียน: สามารถจัดการความกำกวมเชิงโครงสร้างและถ่ายทอดสำนวนที่มีมิติทางวรรณศิลป์และจังหวะ พร้อมเสริมการช่วยเขียนและแก้ไขเอกสารทั่วไป
- สุขภาพ: ทำสถิติสูงสุดบน HealthBench และให้คำตอบที่ปลอดภัยและแม่นยำตามบริบท ระดับความรู้ และภูมิภาค
ผลการประเมิน
- คณิตศาสตร์ 94.6% (AIME 2025), การเขียนโค้ด SWE-bench Verified 74.9%, มัลติโมดัล MMMU 84.2%, สุขภาพ HealthBench Hard 46.2% ทำสถิติ SOTA
- ใน GPQA นั้น GPT-5 Pro ทำสถิติสูงสุดที่ 88.4%
- ความสามารถด้านมัลติโมดัล การเชื่อมต่อเครื่องมือ และการจัดการงานหลายขั้นตอนได้รับการปรับปรุงอย่างมาก
การให้เหตุผลที่มีประสิทธิภาพ
- ใช้โทเค็นลดลง 50~80% เมื่อเทียบกับประสิทธิภาพระดับเดียวกัน
- สำหรับงานที่ซับซ้อนและยาก GPT-5 Thinking ลดอัตราความผิดพลาดและอัตราอาการหลอนได้อย่างชัดเจนเมื่อเทียบกับ o3
เสริมความน่าเชื่อถือและความเป็นข้อเท็จจริง
- ในการทดสอบความเป็นข้อเท็จจริงแบบปลายเปิด อัตราอาการหลอนลดลง 6 เท่า
- อธิบายข้อจำกัดได้อย่างชัดเจนเมื่อเป็นงานที่ทำไม่ได้หรืออยู่ในสถานการณ์ที่ข้อมูลไม่เพียงพอ
- อัตรา sycophantic ลดจาก 14.5% เหลือต่ำกว่า 6%
การปรับปรุงด้านความปลอดภัย
- ใช้การฝึก ‘safe completion’ เพื่อให้คำตอบที่ปลอดภัยและเป็นประโยชน์แม้กับคำขอที่อาจมีความเสี่ยง
- ใช้ระบบป้องกันหลายชั้นเพื่อรับมือสถานการณ์ความเสี่ยงสูงในด้านชีววิทยาและเคมี
GPT-5 Pro
- โมเดลให้เหตุผลแบบขยายสำหรับงานที่ยากที่สุด
- ในการประเมินโดยผู้เชี่ยวชาญ ได้รับความนิยมมากกว่า GPT-5 Thinking 67.8% และลดข้อผิดพลาดสำคัญลง 22%
- ให้ประสิทธิภาพสูงสุดในด้านสุขภาพ วิทยาศาสตร์ คณิตศาสตร์ และการเขียนโค้ด
วิธีใช้งานและการเข้าถึง
- GPT-5 ถูกนำมาใช้เป็นโมเดลพื้นฐานของ ChatGPT และแทนที่โมเดลก่อนหน้า (เช่น GPT-4o, o3)
- สามารถบังคับโหมดให้เหตุผลได้ด้วยการป้อน ‘think hard about this’
- ทยอยเปิดให้ Plus·Pro·Team·Free ใช้งาน และ Enterprise·Edu จะตามมาในอีก 1 สัปดาห์
- ผู้ใช้ฟรีจะสลับไปใช้ GPT-5 mini เมื่อเกินขีดจำกัด
ประเด็นสำคัญของ GPT-5 สำหรับนักพัฒนา
ประสิทธิภาพและคุณสมบัติ
-
ประสิทธิภาพด้านการเขียนโค้ด:
- SWE-bench Verified 74.9% (o3: 69.1%), ใช้โทเค็น 22%↓, การเรียกใช้เครื่องมือ 45%↓
- Aider polyglot 88% ลดอัตราความผิดพลาดในการแก้ไขโค้ดลง 1/3
- เมื่อต้องสร้างโค้ดฟรอนต์เอนด์ ได้รับความนิยมมากกว่า o3 อยู่ 70%
-
งานแบบเอเจนต์:
- τ 2-bench telecom 96.7%, ปรับปรุงเสถียรภาพของการเรียกใช้หลายเครื่องมือและการเรียกแบบขนาน
- สามารถแสดงข้อความ preamble เพื่อบอกความคืบหน้าและแผนงานให้ผู้ใช้เห็นได้อย่างชัดเจน
-
บริบทยาว:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- รองรับบริบทสูงสุด 400,000 โทเค็น
ฟังก์ชัน API ใหม่
reasoning_effort: ปรับเวลาในการให้เหตุผลได้ตั้งแต่minimal~highverbosity: ตั้งค่าความยาวคำตอบเริ่มต้นได้ตั้งแต่low~high- เครื่องมือกำหนดเอง: เรียกใช้ด้วย plaintext แทน JSON ได้ และรองรับข้อจำกัดแบบ regex/ไวยากรณ์
- มีเครื่องมือพื้นฐานในตัว เช่น การเรียกใช้เครื่องมือแบบขนาน เว็บเสิร์ช ไฟล์เสิร์ช และการสร้างภาพ
- รองรับฟีเจอร์ลดต้นทุน เช่น prompt caching และ Batch API
ความเสถียรและความน่าเชื่อถือ
- ในเบนช์มาร์ก LongFact และ FactScore อัตราอาการหลอนลดลงประมาณ ~80% เมื่อเทียบกับ o3
- เสริมความสามารถในการรับรู้ขีดจำกัดของตนเองและรับมือกับสถานการณ์ไม่คาดคิด
- เหมาะกับงานความเสี่ยงสูงหรืองานที่ต้องการความแม่นยำสูง (โค้ด ข้อมูล การตัดสินใจ)
Availability & pricing
ขนาดที่ให้บริการและเอนด์พอยต์
- รุ่นที่มีให้บริการ:
gpt-5·gpt-5-mini·gpt-5-nano - อินเทอร์เฟซที่รองรับ: ใช้งานได้กับ Responses API, Chat Completions API, และเป็นค่าเริ่มต้นของ Codex CLI
- ลักษณะของโมเดล: ตระกูล GPT‑5 บน API เป็น reasoning model ขณะที่ non‑reasoning model ของ ChatGPT ให้บริการผ่าน ID แยกต่างหาก
ตารางราคาและหน่วยการคิดค่าบริการ
gpt-5: อินพุต $1.25/ล้านโทเค็น, เอาต์พุต $10/ล้านโทเค็นgpt-5-mini: อินพุต $0.25/ล้าน, เอาต์พุต $2/ล้านgpt-5-nano: อินพุต $0.05/ล้าน, เอาต์พุต $0.40/ล้านgpt-5-chat-latest(ไม่ใช้การให้เหตุผล): อินพุต $1.25/ล้าน, เอาต์พุต $10/ล้าน เท่ากับgpt-5
สรุปฟังก์ชันที่รองรับ
- การควบคุมการให้เหตุผล: ระบุ
reasoning_effortเป็นminimal·low·medium·highเพื่อปรับสมดุล ความเร็ว↔ความแม่นยำ - ความยาวคำตอบ: ตั้งค่าแนวโน้มพื้นฐานเป็น สั้น/ปกติ/ยาว ด้วย
verbosity - เครื่องมือ: custom tools รองรับการเรียกด้วย อาร์กิวเมนต์แบบ plaintext และใช้ข้อจำกัดแบบ regex/CFG ได้
- ความสามารถในการรัน: รองรับ การเรียกใช้เครื่องมือแบบขนาน, เครื่องมือในตัว (web search, file search, image generation เป็นต้น), สตรีมมิง, และ Structured Outputs
- การเพิ่มประสิทธิภาพต้นทุน: ลดค่าโทเค็นและเลเทนซีได้ด้วย prompt caching และ Batch API
- ช่องทางการเปิดให้ใช้งาน: GPT‑5 ถูกนำไปใช้ทั่วทั้ง Microsoft 365 Copilot, Copilot, GitHub Copilot, และ Azure AI Foundry
ตัวอย่างค่าใช้จ่ายแบบง่าย
- เมื่อใช้
gpt-5ประมวลผล อินพุต 50k + เอาต์พุต 5k โทเค็น ค่าใช้จ่ายรวม ≈ $0.1125- สูตรคำนวณ: อินพุต 0.05M × $1.25 = $0.0625, เอาต์พุต 0.005M × $10 = $0.05, รวม $0.1125
- หากประมวลผลงานเดียวกันด้วย
gpt-5-miniค่าใช้จ่ายรวม ≈ $0.0175- อินพุต 0.05M × $0.25 = $0.0125, เอาต์พุต 0.005M × $2 = $0.01 ซึ่งผลรวมที่ถูกต้องคือ $0.0225 แต่เมื่อพิจารณาราคาเอาต์พุตจะเห็นว่าความแตกต่างจะยิ่งมากขึ้นในเวิร์กโหลดที่มีสัดส่วนอินพุตสูง
- ไปป์ไลน์ที่มี เอาต์พุตเชิงสร้างสรรค์จำนวนมาก มีแรงจูงใจสูงที่จะเลือก โมเดลที่มีค่าเอาต์พุตต่ำกว่า
บันทึกแนวทางการเลือกใช้
- หาก ความแม่นยำสำคัญที่สุด และต้องการแบ็กเอนด์เอเจนต์ที่มี สายโซ่การใช้เครื่องมือซับซ้อน ให้พิจารณา
gpt-5 - สำหรับ การแก้ไขโค้ดทั่วไป เอเจนต์แบบเบา และการประมวลผลแบบแบตช์จำนวนมาก
gpt-5-miniให้สมดุล คุณภาพต่อราคา ที่ดีกว่า - งานเตรียมข้อมูล การตรวจเช็กรูล และการสรุปแบบง่ายที่ต้องการ หน่วงต่ำมากและต้นทุนต่ำมาก เหมาะกับ
gpt-5-nano
อ้างอิง
- หากต้องการใช้ โมเดลพื้นฐานแบบ non‑reasoning ของ ChatGPT ตามเดิม ให้เลือก
gpt-5-chat-latestใน API - ความยาวคำตอบจะยึดตาม คำสั่งที่ระบุอย่างชัดเจนเป็นลำดับแรก ดังนั้นไม่ว่า
verbosityจะตั้งค่าอย่างไร หากสั่งความยาวแบบเฉพาะเจาะจง เช่น “เรียงความ 5 ย่อหน้า” ระบบก็จะ ทำตามคำสั่ง
ยังไม่มีความคิดเห็น