• GPT-5 มอบประสิทธิภาพที่เหนือกว่ารุ่นก่อนหน้าในทุกด้าน ทั้งการเขียนโค้ด คณิตศาสตร์ การเขียน งานด้านสุขภาพ และการรับรู้ภาพ โดยเป็น ระบบแบบบูรณาการ ที่ผสานการตอบสนองที่รวดเร็วกับการให้เหตุผลเชิงลึกตามความเหมาะสมของสถานการณ์
  • ‘GPT-5 Thinking’ ใช้การให้เหตุผลที่ยาวขึ้นกับปัญหาที่ซับซ้อนเพื่อเพิ่มความแม่นยำ และผู้ใช้แพ็กเกจ Pro สามารถใช้ GPT-5 Pro ซึ่งขยายความสามารถส่วนนี้เพื่อประสิทธิภาพระดับสูงสุดได้
  • ในการใช้งานจริง มีการลดสัดส่วน อาการหลอน (การสร้างข้อเท็จจริงที่ไม่ถูกต้อง) ลงอย่างมาก พร้อมปรับปรุงความสามารถด้านความเข้าใจหลายโมดัล การทำตามคำสั่ง และงานซับซ้อนที่เชื่อมต่อกับเครื่องมือหลายตัว
  • เสริมความสามารถช่วยนักพัฒนา เช่น การสร้าง UI ฝั่งฟรอนต์เอนด์และการดีบักโค้ดขนาดใหญ่ และในด้านสุขภาพก็ทำคะแนนสูงสุดบน HealthBench พร้อมทำหน้าที่เป็นพาร์ตเนอร์ด้านสุขภาพเชิงรุก
  • ในด้านความปลอดภัย มีการนำการฝึกแบบ ‘safe completion’ มาใช้เพื่อลดการปฏิเสธที่ไม่จำเป็น และมีระบบป้องกันหลายชั้นระดับสูงสำหรับด้านชีววิทยาและเคมี

ภาพรวม GPT-5

ระบบแบบบูรณาการ

  • ภายในระบบเดียวประกอบด้วย โมเดลอัจฉริยะและมีประสิทธิภาพ, โมเดลให้เหตุผลเชิงลึก (GPT-5 Thinking) และ ตัวกำหนดเส้นทางแบบเรียลไทม์ ที่เลือกใช้ตามสถานการณ์ ความซับซ้อน ความจำเป็นด้านเครื่องมือ และเจตนาของผู้ใช้
  • เมื่อเกินขีดจำกัดการใช้งาน เวอร์ชัน ‘mini’ ของแต่ละโมเดลจะเข้ามาจัดการคำถามที่เหลือ
  • ในอนาคต ฟังก์ชันเหล่านี้จะถูกรวมเป็นโมเดลเดียว

การปรับปรุงด้านประสิทธิภาพและการใช้งาน

  • ทำผลงานได้เหนือกว่า GPT-4o อย่างชัดเจนในเบนช์มาร์กโดยรวม
  • ลดอาการหลอน, ทำตามคำสั่งได้ดีขึ้น, ลดคำตอบเอาใจผู้ใช้เกินไป (sycophancy)
  • มีการปรับปรุงใน 3 ด้านหลัก
    • การเขียนโค้ด: เสริมความสามารถในการสร้างฟรอนต์เอนด์ที่ซับซ้อน ดีบักรีโพซิทอรีขนาดใหญ่ และสร้าง UI/UX ที่มีสุนทรียะ
    • การเขียน: สามารถจัดการความกำกวมเชิงโครงสร้างและถ่ายทอดสำนวนที่มีมิติทางวรรณศิลป์และจังหวะ พร้อมเสริมการช่วยเขียนและแก้ไขเอกสารทั่วไป
    • สุขภาพ: ทำสถิติสูงสุดบน HealthBench และให้คำตอบที่ปลอดภัยและแม่นยำตามบริบท ระดับความรู้ และภูมิภาค

ผลการประเมิน

  • คณิตศาสตร์ 94.6% (AIME 2025), การเขียนโค้ด SWE-bench Verified 74.9%, มัลติโมดัล MMMU 84.2%, สุขภาพ HealthBench Hard 46.2% ทำสถิติ SOTA
  • ใน GPQA นั้น GPT-5 Pro ทำสถิติสูงสุดที่ 88.4%
  • ความสามารถด้านมัลติโมดัล การเชื่อมต่อเครื่องมือ และการจัดการงานหลายขั้นตอนได้รับการปรับปรุงอย่างมาก

การให้เหตุผลที่มีประสิทธิภาพ

  • ใช้โทเค็นลดลง 50~80% เมื่อเทียบกับประสิทธิภาพระดับเดียวกัน
  • สำหรับงานที่ซับซ้อนและยาก GPT-5 Thinking ลดอัตราความผิดพลาดและอัตราอาการหลอนได้อย่างชัดเจนเมื่อเทียบกับ o3

เสริมความน่าเชื่อถือและความเป็นข้อเท็จจริง

  • ในการทดสอบความเป็นข้อเท็จจริงแบบปลายเปิด อัตราอาการหลอนลดลง 6 เท่า
  • อธิบายข้อจำกัดได้อย่างชัดเจนเมื่อเป็นงานที่ทำไม่ได้หรืออยู่ในสถานการณ์ที่ข้อมูลไม่เพียงพอ
  • อัตรา sycophantic ลดจาก 14.5% เหลือต่ำกว่า 6%

การปรับปรุงด้านความปลอดภัย

  • ใช้การฝึก ‘safe completion’ เพื่อให้คำตอบที่ปลอดภัยและเป็นประโยชน์แม้กับคำขอที่อาจมีความเสี่ยง
  • ใช้ระบบป้องกันหลายชั้นเพื่อรับมือสถานการณ์ความเสี่ยงสูงในด้านชีววิทยาและเคมี

GPT-5 Pro

  • โมเดลให้เหตุผลแบบขยายสำหรับงานที่ยากที่สุด
  • ในการประเมินโดยผู้เชี่ยวชาญ ได้รับความนิยมมากกว่า GPT-5 Thinking 67.8% และลดข้อผิดพลาดสำคัญลง 22%
  • ให้ประสิทธิภาพสูงสุดในด้านสุขภาพ วิทยาศาสตร์ คณิตศาสตร์ และการเขียนโค้ด

วิธีใช้งานและการเข้าถึง

  • GPT-5 ถูกนำมาใช้เป็นโมเดลพื้นฐานของ ChatGPT และแทนที่โมเดลก่อนหน้า (เช่น GPT-4o, o3)
  • สามารถบังคับโหมดให้เหตุผลได้ด้วยการป้อน ‘think hard about this’
  • ทยอยเปิดให้ Plus·Pro·Team·Free ใช้งาน และ Enterprise·Edu จะตามมาในอีก 1 สัปดาห์
  • ผู้ใช้ฟรีจะสลับไปใช้ GPT-5 mini เมื่อเกินขีดจำกัด

ประเด็นสำคัญของ GPT-5 สำหรับนักพัฒนา

ประสิทธิภาพและคุณสมบัติ

  • ประสิทธิภาพด้านการเขียนโค้ด:

    • SWE-bench Verified 74.9% (o3: 69.1%), ใช้โทเค็น 22%↓, การเรียกใช้เครื่องมือ 45%↓
    • Aider polyglot 88% ลดอัตราความผิดพลาดในการแก้ไขโค้ดลง 1/3
    • เมื่อต้องสร้างโค้ดฟรอนต์เอนด์ ได้รับความนิยมมากกว่า o3 อยู่ 70%
  • งานแบบเอเจนต์:

    • τ 2-bench telecom 96.7%, ปรับปรุงเสถียรภาพของการเรียกใช้หลายเครื่องมือและการเรียกแบบขนาน
    • สามารถแสดงข้อความ preamble เพื่อบอกความคืบหน้าและแผนงานให้ผู้ใช้เห็นได้อย่างชัดเจน
  • บริบทยาว:

    • OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
    • รองรับบริบทสูงสุด 400,000 โทเค็น

ฟังก์ชัน API ใหม่

  • reasoning_effort: ปรับเวลาในการให้เหตุผลได้ตั้งแต่ minimal~high
  • verbosity: ตั้งค่าความยาวคำตอบเริ่มต้นได้ตั้งแต่ low~high
  • เครื่องมือกำหนดเอง: เรียกใช้ด้วย plaintext แทน JSON ได้ และรองรับข้อจำกัดแบบ regex/ไวยากรณ์
  • มีเครื่องมือพื้นฐานในตัว เช่น การเรียกใช้เครื่องมือแบบขนาน เว็บเสิร์ช ไฟล์เสิร์ช และการสร้างภาพ
  • รองรับฟีเจอร์ลดต้นทุน เช่น prompt caching และ Batch API

ความเสถียรและความน่าเชื่อถือ

  • ในเบนช์มาร์ก LongFact และ FactScore อัตราอาการหลอนลดลงประมาณ ~80% เมื่อเทียบกับ o3
  • เสริมความสามารถในการรับรู้ขีดจำกัดของตนเองและรับมือกับสถานการณ์ไม่คาดคิด
  • เหมาะกับงานความเสี่ยงสูงหรืองานที่ต้องการความแม่นยำสูง (โค้ด ข้อมูล การตัดสินใจ)

Availability & pricing

ขนาดที่ให้บริการและเอนด์พอยต์

  • รุ่นที่มีให้บริการ: gpt-5·gpt-5-mini·gpt-5-nano
  • อินเทอร์เฟซที่รองรับ: ใช้งานได้กับ Responses API, Chat Completions API, และเป็นค่าเริ่มต้นของ Codex CLI
  • ลักษณะของโมเดล: ตระกูล GPT‑5 บน API เป็น reasoning model ขณะที่ non‑reasoning model ของ ChatGPT ให้บริการผ่าน ID แยกต่างหาก

ตารางราคาและหน่วยการคิดค่าบริการ

  • gpt-5: อินพุต $1.25/ล้านโทเค็น, เอาต์พุต $10/ล้านโทเค็น
  • gpt-5-mini: อินพุต $0.25/ล้าน, เอาต์พุต $2/ล้าน
  • gpt-5-nano: อินพุต $0.05/ล้าน, เอาต์พุต $0.40/ล้าน
  • gpt-5-chat-latest (ไม่ใช้การให้เหตุผล): อินพุต $1.25/ล้าน, เอาต์พุต $10/ล้าน เท่ากับ gpt-5

สรุปฟังก์ชันที่รองรับ

  • การควบคุมการให้เหตุผล: ระบุ reasoning_effort เป็น minimal·low·medium·high เพื่อปรับสมดุล ความเร็ว↔ความแม่นยำ
  • ความยาวคำตอบ: ตั้งค่าแนวโน้มพื้นฐานเป็น สั้น/ปกติ/ยาว ด้วย verbosity
  • เครื่องมือ: custom tools รองรับการเรียกด้วย อาร์กิวเมนต์แบบ plaintext และใช้ข้อจำกัดแบบ regex/CFG ได้
  • ความสามารถในการรัน: รองรับ การเรียกใช้เครื่องมือแบบขนาน, เครื่องมือในตัว (web search, file search, image generation เป็นต้น), สตรีมมิง, และ Structured Outputs
  • การเพิ่มประสิทธิภาพต้นทุน: ลดค่าโทเค็นและเลเทนซีได้ด้วย prompt caching และ Batch API
  • ช่องทางการเปิดให้ใช้งาน: GPT‑5 ถูกนำไปใช้ทั่วทั้ง Microsoft 365 Copilot, Copilot, GitHub Copilot, และ Azure AI Foundry

ตัวอย่างค่าใช้จ่ายแบบง่าย

  • เมื่อใช้ gpt-5 ประมวลผล อินพุต 50k + เอาต์พุต 5k โทเค็น ค่าใช้จ่ายรวม ≈ $0.1125
    • สูตรคำนวณ: อินพุต 0.05M × $1.25 = $0.0625, เอาต์พุต 0.005M × $10 = $0.05, รวม $0.1125
  • หากประมวลผลงานเดียวกันด้วย gpt-5-mini ค่าใช้จ่ายรวม ≈ $0.0175
    • อินพุต 0.05M × $0.25 = $0.0125, เอาต์พุต 0.005M × $2 = $0.01 ซึ่งผลรวมที่ถูกต้องคือ $0.0225 แต่เมื่อพิจารณาราคาเอาต์พุตจะเห็นว่าความแตกต่างจะยิ่งมากขึ้นในเวิร์กโหลดที่มีสัดส่วนอินพุตสูง
  • ไปป์ไลน์ที่มี เอาต์พุตเชิงสร้างสรรค์จำนวนมาก มีแรงจูงใจสูงที่จะเลือก โมเดลที่มีค่าเอาต์พุตต่ำกว่า

บันทึกแนวทางการเลือกใช้

  • หาก ความแม่นยำสำคัญที่สุด และต้องการแบ็กเอนด์เอเจนต์ที่มี สายโซ่การใช้เครื่องมือซับซ้อน ให้พิจารณา gpt-5
  • สำหรับ การแก้ไขโค้ดทั่วไป เอเจนต์แบบเบา และการประมวลผลแบบแบตช์จำนวนมาก gpt-5-mini ให้สมดุล คุณภาพต่อราคา ที่ดีกว่า
  • งานเตรียมข้อมูล การตรวจเช็กรูล และการสรุปแบบง่ายที่ต้องการ หน่วงต่ำมากและต้นทุนต่ำมาก เหมาะกับ gpt-5-nano

อ้างอิง

  • หากต้องการใช้ โมเดลพื้นฐานแบบ non‑reasoning ของ ChatGPT ตามเดิม ให้เลือก gpt-5-chat-latest ใน API
  • ความยาวคำตอบจะยึดตาม คำสั่งที่ระบุอย่างชัดเจนเป็นลำดับแรก ดังนั้นไม่ว่า verbosity จะตั้งค่าอย่างไร หากสั่งความยาวแบบเฉพาะเจาะจง เช่น “เรียงความ 5 ย่อหน้า” ระบบก็จะ ทำตามคำสั่ง

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น