เปิดตัว GPT-5
(openai.com)- GPT-5 มอบประสิทธิภาพที่เหนือกว่ารุ่นก่อนหน้าในทุกด้าน ทั้งการเขียนโค้ด คณิตศาสตร์ การเขียน งานด้านสุขภาพ และการรับรู้ภาพ โดยเป็น ระบบแบบบูรณาการ ที่ผสานการตอบสนองที่รวดเร็วกับการให้เหตุผลเชิงลึกตามความเหมาะสมของสถานการณ์
- ‘GPT-5 Thinking’ ใช้การให้เหตุผลที่ยาวขึ้นกับปัญหาที่ซับซ้อนเพื่อเพิ่มความแม่นยำ และผู้ใช้แพ็กเกจ Pro สามารถใช้ GPT-5 Pro ซึ่งขยายความสามารถส่วนนี้เพื่อประสิทธิภาพระดับสูงสุดได้
- ในการใช้งานจริง มีการลดสัดส่วน อาการหลอน (การสร้างข้อเท็จจริงที่ไม่ถูกต้อง) ลงอย่างมาก พร้อมปรับปรุงความสามารถด้านความเข้าใจหลายโมดัล การทำตามคำสั่ง และงานซับซ้อนที่เชื่อมต่อกับเครื่องมือหลายตัว
- เสริมความสามารถช่วยนักพัฒนา เช่น การสร้าง UI ฝั่งฟรอนต์เอนด์และการดีบักโค้ดขนาดใหญ่ และในด้านสุขภาพก็ทำคะแนนสูงสุดบน HealthBench พร้อมทำหน้าที่เป็นพาร์ตเนอร์ด้านสุขภาพเชิงรุก
- ในด้านความปลอดภัย มีการนำการฝึกแบบ ‘safe completion’ มาใช้เพื่อลดการปฏิเสธที่ไม่จำเป็น และมีระบบป้องกันหลายชั้นระดับสูงสำหรับด้านชีววิทยาและเคมี
ภาพรวม GPT-5
ระบบแบบบูรณาการ
- ภายในระบบเดียวประกอบด้วย โมเดลอัจฉริยะและมีประสิทธิภาพ, โมเดลให้เหตุผลเชิงลึก (GPT-5 Thinking) และ ตัวกำหนดเส้นทางแบบเรียลไทม์ ที่เลือกใช้ตามสถานการณ์ ความซับซ้อน ความจำเป็นด้านเครื่องมือ และเจตนาของผู้ใช้
- เมื่อเกินขีดจำกัดการใช้งาน เวอร์ชัน ‘mini’ ของแต่ละโมเดลจะเข้ามาจัดการคำถามที่เหลือ
- ในอนาคต ฟังก์ชันเหล่านี้จะถูกรวมเป็นโมเดลเดียว
การปรับปรุงด้านประสิทธิภาพและการใช้งาน
- ทำผลงานได้เหนือกว่า GPT-4o อย่างชัดเจนในเบนช์มาร์กโดยรวม
- ลดอาการหลอน, ทำตามคำสั่งได้ดีขึ้น, ลดคำตอบเอาใจผู้ใช้เกินไป (sycophancy)
- มีการปรับปรุงใน 3 ด้านหลัก
- การเขียนโค้ด: เสริมความสามารถในการสร้างฟรอนต์เอนด์ที่ซับซ้อน ดีบักรีโพซิทอรีขนาดใหญ่ และสร้าง UI/UX ที่มีสุนทรียะ
- การเขียน: สามารถจัดการความกำกวมเชิงโครงสร้างและถ่ายทอดสำนวนที่มีมิติทางวรรณศิลป์และจังหวะ พร้อมเสริมการช่วยเขียนและแก้ไขเอกสารทั่วไป
- สุขภาพ: ทำสถิติสูงสุดบน HealthBench และให้คำตอบที่ปลอดภัยและแม่นยำตามบริบท ระดับความรู้ และภูมิภาค
ผลการประเมิน
- คณิตศาสตร์ 94.6% (AIME 2025), การเขียนโค้ด SWE-bench Verified 74.9%, มัลติโมดัล MMMU 84.2%, สุขภาพ HealthBench Hard 46.2% ทำสถิติ SOTA
- ใน GPQA นั้น GPT-5 Pro ทำสถิติสูงสุดที่ 88.4%
- ความสามารถด้านมัลติโมดัล การเชื่อมต่อเครื่องมือ และการจัดการงานหลายขั้นตอนได้รับการปรับปรุงอย่างมาก
การให้เหตุผลที่มีประสิทธิภาพ
- ใช้โทเค็นลดลง 50~80% เมื่อเทียบกับประสิทธิภาพระดับเดียวกัน
- สำหรับงานที่ซับซ้อนและยาก GPT-5 Thinking ลดอัตราความผิดพลาดและอัตราอาการหลอนได้อย่างชัดเจนเมื่อเทียบกับ o3
เสริมความน่าเชื่อถือและความเป็นข้อเท็จจริง
- ในการทดสอบความเป็นข้อเท็จจริงแบบปลายเปิด อัตราอาการหลอนลดลง 6 เท่า
- อธิบายข้อจำกัดได้อย่างชัดเจนเมื่อเป็นงานที่ทำไม่ได้หรืออยู่ในสถานการณ์ที่ข้อมูลไม่เพียงพอ
- อัตรา sycophantic ลดจาก 14.5% เหลือต่ำกว่า 6%
การปรับปรุงด้านความปลอดภัย
- ใช้การฝึก ‘safe completion’ เพื่อให้คำตอบที่ปลอดภัยและเป็นประโยชน์แม้กับคำขอที่อาจมีความเสี่ยง
- ใช้ระบบป้องกันหลายชั้นเพื่อรับมือสถานการณ์ความเสี่ยงสูงในด้านชีววิทยาและเคมี
GPT-5 Pro
- โมเดลให้เหตุผลแบบขยายสำหรับงานที่ยากที่สุด
- ในการประเมินโดยผู้เชี่ยวชาญ ได้รับความนิยมมากกว่า GPT-5 Thinking 67.8% และลดข้อผิดพลาดสำคัญลง 22%
- ให้ประสิทธิภาพสูงสุดในด้านสุขภาพ วิทยาศาสตร์ คณิตศาสตร์ และการเขียนโค้ด
วิธีใช้งานและการเข้าถึง
- GPT-5 ถูกนำมาใช้เป็นโมเดลพื้นฐานของ ChatGPT และแทนที่โมเดลก่อนหน้า (เช่น GPT-4o, o3)
- สามารถบังคับโหมดให้เหตุผลได้ด้วยการป้อน ‘think hard about this’
- ทยอยเปิดให้ Plus·Pro·Team·Free ใช้งาน และ Enterprise·Edu จะตามมาในอีก 1 สัปดาห์
- ผู้ใช้ฟรีจะสลับไปใช้ GPT-5 mini เมื่อเกินขีดจำกัด
ประเด็นสำคัญของ GPT-5 สำหรับนักพัฒนา
ประสิทธิภาพและคุณสมบัติ
-
ประสิทธิภาพด้านการเขียนโค้ด:
- SWE-bench Verified 74.9% (o3: 69.1%), ใช้โทเค็น 22%↓, การเรียกใช้เครื่องมือ 45%↓
- Aider polyglot 88% ลดอัตราความผิดพลาดในการแก้ไขโค้ดลง 1/3
- เมื่อต้องสร้างโค้ดฟรอนต์เอนด์ ได้รับความนิยมมากกว่า o3 อยู่ 70%
-
งานแบบเอเจนต์:
- τ 2-bench telecom 96.7%, ปรับปรุงเสถียรภาพของการเรียกใช้หลายเครื่องมือและการเรียกแบบขนาน
- สามารถแสดงข้อความ preamble เพื่อบอกความคืบหน้าและแผนงานให้ผู้ใช้เห็นได้อย่างชัดเจน
-
บริบทยาว:
- OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
- รองรับบริบทสูงสุด 400,000 โทเค็น
ฟังก์ชัน API ใหม่
reasoning_effort: ปรับเวลาในการให้เหตุผลได้ตั้งแต่minimal~highverbosity: ตั้งค่าความยาวคำตอบเริ่มต้นได้ตั้งแต่low~high- เครื่องมือกำหนดเอง: เรียกใช้ด้วย plaintext แทน JSON ได้ และรองรับข้อจำกัดแบบ regex/ไวยากรณ์
- มีเครื่องมือพื้นฐานในตัว เช่น การเรียกใช้เครื่องมือแบบขนาน เว็บเสิร์ช ไฟล์เสิร์ช และการสร้างภาพ
- รองรับฟีเจอร์ลดต้นทุน เช่น prompt caching และ Batch API
ความเสถียรและความน่าเชื่อถือ
- ในเบนช์มาร์ก LongFact และ FactScore อัตราอาการหลอนลดลงประมาณ ~80% เมื่อเทียบกับ o3
- เสริมความสามารถในการรับรู้ขีดจำกัดของตนเองและรับมือกับสถานการณ์ไม่คาดคิด
- เหมาะกับงานความเสี่ยงสูงหรืองานที่ต้องการความแม่นยำสูง (โค้ด ข้อมูล การตัดสินใจ)
Availability & pricing
ขนาดที่ให้บริการและเอนด์พอยต์
- รุ่นที่มีให้บริการ:
gpt-5·gpt-5-mini·gpt-5-nano - อินเทอร์เฟซที่รองรับ: ใช้งานได้กับ Responses API, Chat Completions API, และเป็นค่าเริ่มต้นของ Codex CLI
- ลักษณะของโมเดล: ตระกูล GPT‑5 บน API เป็น reasoning model ขณะที่ non‑reasoning model ของ ChatGPT ให้บริการผ่าน ID แยกต่างหาก
ตารางราคาและหน่วยการคิดค่าบริการ
gpt-5: อินพุต $1.25/ล้านโทเค็น, เอาต์พุต $10/ล้านโทเค็นgpt-5-mini: อินพุต $0.25/ล้าน, เอาต์พุต $2/ล้านgpt-5-nano: อินพุต $0.05/ล้าน, เอาต์พุต $0.40/ล้านgpt-5-chat-latest(ไม่ใช้การให้เหตุผล): อินพุต $1.25/ล้าน, เอาต์พุต $10/ล้าน เท่ากับgpt-5
สรุปฟังก์ชันที่รองรับ
- การควบคุมการให้เหตุผล: ระบุ
reasoning_effortเป็นminimal·low·medium·highเพื่อปรับสมดุล ความเร็ว↔ความแม่นยำ - ความยาวคำตอบ: ตั้งค่าแนวโน้มพื้นฐานเป็น สั้น/ปกติ/ยาว ด้วย
verbosity - เครื่องมือ: custom tools รองรับการเรียกด้วย อาร์กิวเมนต์แบบ plaintext และใช้ข้อจำกัดแบบ regex/CFG ได้
- ความสามารถในการรัน: รองรับ การเรียกใช้เครื่องมือแบบขนาน, เครื่องมือในตัว (web search, file search, image generation เป็นต้น), สตรีมมิง, และ Structured Outputs
- การเพิ่มประสิทธิภาพต้นทุน: ลดค่าโทเค็นและเลเทนซีได้ด้วย prompt caching และ Batch API
- ช่องทางการเปิดให้ใช้งาน: GPT‑5 ถูกนำไปใช้ทั่วทั้ง Microsoft 365 Copilot, Copilot, GitHub Copilot, และ Azure AI Foundry
ตัวอย่างค่าใช้จ่ายแบบง่าย
- เมื่อใช้
gpt-5ประมวลผล อินพุต 50k + เอาต์พุต 5k โทเค็น ค่าใช้จ่ายรวม ≈ $0.1125- สูตรคำนวณ: อินพุต 0.05M × $1.25 = $0.0625, เอาต์พุต 0.005M × $10 = $0.05, รวม $0.1125
- หากประมวลผลงานเดียวกันด้วย
gpt-5-miniค่าใช้จ่ายรวม ≈ $0.0175- อินพุต 0.05M × $0.25 = $0.0125, เอาต์พุต 0.005M × $2 = $0.01 ซึ่งผลรวมที่ถูกต้องคือ $0.0225 แต่เมื่อพิจารณาราคาเอาต์พุตจะเห็นว่าความแตกต่างจะยิ่งมากขึ้นในเวิร์กโหลดที่มีสัดส่วนอินพุตสูง
- ไปป์ไลน์ที่มี เอาต์พุตเชิงสร้างสรรค์จำนวนมาก มีแรงจูงใจสูงที่จะเลือก โมเดลที่มีค่าเอาต์พุตต่ำกว่า
บันทึกแนวทางการเลือกใช้
- หาก ความแม่นยำสำคัญที่สุด และต้องการแบ็กเอนด์เอเจนต์ที่มี สายโซ่การใช้เครื่องมือซับซ้อน ให้พิจารณา
gpt-5 - สำหรับ การแก้ไขโค้ดทั่วไป เอเจนต์แบบเบา และการประมวลผลแบบแบตช์จำนวนมาก
gpt-5-miniให้สมดุล คุณภาพต่อราคา ที่ดีกว่า - งานเตรียมข้อมูล การตรวจเช็กรูล และการสรุปแบบง่ายที่ต้องการ หน่วงต่ำมากและต้นทุนต่ำมาก เหมาะกับ
gpt-5-nano
อ้างอิง
- หากต้องการใช้ โมเดลพื้นฐานแบบ non‑reasoning ของ ChatGPT ตามเดิม ให้เลือก
gpt-5-chat-latestใน API - ความยาวคำตอบจะยึดตาม คำสั่งที่ระบุอย่างชัดเจนเป็นลำดับแรก ดังนั้นไม่ว่า
verbosityจะตั้งค่าอย่างไร หากสั่งความยาวแบบเฉพาะเจาะจง เช่น “เรียงความ 5 ย่อหน้า” ระบบก็จะ ทำตามคำสั่ง
5 ความคิดเห็น
ส่วนตัวผมคิดว่า
claude-codeน่าจะดีกว่าสำหรับงานรีแฟกเตอร์ตอนที่สั่งงานรีแฟกเตอร์อย่างการลบเมธอดที่ไม่จำเป็นด้วย cursor + GPT5 นั้น
claude-codeจะหาและลบได้ดี แต่ GPT5 ให้ความรู้สึกเหมือนยังมองภาพรวมของโปรเจกต์ได้ไม่ครบถ้วนรู้สึกได้เลยว่าความสามารถในการใช้งานดีขึ้นแบบก้าวกระโดด แต่กระแสตอบรับที่บอกว่ามันเข้าใกล้ AGI อย่างที่โวยกันใหญ่ก็คงเป็นการพูดเกินจริงอยู่ดี
ถ้าดูเฉพาะฝั่งการเขียนโค้ด (SWE-bench) จะอยู่ที่ 74.9% (thinking), 52.8% (without thinking) ส่วน Claude อยู่ที่ 74.5% (Opus 4.1), 72.5% (Opus 4.0), 62.3% (Sonnet 3.7)
ถ้าไม่ใช้โหมด Thinking ก็แย่กว่า Sonnet และถึงใช้ก็ยังดีกว่า Opus 4.1 เพียงเล็กน้อยมากเท่านั้น
วิดีโอประกาศอย่างเป็นทางการของ OpenAI (1 ชั่วโมง 17 นาที) https://www.youtube.com/watch?v=0Uu_VJeVVfo
ความคิดเห็นจาก Hacker News
หลายคนเคยอ้างว่าถ้าบริษัท AI แห่งใดแห่งหนึ่งข้ามจุดวิกฤตของ AGI (ปัญญาประดิษฐ์ทั่วไป) ได้ ก็จะทิ้งห่างแบบผูกขาด แต่สิ่งที่น่าสนใจคือในความเป็นจริง ประสิทธิภาพของทุกโมเดลกำลังใกล้เคียงกันมากขึ้น ตอนนี้ทั้ง GPT-5, Claude Opus, Grok 4, Gemini 2.5 Pro ต่างก็มีผลงานโดยรวมที่ดี ทำให้จากมุมผู้ใช้รู้สึกว่าการแข่งขันดุเดือดกว่าที่เคย อยากรู้ว่านักวิจัยคิดว่าในอนาคตบริการของคู่แข่ง AI จะยิ่งคล้ายกันมากขึ้น หรือจะเริ่มสร้างความแตกต่างกันมากขึ้น
น่าสังเกตว่าเมื่อผ่านจุดวิกฤตระดับหนึ่งไปแล้ว ผู้ใช้อาจแยกไม่ออกด้วยซ้ำว่าโมเดลไหนดีกว่า เช่นเดียวกับผู้เล่นหมากรุก ELO 1000 ที่แม้จะได้เล่นกับ Magnus Carlsen และแกรนด์มาสเตอร์คนอื่น ๆ เอง ก็อาจแยกได้ไม่ง่ายว่าใครเก่งกว่า ปรากฏการณ์การจับกลุ่มจากเกณฑ์การประเมินของมนุษย์อาจเป็นเพียงภาพลวงตาในทางปฏิบัติก็ได้
เหตุผลที่ AGI ถูกมองว่าจะนำไปสู่ภาวะเอกฐานก็เพราะมันสามารถเรียนรู้ได้ด้วยตัวเอง แต่ตอนนี้เรายังห่างจากจุดนั้นอีกมาก ส่วนตัวคิดว่าแทบไม่มีโอกาสได้เห็น AGI ในช่วงชีวิตนี้ ระยะห่างระหว่างเมนเฟรมยุคทศวรรษ 1970 กับ LLM คล้ายกับระยะห่างระหว่างปัจจุบันกับ AGI
มองว่าการจำลองความฉลาดระดับสูงขึ้นด้วยโมเดลคาดเดาข้อความเชิงความน่าจะเป็นอาจเป็นสิ่งที่เป็นไปไม่ได้โดยสิ้นเชิง เพื่อนที่เป็นนักวิจัย AI ของฉันก็ไม่ได้กังวลเรื่อง AGI บนฐาน LLM เพราะมีข้อจำกัดด้านผลตอบแทนที่ลดลงเมื่อเพิ่มข้อมูลเมื่อเทียบกับประสิทธิภาพ สติปัญญาของมนุษย์สามารถทำ generalization ได้ดีมากจากตัวอย่างเพียงเล็กน้อย แต่ LLM มักแค่สร้างคำตอบที่พบบ่อยในข้อมูลฝึกซ้ำขึ้นมา อย่างไรก็ดี ต่อให้ไม่ใช่ AGI เทคโนโลยี AI/ML/SL ที่มีอยู่ก็อาจถึงจุดที่เปลี่ยนโลกได้ เช่น ในงานค้นหาที่การดึงความรู้กว้าง ๆ กลับมาใช้งานมีความสำคัญ
เมื่อก่อนฉันค่อนข้างมอง AI ในแง่ลบ แต่ตอนนี้ก็โล่งใจที่เอนเอียงราว 70% ไปทางที่ว่ากรอบเทคโนโลยีปัจจุบันคงไม่จบลงด้วยวันสิ้นโลกของ AI ในระยะสั้น การที่ AI ตอนนี้เก่งด้าน “เลียนแบบพวกเรา” และยังไม่ก้าวพ้นผลลัพธ์เฉลี่ยของมนุษย์ กลับเป็นพรในเวลานี้ ถึงอย่างนั้น ในเชิงหลักการก็คิดว่าคำเตือนของฝั่ง “AI doomers” มีเหตุผลอยู่ และเราควรรับมือกับภัยคุกคามนี้อย่างจริงจัง
ฉันไม่เห็นด้วยกับข้ออ้างที่ว่าการสร้างสารานุกรมที่ซับซ้อนขึ้น พร้อมอินเทอร์เฟซการค้นหาที่น่าสนใจและให้ความรู้สึกคล้ายมนุษย์ จะทำให้เราเข้าใกล้ AGI มากขึ้น เพราะไม่มีใครมีหลักฐานหรือความเข้าใจเลยว่าความเป็นปัญญาทั่วไป (GI) นั้นเกิดจากอะไร ทั้งหมดนี้เป็นเพียงการพูดเกินจริงและการโม้เพื่อระดมทุนที่ขาดฐานรองรับที่แข็งแรง คนที่โฆษณาว่า AGI เป็นสิ่งที่ทำได้จริงฉันมองว่าเป็นพวกต้มตุ๋น น่าประหลาดใจมากที่วิศวกรจำนวนมากในวงการเชื่อตรรกะแบบนี้อย่างหมดใจ จนทำให้สงสัยต่อสุขภาวะของอุตสาหกรรม
ข้อมูล cutoff ความรู้ของ GPT-5 คือ 30 กันยายน 2024 (ประมาณ 10 เดือนก่อนเปิดตัว), Gemini 2.5 Pro คือ มกราคม 2025 (3 เดือนก่อน), Claude Opus 4.1 คือ มีนาคม 2025 (4 เดือนก่อน) ลิงก์ที่เกี่ยวข้อง: เปรียบเทียบโมเดล OpenAI, DeepMind Gemini Pro, ภาพรวมโมเดล Claude ของ Anthropic
ตอนนี้ที่สามารถค้นเว็บได้แล้ว ก็สงสัยว่าค่า knowledge cutoff ยังมีความหมายมากน้อยแค่ไหน บางทีอาจเป็นตัวชี้ว่าขั้นตอน post-training ใช้เวลานานแค่ไหนมากกว่า
Gemini พยายามอุดช่องว่างของข้อมูลหลัง cutoff ด้วยการค้นเว็บแบบง่าย ๆ แทบทุกคำถาม
GPT-5 nano และ mini มี cutoff เร็วกว่านั้น คือ 30 พฤษภาคม 2024
มองว่าเมื่อโมเดลค้นเว็บได้ ตัว knowledge cutoff เองจึงไม่สำคัญมากนัก
ตรงกันข้าม มันอาจหมายถึง OpenAI ไม่ยอมใช้ทางลัดใด ๆ ในด้านความปลอดภัยเลยก็ได้
ตาม GPT-5 system card GPT-5 เป็นระบบแบบรวมศูนย์ที่ประกอบด้วยหลายโมเดล (สำหรับตอบเร็ว, สำหรับให้เหตุผลลึก) และมี router คอยเลือกโมเดล ระหว่างแชต router จะเลือกโมเดลตามพรอมป์ต์อย่าง “คิดเรื่องนี้แบบจริงจังหน่อย” ภายนอกดูเหมือนเป็นระบบเดียว แต่จริง ๆ แล้วเป็นโครงสร้างที่รวมหลายซับโมเดลเข้าด้วยกัน ดูเหมือนจะเลือกแนวทางนี้เพราะการฝึกโมเดลยักษ์ตัวเดียวแบบ end-to-end แพงเกินไป
อาจเป็นความต่างเชิงนิยาม แต่ถ้าส่วนประกอบต่าง ๆ ทำงานอัตโนมัติและผู้ใช้ใช้เพียงอินเทอร์เฟซเดียว ก็เรียกว่าเป็น “ระบบแบบรวมศูนย์” ได้ แน่นอนว่าไม่ใช่ “โมเดลแบบรวมศูนย์”
มันย้ำให้เห็นอีกครั้งถึงทฤษฎีคู่ขนานของ 'bitter lesson' ว่าภายใต้งบประมาณที่กำหนด ระบบเฉพาะทางที่ออกแบบด้วยมือสามารถให้ผลงานดีกว่าระบบอเนกประสงค์ขนาดยักษ์มาก
ตาม GPT-5 สำหรับนักพัฒนา GPT-5 ใน ChatGPT เป็นระบบที่รวมหลายโมเดลไว้ด้วยกัน (ใช้เหตุผล, ไม่ใช้เหตุผล, router ฯลฯ) ส่วน GPT-5 ใน API จะให้เฉพาะโมเดลให้เหตุผลที่ประสิทธิภาพสูงสุดแบบเดี่ยว ๆ บางโมเดลไม่ใช้เหตุผลของ ChatGPT ถูกให้บริการเป็น
gpt-5-chat-latestและจูนมาสำหรับนักพัฒนาถ้าการผสานโมเดลเล็กเฉพาะทางจำนวนมากคือทิศทางที่ถูกต้อง กลยุทธ์นี้ก็น่าปรารถนา
ปัญหาอาจไม่ใช่เรื่องต้นทุน แต่เป็นเพราะข้อมูลฝึกที่ใช้งานได้กำลังหมดลงจนฝึกอย่างมีประสิทธิภาพได้ยาก หรือข้อมูลใหม่ปนเปื้อนด้วยข้อมูลที่ AI สร้างจนใช้ไม่ได้
มีทั้งความผิดพลาดใหญ่ใน benchmark และเดโมก็ไม่ได้น่าประทับใจเท่าที่คาด ทำให้ตลาดเดิมพันว่าใครจะเป็น AI ที่ดีที่สุดปลายปีนี้มีการเปลี่ยนแปลงมากขึ้น ฉันคาดหวัง Gemini 3.0 หรือโมเดลใหม่ของ Google มากกว่า และคิดว่าในการแข่งขัน LLM ฝ่ายที่ “มาทีหลัง” อาจได้เปรียบกว่า
ฉันลองเอางานที่เคยล้มเหลวบน Opus 4.1 มาทดลองกับ GPT-5 แล้ว มันไม่เพียงทำสำเร็จ แต่ยังแก้ข้อผิดพลาดที่ Opus เคยสร้างไว้ด้วย รู้สึกได้เลยว่าเป็นของจริง
ฉันไม่อยากเห็นสถานการณ์ที่บริษัทผูกขาดซึ่งมีมูลค่าตลาดหลายล้านล้านดอลลาร์อยู่แล้ว กลายเป็นผู้ครอบครองโลกทั้งหมด
จากการทดสอบจริงรู้สึกว่าเป็นโมเดลที่ยอดเยี่ยมมาก เวลาตอบคำถามมันพยายามใช้ tool อย่างเต็มที่และเชิงรุกกว่ารุ่น 4.1 หรือ o3 อย่างเห็นได้ชัด เช่น ในคำตอบแรกมันเรียก tool ไปถึง 6 ครั้งเพื่อหาข้อมูล ตัวอย่าง: ตัวอย่างการใช้ tool
ทั้งข้อความการตลาดและตรรกะที่โชว์ในไลฟ์สตรีมดูวนซ้ำอยู่ที่ระดับ “มันดีกว่าเพราะมันดีกว่า” ยังขาดคำอธิบายที่ชัดเจนว่าทำไม GPT-5 จึงจำเป็นต้องเป็นการอัปเกรดเวอร์ชันใหญ่ และสุดท้ายตามเคย บรรยากาศของผลลัพธ์เอง (“vibe check”) จะเป็นตัวตัดสินความน่าเชื่อถือของโมเดล
ในช่วง 6 เดือนที่ผ่านมา ไลบรารี JS ยอดนิยมหลายตัวถูกรวมเข้าไปในชุดข้อมูลฝึกใหม่ ทำให้บอกว่า “เก่งเรื่องโค้ดขึ้น” แต่ก็น่ากังวลว่าวิธีนี้จะยั่งยืนหรือไม่
มีแต่การโปรโมต แต่ข้อมูลจริง/benchmark ยังมีน้อย ก็เลยรอฟังความเห็นสั้น ๆ จากผู้ใช้ภาคสนามอย่าง simonw อยู่เหมือนกัน
ฉันลองดันไปถึงขีดจำกัดของ LLM แล้ว เช่น งานรีแฟกเตอร์โค้ดยาก ๆ แต่ก็ยังรู้สึกยากจะเห็นการยกระดับคุณภาพแบบพื้นฐานเมื่อเทียบกับโมเดลก่อนหน้า ณ ตอนนี้ดูเหมือนการพัฒนาคุณภาพจะชนเพดานแล้ว (ช่วงชะลอของเส้นโค้ง S-curve) การให้คุณภาพเดิมในราคาถูกลงมีความหมายก็จริง แต่ในการใช้งานประจำวันแทบไม่รู้สึกถึงความต่างด้านคุณภาพ
หน้าเปิดตัว GPT-5 มีผล benchmark หลายอย่างรวมอยู่ด้วย (AIME 2025, SWE-bench ฯลฯ) แต่ก็ไม่ได้ถึงกับพลิกวงการ
ตอนนี้ให้ความรู้สึกเหมือนเราเข้าสู่ “ยุคสมาร์ตโฟนที่อยากได้เพราะมันเป็นรุ่นล่าสุด” แล้ว
จากไลฟ์สตรีม การพัฒนา benchmark เมื่อเทียบกับโมเดลก่อนหน้ามีน้อยมาก เข้าใจได้ว่าทำไมก่อนเปิดตัวถึงพยายามกดความคาดหวังลง แต่ของจริงก็ยังปรับดีขึ้นน้อยกว่าที่คาดมาก
ก่อนเปิดตัว Sam Altman เคยทวีตรูป Death Star จนทำให้คนคาดหวังสูง
บริษัท AI บิ๊กเทคกำลังแข่งกันในพื้นที่คล้ายกันโดยยังสร้างความแตกต่างไม่ได้ และดูเหมือน OpenAI ต่อจากนี้จะเน้นการปรับต้นทุนให้เหมาะสมและการใช้งานแบบผู้ช่วยในชีวิตประจำวัน/ธุรกิจ มากกว่าการไล่ล่าปัญญาระดับสูงสุด ในทางกลับกัน Anthropic กับ Google ยังมีอัตราเติบโตที่ทำให้ลงทุนกับความฉลาดที่สูงกว่าได้ สุดท้ายแม้อาจมีโมเดลที่ฉลาดกว่าออกมาในสาย o series เป็นต้น แต่ท้ายที่สุดรายได้และความจริงของตลาดก็เป็นข้อจำกัดอยู่ดี
GPT-5 อยู่ที่อันดับ 1 ใน WebDev Arena โดยนำ Gemini 2.5 Pro อยู่ 75 คะแนน และนำ Claude Opus 4 อยู่ 100 คะแนน ดูเพิ่มเติม: ลีดเดอร์บอร์ด lmarena.ai
เดโมโค้ดส่วนใหญ่สาธิตด้วย Cursor บน GPT-5 MAX ซึ่งผู้ใช้ส่วนมากคงใช้โหมด MAX แบบนั้นบ่อย ๆ ไม่ได้ น่าจะดีถ้ามีการสาธิตบนเวอร์ชันปกติด้วย
ทำให้นึกถึงคำพูดของ Sam เมื่อ 2 ปีก่อนว่าเขาจะเลือกการพัฒนาแบบค่อยเป็นค่อยไปแทนการประกาศครั้งเดียวแบบช็อกโลก ตอนนี้เพิ่งวันแรก ดังนั้นอีกหลายเดือนข้างหน้าอาจยังมีพื้นที่ให้ปรับเพิ่มอีก 10–20%
สับสนว่าแกน y ของสไลด์ประกาศนี้คืออะไร ประเด็นกราฟที่เป็นข้อถกเถียง
ในตัวอย่างเดโม ChatGPT5 มีการอธิบายกลไกการทำงานของ “ปีกเครื่องบิน (airfoil)” ผิด โดยบอกว่าอากาศด้านบนต้องเดินทางไกลกว่า จึงเร็วกว่าและความดันต่ำกว่า ส่วนด้านล่างช้ากว่าและความดันสูงกว่า เลยเกิดแรงยก แต่ความจริงไม่มีเหตุผลทางฟิสิกส์ที่อากาศด้านบนและล่างต้องไปถึงพร้อมกัน บทความที่เกี่ยวข้อง: Cambridge ของสหราชอาณาจักร แปลกที่เดโมแรกก็ใช้คำอธิบายที่ผิดแล้ว
นี่เป็นคำอธิบายที่ผิดทั้งหมด ถ้าคำอธิบายนั้นถูกต้อง airfoil แบบแผ่นแบนก็ควรสร้างแรงยกไม่ได้ แต่ความจริงไม่ใช่แบบนั้น พูดจากประสบการณ์ตรงในฐานะคนที่มีปริญญาเอกด้านการออกแบบอากาศยาน
นี่คือความเข้าใจผิดชื่อดังแบบ 'equal transit time fallacy' ดังนั้นต่อให้ไม่ใช่ผู้เชี่ยวชาญด้านวิศวกรรมอากาศยานก็มักเคยได้ยินข้อผิดพลาดนี้
การใช้คำว่า "ระดับปริญญาเอก" ฟังดูแปลก ถ้าเป็นปริญญาเอกจริง ก็ควรต้องสร้างวิทยาศาสตร์ใหม่ ไม่ใช่แค่ท่องข้อมูลเดิม จนถึงตอนนี้ยังไม่เคยเห็น LLM สร้างวิทยาศาสตร์ใหม่ได้ด้วยตัวเอง โดยพื้นฐานแล้ว LLM ก็เป็นเพียงตัวแยกวิเคราะห์คำที่เก่งมากเท่านั้น
NASA ก็มีหน้าอธิบายแยกเกี่ยวกับ คำอธิบายที่ผิด นี้ด้วย
Bartosz อธิบาย เรื่องนี้ ได้ดีที่สุด
GPT-5 มี context window 400k, เอาต์พุตสูงสุด 128k token, ราคาคืออินพุต $1.25 เอาต์พุต $10.00 ตาม เอกสารทางการ หากประสิทธิภาพระดับนี้ทำคะแนนดีมากในปัญหา needle-in-haystack ก็จะมีความสามารถในการแข่งขันเหนือกว่า Gemini 2.5 Pro และ Claude Opus 4.1 อย่างมาก และถ้าเวอร์ชัน mini/nano ทำได้ดีจริง ก็อาจถือเป็นการก้าวกระโดดครั้งใหญ่เลย
gpt-5มี cutoff ที่ 1 ตุลาคม 2024 ขณะที่ mini/nano อยู่ที่ 31 พฤษภาคม 2024 ส่วนตระกูล 4.1 ก่อนหน้านี้รองรับ 1M/32k token โดยโครงสร้างราคาคืออินพุตถูกลง 37% แต่เอาต์พุตแพงขึ้น 25% และมีเพียงรุ่น nano ที่อินพุตถูกลง 50% โดยราคาเอาต์พุตเท่าเดิมถ้าจะใช้ API ก็ต้องนับต้นทุนของการยืนยันตัวตนด้วย (เวลา ขั้นตอน ฯลฯ)