14 คะแนน โดย GN⁺ 2025-08-08 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • GPT-5 มอบประสิทธิภาพที่เหนือกว่ารุ่นก่อนหน้าในทุกด้าน ทั้งการเขียนโค้ด คณิตศาสตร์ การเขียน งานด้านสุขภาพ และการรับรู้ภาพ โดยเป็น ระบบแบบบูรณาการ ที่ผสานการตอบสนองที่รวดเร็วกับการให้เหตุผลเชิงลึกตามความเหมาะสมของสถานการณ์
  • ‘GPT-5 Thinking’ ใช้การให้เหตุผลที่ยาวขึ้นกับปัญหาที่ซับซ้อนเพื่อเพิ่มความแม่นยำ และผู้ใช้แพ็กเกจ Pro สามารถใช้ GPT-5 Pro ซึ่งขยายความสามารถส่วนนี้เพื่อประสิทธิภาพระดับสูงสุดได้
  • ในการใช้งานจริง มีการลดสัดส่วน อาการหลอน (การสร้างข้อเท็จจริงที่ไม่ถูกต้อง) ลงอย่างมาก พร้อมปรับปรุงความสามารถด้านความเข้าใจหลายโมดัล การทำตามคำสั่ง และงานซับซ้อนที่เชื่อมต่อกับเครื่องมือหลายตัว
  • เสริมความสามารถช่วยนักพัฒนา เช่น การสร้าง UI ฝั่งฟรอนต์เอนด์และการดีบักโค้ดขนาดใหญ่ และในด้านสุขภาพก็ทำคะแนนสูงสุดบน HealthBench พร้อมทำหน้าที่เป็นพาร์ตเนอร์ด้านสุขภาพเชิงรุก
  • ในด้านความปลอดภัย มีการนำการฝึกแบบ ‘safe completion’ มาใช้เพื่อลดการปฏิเสธที่ไม่จำเป็น และมีระบบป้องกันหลายชั้นระดับสูงสำหรับด้านชีววิทยาและเคมี

ภาพรวม GPT-5

ระบบแบบบูรณาการ

  • ภายในระบบเดียวประกอบด้วย โมเดลอัจฉริยะและมีประสิทธิภาพ, โมเดลให้เหตุผลเชิงลึก (GPT-5 Thinking) และ ตัวกำหนดเส้นทางแบบเรียลไทม์ ที่เลือกใช้ตามสถานการณ์ ความซับซ้อน ความจำเป็นด้านเครื่องมือ และเจตนาของผู้ใช้
  • เมื่อเกินขีดจำกัดการใช้งาน เวอร์ชัน ‘mini’ ของแต่ละโมเดลจะเข้ามาจัดการคำถามที่เหลือ
  • ในอนาคต ฟังก์ชันเหล่านี้จะถูกรวมเป็นโมเดลเดียว

การปรับปรุงด้านประสิทธิภาพและการใช้งาน

  • ทำผลงานได้เหนือกว่า GPT-4o อย่างชัดเจนในเบนช์มาร์กโดยรวม
  • ลดอาการหลอน, ทำตามคำสั่งได้ดีขึ้น, ลดคำตอบเอาใจผู้ใช้เกินไป (sycophancy)
  • มีการปรับปรุงใน 3 ด้านหลัก
    • การเขียนโค้ด: เสริมความสามารถในการสร้างฟรอนต์เอนด์ที่ซับซ้อน ดีบักรีโพซิทอรีขนาดใหญ่ และสร้าง UI/UX ที่มีสุนทรียะ
    • การเขียน: สามารถจัดการความกำกวมเชิงโครงสร้างและถ่ายทอดสำนวนที่มีมิติทางวรรณศิลป์และจังหวะ พร้อมเสริมการช่วยเขียนและแก้ไขเอกสารทั่วไป
    • สุขภาพ: ทำสถิติสูงสุดบน HealthBench และให้คำตอบที่ปลอดภัยและแม่นยำตามบริบท ระดับความรู้ และภูมิภาค

ผลการประเมิน

  • คณิตศาสตร์ 94.6% (AIME 2025), การเขียนโค้ด SWE-bench Verified 74.9%, มัลติโมดัล MMMU 84.2%, สุขภาพ HealthBench Hard 46.2% ทำสถิติ SOTA
  • ใน GPQA นั้น GPT-5 Pro ทำสถิติสูงสุดที่ 88.4%
  • ความสามารถด้านมัลติโมดัล การเชื่อมต่อเครื่องมือ และการจัดการงานหลายขั้นตอนได้รับการปรับปรุงอย่างมาก

การให้เหตุผลที่มีประสิทธิภาพ

  • ใช้โทเค็นลดลง 50~80% เมื่อเทียบกับประสิทธิภาพระดับเดียวกัน
  • สำหรับงานที่ซับซ้อนและยาก GPT-5 Thinking ลดอัตราความผิดพลาดและอัตราอาการหลอนได้อย่างชัดเจนเมื่อเทียบกับ o3

เสริมความน่าเชื่อถือและความเป็นข้อเท็จจริง

  • ในการทดสอบความเป็นข้อเท็จจริงแบบปลายเปิด อัตราอาการหลอนลดลง 6 เท่า
  • อธิบายข้อจำกัดได้อย่างชัดเจนเมื่อเป็นงานที่ทำไม่ได้หรืออยู่ในสถานการณ์ที่ข้อมูลไม่เพียงพอ
  • อัตรา sycophantic ลดจาก 14.5% เหลือต่ำกว่า 6%

การปรับปรุงด้านความปลอดภัย

  • ใช้การฝึก ‘safe completion’ เพื่อให้คำตอบที่ปลอดภัยและเป็นประโยชน์แม้กับคำขอที่อาจมีความเสี่ยง
  • ใช้ระบบป้องกันหลายชั้นเพื่อรับมือสถานการณ์ความเสี่ยงสูงในด้านชีววิทยาและเคมี

GPT-5 Pro

  • โมเดลให้เหตุผลแบบขยายสำหรับงานที่ยากที่สุด
  • ในการประเมินโดยผู้เชี่ยวชาญ ได้รับความนิยมมากกว่า GPT-5 Thinking 67.8% และลดข้อผิดพลาดสำคัญลง 22%
  • ให้ประสิทธิภาพสูงสุดในด้านสุขภาพ วิทยาศาสตร์ คณิตศาสตร์ และการเขียนโค้ด

วิธีใช้งานและการเข้าถึง

  • GPT-5 ถูกนำมาใช้เป็นโมเดลพื้นฐานของ ChatGPT และแทนที่โมเดลก่อนหน้า (เช่น GPT-4o, o3)
  • สามารถบังคับโหมดให้เหตุผลได้ด้วยการป้อน ‘think hard about this’
  • ทยอยเปิดให้ Plus·Pro·Team·Free ใช้งาน และ Enterprise·Edu จะตามมาในอีก 1 สัปดาห์
  • ผู้ใช้ฟรีจะสลับไปใช้ GPT-5 mini เมื่อเกินขีดจำกัด

ประเด็นสำคัญของ GPT-5 สำหรับนักพัฒนา

ประสิทธิภาพและคุณสมบัติ

  • ประสิทธิภาพด้านการเขียนโค้ด:

    • SWE-bench Verified 74.9% (o3: 69.1%), ใช้โทเค็น 22%↓, การเรียกใช้เครื่องมือ 45%↓
    • Aider polyglot 88% ลดอัตราความผิดพลาดในการแก้ไขโค้ดลง 1/3
    • เมื่อต้องสร้างโค้ดฟรอนต์เอนด์ ได้รับความนิยมมากกว่า o3 อยู่ 70%
  • งานแบบเอเจนต์:

    • τ 2-bench telecom 96.7%, ปรับปรุงเสถียรภาพของการเรียกใช้หลายเครื่องมือและการเรียกแบบขนาน
    • สามารถแสดงข้อความ preamble เพื่อบอกความคืบหน้าและแผนงานให้ผู้ใช้เห็นได้อย่างชัดเจน
  • บริบทยาว:

    • OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
    • รองรับบริบทสูงสุด 400,000 โทเค็น

ฟังก์ชัน API ใหม่

  • reasoning_effort: ปรับเวลาในการให้เหตุผลได้ตั้งแต่ minimal~high
  • verbosity: ตั้งค่าความยาวคำตอบเริ่มต้นได้ตั้งแต่ low~high
  • เครื่องมือกำหนดเอง: เรียกใช้ด้วย plaintext แทน JSON ได้ และรองรับข้อจำกัดแบบ regex/ไวยากรณ์
  • มีเครื่องมือพื้นฐานในตัว เช่น การเรียกใช้เครื่องมือแบบขนาน เว็บเสิร์ช ไฟล์เสิร์ช และการสร้างภาพ
  • รองรับฟีเจอร์ลดต้นทุน เช่น prompt caching และ Batch API

ความเสถียรและความน่าเชื่อถือ

  • ในเบนช์มาร์ก LongFact และ FactScore อัตราอาการหลอนลดลงประมาณ ~80% เมื่อเทียบกับ o3
  • เสริมความสามารถในการรับรู้ขีดจำกัดของตนเองและรับมือกับสถานการณ์ไม่คาดคิด
  • เหมาะกับงานความเสี่ยงสูงหรืองานที่ต้องการความแม่นยำสูง (โค้ด ข้อมูล การตัดสินใจ)

Availability & pricing

ขนาดที่ให้บริการและเอนด์พอยต์

  • รุ่นที่มีให้บริการ: gpt-5·gpt-5-mini·gpt-5-nano
  • อินเทอร์เฟซที่รองรับ: ใช้งานได้กับ Responses API, Chat Completions API, และเป็นค่าเริ่มต้นของ Codex CLI
  • ลักษณะของโมเดล: ตระกูล GPT‑5 บน API เป็น reasoning model ขณะที่ non‑reasoning model ของ ChatGPT ให้บริการผ่าน ID แยกต่างหาก

ตารางราคาและหน่วยการคิดค่าบริการ

  • gpt-5: อินพุต $1.25/ล้านโทเค็น, เอาต์พุต $10/ล้านโทเค็น
  • gpt-5-mini: อินพุต $0.25/ล้าน, เอาต์พุต $2/ล้าน
  • gpt-5-nano: อินพุต $0.05/ล้าน, เอาต์พุต $0.40/ล้าน
  • gpt-5-chat-latest (ไม่ใช้การให้เหตุผล): อินพุต $1.25/ล้าน, เอาต์พุต $10/ล้าน เท่ากับ gpt-5

สรุปฟังก์ชันที่รองรับ

  • การควบคุมการให้เหตุผล: ระบุ reasoning_effort เป็น minimal·low·medium·high เพื่อปรับสมดุล ความเร็ว↔ความแม่นยำ
  • ความยาวคำตอบ: ตั้งค่าแนวโน้มพื้นฐานเป็น สั้น/ปกติ/ยาว ด้วย verbosity
  • เครื่องมือ: custom tools รองรับการเรียกด้วย อาร์กิวเมนต์แบบ plaintext และใช้ข้อจำกัดแบบ regex/CFG ได้
  • ความสามารถในการรัน: รองรับ การเรียกใช้เครื่องมือแบบขนาน, เครื่องมือในตัว (web search, file search, image generation เป็นต้น), สตรีมมิง, และ Structured Outputs
  • การเพิ่มประสิทธิภาพต้นทุน: ลดค่าโทเค็นและเลเทนซีได้ด้วย prompt caching และ Batch API
  • ช่องทางการเปิดให้ใช้งาน: GPT‑5 ถูกนำไปใช้ทั่วทั้ง Microsoft 365 Copilot, Copilot, GitHub Copilot, และ Azure AI Foundry

ตัวอย่างค่าใช้จ่ายแบบง่าย

  • เมื่อใช้ gpt-5 ประมวลผล อินพุต 50k + เอาต์พุต 5k โทเค็น ค่าใช้จ่ายรวม ≈ $0.1125
    • สูตรคำนวณ: อินพุต 0.05M × $1.25 = $0.0625, เอาต์พุต 0.005M × $10 = $0.05, รวม $0.1125
  • หากประมวลผลงานเดียวกันด้วย gpt-5-mini ค่าใช้จ่ายรวม ≈ $0.0175
    • อินพุต 0.05M × $0.25 = $0.0125, เอาต์พุต 0.005M × $2 = $0.01 ซึ่งผลรวมที่ถูกต้องคือ $0.0225 แต่เมื่อพิจารณาราคาเอาต์พุตจะเห็นว่าความแตกต่างจะยิ่งมากขึ้นในเวิร์กโหลดที่มีสัดส่วนอินพุตสูง
  • ไปป์ไลน์ที่มี เอาต์พุตเชิงสร้างสรรค์จำนวนมาก มีแรงจูงใจสูงที่จะเลือก โมเดลที่มีค่าเอาต์พุตต่ำกว่า

บันทึกแนวทางการเลือกใช้

  • หาก ความแม่นยำสำคัญที่สุด และต้องการแบ็กเอนด์เอเจนต์ที่มี สายโซ่การใช้เครื่องมือซับซ้อน ให้พิจารณา gpt-5
  • สำหรับ การแก้ไขโค้ดทั่วไป เอเจนต์แบบเบา และการประมวลผลแบบแบตช์จำนวนมาก gpt-5-mini ให้สมดุล คุณภาพต่อราคา ที่ดีกว่า
  • งานเตรียมข้อมูล การตรวจเช็กรูล และการสรุปแบบง่ายที่ต้องการ หน่วงต่ำมากและต้นทุนต่ำมาก เหมาะกับ gpt-5-nano

อ้างอิง

  • หากต้องการใช้ โมเดลพื้นฐานแบบ non‑reasoning ของ ChatGPT ตามเดิม ให้เลือก gpt-5-chat-latest ใน API
  • ความยาวคำตอบจะยึดตาม คำสั่งที่ระบุอย่างชัดเจนเป็นลำดับแรก ดังนั้นไม่ว่า verbosity จะตั้งค่าอย่างไร หากสั่งความยาวแบบเฉพาะเจาะจง เช่น “เรียงความ 5 ย่อหน้า” ระบบก็จะ ทำตามคำสั่ง

5 ความคิดเห็น

 
shakespeares 2025-08-08

ส่วนตัวผมคิดว่า claude-code น่าจะดีกว่าสำหรับงานรีแฟกเตอร์
ตอนที่สั่งงานรีแฟกเตอร์อย่างการลบเมธอดที่ไม่จำเป็นด้วย cursor + GPT5 นั้น claude-code จะหาและลบได้ดี แต่ GPT5 ให้ความรู้สึกเหมือนยังมองภาพรวมของโปรเจกต์ได้ไม่ครบถ้วน

 
cgl00 2025-08-08

รู้สึกได้เลยว่าความสามารถในการใช้งานดีขึ้นแบบก้าวกระโดด แต่กระแสตอบรับที่บอกว่ามันเข้าใกล้ AGI อย่างที่โวยกันใหญ่ก็คงเป็นการพูดเกินจริงอยู่ดี

 
laeyoung 2025-08-08

ถ้าดูเฉพาะฝั่งการเขียนโค้ด (SWE-bench) จะอยู่ที่ 74.9% (thinking), 52.8% (without thinking) ส่วน Claude อยู่ที่ 74.5% (Opus 4.1), 72.5% (Opus 4.0), 62.3% (Sonnet 3.7)

ถ้าไม่ใช้โหมด Thinking ก็แย่กว่า Sonnet และถึงใช้ก็ยังดีกว่า Opus 4.1 เพียงเล็กน้อยมากเท่านั้น

 
xguru 2025-08-08

วิดีโอประกาศอย่างเป็นทางการของ OpenAI (1 ชั่วโมง 17 นาที) https://www.youtube.com/watch?v=0Uu_VJeVVfo

 
GN⁺ 2025-08-08
ความคิดเห็นจาก Hacker News
  • หลายคนเคยอ้างว่าถ้าบริษัท AI แห่งใดแห่งหนึ่งข้ามจุดวิกฤตของ AGI (ปัญญาประดิษฐ์ทั่วไป) ได้ ก็จะทิ้งห่างแบบผูกขาด แต่สิ่งที่น่าสนใจคือในความเป็นจริง ประสิทธิภาพของทุกโมเดลกำลังใกล้เคียงกันมากขึ้น ตอนนี้ทั้ง GPT-5, Claude Opus, Grok 4, Gemini 2.5 Pro ต่างก็มีผลงานโดยรวมที่ดี ทำให้จากมุมผู้ใช้รู้สึกว่าการแข่งขันดุเดือดกว่าที่เคย อยากรู้ว่านักวิจัยคิดว่าในอนาคตบริการของคู่แข่ง AI จะยิ่งคล้ายกันมากขึ้น หรือจะเริ่มสร้างความแตกต่างกันมากขึ้น

    • น่าสังเกตว่าเมื่อผ่านจุดวิกฤตระดับหนึ่งไปแล้ว ผู้ใช้อาจแยกไม่ออกด้วยซ้ำว่าโมเดลไหนดีกว่า เช่นเดียวกับผู้เล่นหมากรุก ELO 1000 ที่แม้จะได้เล่นกับ Magnus Carlsen และแกรนด์มาสเตอร์คนอื่น ๆ เอง ก็อาจแยกได้ไม่ง่ายว่าใครเก่งกว่า ปรากฏการณ์การจับกลุ่มจากเกณฑ์การประเมินของมนุษย์อาจเป็นเพียงภาพลวงตาในทางปฏิบัติก็ได้

    • เหตุผลที่ AGI ถูกมองว่าจะนำไปสู่ภาวะเอกฐานก็เพราะมันสามารถเรียนรู้ได้ด้วยตัวเอง แต่ตอนนี้เรายังห่างจากจุดนั้นอีกมาก ส่วนตัวคิดว่าแทบไม่มีโอกาสได้เห็น AGI ในช่วงชีวิตนี้ ระยะห่างระหว่างเมนเฟรมยุคทศวรรษ 1970 กับ LLM คล้ายกับระยะห่างระหว่างปัจจุบันกับ AGI

    • มองว่าการจำลองความฉลาดระดับสูงขึ้นด้วยโมเดลคาดเดาข้อความเชิงความน่าจะเป็นอาจเป็นสิ่งที่เป็นไปไม่ได้โดยสิ้นเชิง เพื่อนที่เป็นนักวิจัย AI ของฉันก็ไม่ได้กังวลเรื่อง AGI บนฐาน LLM เพราะมีข้อจำกัดด้านผลตอบแทนที่ลดลงเมื่อเพิ่มข้อมูลเมื่อเทียบกับประสิทธิภาพ สติปัญญาของมนุษย์สามารถทำ generalization ได้ดีมากจากตัวอย่างเพียงเล็กน้อย แต่ LLM มักแค่สร้างคำตอบที่พบบ่อยในข้อมูลฝึกซ้ำขึ้นมา อย่างไรก็ดี ต่อให้ไม่ใช่ AGI เทคโนโลยี AI/ML/SL ที่มีอยู่ก็อาจถึงจุดที่เปลี่ยนโลกได้ เช่น ในงานค้นหาที่การดึงความรู้กว้าง ๆ กลับมาใช้งานมีความสำคัญ

    • เมื่อก่อนฉันค่อนข้างมอง AI ในแง่ลบ แต่ตอนนี้ก็โล่งใจที่เอนเอียงราว 70% ไปทางที่ว่ากรอบเทคโนโลยีปัจจุบันคงไม่จบลงด้วยวันสิ้นโลกของ AI ในระยะสั้น การที่ AI ตอนนี้เก่งด้าน “เลียนแบบพวกเรา” และยังไม่ก้าวพ้นผลลัพธ์เฉลี่ยของมนุษย์ กลับเป็นพรในเวลานี้ ถึงอย่างนั้น ในเชิงหลักการก็คิดว่าคำเตือนของฝั่ง “AI doomers” มีเหตุผลอยู่ และเราควรรับมือกับภัยคุกคามนี้อย่างจริงจัง

    • ฉันไม่เห็นด้วยกับข้ออ้างที่ว่าการสร้างสารานุกรมที่ซับซ้อนขึ้น พร้อมอินเทอร์เฟซการค้นหาที่น่าสนใจและให้ความรู้สึกคล้ายมนุษย์ จะทำให้เราเข้าใกล้ AGI มากขึ้น เพราะไม่มีใครมีหลักฐานหรือความเข้าใจเลยว่าความเป็นปัญญาทั่วไป (GI) นั้นเกิดจากอะไร ทั้งหมดนี้เป็นเพียงการพูดเกินจริงและการโม้เพื่อระดมทุนที่ขาดฐานรองรับที่แข็งแรง คนที่โฆษณาว่า AGI เป็นสิ่งที่ทำได้จริงฉันมองว่าเป็นพวกต้มตุ๋น น่าประหลาดใจมากที่วิศวกรจำนวนมากในวงการเชื่อตรรกะแบบนี้อย่างหมดใจ จนทำให้สงสัยต่อสุขภาวะของอุตสาหกรรม

  • ข้อมูล cutoff ความรู้ของ GPT-5 คือ 30 กันยายน 2024 (ประมาณ 10 เดือนก่อนเปิดตัว), Gemini 2.5 Pro คือ มกราคม 2025 (3 เดือนก่อน), Claude Opus 4.1 คือ มีนาคม 2025 (4 เดือนก่อน) ลิงก์ที่เกี่ยวข้อง: เปรียบเทียบโมเดล OpenAI, DeepMind Gemini Pro, ภาพรวมโมเดล Claude ของ Anthropic

    • ตอนนี้ที่สามารถค้นเว็บได้แล้ว ก็สงสัยว่าค่า knowledge cutoff ยังมีความหมายมากน้อยแค่ไหน บางทีอาจเป็นตัวชี้ว่าขั้นตอน post-training ใช้เวลานานแค่ไหนมากกว่า

    • Gemini พยายามอุดช่องว่างของข้อมูลหลัง cutoff ด้วยการค้นเว็บแบบง่าย ๆ แทบทุกคำถาม

    • GPT-5 nano และ mini มี cutoff เร็วกว่านั้น คือ 30 พฤษภาคม 2024

    • มองว่าเมื่อโมเดลค้นเว็บได้ ตัว knowledge cutoff เองจึงไม่สำคัญมากนัก

    • ตรงกันข้าม มันอาจหมายถึง OpenAI ไม่ยอมใช้ทางลัดใด ๆ ในด้านความปลอดภัยเลยก็ได้

  • ตาม GPT-5 system card GPT-5 เป็นระบบแบบรวมศูนย์ที่ประกอบด้วยหลายโมเดล (สำหรับตอบเร็ว, สำหรับให้เหตุผลลึก) และมี router คอยเลือกโมเดล ระหว่างแชต router จะเลือกโมเดลตามพรอมป์ต์อย่าง “คิดเรื่องนี้แบบจริงจังหน่อย” ภายนอกดูเหมือนเป็นระบบเดียว แต่จริง ๆ แล้วเป็นโครงสร้างที่รวมหลายซับโมเดลเข้าด้วยกัน ดูเหมือนจะเลือกแนวทางนี้เพราะการฝึกโมเดลยักษ์ตัวเดียวแบบ end-to-end แพงเกินไป

    • อาจเป็นความต่างเชิงนิยาม แต่ถ้าส่วนประกอบต่าง ๆ ทำงานอัตโนมัติและผู้ใช้ใช้เพียงอินเทอร์เฟซเดียว ก็เรียกว่าเป็น “ระบบแบบรวมศูนย์” ได้ แน่นอนว่าไม่ใช่ “โมเดลแบบรวมศูนย์”

    • มันย้ำให้เห็นอีกครั้งถึงทฤษฎีคู่ขนานของ 'bitter lesson' ว่าภายใต้งบประมาณที่กำหนด ระบบเฉพาะทางที่ออกแบบด้วยมือสามารถให้ผลงานดีกว่าระบบอเนกประสงค์ขนาดยักษ์มาก

    • ตาม GPT-5 สำหรับนักพัฒนา GPT-5 ใน ChatGPT เป็นระบบที่รวมหลายโมเดลไว้ด้วยกัน (ใช้เหตุผล, ไม่ใช้เหตุผล, router ฯลฯ) ส่วน GPT-5 ใน API จะให้เฉพาะโมเดลให้เหตุผลที่ประสิทธิภาพสูงสุดแบบเดี่ยว ๆ บางโมเดลไม่ใช้เหตุผลของ ChatGPT ถูกให้บริการเป็น gpt-5-chat-latest และจูนมาสำหรับนักพัฒนา

    • ถ้าการผสานโมเดลเล็กเฉพาะทางจำนวนมากคือทิศทางที่ถูกต้อง กลยุทธ์นี้ก็น่าปรารถนา

    • ปัญหาอาจไม่ใช่เรื่องต้นทุน แต่เป็นเพราะข้อมูลฝึกที่ใช้งานได้กำลังหมดลงจนฝึกอย่างมีประสิทธิภาพได้ยาก หรือข้อมูลใหม่ปนเปื้อนด้วยข้อมูลที่ AI สร้างจนใช้ไม่ได้

  • มีทั้งความผิดพลาดใหญ่ใน benchmark และเดโมก็ไม่ได้น่าประทับใจเท่าที่คาด ทำให้ตลาดเดิมพันว่าใครจะเป็น AI ที่ดีที่สุดปลายปีนี้มีการเปลี่ยนแปลงมากขึ้น ฉันคาดหวัง Gemini 3.0 หรือโมเดลใหม่ของ Google มากกว่า และคิดว่าในการแข่งขัน LLM ฝ่ายที่ “มาทีหลัง” อาจได้เปรียบกว่า

    • ฉันลองเอางานที่เคยล้มเหลวบน Opus 4.1 มาทดลองกับ GPT-5 แล้ว มันไม่เพียงทำสำเร็จ แต่ยังแก้ข้อผิดพลาดที่ Opus เคยสร้างไว้ด้วย รู้สึกได้เลยว่าเป็นของจริง

    • ฉันไม่อยากเห็นสถานการณ์ที่บริษัทผูกขาดซึ่งมีมูลค่าตลาดหลายล้านล้านดอลลาร์อยู่แล้ว กลายเป็นผู้ครอบครองโลกทั้งหมด

  • จากการทดสอบจริงรู้สึกว่าเป็นโมเดลที่ยอดเยี่ยมมาก เวลาตอบคำถามมันพยายามใช้ tool อย่างเต็มที่และเชิงรุกกว่ารุ่น 4.1 หรือ o3 อย่างเห็นได้ชัด เช่น ในคำตอบแรกมันเรียก tool ไปถึง 6 ครั้งเพื่อหาข้อมูล ตัวอย่าง: ตัวอย่างการใช้ tool

  • ทั้งข้อความการตลาดและตรรกะที่โชว์ในไลฟ์สตรีมดูวนซ้ำอยู่ที่ระดับ “มันดีกว่าเพราะมันดีกว่า” ยังขาดคำอธิบายที่ชัดเจนว่าทำไม GPT-5 จึงจำเป็นต้องเป็นการอัปเกรดเวอร์ชันใหญ่ และสุดท้ายตามเคย บรรยากาศของผลลัพธ์เอง (“vibe check”) จะเป็นตัวตัดสินความน่าเชื่อถือของโมเดล

    • ในช่วง 6 เดือนที่ผ่านมา ไลบรารี JS ยอดนิยมหลายตัวถูกรวมเข้าไปในชุดข้อมูลฝึกใหม่ ทำให้บอกว่า “เก่งเรื่องโค้ดขึ้น” แต่ก็น่ากังวลว่าวิธีนี้จะยั่งยืนหรือไม่

    • มีแต่การโปรโมต แต่ข้อมูลจริง/benchmark ยังมีน้อย ก็เลยรอฟังความเห็นสั้น ๆ จากผู้ใช้ภาคสนามอย่าง simonw อยู่เหมือนกัน

    • ฉันลองดันไปถึงขีดจำกัดของ LLM แล้ว เช่น งานรีแฟกเตอร์โค้ดยาก ๆ แต่ก็ยังรู้สึกยากจะเห็นการยกระดับคุณภาพแบบพื้นฐานเมื่อเทียบกับโมเดลก่อนหน้า ณ ตอนนี้ดูเหมือนการพัฒนาคุณภาพจะชนเพดานแล้ว (ช่วงชะลอของเส้นโค้ง S-curve) การให้คุณภาพเดิมในราคาถูกลงมีความหมายก็จริง แต่ในการใช้งานประจำวันแทบไม่รู้สึกถึงความต่างด้านคุณภาพ

    • หน้าเปิดตัว GPT-5 มีผล benchmark หลายอย่างรวมอยู่ด้วย (AIME 2025, SWE-bench ฯลฯ) แต่ก็ไม่ได้ถึงกับพลิกวงการ

    • ตอนนี้ให้ความรู้สึกเหมือนเราเข้าสู่ “ยุคสมาร์ตโฟนที่อยากได้เพราะมันเป็นรุ่นล่าสุด” แล้ว

  • จากไลฟ์สตรีม การพัฒนา benchmark เมื่อเทียบกับโมเดลก่อนหน้ามีน้อยมาก เข้าใจได้ว่าทำไมก่อนเปิดตัวถึงพยายามกดความคาดหวังลง แต่ของจริงก็ยังปรับดีขึ้นน้อยกว่าที่คาดมาก

    • ก่อนเปิดตัว Sam Altman เคยทวีตรูป Death Star จนทำให้คนคาดหวังสูง

    • บริษัท AI บิ๊กเทคกำลังแข่งกันในพื้นที่คล้ายกันโดยยังสร้างความแตกต่างไม่ได้ และดูเหมือน OpenAI ต่อจากนี้จะเน้นการปรับต้นทุนให้เหมาะสมและการใช้งานแบบผู้ช่วยในชีวิตประจำวัน/ธุรกิจ มากกว่าการไล่ล่าปัญญาระดับสูงสุด ในทางกลับกัน Anthropic กับ Google ยังมีอัตราเติบโตที่ทำให้ลงทุนกับความฉลาดที่สูงกว่าได้ สุดท้ายแม้อาจมีโมเดลที่ฉลาดกว่าออกมาในสาย o series เป็นต้น แต่ท้ายที่สุดรายได้และความจริงของตลาดก็เป็นข้อจำกัดอยู่ดี

    • GPT-5 อยู่ที่อันดับ 1 ใน WebDev Arena โดยนำ Gemini 2.5 Pro อยู่ 75 คะแนน และนำ Claude Opus 4 อยู่ 100 คะแนน ดูเพิ่มเติม: ลีดเดอร์บอร์ด lmarena.ai

    • เดโมโค้ดส่วนใหญ่สาธิตด้วย Cursor บน GPT-5 MAX ซึ่งผู้ใช้ส่วนมากคงใช้โหมด MAX แบบนั้นบ่อย ๆ ไม่ได้ น่าจะดีถ้ามีการสาธิตบนเวอร์ชันปกติด้วย

    • ทำให้นึกถึงคำพูดของ Sam เมื่อ 2 ปีก่อนว่าเขาจะเลือกการพัฒนาแบบค่อยเป็นค่อยไปแทนการประกาศครั้งเดียวแบบช็อกโลก ตอนนี้เพิ่งวันแรก ดังนั้นอีกหลายเดือนข้างหน้าอาจยังมีพื้นที่ให้ปรับเพิ่มอีก 10–20%

  • สับสนว่าแกน y ของสไลด์ประกาศนี้คืออะไร ประเด็นกราฟที่เป็นข้อถกเถียง

    • ตั้งแต่กราฟแรกของงานนำเสนอก็ดูหยาบ ๆ แล้ว เหมือนรีบทำมาก ถ้ามีการเทียบกับ Opus 4.1 ด้วยก็น่าจะดีกว่า โดยคะแนนของ Opus 4.1 คือ 74.5% ข่าว Anthropic Opus 4.1 ซึ่งแสดงให้เห็นว่าหลังอัปเกรดแล้ว Anthropic ก็ยังคงเป็นผู้นำในตัวชี้วัดนั้น
  • ในตัวอย่างเดโม ChatGPT5 มีการอธิบายกลไกการทำงานของ “ปีกเครื่องบิน (airfoil)” ผิด โดยบอกว่าอากาศด้านบนต้องเดินทางไกลกว่า จึงเร็วกว่าและความดันต่ำกว่า ส่วนด้านล่างช้ากว่าและความดันสูงกว่า เลยเกิดแรงยก แต่ความจริงไม่มีเหตุผลทางฟิสิกส์ที่อากาศด้านบนและล่างต้องไปถึงพร้อมกัน บทความที่เกี่ยวข้อง: Cambridge ของสหราชอาณาจักร แปลกที่เดโมแรกก็ใช้คำอธิบายที่ผิดแล้ว

    • นี่เป็นคำอธิบายที่ผิดทั้งหมด ถ้าคำอธิบายนั้นถูกต้อง airfoil แบบแผ่นแบนก็ควรสร้างแรงยกไม่ได้ แต่ความจริงไม่ใช่แบบนั้น พูดจากประสบการณ์ตรงในฐานะคนที่มีปริญญาเอกด้านการออกแบบอากาศยาน

    • นี่คือความเข้าใจผิดชื่อดังแบบ 'equal transit time fallacy' ดังนั้นต่อให้ไม่ใช่ผู้เชี่ยวชาญด้านวิศวกรรมอากาศยานก็มักเคยได้ยินข้อผิดพลาดนี้

    • การใช้คำว่า "ระดับปริญญาเอก" ฟังดูแปลก ถ้าเป็นปริญญาเอกจริง ก็ควรต้องสร้างวิทยาศาสตร์ใหม่ ไม่ใช่แค่ท่องข้อมูลเดิม จนถึงตอนนี้ยังไม่เคยเห็น LLM สร้างวิทยาศาสตร์ใหม่ได้ด้วยตัวเอง โดยพื้นฐานแล้ว LLM ก็เป็นเพียงตัวแยกวิเคราะห์คำที่เก่งมากเท่านั้น

    • NASA ก็มีหน้าอธิบายแยกเกี่ยวกับ คำอธิบายที่ผิด นี้ด้วย

    • Bartosz อธิบาย เรื่องนี้ ได้ดีที่สุด

  • GPT-5 มี context window 400k, เอาต์พุตสูงสุด 128k token, ราคาคืออินพุต $1.25 เอาต์พุต $10.00 ตาม เอกสารทางการ หากประสิทธิภาพระดับนี้ทำคะแนนดีมากในปัญหา needle-in-haystack ก็จะมีความสามารถในการแข่งขันเหนือกว่า Gemini 2.5 Pro และ Claude Opus 4.1 อย่างมาก และถ้าเวอร์ชัน mini/nano ทำได้ดีจริง ก็อาจถือเป็นการก้าวกระโดดครั้งใหญ่เลย

    • gpt-5 มี cutoff ที่ 1 ตุลาคม 2024 ขณะที่ mini/nano อยู่ที่ 31 พฤษภาคม 2024 ส่วนตระกูล 4.1 ก่อนหน้านี้รองรับ 1M/32k token โดยโครงสร้างราคาคืออินพุตถูกลง 37% แต่เอาต์พุตแพงขึ้น 25% และมีเพียงรุ่น nano ที่อินพุตถูกลง 50% โดยราคาเอาต์พุตเท่าเดิม

    • ถ้าจะใช้ API ก็ต้องนับต้นทุนของการยืนยันตัวตนด้วย (เวลา ขั้นตอน ฯลฯ)