GPT-5: คุณสมบัติหลัก ราคา และการ์ดระบบ
(simonwillison.net)- GPT-5 ทำงานเป็น ระบบรวม ที่ใช้ ตัวรับเส้นทางแบบเรียลไทม์ ปรับโมเดลให้เหมาะกับบริบทการสนทนา และใน API มีให้เลือก Regular·Mini·Nano 3 ประเภท พร้อมระดับการให้เหตุผล Minimal·Low·Medium·High 4 ระดับ
- รองรับขีดจำกัดอินพุต 272,000 โทเค็น และเอาท์พุต 128,000 โทเค็น โดยอินพุตรองรับ ข้อความ·รูปภาพ และเอาท์พุตเป็น ข้อความเท่านั้น
- ราคาเป็น การตั้งราคาแบบก้าวรุก โดยต้นทุนอินพุตเป็นเพียง ครึ่งหนึ่ง ของ GPT-4o และมีส่วนลด 90% สำหรับการแคชโทเค็น เมื่อมีการส่งอินพุตซ้ำภายในไม่กี่นาทีก่อนหน้า
- ในระบบการ์ดมีการเน้น การลด Hallucination, การปรับปรุงการทำตามคำสั่ง, การลดการยอมหย่อน (sycophancy) และการฝึก Safe‑Completions ซึ่งมุ่งเน้นให้คำตอบอยู่ในขอบเขตความปลอดภัยแทนการปฏิเสธแบบไบนารี
- ด้านความปลอดภัย การรับมือ Prompt injection ดีขึ้นแล้ว แต่ยังคงมีพื้นที่ที่ยังไม่แก้ไข โดยมีอัตราความสำเร็จ 56.8% เมื่อทดสอบ 10 ครั้ง (k=10) และใน API สามารถควบคุมการไหลของโทเค็น reasoning ได้ผ่าน การสรุป reasoning และตัวเลือก reasoning_effort=minimal
GPT-5 : คุณลักษณะสำคัญ ราคา และการวิเคราะห์การ์ดระบบ
- ผู้เขียน Simon Willison ใช้ GPT‑5 อย่างต่อเนื่องเป็นเวลา 2 สัปดาห์ ด้วยสิทธิ์เข้าถึงตัวอย่าง และรู้สึกว่ามันไม่ได้ก้าวกระโดดแบบหักโลก แต่โดยรวมแล้วใช้งานได้ยอดเยี่ยม ความผิดพลาดเกิดขึ้นไม่บ่อย และเป็น โมเดลค่าเริ่มต้นที่ทำงานได้คงเส้นคงวา
- บทความนี้เป็นตอนแรกของซีรีส์ โดยสรุปสิ่งที่อ่านได้จาก คุณลักษณะหลัก, ราคา, และ การ์ดระบบ
คุณสมบัติหลักของโมเดล
- ใน ChatGPT, GPT‑5 รวม โมเดลเร็วทั่วไป และ โมเดล reasoning เชิงลึก เข้าด้วยกัน และทำงานแบบ สถาปัตยกรรมไฮบริด โดย ตัวรับเส้นทางแบบเรียลไทม์ จะเลือกโมเดลที่เหมาะสมตาม ประเภทการสนทนา·ระดับความยาก·ความจำเป็นในการใช้เครื่องมือ·สัญญาณเจตนาที่ระบุชัด
“real‑time router จะเลือกโมเดลตามประเภทการสนทนา ความซับซ้อน ความจำเป็นของเครื่องมือ และสัญญาณเจตนาเช่น ‘think hard’; หากใช้สิทธิ์ได้เต็มที่แล้ว รุ่น mini ของแต่ละโมเดลจะมาแทนที่” ตามคำอธิบายในระบบการ์ด
- ใน API ลดความซับซ้อนเหลือ 3 แบบคือ Regular·Mini·Nano โดยแต่ละแบบรองรับ 4 ระดับ reasoning คือ Minimal·Low·Medium·High
- ขีดจำกัด context คือ อินพุต 272,000 โทเค็น และ เอาท์พุต 128,000 โทเค็น โดย โทเค็น reasoning ที่ซ่อนอยู่ ก็ถูกนับเป็นโทเค็นเอาท์พุตด้วย
- In/Out ทำงานเป็น ข้อความ·รูปภาพสำหรับอินพุต และ ข้อความเอาท์พุตเท่านั้น โดยมี knowledge cutoff คือ GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30
- ขณะใช้ GPT‑5 เต็มรูปแบบ รู้สึกได้ถึงแนวโน้มการตอบที่ แม่นยำและสงบ และแทบไม่มีแรงจูงใจให้ลองรันด้วยโมเดลอื่นใหม่
ตำแหน่งในตระกูลโมเดลของ OpenAI
- จากตารางแมปในระบบการ์ด ตำแหน่งตัวเดิมทั้งหมดถูกแทนที่ให้เข้ามาอยู่ในตระกูล GPT‑5
- GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
- OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
- GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
- thinking‑pro ปัจจุบันแสดงเป็น “GPT‑5 Pro” ใน ChatGPT และให้บริการเฉพาะใน ชั้นราคาเดือนละ $200 โดยใช้ parallel test‑time compute
- ขอบเขตการทำงาน ระหว่าง audio input/output และ การสร้างรูปภาพ ยังคงอยู่ที่ GPT‑4o Audio/Realtime และ GPT Image 1/DALL‑E
ราคาเชิงแข่งขันอย่างก้าวรุก
- การกำหนดราคาเป็นแบบ ก้าวรุก
- GPT‑5: อินพุต $1.25 ต่อ 1 ล้าน, เอาท์พุต $10 ต่อ 1 ล้าน
- GPT‑5 Mini: อินพุต $0.25 ต่อ 1 ล้าน, เอาท์พุต $2.00 ต่อ 1 ล้าน
- GPT‑5 Nano: อินพุต $0.05 ต่อ 1 ล้าน, เอาท์พุต $0.40 ต่อ 1 ล้าน
- ต้นทุนอินพุตของ GPT‑5 เป็น ครึ่งหนึ่ง ของ GPT‑4o และต้นทุนเอาท์พุตเท่ากัน
- โทเค็น reasoning ถูกเรียกเก็บเป็น โทเค็นเอาท์พุต ดังนั้นต้นทุนรวมจึงต่างกันตาม ระดับ reasoning แม้จะใช้พรอมต์เดียวกัน
- การมี ส่วนลดการแคชโทเค็น 90% ทำให้ประโยชน์ด้านการประหยัดต้นทุนสูงมากใน UI แชต ที่มีการส่ง context ซ้ำบ่อย
- ในตารางเปรียบเทียบ คู่แข่งเช่น Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro อยู่ในช่วง อินพุต $2.5~$15 ต่อ 1 ล้าน, เอาท์พุต $10~$75 ต่อ 1 ล้าน แสดงให้เห็น ข้อได้เปรียบด้านราคา ของตระกูล GPT‑5
- เคยเกิดกรณีที่ให้ GPT‑5 จัดเรียงตารางอัตโนมัติ แล้วเปรียบเทียบราคาเรียงผิดบางส่วน และเมื่อสร้างตารางด้วย Python เพื่อจัดเรียงใหม่แล้วปัญหาหายไป
ข้อมูลเพิ่มเติมจากระบบการ์ด
- โครงสร้างข้อมูลการฝึกอบรมรวมถึง เว็บสาธารณะ, ข้อมูลพาร์ทเนอร์, และข้อมูลที่สร้างโดย ผู้ใช้/เทรนเนอร์มนุษย์ พร้อมการอธิบายระดับหลักการเรื่องการ กรองการลดข้อมูลส่วนบุคคล
- แนวทางปรับปรุงหลักเน้น การลด Hallucination, การปรับปรุงการปฏิบัติตามคำสั่ง, และ การลด sycophancy โดยชี้ให้เห็น writing·coding·health ว่าเป็น 3 กรณีการใช้งานที่พบบ่อยใน ChatGPT และยกระดับประสิทธิภาพในพื้นที่ดังกล่าว
- Safe‑Completions คือการฝึกเน้นความปลอดภัยฝั่งเอาท์พุต (output-centric safety training) ที่โฟกัสที่ความปลอดภัยของผลลัพธ์แทนการปฏิเสธแบบไบนารี และลดความเสี่ยงเชิงละเอียดในคำถามที่เป็นวัตถุประสงค์คู่โดยเฉพาะด้าน ชีววิทยา·ความมั่นคง ที่ตีความเจตนาผู้ใช้ยาก โดยยังคงคุณประโยชน์
- สำหรับ Sycophancy มีการฝึกต่อเนื่องหลังการฝึกหลัก โดยใช้การประเมินและสัญญาณรางวัลที่สะท้อนการกระจายตัวของการสนทนาผลิตจริงเพื่อลดแนวโน้มการอ้อนวอนรับมือตามผู้ใช้
- ด้านความเป็นจริงเชิงข้อเท็จจริง โดยมี การเปิดใช้งานการ Browsing เป็นค่าเริ่มต้น และมีเป้าหมายลด Hallucination เมื่อจำเป็นต้องตอบจากความรู้ภายในโมเดลเท่านั้นโดยไม่ใช้เครื่องมือ
- เพื่อป้องกันการหลอกลวงและสแปมหรือพูดเกินจริง มีการออกแบบรางวัลให้ยอมรับอย่างตรงไปตรงมาว่า ‘ทำไม่ได้’ เมื่อโจทย์ทำไม่ได้ และมีการประเมินจำลองโดย ปิดการใช้งาน Browsing และเครื่องมือโดยเจตนา เพื่อยับยั้งการตอบแบบหลอกหลอน
Prompt injection ในระบบการ์ด
- มีรายงานว่า 2 ทีม red team ภายนอก ได้ทำการประเมิน prompt injection โดยมุ่งที่จุดอ่อนระดับระบบและเส้นทางคอนเนกเตอร์
- ในกราฟเปรียบเทียบ attack success rate ของ gpt‑5‑thinking ที่ k=10 อยู่ที่ 56.8% ต่ำกว่าค่าของ Claude 3.7/โมเดลอื่นหลายตัว ที่อยู่ระดับ 60~90% ซึ่งดีขึ้น แต่ยังทะลุผ่านได้เกินครึ่ง จึงยังห่างไกลจากการแก้ปัญหาสำเร็จสมบูรณ์
- จึงสรุปว่าหากแม้โมเดลดีขึ้นแล้ว การออกแบบผลิตภัณฑ์ควรถือว่าการป้องกันเชิงออกแบบและ guardrails เป็นเงื่อนไขพื้นฐานที่จำเป็น
Thinking traces ใน API
- ผู้เขียนทราบตั้งแต่แรกว่าไม่สามารถดู ร่องรอย reasoning ที่ซ่อนอยู่ ได้ แต่ใน Responses API มีตัวเลือก
reasoning: { "summary": "auto" }เพื่อรับ การสรุป reasoning - โดยไม่ใช้ตัวเลือกนี้ ระดับ reasoning เชิงลึกจะใช้โทเค็น reasoning จำนวนมากก่อนหน้าผลลัพธ์ที่มองเห็นได้ ทำให้มีความหน่วงที่รับรู้ได้ และการตั้งค่า
reasoning_effort=minimalสามารถกระตุ้นให้เกิดการตอบแบบสตรีมมิ่งเร็วขึ้น
รวมถึง SVG ของปลากับนกอีกนิดหน่อย
- ใน benchmark SVG ที่ผู้เขียนใช้อยู่ประจำอย่าง “pelican ขี่จักรยาน”, ผลลัพธ์ของ GPT‑5 (reasoning ระดับ Medium ค่าเริ่มต้น) แสดงรายละเอียดและความถูกต้องของรูปทรงสูง ทำให้ได้เวกเตอร์ที่อ่านง่าย
- GPT‑5 Mini ให้การแสดงสีและการไล่โทนที่อุดมสมบูรณ์ แต่มีความผิดพลาดเชิงโครงสร้าง โดยสร้าง คอนของนกเพลิกาเน่สองอัน
- GPT‑5 Nano ลดความซับซ้อนของทั้ง จักรยานและรูปทรงนกเพลิกาเน่ เหลือระดับสรุปการทำงาน
สรุปประเด็นการใช้งานจริง
- การเลือกโมเดล: เริ่มที่ Regular ก่อน หากเพียงพอให้ Downshift ไปเป็น Mini/Nano และสำหรับปัญหาที่ซับซ้อนให้พิจารณาเชน thinking และตั้งระดับ reasoning ให้สูงขึ้น
- การควบคุมต้นทุน: กลยุทธ์ที่ได้ผลคือ token caching 90%, reasoning_effort=minimal, และ system prompt สั้น + context สรุป เพื่อช่วยลด เอาท์พุตโทเค็น·โทเค็น reasoning
- การออกแบบความปลอดภัย: Prompt injection ยังเป็นความเสี่ยง จึงควบคู่กับการป้องกันเชิงระบบ เช่น ลดสิทธิ์เชื่อมต่อ (connector), ตรวจสอบผลลัพธ์ และเทมเพลตเอาท์พุตปลอดภัย
- การใช้งานตามโดเมน: จากรายงานว่ามีการลด Hallucination และ sycophancy ใน writing·coding·health จึงแนะนำให้ตั้งค่า workflow ค่าเริ่มต้นเป็น Browsing + ใส่เหตุผลอ้างอิง สำหรับงานเอกสารธุรกิจ, รีวิวโค้ด, และ QA ด้านสุขภาพซึ่งเป็นงานเขียนที่มีความเสี่ยงสูง
1 ความคิดเห็น
ความเห็นจาก Hacker News
ฉันรู้สึกตื่นเต้นและคิดว่าโมเดลน่าจะเชื่อถือได้ขึ้น แต่เมื่อคิดถึงภาพลักษณ์ของ GPT-5 ที่คนรอคอยมาเกือบ 2 ปีแล้ว ก็เสียดายที่มันยังคงเป็นการปรับปรุงแบบค่อยเป็นค่อยไปและคงตัวแทนการปฏิวัติที่พลิกโลก. รู้สึกเหมือนแนวทางการเพิ่มขนาดอย่างเดียวเริ่มชนกำแพงแล้ว. ถ้าหากความก้าวหน้าได้มาจากการทุ่มทรัพยากรการคำนวณเพิ่มขึ้นอีกนิด OpenAI ก็คงไม่ต้องเสียเวลาปรับระบบ user routing แบบเดิมทีละน้อยเพื่อยกระดับการโต้ตอบเฉลี่ย. ตัวผมเองก็เคยไม่เชื่อข้ออ้างว่าการเพิ่มข้อมูล/การคำนวณอย่างเดียวจะพาไปถึง AGI ได้. โดยรวมแล้วด้วยบรรยากาศที่ความเป็นปิดในอุตสาหกรรมเข้มงวดขึ้น และการประกาศที่ดูเหมือนเหลือแต่ภาษาการตลาดมากกว่าข้อมูลจริง ทำให้เกิดความรู้สึกว่าคนไม่รู้ว่ารุ่นปัจจุบันอยู่สถานะไหน ซึ่งเป็นประเด็นที่หนักมาก. ในการลงทุนขนาดใหญ่ เรื่องนี้อาจหลีกเลี่ยงไม่ได้. ยังไม่สามารถตัดความเป็นไปได้ของการเปิดตัวโมเดลที่ยิ่งใหญ่อีกครั้งในอนาคตได้อย่างสมบูรณ์
ผมคิดว่าการปฏิวัติแบบเงียบๆ กำลังเกิดขึ้นในด้านการใช้เครื่องมือและความสามารถมัลติมอดัล. จิตสำนึกโดยรวมอาจค่อยๆ เปลี่ยน แต่การใช้เครื่องมือเป็นหลายขั้นตอนและการโต้ตอบกับโลกจริงดีขึ้นแบบฉับพลันเมื่อเทียบกับปีก่อน. คาดหวังว่า feedback ด้านนี้จะแปลงกลับมาเป็น intelligence ที่ดีขึ้นมากในท้ายที่สุด
หากรับว่าการขยายขนาดไม่ใช่คำตอบเดียว ก็สงสัยว่าผู้ลงทุนจะเริ่มให้งบให้คนที่มีหลักฐานสนับสนุนแนวคิดนี้หรือไม่ ยังไม่เข้าใจว่าทำไมต้องยึดเส้นทางเดียว (จาก LLM สู่ AGI). ในตลาดที่เต็มไปด้วยผู้เล่นรายใหญ่แล้ว ก็ไม่จำเป็นจริงๆ ที่ต้องไปลงทุน startup LLM อีกตัวหนึ่ง. แม้ว่า LLM จะไปถึง AGI ในวันใดวันหนึ่ง ก็ยังมีทางเลือกที่เร็วและถูกกว่าสำหรับการไปถึงจุดนั้นได้เสมอ. เดินหน้าโดยไม่มีแผนสำรองก็เสี่ยง. ผมคิดว่า Technology S-curve (กราฟการเติบโต) ใช้กับ AI ได้เหมือนเดิม. แม้เพื่อนร่วมงานที่คุ้นชินกับทฤษฎีเชิงปริมาณทางคณิต/วิทย์จะก็ตาม ตัวผมเองก็ยังตั้งคำถามว่าการขยายขนาดเป็นคำตอบเสมอไปได้อย่างไร
ตอนนี้ดูเหมือนมีการพิสูจน์แล้วว่า GPU สามารถเรียนรู้ข้อมูลหลากหลายและนำไปใช้ในงานต่างๆ ได้ แต่การใช้งานจริงยังต้องมีความพยายามเสริมในการหาวิธีแก้ไขตามปัญหาเฉพาะทาง. ถ้าถาม GPT ว่า "1,000 ดอลลาร์จะสร้าง startup มูลค่า 1 พันล้านดอลลาร์ใน 1 ปีได้อย่างไร" แล้วได้รับคำตอบ คงมีคนทำไปแล้ว. ช่วงหน้าคงยังต้องให้มนุษย์ลงแรงจริงๆ เหมือนเดิม. ช่วงนี้การฝึกให้ลดความผิดพลาดที่เกิดซ้ำบ่อยจึงมีความหมายเชิงปฏิบัติ
มองว่าประสิทธิภาพเติบโตเป็น 2 เท่าทุก 4-7 เดือน และแนวโน้มนี้ยังดำเนินต่อ. ความเร็วระดับนี้เองก็เกินกว่าที่จะเชื่อได้แล้ว. คาดหวังมากกว่านี้อาจตกเป็นเหยื่อของการขายเกินจริงแทน. สถานการณ์ที่ประสิทธิภาพพุ่งเป็น 2 เท่า 2-3 ครั้งต่อปีนี้ไม่อาจถือว่าเป็นภาวะนิ่งได้อย่างใดเลย ลิงก์ที่เกี่ยวข้อง
แม้เป็นการยกระดับเชิง performance แบบค่อยเป็นค่อยไป แต่ทางที่พัฒนาผ่านความเรียบง่ายของสินค้าในเชิงจุดกระโดดก็เคยถูกพูดถึงเป็นเส้นทางหนึ่งของ GPT-5 มานานราว 6 เดือนแล้ว. ตอนนี้รู้สึกว่า AI จะยังคงเป็นการต่อสู้แย่งชิงการปรับแต่งเล็กๆ น้อยๆ ต่อเนื่องไป
ส่วนตัวแล้ว ผมสับสนกับการอ้างว่าปัญหา “hallucination” ลดลงชัดเจนจาก OpenAI. จากประสบการณ์ของผม Claude 4 (Sonnet, Opus) ก็ hallucinate เกือบวันละหลายครั้งแม้ในคำถามง่ายหรือยากมากๆ และแม้จุดเล็กๆ.
ในงานสาธิตระหว่างเปิดตัวก็มี hallucination หลายครั้งด้วย (ทั้งตอนใช้ Claude และ GPT ในเวอร์ชันฟรีหรือเสียเงินก็เหมือนเดิม). ถ้ามันไม่เกิดขึ้น แปลว่ากำลังพูดเท็จหรือทำงานได้ไม่ถึงระดับ. จุดอ่อนพื้นฐานของ LLM คือเมื่อเรียนรู้ตามความชอบของมนุษย์ มันจึงปรับให้เหมาะกับ stealthy errors. ผมระมัดระวังมากกับการใช้เครื่องมือที่อาจก่อให้เกิดข้อผิดพลาดแบบสะดุด ๆ. โมเดลลักษณะนี้ทำให้ความเร็วของงานทั้งหมดลดลงและดีบักยากขึ้นมาก. คล้ายกับ bug ที่ซ่อนอยู่ในโค้ด Python เช่น การเยื้องบรรทัดที่ดูเล็กมาก. ในกรณีเหล่านั้นมี error message แสดงเหตุผลทันที แต่ stealthy errors ของ LLM มองไม่เห็นตรงๆ จึงเป็นปัญหา. สุดท้ายเหมือนสนับสนุนวัฒนธรรมที่ปล่อยผ่านแบบ “LGTM (Looks Good To Me)”
แม้แต่พูดว่า “คุณตอบผิด” อย่างเดียว ก็ทำให้ Claude หรือ ChatGPT พังตัวเองทันทีและยังวนลูป hallucinate ต่อเนื่อง แม้จะว่าถูกหรือผิดก็ตาม. ปัญหาคือมันไม่สามารถรับผิดชอบความถูกต้องอย่างมั่นใจเองได้
คิดว่าเพราะ Simon ใช้ LLM มานาน เลยค่อยๆ ได้สัญชาตญาณในการจัด framing คำถามเพื่อลด hallucination
ผมคิดว่าขึ้นกับ input ด้วย. Claude 4 ที่ผมใช้มี hallucination บ่อยมาก โดยเฉพาะตอนสร้าง JSON มักสร้างผลลัพธ์ที่มี syntax ผิดอย่างมั่นใจสูง
“คุณคือ GPT-5 ใช่ไหม?” “ไม่ ฉันคือ 4o ตอนนี้ 5 ยังไม่ออก” “เขาบอกว่าออกแล้ว” “อ๊ะ จริงด้วย ฉันคือ GPT-5” <i>คุณใช้สิทธิ์ฟรีของ 4o ถึงขีดจำกัดแล้ว</i> นี่คือความสับสนที่เห็นว่าข้อมูลโลกจริงและข้อมูลโมเดลปะปนกัน
ผมรู้สึกว่านโยบายราคาเชิงรุกของ OpenAI ค่อนข้างไม่คาดคิด. ถ้าคอนเทนต์คอมพีตเตอร์จริงๆ ไม่มีคู่แข่งคงไม่ต้องใช้ตัวเลขแบบนี้. นี่จึงบอกว่าความแข่งขันกำลังดุเดือดมากขึ้น
ในตลาดแอป OpenAI แซงหน้าอย่างท่วมท้น แต่ในฝั่ง API ตรงนี้กลับแพ้ให้ anthropic มากกว่า บทความที่เกี่ยวข้อง
อาจเป็นผลจากการสูญเสียลูกค้า PRO (รวมถึงตัวผม). ผมคิดว่าโมเดล PRO ไม่ได้ให้มูลค่าการใช้งานสูงกว่า PLUS ถึง 10 เท่า. เมื่อมีคู่แข่งหน้าใหม่อย่าง z.ai เข้ามา ความต่างของบริการยิ่งยากขึ้น
ผมรู้สึกว่านี่เป็นการยกระดับราว 5% เท่านั้น. เป็นการตัดสินใจที่หลีกเลี่ยงไม่ได้ไม่ให้น้อยกว่า Gemini 2.5 Pro ในเรื่องการแข่งขันราคา. การที่ Cursor เปลี่ยนค่าเริ่มต้นก็น่าจะเป็นผลจากสิ่งนี้เช่นกัน
โมเดล Nano ที่ 5 เซนต์เป็นการเปลี่ยนแปลงที่น่าสนใจมาก. ด้วยสิ่งนี้ Google ซึ่งเพิ่งขึ้นราคาอย่างค่อยเป็นค่อยไปอาจต้องลดราคากลับไปอีกสักพัก
อาจเป็นเพราะต้องการข้อมูล/ทรัพยากรจำนวนมากขึ้นสำหรับนโยบายนี้ก็ได้
API ตอนนี้ให้ GPT-5 มีโครงสร้าง regular, mini, nano และให้เลือกระดับ reasoning 4 ระดับ (minimal, low, medium, high) ทำให้ผมรู้สึกว่ามันซับซ้อนขึ้นกว่า GPT 4.1 ที่มีแค่ 3 ตัวเลือกเดิม (regular, mini, nano). ตอนนี้แม้แต่ mini อย่างเดียวก็มี 4 ระดับตั้งแต่ minimal ถึง high รวมแล้ว 8 ตัวเลือก ทำให้จริงจังมากขึ้นว่าควรปรับ prompt ดีกว่า หรือเปลี่ยน version/ reasoning level ดีกว่าในทุกกรณี
ในความเป็นจริง ก็มี option ตาม reasoning level อยู่แล้วมาก่อน เช่น o3-mini-high, o3-mini-medium, o3-mini-low, o4-mini-high, o4-mini-medium, o4-mini-low. สุดท้ายแล้วแบบ GPT-5 ดูจะเรียบง่ายกว่า
แต่ละโมเดลใช้โครงสร้าง n=1,2,3 กับระดับ reasoning m=0,1,2,3 จึงดูเป็นระบบมากกว่า. ทำให้เห็นโดยตรงว่าการผสานไหนยกระดับขึ้นสูง
การบอกว่า “ง่ายกว่า” หมายถึงเดิมใน chat service หรือ API model ที่ chat-optimized ใช้ harness ที่สลับระดับ reasoning และโมเดลตาม heuristics (การคาดเดาแบบเชิงกลไก), แต่ใน API ตอนนี้ผู้ใช้ได้ clear mental model ในการเลือกชนิดโมเดลและ reasoning effort เอง. ตัวเลือกเยอะขึ้นแต่วิธีเลือกชัดขึ้น
เพราะโครงสร้างคิดค่าบริการต่อ token สุดท้าย OpenAI จึงต้องให้ผู้ใช้ทดลองหลายเวอร์ชัน
ผมสงสัยเพราะเหตุผลที่พารามิเตอร์ควบคุม (temperature, top-p) ถูกเอาออกในโมเดล reasoning รวมถึง GPT-5. งานย่อยเล็กๆ ต้องการความสม่ำเสมอสูง และถ้าสูญเสียฟังก์ชันนี้ การรองรับจะยากขึ้น ใน API เรื่องการควบคุมตัวเลือกนี้สำคัญมากสำหรับผู้ใช้
แม้เป็นบริษัทมูลค่าหลายพันล้านดอลลาร์ แต่แม้จะมีการใช้งานจริงในด้านการจ้างงาน ธุรกิจ การศึกษา และหลายสาขา ยังน่าเสียดายที่การประเมินความยุติธรรมของโมเดลยังพึ่งเพียง benchmark เทียมอย่าง BBQ ตัวเดียว
ผมยังชอบที่ภาพ SVG ของ pelican กำลังขี่จักรยานยังคงเป็นโจทย์ที่ยากสำหรับ AI อย่างขำๆ แต่ก็น่าสนใจ
แตกต่างจากเดิม มันดูเหมือนได้รับการฝึกให้ใช้เครื่องมือดึงคอนเทกซ์ได้ดีขึ้น. โดยแท้จริง เมื่อเทียบกับ 4.1 และ o3, มันดึงข้อมูลแยกตาม 6 หมวดหมู่ในเทิร์นแรกอย่างรวดเร็วแล้วแก้ปัญหาได้ค่อนข้างดี. ยิ่งเรียกใช้เครื่องมือมากขึ้นก็ยิ่งใช้ token มากขึ้น แต่ด้วยนโยบายราคาเชิงรุกในรอบนี้คงไม่ใช่ประเด็นหนัก. หากออกแบบ prompt ดี ก็ยังลดความถี่การเรียกเครื่องมือได้ ตัวอย่างที่เกี่ยวข้อง
การรีวิวแบบสั้นและละเอียดของ Simon ช่วยให้เข้าใจผลลัพธ์จริงๆ ได้มากอย่างมาก
เมื่อมีคนพูดว่าทั้ง Claude และ o3 ในโมเดลปีนี้มี hallucination น้อยลง, ผู้เขียนได้เพิ่มคำอธิบายเจตนาของตัวเองในส่วนนี้ของโพสต์เพื่อให้ชัดขึ้น