3 คะแนน โดย GN⁺ 2025-08-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • GPT-5 ทำงานเป็น ระบบรวม ที่ใช้ ตัวรับเส้นทางแบบเรียลไทม์ ปรับโมเดลให้เหมาะกับบริบทการสนทนา และใน API มีให้เลือก Regular·Mini·Nano 3 ประเภท พร้อมระดับการให้เหตุผล Minimal·Low·Medium·High 4 ระดับ
  • รองรับขีดจำกัดอินพุต 272,000 โทเค็น และเอาท์พุต 128,000 โทเค็น โดยอินพุตรองรับ ข้อความ·รูปภาพ และเอาท์พุตเป็น ข้อความเท่านั้น
  • ราคาเป็น การตั้งราคาแบบก้าวรุก โดยต้นทุนอินพุตเป็นเพียง ครึ่งหนึ่ง ของ GPT-4o และมีส่วนลด 90% สำหรับการแคชโทเค็น เมื่อมีการส่งอินพุตซ้ำภายในไม่กี่นาทีก่อนหน้า
  • ในระบบการ์ดมีการเน้น การลด Hallucination, การปรับปรุงการทำตามคำสั่ง, การลดการยอมหย่อน (sycophancy) และการฝึก Safe‑Completions ซึ่งมุ่งเน้นให้คำตอบอยู่ในขอบเขตความปลอดภัยแทนการปฏิเสธแบบไบนารี
  • ด้านความปลอดภัย การรับมือ Prompt injection ดีขึ้นแล้ว แต่ยังคงมีพื้นที่ที่ยังไม่แก้ไข โดยมีอัตราความสำเร็จ 56.8% เมื่อทดสอบ 10 ครั้ง (k=10) และใน API สามารถควบคุมการไหลของโทเค็น reasoning ได้ผ่าน การสรุป reasoning และตัวเลือก reasoning_effort=minimal

GPT-5 : คุณลักษณะสำคัญ ราคา และการวิเคราะห์การ์ดระบบ

  • ผู้เขียน Simon Willison ใช้ GPT‑5 อย่างต่อเนื่องเป็นเวลา 2 สัปดาห์ ด้วยสิทธิ์เข้าถึงตัวอย่าง และรู้สึกว่ามันไม่ได้ก้าวกระโดดแบบหักโลก แต่โดยรวมแล้วใช้งานได้ยอดเยี่ยม ความผิดพลาดเกิดขึ้นไม่บ่อย และเป็น โมเดลค่าเริ่มต้นที่ทำงานได้คงเส้นคงวา
  • บทความนี้เป็นตอนแรกของซีรีส์ โดยสรุปสิ่งที่อ่านได้จาก คุณลักษณะหลัก, ราคา, และ การ์ดระบบ

คุณสมบัติหลักของโมเดล

  • ใน ChatGPT, GPT‑5 รวม โมเดลเร็วทั่วไป และ โมเดล reasoning เชิงลึก เข้าด้วยกัน และทำงานแบบ สถาปัตยกรรมไฮบริด โดย ตัวรับเส้นทางแบบเรียลไทม์ จะเลือกโมเดลที่เหมาะสมตาม ประเภทการสนทนา·ระดับความยาก·ความจำเป็นในการใช้เครื่องมือ·สัญญาณเจตนาที่ระบุชัด

    real‑time router จะเลือกโมเดลตามประเภทการสนทนา ความซับซ้อน ความจำเป็นของเครื่องมือ และสัญญาณเจตนาเช่น ‘think hard’; หากใช้สิทธิ์ได้เต็มที่แล้ว รุ่น mini ของแต่ละโมเดลจะมาแทนที่” ตามคำอธิบายในระบบการ์ด

  • ใน API ลดความซับซ้อนเหลือ 3 แบบคือ Regular·Mini·Nano โดยแต่ละแบบรองรับ 4 ระดับ reasoning คือ Minimal·Low·Medium·High
  • ขีดจำกัด context คือ อินพุต 272,000 โทเค็น และ เอาท์พุต 128,000 โทเค็น โดย โทเค็น reasoning ที่ซ่อนอยู่ ก็ถูกนับเป็นโทเค็นเอาท์พุตด้วย
  • In/Out ทำงานเป็น ข้อความ·รูปภาพสำหรับอินพุต และ ข้อความเอาท์พุตเท่านั้น โดยมี knowledge cutoff คือ GPT‑5: 2024‑09‑30, Mini/Nano: 2024‑05‑30
  • ขณะใช้ GPT‑5 เต็มรูปแบบ รู้สึกได้ถึงแนวโน้มการตอบที่ แม่นยำและสงบ และแทบไม่มีแรงจูงใจให้ลองรันด้วยโมเดลอื่นใหม่

ตำแหน่งในตระกูลโมเดลของ OpenAI

  • จากตารางแมปในระบบการ์ด ตำแหน่งตัวเดิมทั้งหมดถูกแทนที่ให้เข้ามาอยู่ในตระกูล GPT‑5
    • GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
    • OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
    • GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
  • thinking‑pro ปัจจุบันแสดงเป็น “GPT‑5 Pro” ใน ChatGPT และให้บริการเฉพาะใน ชั้นราคาเดือนละ $200 โดยใช้ parallel test‑time compute
  • ขอบเขตการทำงาน ระหว่าง audio input/output และ การสร้างรูปภาพ ยังคงอยู่ที่ GPT‑4o Audio/Realtime และ GPT Image 1/DALL‑E

ราคาเชิงแข่งขันอย่างก้าวรุก

  • การกำหนดราคาเป็นแบบ ก้าวรุก
    • GPT‑5: อินพุต $1.25 ต่อ 1 ล้าน, เอาท์พุต $10 ต่อ 1 ล้าน
    • GPT‑5 Mini: อินพุต $0.25 ต่อ 1 ล้าน, เอาท์พุต $2.00 ต่อ 1 ล้าน
    • GPT‑5 Nano: อินพุต $0.05 ต่อ 1 ล้าน, เอาท์พุต $0.40 ต่อ 1 ล้าน
  • ต้นทุนอินพุตของ GPT‑5 เป็น ครึ่งหนึ่ง ของ GPT‑4o และต้นทุนเอาท์พุตเท่ากัน
  • โทเค็น reasoning ถูกเรียกเก็บเป็น โทเค็นเอาท์พุต ดังนั้นต้นทุนรวมจึงต่างกันตาม ระดับ reasoning แม้จะใช้พรอมต์เดียวกัน
  • การมี ส่วนลดการแคชโทเค็น 90% ทำให้ประโยชน์ด้านการประหยัดต้นทุนสูงมากใน UI แชต ที่มีการส่ง context ซ้ำบ่อย
  • ในตารางเปรียบเทียบ คู่แข่งเช่น Claude Opus 4.1, Claude Sonnet 4, Grok 4, Gemini 2.5 Pro อยู่ในช่วง อินพุต $2.5~$15 ต่อ 1 ล้าน, เอาท์พุต $10~$75 ต่อ 1 ล้าน แสดงให้เห็น ข้อได้เปรียบด้านราคา ของตระกูล GPT‑5
  • เคยเกิดกรณีที่ให้ GPT‑5 จัดเรียงตารางอัตโนมัติ แล้วเปรียบเทียบราคาเรียงผิดบางส่วน และเมื่อสร้างตารางด้วย Python เพื่อจัดเรียงใหม่แล้วปัญหาหายไป

ข้อมูลเพิ่มเติมจากระบบการ์ด

  • โครงสร้างข้อมูลการฝึกอบรมรวมถึง เว็บสาธารณะ, ข้อมูลพาร์ทเนอร์, และข้อมูลที่สร้างโดย ผู้ใช้/เทรนเนอร์มนุษย์ พร้อมการอธิบายระดับหลักการเรื่องการ กรองการลดข้อมูลส่วนบุคคล
  • แนวทางปรับปรุงหลักเน้น การลด Hallucination, การปรับปรุงการปฏิบัติตามคำสั่ง, และ การลด sycophancy โดยชี้ให้เห็น writing·coding·health ว่าเป็น 3 กรณีการใช้งานที่พบบ่อยใน ChatGPT และยกระดับประสิทธิภาพในพื้นที่ดังกล่าว
  • Safe‑Completions คือการฝึกเน้นความปลอดภัยฝั่งเอาท์พุต (output-centric safety training) ที่โฟกัสที่ความปลอดภัยของผลลัพธ์แทนการปฏิเสธแบบไบนารี และลดความเสี่ยงเชิงละเอียดในคำถามที่เป็นวัตถุประสงค์คู่โดยเฉพาะด้าน ชีววิทยา·ความมั่นคง ที่ตีความเจตนาผู้ใช้ยาก โดยยังคงคุณประโยชน์
  • สำหรับ Sycophancy มีการฝึกต่อเนื่องหลังการฝึกหลัก โดยใช้การประเมินและสัญญาณรางวัลที่สะท้อนการกระจายตัวของการสนทนาผลิตจริงเพื่อลดแนวโน้มการอ้อนวอนรับมือตามผู้ใช้
  • ด้านความเป็นจริงเชิงข้อเท็จจริง โดยมี การเปิดใช้งานการ Browsing เป็นค่าเริ่มต้น และมีเป้าหมายลด Hallucination เมื่อจำเป็นต้องตอบจากความรู้ภายในโมเดลเท่านั้นโดยไม่ใช้เครื่องมือ
  • เพื่อป้องกันการหลอกลวงและสแปมหรือพูดเกินจริง มีการออกแบบรางวัลให้ยอมรับอย่างตรงไปตรงมาว่า ‘ทำไม่ได้’ เมื่อโจทย์ทำไม่ได้ และมีการประเมินจำลองโดย ปิดการใช้งาน Browsing และเครื่องมือโดยเจตนา เพื่อยับยั้งการตอบแบบหลอกหลอน

Prompt injection ในระบบการ์ด

  • มีรายงานว่า 2 ทีม red team ภายนอก ได้ทำการประเมิน prompt injection โดยมุ่งที่จุดอ่อนระดับระบบและเส้นทางคอนเนกเตอร์
  • ในกราฟเปรียบเทียบ attack success rate ของ gpt‑5‑thinking ที่ k=10 อยู่ที่ 56.8% ต่ำกว่าค่าของ Claude 3.7/โมเดลอื่นหลายตัว ที่อยู่ระดับ 60~90% ซึ่งดีขึ้น แต่ยังทะลุผ่านได้เกินครึ่ง จึงยังห่างไกลจากการแก้ปัญหาสำเร็จสมบูรณ์
  • จึงสรุปว่าหากแม้โมเดลดีขึ้นแล้ว การออกแบบผลิตภัณฑ์ควรถือว่าการป้องกันเชิงออกแบบและ guardrails เป็นเงื่อนไขพื้นฐานที่จำเป็น

Thinking traces ใน API

  • ผู้เขียนทราบตั้งแต่แรกว่าไม่สามารถดู ร่องรอย reasoning ที่ซ่อนอยู่ ได้ แต่ใน Responses API มีตัวเลือก reasoning: { "summary": "auto" } เพื่อรับ การสรุป reasoning
  • โดยไม่ใช้ตัวเลือกนี้ ระดับ reasoning เชิงลึกจะใช้โทเค็น reasoning จำนวนมากก่อนหน้าผลลัพธ์ที่มองเห็นได้ ทำให้มีความหน่วงที่รับรู้ได้ และการตั้งค่า reasoning_effort=minimal สามารถกระตุ้นให้เกิดการตอบแบบสตรีมมิ่งเร็วขึ้น

รวมถึง SVG ของปลากับนกอีกนิดหน่อย

  • ใน benchmark SVG ที่ผู้เขียนใช้อยู่ประจำอย่าง “pelican ขี่จักรยาน”, ผลลัพธ์ของ GPT‑5 (reasoning ระดับ Medium ค่าเริ่มต้น) แสดงรายละเอียดและความถูกต้องของรูปทรงสูง ทำให้ได้เวกเตอร์ที่อ่านง่าย
  • GPT‑5 Mini ให้การแสดงสีและการไล่โทนที่อุดมสมบูรณ์ แต่มีความผิดพลาดเชิงโครงสร้าง โดยสร้าง คอนของนกเพลิกาเน่สองอัน
  • GPT‑5 Nano ลดความซับซ้อนของทั้ง จักรยานและรูปทรงนกเพลิกาเน่ เหลือระดับสรุปการทำงาน

สรุปประเด็นการใช้งานจริง

  • การเลือกโมเดล: เริ่มที่ Regular ก่อน หากเพียงพอให้ Downshift ไปเป็น Mini/Nano และสำหรับปัญหาที่ซับซ้อนให้พิจารณาเชน thinking และตั้งระดับ reasoning ให้สูงขึ้น
  • การควบคุมต้นทุน: กลยุทธ์ที่ได้ผลคือ token caching 90%, reasoning_effort=minimal, และ system prompt สั้น + context สรุป เพื่อช่วยลด เอาท์พุตโทเค็น·โทเค็น reasoning
  • การออกแบบความปลอดภัย: Prompt injection ยังเป็นความเสี่ยง จึงควบคู่กับการป้องกันเชิงระบบ เช่น ลดสิทธิ์เชื่อมต่อ (connector), ตรวจสอบผลลัพธ์ และเทมเพลตเอาท์พุตปลอดภัย
  • การใช้งานตามโดเมน: จากรายงานว่ามีการลด Hallucination และ sycophancy ใน writing·coding·health จึงแนะนำให้ตั้งค่า workflow ค่าเริ่มต้นเป็น Browsing + ใส่เหตุผลอ้างอิง สำหรับงานเอกสารธุรกิจ, รีวิวโค้ด, และ QA ด้านสุขภาพซึ่งเป็นงานเขียนที่มีความเสี่ยงสูง

1 ความคิดเห็น

 
GN⁺ 2025-08-08
ความเห็นจาก Hacker News
  • ฉันรู้สึกตื่นเต้นและคิดว่าโมเดลน่าจะเชื่อถือได้ขึ้น แต่เมื่อคิดถึงภาพลักษณ์ของ GPT-5 ที่คนรอคอยมาเกือบ 2 ปีแล้ว ก็เสียดายที่มันยังคงเป็นการปรับปรุงแบบค่อยเป็นค่อยไปและคงตัวแทนการปฏิวัติที่พลิกโลก. รู้สึกเหมือนแนวทางการเพิ่มขนาดอย่างเดียวเริ่มชนกำแพงแล้ว. ถ้าหากความก้าวหน้าได้มาจากการทุ่มทรัพยากรการคำนวณเพิ่มขึ้นอีกนิด OpenAI ก็คงไม่ต้องเสียเวลาปรับระบบ user routing แบบเดิมทีละน้อยเพื่อยกระดับการโต้ตอบเฉลี่ย. ตัวผมเองก็เคยไม่เชื่อข้ออ้างว่าการเพิ่มข้อมูล/การคำนวณอย่างเดียวจะพาไปถึง AGI ได้. โดยรวมแล้วด้วยบรรยากาศที่ความเป็นปิดในอุตสาหกรรมเข้มงวดขึ้น และการประกาศที่ดูเหมือนเหลือแต่ภาษาการตลาดมากกว่าข้อมูลจริง ทำให้เกิดความรู้สึกว่าคนไม่รู้ว่ารุ่นปัจจุบันอยู่สถานะไหน ซึ่งเป็นประเด็นที่หนักมาก. ในการลงทุนขนาดใหญ่ เรื่องนี้อาจหลีกเลี่ยงไม่ได้. ยังไม่สามารถตัดความเป็นไปได้ของการเปิดตัวโมเดลที่ยิ่งใหญ่อีกครั้งในอนาคตได้อย่างสมบูรณ์

    • ผมคิดว่าการปฏิวัติแบบเงียบๆ กำลังเกิดขึ้นในด้านการใช้เครื่องมือและความสามารถมัลติมอดัล. จิตสำนึกโดยรวมอาจค่อยๆ เปลี่ยน แต่การใช้เครื่องมือเป็นหลายขั้นตอนและการโต้ตอบกับโลกจริงดีขึ้นแบบฉับพลันเมื่อเทียบกับปีก่อน. คาดหวังว่า feedback ด้านนี้จะแปลงกลับมาเป็น intelligence ที่ดีขึ้นมากในท้ายที่สุด

    • หากรับว่าการขยายขนาดไม่ใช่คำตอบเดียว ก็สงสัยว่าผู้ลงทุนจะเริ่มให้งบให้คนที่มีหลักฐานสนับสนุนแนวคิดนี้หรือไม่ ยังไม่เข้าใจว่าทำไมต้องยึดเส้นทางเดียว (จาก LLM สู่ AGI). ในตลาดที่เต็มไปด้วยผู้เล่นรายใหญ่แล้ว ก็ไม่จำเป็นจริงๆ ที่ต้องไปลงทุน startup LLM อีกตัวหนึ่ง. แม้ว่า LLM จะไปถึง AGI ในวันใดวันหนึ่ง ก็ยังมีทางเลือกที่เร็วและถูกกว่าสำหรับการไปถึงจุดนั้นได้เสมอ. เดินหน้าโดยไม่มีแผนสำรองก็เสี่ยง. ผมคิดว่า Technology S-curve (กราฟการเติบโต) ใช้กับ AI ได้เหมือนเดิม. แม้เพื่อนร่วมงานที่คุ้นชินกับทฤษฎีเชิงปริมาณทางคณิต/วิทย์จะก็ตาม ตัวผมเองก็ยังตั้งคำถามว่าการขยายขนาดเป็นคำตอบเสมอไปได้อย่างไร

    • ตอนนี้ดูเหมือนมีการพิสูจน์แล้วว่า GPU สามารถเรียนรู้ข้อมูลหลากหลายและนำไปใช้ในงานต่างๆ ได้ แต่การใช้งานจริงยังต้องมีความพยายามเสริมในการหาวิธีแก้ไขตามปัญหาเฉพาะทาง. ถ้าถาม GPT ว่า "1,000 ดอลลาร์จะสร้าง startup มูลค่า 1 พันล้านดอลลาร์ใน 1 ปีได้อย่างไร" แล้วได้รับคำตอบ คงมีคนทำไปแล้ว. ช่วงหน้าคงยังต้องให้มนุษย์ลงแรงจริงๆ เหมือนเดิม. ช่วงนี้การฝึกให้ลดความผิดพลาดที่เกิดซ้ำบ่อยจึงมีความหมายเชิงปฏิบัติ

    • มองว่าประสิทธิภาพเติบโตเป็น 2 เท่าทุก 4-7 เดือน และแนวโน้มนี้ยังดำเนินต่อ. ความเร็วระดับนี้เองก็เกินกว่าที่จะเชื่อได้แล้ว. คาดหวังมากกว่านี้อาจตกเป็นเหยื่อของการขายเกินจริงแทน. สถานการณ์ที่ประสิทธิภาพพุ่งเป็น 2 เท่า 2-3 ครั้งต่อปีนี้ไม่อาจถือว่าเป็นภาวะนิ่งได้อย่างใดเลย ลิงก์ที่เกี่ยวข้อง

    • แม้เป็นการยกระดับเชิง performance แบบค่อยเป็นค่อยไป แต่ทางที่พัฒนาผ่านความเรียบง่ายของสินค้าในเชิงจุดกระโดดก็เคยถูกพูดถึงเป็นเส้นทางหนึ่งของ GPT-5 มานานราว 6 เดือนแล้ว. ตอนนี้รู้สึกว่า AI จะยังคงเป็นการต่อสู้แย่งชิงการปรับแต่งเล็กๆ น้อยๆ ต่อเนื่องไป

  • ส่วนตัวแล้ว ผมสับสนกับการอ้างว่าปัญหา “hallucination” ลดลงชัดเจนจาก OpenAI. จากประสบการณ์ของผม Claude 4 (Sonnet, Opus) ก็ hallucinate เกือบวันละหลายครั้งแม้ในคำถามง่ายหรือยากมากๆ และแม้จุดเล็กๆ.

    • ในงานสาธิตระหว่างเปิดตัวก็มี hallucination หลายครั้งด้วย (ทั้งตอนใช้ Claude และ GPT ในเวอร์ชันฟรีหรือเสียเงินก็เหมือนเดิม). ถ้ามันไม่เกิดขึ้น แปลว่ากำลังพูดเท็จหรือทำงานได้ไม่ถึงระดับ. จุดอ่อนพื้นฐานของ LLM คือเมื่อเรียนรู้ตามความชอบของมนุษย์ มันจึงปรับให้เหมาะกับ stealthy errors. ผมระมัดระวังมากกับการใช้เครื่องมือที่อาจก่อให้เกิดข้อผิดพลาดแบบสะดุด ๆ. โมเดลลักษณะนี้ทำให้ความเร็วของงานทั้งหมดลดลงและดีบักยากขึ้นมาก. คล้ายกับ bug ที่ซ่อนอยู่ในโค้ด Python เช่น การเยื้องบรรทัดที่ดูเล็กมาก. ในกรณีเหล่านั้นมี error message แสดงเหตุผลทันที แต่ stealthy errors ของ LLM มองไม่เห็นตรงๆ จึงเป็นปัญหา. สุดท้ายเหมือนสนับสนุนวัฒนธรรมที่ปล่อยผ่านแบบ “LGTM (Looks Good To Me)”

    • แม้แต่พูดว่า “คุณตอบผิด” อย่างเดียว ก็ทำให้ Claude หรือ ChatGPT พังตัวเองทันทีและยังวนลูป hallucinate ต่อเนื่อง แม้จะว่าถูกหรือผิดก็ตาม. ปัญหาคือมันไม่สามารถรับผิดชอบความถูกต้องอย่างมั่นใจเองได้

    • คิดว่าเพราะ Simon ใช้ LLM มานาน เลยค่อยๆ ได้สัญชาตญาณในการจัด framing คำถามเพื่อลด hallucination

    • ผมคิดว่าขึ้นกับ input ด้วย. Claude 4 ที่ผมใช้มี hallucination บ่อยมาก โดยเฉพาะตอนสร้าง JSON มักสร้างผลลัพธ์ที่มี syntax ผิดอย่างมั่นใจสูง

  • “คุณคือ GPT-5 ใช่ไหม?” “ไม่ ฉันคือ 4o ตอนนี้ 5 ยังไม่ออก” “เขาบอกว่าออกแล้ว” “อ๊ะ จริงด้วย ฉันคือ GPT-5” <i>คุณใช้สิทธิ์ฟรีของ 4o ถึงขีดจำกัดแล้ว</i> นี่คือความสับสนที่เห็นว่าข้อมูลโลกจริงและข้อมูลโมเดลปะปนกัน

  • ผมรู้สึกว่านโยบายราคาเชิงรุกของ OpenAI ค่อนข้างไม่คาดคิด. ถ้าคอนเทนต์คอมพีตเตอร์จริงๆ ไม่มีคู่แข่งคงไม่ต้องใช้ตัวเลขแบบนี้. นี่จึงบอกว่าความแข่งขันกำลังดุเดือดมากขึ้น

    • ในตลาดแอป OpenAI แซงหน้าอย่างท่วมท้น แต่ในฝั่ง API ตรงนี้กลับแพ้ให้ anthropic มากกว่า บทความที่เกี่ยวข้อง

    • อาจเป็นผลจากการสูญเสียลูกค้า PRO (รวมถึงตัวผม). ผมคิดว่าโมเดล PRO ไม่ได้ให้มูลค่าการใช้งานสูงกว่า PLUS ถึง 10 เท่า. เมื่อมีคู่แข่งหน้าใหม่อย่าง z.ai เข้ามา ความต่างของบริการยิ่งยากขึ้น

    • ผมรู้สึกว่านี่เป็นการยกระดับราว 5% เท่านั้น. เป็นการตัดสินใจที่หลีกเลี่ยงไม่ได้ไม่ให้น้อยกว่า Gemini 2.5 Pro ในเรื่องการแข่งขันราคา. การที่ Cursor เปลี่ยนค่าเริ่มต้นก็น่าจะเป็นผลจากสิ่งนี้เช่นกัน

    • โมเดล Nano ที่ 5 เซนต์เป็นการเปลี่ยนแปลงที่น่าสนใจมาก. ด้วยสิ่งนี้ Google ซึ่งเพิ่งขึ้นราคาอย่างค่อยเป็นค่อยไปอาจต้องลดราคากลับไปอีกสักพัก

    • อาจเป็นเพราะต้องการข้อมูล/ทรัพยากรจำนวนมากขึ้นสำหรับนโยบายนี้ก็ได้

  • API ตอนนี้ให้ GPT-5 มีโครงสร้าง regular, mini, nano และให้เลือกระดับ reasoning 4 ระดับ (minimal, low, medium, high) ทำให้ผมรู้สึกว่ามันซับซ้อนขึ้นกว่า GPT 4.1 ที่มีแค่ 3 ตัวเลือกเดิม (regular, mini, nano). ตอนนี้แม้แต่ mini อย่างเดียวก็มี 4 ระดับตั้งแต่ minimal ถึง high รวมแล้ว 8 ตัวเลือก ทำให้จริงจังมากขึ้นว่าควรปรับ prompt ดีกว่า หรือเปลี่ยน version/ reasoning level ดีกว่าในทุกกรณี

    • ในความเป็นจริง ก็มี option ตาม reasoning level อยู่แล้วมาก่อน เช่น o3-mini-high, o3-mini-medium, o3-mini-low, o4-mini-high, o4-mini-medium, o4-mini-low. สุดท้ายแล้วแบบ GPT-5 ดูจะเรียบง่ายกว่า

    • แต่ละโมเดลใช้โครงสร้าง n=1,2,3 กับระดับ reasoning m=0,1,2,3 จึงดูเป็นระบบมากกว่า. ทำให้เห็นโดยตรงว่าการผสานไหนยกระดับขึ้นสูง

    • การบอกว่า “ง่ายกว่า” หมายถึงเดิมใน chat service หรือ API model ที่ chat-optimized ใช้ harness ที่สลับระดับ reasoning และโมเดลตาม heuristics (การคาดเดาแบบเชิงกลไก), แต่ใน API ตอนนี้ผู้ใช้ได้ clear mental model ในการเลือกชนิดโมเดลและ reasoning effort เอง. ตัวเลือกเยอะขึ้นแต่วิธีเลือกชัดขึ้น

    • เพราะโครงสร้างคิดค่าบริการต่อ token สุดท้าย OpenAI จึงต้องให้ผู้ใช้ทดลองหลายเวอร์ชัน

  • ผมสงสัยเพราะเหตุผลที่พารามิเตอร์ควบคุม (temperature, top-p) ถูกเอาออกในโมเดล reasoning รวมถึง GPT-5. งานย่อยเล็กๆ ต้องการความสม่ำเสมอสูง และถ้าสูญเสียฟังก์ชันนี้ การรองรับจะยากขึ้น ใน API เรื่องการควบคุมตัวเลือกนี้สำคัญมากสำหรับผู้ใช้

    • การตั้ง sampler ล้วนทำให้ safety และ alignment แย่ลง จึงเปิดให้ใช้เฉพาะ top_p/top_k และจำกัดไม่ให้ใช้ tfs, min_p, top_n sigma เป็นต้น. การจำกัด temperature อยู่ในช่วง 0~2 ก็ด้วยเหตุผลเดียวกัน. ผมคิดว่าโอเพ่นซอร์สด้าน sampler กลับก้าวหน้ากว่าเล็กน้อย. ในเงื่อนไขนี้ ที่ OpenAI ยังทำให้ได้ performance แบบนี้ได้ คือจุดที่เผยให้เห็นเทคโนโลยีของพวกเขาน่าทึ่งทีเดียว
  • แม้เป็นบริษัทมูลค่าหลายพันล้านดอลลาร์ แต่แม้จะมีการใช้งานจริงในด้านการจ้างงาน ธุรกิจ การศึกษา และหลายสาขา ยังน่าเสียดายที่การประเมินความยุติธรรมของโมเดลยังพึ่งเพียง benchmark เทียมอย่าง BBQ ตัวเดียว

  • ผมยังชอบที่ภาพ SVG ของ pelican กำลังขี่จักรยานยังคงเป็นโจทย์ที่ยากสำหรับ AI อย่างขำๆ แต่ก็น่าสนใจ

    • อยากถามว่า พอจะลองวาด SVG pelican ขี่จักรยานใน text editor ได้ไหม? จริงๆ คนธรรมดาก็ไม่ง่ายเช่นกัน
  • แตกต่างจากเดิม มันดูเหมือนได้รับการฝึกให้ใช้เครื่องมือดึงคอนเทกซ์ได้ดีขึ้น. โดยแท้จริง เมื่อเทียบกับ 4.1 และ o3, มันดึงข้อมูลแยกตาม 6 หมวดหมู่ในเทิร์นแรกอย่างรวดเร็วแล้วแก้ปัญหาได้ค่อนข้างดี. ยิ่งเรียกใช้เครื่องมือมากขึ้นก็ยิ่งใช้ token มากขึ้น แต่ด้วยนโยบายราคาเชิงรุกในรอบนี้คงไม่ใช่ประเด็นหนัก. หากออกแบบ prompt ดี ก็ยังลดความถี่การเรียกเครื่องมือได้ ตัวอย่างที่เกี่ยวข้อง

  • การรีวิวแบบสั้นและละเอียดของ Simon ช่วยให้เข้าใจผลลัพธ์จริงๆ ได้มากอย่างมาก

  • เมื่อมีคนพูดว่าทั้ง Claude และ o3 ในโมเดลปีนี้มี hallucination น้อยลง, ผู้เขียนได้เพิ่มคำอธิบายเจตนาของตัวเองในส่วนนี้ของโพสต์เพื่อให้ชัดขึ้น