• GPT-5 ได้รับการประเมินว่าเป็นโมเดลที่ดีที่สุดสำหรับผู้ใช้ทั่วไปส่วนใหญ่ใน ChatGPT โดยปรับปรุงอย่างมากทั้งด้านความเร็ว ความเรียบง่าย และคุณภาพคำตอบ
  • ในด้านราคา API นั้นมี ความสามารถในการแข่งขันด้านราคาที่แข็งแกร่งเมื่อเทียบกับคู่แข่ง โดยเฉพาะ GPT-5-mini ที่ถูกกว่า Google Gemini 2.5 Flash และ GPT-5 Standard ที่ ถูกกว่า Claude 4 Opus ถึง 12 เท่า
  • ทำได้ยอดเยี่ยมใน งานประจำวัน การ pair programming การวิจัย และการดีบัก แต่ยังมีข้อจำกัดใน agentic programming และ การประเมินคุณภาพงานเขียน
  • ในการรีวิวของทีม GPT-5 แสดงจุดเด่นใน งานที่กำหนดขอบเขตชัดเจน การรวมโค้ด การร่างต้นฉบับ และการวิเคราะห์เชิงลึก แต่ยังน่าผิดหวังในงานอัตโนมัติระยะยาวและการพัฒนาขนาดใหญ่เชิงสร้างสรรค์
  • ในการทดสอบ benchmark ความสามารถในการแก้ปัญหาเฉพาะ การสร้างฟีเจอร์แอป และการวิจัยนั้นโดดเด่น แต่ในด้าน เกม การออกแบบ UI และความสม่ำเสมอของงานเขียน นั้น Opus 4.1 ได้รับการประเมินสูงกว่า

GPT-5 ใน ChatGPT

  • ความเร็ว เป็นจุดเด่นที่ชัดเจน ตอบคำถามง่าย ๆ ได้ทันที และเมื่อเจอคำขอที่ซับซ้อนก็จะใช้เวลาเพิ่มเองเพื่อให้คำตอบที่ลึกขึ้น
  • ลบเมนูเลือกโมเดลออกและใช้วิธี สลับอัตโนมัติ (auto-switcher) โดยเลือกเวอร์ชัน non-reasoning หรือ reasoning ให้เองตามคำขอ
    • คำถามความรู้ทั่วไปแบบง่ายจะใช้เวอร์ชัน non-reasoning ที่เร็ว
    • คำขอที่ซับซ้อนด้านการสร้าง การเขียนโค้ด หรือการวิเคราะห์ จะใช้เวอร์ชัน reasoning
  • คำตอบถูกจัดให้เน้น การอ่านง่าย ด้วยหัวข้อย่อย ช่องว่าง และตัวหนา
  • ใน Canvas สามารถสร้างแอปฟรอนต์เอนด์แบบ one-shot ได้ แต่มี ข้อจำกัดโค้ด 1,000 บรรทัด และข้อจำกัดบางฟีเจอร์
  • การให้ reasoning model เป็น ของฟรีและค่าเริ่มต้น ช่วยยกระดับคุณภาพประสบการณ์ AI สำหรับผู้ใช้ทั่วไป

GPT-5 ใน API

  • GPT-5-mini: อินพุต $0.25 ต่อ 1 ล้านโทเค็น → ถูกกว่า Google Gemini 2.5 Flash ($0.30)
  • GPT-5 Standard: อินพุต $1.25 ต่อ 1 ล้านโทเค็น → ราคาเท่ากับ Google Gemini 2.5 Pro และมีราคาเพียง 1/12 ของ Claude 4 Opus ($15)
  • ราคา output token ต่อหน่วยสูงกว่า o4-mini แต่มี ความสามารถในการทำตามพรอมป์ต์ (steerability) สูง จึงเด่นในงานที่ต้องการคำสั่งละเอียด
  • เมื่อเทียบราคาต่อประสิทธิภาพแล้ว มีโอกาสสูงที่จะดึงผู้ใช้จากคู่แข่งในตลาด API

วิศวกรรมแบบ Agentic

  • ทำได้ดีมากใน งานแบ็กเอนด์ที่ต้องการความแม่นยำ การดีบัก และความเข้าใจโค้ด แต่ไม่มีประสิทธิภาพในงานเขียนโค้ดอัตโนมัติระยะยาวและงานฟรอนต์เอนด์ขนาดใหญ่
  • Cursor และ Codex CLI ถูกออกแบบมาโดยเน้น pair programming มากกว่าการพัฒนาแบบ มอบหมายเต็มรูปแบบ (fully agentic)
  • เมื่อเทียบกับ Claude Code ยังขาดความต่อเนื่องและความเป็นอิสระในงานระยะยาว และมีความเร็วในการจัดการปริมาณงานต่ำกว่า

การประเมินแยกตามกรณีใช้งาน

  • งานประจำวัน: ถามตอบได้รวดเร็วโดยไม่ต้องเลือกโมเดล คำถามที่ต้องค้นคว้าก็จัดการได้ครอบคลุม และอาการหลอนลดลง
  • Pair programming: โดดเด่นมากในการแก้บั๊ก การสร้างฟีเจอร์ และการทำความเข้าใจ codebase ขนาดใหญ่ ทั้งเร็วและแม่นยำ
  • งานเขียน: รูปแบบประโยคเฉพาะตัวของ AI ลดลง ใช้ภาษาหลากหลายขึ้น เหมาะกับการร่างต้นฉบับ และสามารถเรียนรู้สไตล์เฉพาะได้
  • วิศวกรรมแบบ agentic: ในโปรเจกต์ระยะยาวและการสร้างโค้ดอัตโนมัติมักหยุดบ่อย และคุณภาพเอาต์พุตต่ำ
  • การแก้ไขงานเขียน: ความสม่ำเสมอในการประเมินคุณภาพงานเขียนและความเป็นธรรมชาติของประโยคยังต่ำ จึงเชื่อถือได้ไม่มาก

อินไซต์จากราวด์เทเบิลของทีม

  • Kieran Klaassen (หัวหน้าทีม Cora) : GPT-5 เหมาะกับงานทำซ้ำที่อิงคำสั่งละเอียด และอยู่ในระดับที่แทน Sonnet 3.5 ได้

    "GPT-5 ทำตามที่คุณสั่ง มันทำอย่างรอบคอบ ค่อย ๆ ไปทีละขั้น และแทบไม่หลุดออกนอกเส้นทางเลย — และนั่นแหละคือปัญหาของผม มันเก่งเรื่องโค้ด แต่ไม่ได้ถูกปรับให้เหมาะกับงาน agentic ในกระบวนการพัฒนาแบบทำซ้ำที่ค่อนข้างดั้งเดิม ถ้าคุณบอกว่า 'อันนี้ดีแล้ว ทีนี้ช่วยทำอันนั้นต่อ' มันจะจัดการได้ง่าย แต่แบบนั้นคือวิธีที่เราทำงานกับ AI ในปี 2024 GPT-5 ไม่ใช่การกระโดดสู่อนาคต แต่เป็นตัวโค่น Sonnet 3.5 มากกว่า"

  • Danny Aziz (หัวหน้าทีม Spiral) : เหมาะที่สุดกับ งานที่กำหนดขอบเขตชัดเจน เช่นการรวมโค้ดที่ซับซ้อน แต่สำหรับรีวิวระยะยาวและการวิเคราะห์ขนาดใหญ่ยังชอบ Claude มากกว่า

    "ช่วงเวลาที่ GPT-5 ดูเหมือนเวทมนตร์สำหรับผมคือการรวม codebase ซับซ้อนสองชุดเข้าด้วยกัน ตอนที่เฟรมเวิร์กโอเพนซอร์สที่ผมใช้อยู่ทำฟีเจอร์ที่ต้องการไม่ได้ ผมจึงให้มันรวมโค้ดจากอีกเฟรมเวิร์กเข้ามา มันไม่ได้เสร็จในครั้งเดียว แต่ผมรู้สึกถึงความเป็นงานร่วมมือที่เราค่อย ๆ ไปถึงเป้าหมายด้วยกัน ผมชอบใช้ GPT-5 กับงานเขียนโค้ดที่ชัดเจนและกำหนดไว้ดีแล้ว สำหรับงาน agentic ระยะยาวอย่าง code review ผมยังใช้ Claude Code แต่เวลาติดขัดหรือขี้เกียจคิดลึก ๆ GPT-5 จะพาผมไปถึงจุดหมาย"

  • Alex Duffy (หัวหน้าฝ่ายการศึกษา AI) : สำหรับผู้ใช้ฟรีถือเป็นการอัปเกรดครั้งใหญ่จาก GPT-4o และเด่นในงานประมวลผลข้อมูลจำนวนมากกับงานที่เป็นรูปแบบชัดเจน

    "สำหรับผู้บริโภค GPT-5 เป็นการอัปเกรดจาก GPT-4o แบบชัดเจน ถ้าคุณเป็นผู้ใช้ฟรีจะรู้สึกถึงความต่างอย่างมาก ผู้ใช้ระดับมืออาชีพยังคงเลือกใช้เครื่องมือเฉพาะทางอย่าง o3 หรือ Opus ได้ แต่สำหรับนักพัฒนา คุณค่าของ GPT-5 คือเป็นโมเดลที่เชื่อถือได้และทำตามพรอมป์ต์ได้ดี โดยเฉพาะกับงานสรุปและจัดระเบียบข้อมูลจำนวนมหาศาลให้มีคุณภาพสูง ราคา output token แพงกว่า o4-mini แต่ก็แลกมากับการทำตามคำสั่งที่ยอดเยี่ยม GPT-5-mini แข่งขันด้านราคากับ Flash ได้ และถ้าความเร็วเอาอยู่ มันอาจกลายเป็นม้ามืดตัวจริง"

  • Naveen Naidu (EIR) : แก้บั๊กแอปค้างที่หาทางออกไม่ได้มา 4 วันได้ด้วยการทำงานร่วมกับ GPT-5

    "ในแอปถอดเสียงด้วย AI ที่ผมกำลังทำชื่อ ‘Monologue’ ผมหาต้นตอของบั๊กแอปค้างไม่เจออยู่ 4 วัน ผมใช้ Claude Code ไป 4 ชั่วโมงในวันอาทิตย์ก็ยังไม่สำเร็จ แต่กับ GPT-5 มันเหมือนทำงานร่วมกับเพื่อนร่วมทีม เราช่วยกันไล่หาว่าส่วนไหนคือปัญหา และสุดท้ายก็เจอบั๊กที่ถูกต้อง"

  • Katie Parrott (นักเขียนและผู้นำด้าน AI operations) : พอใจกับการร่างต้นฉบับมากกว่า Opus เด่นเรื่องการสัมภาษณ์และการออกแบบคำถาม แต่ vibe coding ไม่มีประสิทธิภาพ

    "ผมใช้ GPT-5 ในงานเขียนเพื่อเปลี่ยนโครงร่างให้เป็นร่างแรก และมันออกมาดี หลังจากใช้พรอมป์ต์ไม่กี่ครั้งเพื่อให้มันเรียนรู้สไตล์ของ Every แล้วสั่งให้เขียนในสไตล์ ‘บทความ Atlantic ผสมโพสต์ยอดนิยมบน Hacker News’ มันให้ผลลัพธ์ที่แข็งแรง รูปแบบซ้ำซากแบบที่มักเจอในงานเขียน AI อย่าง ‘It’s not just X, but Y’ ลดลง ตอนทำบทสัมภาษณ์ มันก็ช่วยวางโครงคำถามได้ดี สำหรับงานร่างต้นฉบับ ผมพอใจกับ GPT-5 มากกว่า Opus
    แต่เวลาใช้ vibe coding ใน Codex มันมีประสิทธิภาพน้อยกว่า มันพยายามทำงานเป็นชิ้นเล็ก ๆ เท่านั้น และผมต้องกด ‘continue’ ทุกครั้ง แถมมันยังไม่อธิบายแผนขั้นตอนถัดไปเหมือน Claude"

  • Yash Poojary (หัวหน้าทีม Sparkle): ยังน่าผิดหวังในงานเขียน Swift แต่ดีที่สุดในด้านการวิเคราะห์เทคนิคที่ซับซ้อน การออกแบบ และการประเมิน trade-off

    "สำหรับผม Swift สำคัญที่สุด GPT-5 ตอนแรกไม่ได้ดูน่าประทับใจ ต้องให้พรอมป์ต์ตั้งค่าเฉพาะถึงจะใช้งานได้ดี ถึงอย่างนั้นในงานเขียน Swift มันก็ยังไม่ถึงระดับที่แทน Claude ได้
    แต่ในงานวิจัยล้วน ๆ มันดีที่สุด ตัวอย่างเช่น ตอนผมถามวิธีค้นหาไฟล์ซ้ำบน Mac มันให้การวิเคราะห์ที่แม่นยำทางเทคนิคที่สุดเท่าที่ผมเคยเห็นจาก AI เหมือนมี system architect IQ 140 ที่เคยสร้างระบบนี้มาแล้วสามครั้งและกำลังอธิบายบทเรียนทั้งหมดให้ฟัง ถ้าจะลงมือทำจริงผมยังใช้ Claude แต่ถ้าต้องการบริบทลึก การวิเคราะห์ trade-off และการคุยเรื่องการออกแบบ ผมจะใช้ GPT-5"

  • Dan’s mom (มุมมองผู้ใช้ทั่วไป) : มองว่าเป็นหนึ่งในคำตอบจาก ChatGPT ที่ดีที่สุดทั้งด้านปริมาณข้อมูล ความอ่านง่าย และการลื่นไหล

    "โมเดลนี้น่าทึ่งจริง ๆ มันครอบคลุมกว่าคำตอบใด ๆ ที่ฉันเคยได้จาก ChatGPT มาก่อน ข้อมูลอ่านง่ายและลื่นไหลมาก โมเดลนี้คือของจริง"

ผล benchmark แบบละเอียด

  • การประเมินงานเขียน: แม้เป็นงานเขียนชิ้นเดียวกันก็ยังขาดความสม่ำเสมอ ทำให้ความน่าเชื่อถือต่ำกว่า Opus
  • การสร้างเกมแบบ one-shot: รันได้เสถียร แต่ขาดความสร้างสรรค์และความสนุก โดย Opus 4.1 ได้รับการประเมินดีกว่า
  • AI Diplomacy: ประสิทธิภาพจากพรอมป์ต์พื้นฐานยังต่ำ แต่เมื่อใช้คำสั่งที่ปรับแต่งแล้วทำได้ระดับเดียวกับ Flash โดยมี steerability เป็นจุดแข็ง
  • ปริศนาที่เป็นไปไม่ได้: แก้ได้ภายใน 1 นาที 10 วินาที เร็วกว่า o3 อย่างมาก
  • การสร้างแอปดนตรีแบบ one-shot: ทำฟีเจอร์คล้าย GarageBand ได้ แต่ UI เรียบง่าย และทีมชอบดีไซน์ของ Opus 4 มากกว่า
  • การทดสอบอื่น ๆ: ใน benchmark อย่าง Pelican on a bicycle และ thup แสดงให้เห็นความต่างด้านลักษณะนิสัยกับ Claude อย่างชัดเจน

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น