รีวิวการใช้งาน GPT-5 แบบลงมือจริงของ Every

(every.to)

11 คะแนน โดย GN⁺ 2025-08-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

GPT-5 ได้รับการประเมินว่าเป็นโมเดลที่ดีที่สุดสำหรับผู้ใช้ทั่วไปส่วนใหญ่ใน ChatGPT โดยปรับปรุงอย่างมากทั้งด้านความเร็ว ความเรียบง่าย และคุณภาพคำตอบ
ในด้านราคา API นั้นมี ความสามารถในการแข่งขันด้านราคาที่แข็งแกร่งเมื่อเทียบกับคู่แข่ง โดยเฉพาะ GPT-5-mini ที่ถูกกว่า Google Gemini 2.5 Flash และ GPT-5 Standard ที่ ถูกกว่า Claude 4 Opus ถึง 12 เท่า
ทำได้ยอดเยี่ยมใน งานประจำวัน การ pair programming การวิจัย และการดีบัก แต่ยังมีข้อจำกัดใน agentic programming และ การประเมินคุณภาพงานเขียน
ในการรีวิวของทีม GPT-5 แสดงจุดเด่นใน งานที่กำหนดขอบเขตชัดเจน การรวมโค้ด การร่างต้นฉบับ และการวิเคราะห์เชิงลึก แต่ยังน่าผิดหวังในงานอัตโนมัติระยะยาวและการพัฒนาขนาดใหญ่เชิงสร้างสรรค์
ในการทดสอบ benchmark ความสามารถในการแก้ปัญหาเฉพาะ การสร้างฟีเจอร์แอป และการวิจัยนั้นโดดเด่น แต่ในด้าน เกม การออกแบบ UI และความสม่ำเสมอของงานเขียน นั้น Opus 4.1 ได้รับการประเมินสูงกว่า

GPT-5 ใน ChatGPT

ความเร็ว เป็นจุดเด่นที่ชัดเจน ตอบคำถามง่าย ๆ ได้ทันที และเมื่อเจอคำขอที่ซับซ้อนก็จะใช้เวลาเพิ่มเองเพื่อให้คำตอบที่ลึกขึ้น
ลบเมนูเลือกโมเดลออกและใช้วิธี สลับอัตโนมัติ (auto-switcher) โดยเลือกเวอร์ชัน non-reasoning หรือ reasoning ให้เองตามคำขอ
- คำถามความรู้ทั่วไปแบบง่ายจะใช้เวอร์ชัน non-reasoning ที่เร็ว
- คำขอที่ซับซ้อนด้านการสร้าง การเขียนโค้ด หรือการวิเคราะห์ จะใช้เวอร์ชัน reasoning
คำตอบถูกจัดให้เน้น การอ่านง่าย ด้วยหัวข้อย่อย ช่องว่าง และตัวหนา
ใน Canvas สามารถสร้างแอปฟรอนต์เอนด์แบบ one-shot ได้ แต่มี ข้อจำกัดโค้ด 1,000 บรรทัด และข้อจำกัดบางฟีเจอร์
การให้ reasoning model เป็น ของฟรีและค่าเริ่มต้น ช่วยยกระดับคุณภาพประสบการณ์ AI สำหรับผู้ใช้ทั่วไป

GPT-5 ใน API

GPT-5-mini: อินพุต $0.25 ต่อ 1 ล้านโทเค็น → ถูกกว่า Google Gemini 2.5 Flash ($0.30)
GPT-5 Standard: อินพุต $1.25 ต่อ 1 ล้านโทเค็น → ราคาเท่ากับ Google Gemini 2.5 Pro และมีราคาเพียง 1/12 ของ Claude 4 Opus ($15)
ราคา output token ต่อหน่วยสูงกว่า o4-mini แต่มี ความสามารถในการทำตามพรอมป์ต์ (steerability) สูง จึงเด่นในงานที่ต้องการคำสั่งละเอียด
เมื่อเทียบราคาต่อประสิทธิภาพแล้ว มีโอกาสสูงที่จะดึงผู้ใช้จากคู่แข่งในตลาด API

วิศวกรรมแบบ Agentic

ทำได้ดีมากใน งานแบ็กเอนด์ที่ต้องการความแม่นยำ การดีบัก และความเข้าใจโค้ด แต่ไม่มีประสิทธิภาพในงานเขียนโค้ดอัตโนมัติระยะยาวและงานฟรอนต์เอนด์ขนาดใหญ่
Cursor และ Codex CLI ถูกออกแบบมาโดยเน้น pair programming มากกว่าการพัฒนาแบบ มอบหมายเต็มรูปแบบ (fully agentic)
เมื่อเทียบกับ Claude Code ยังขาดความต่อเนื่องและความเป็นอิสระในงานระยะยาว และมีความเร็วในการจัดการปริมาณงานต่ำกว่า

การประเมินแยกตามกรณีใช้งาน

งานประจำวัน: ถามตอบได้รวดเร็วโดยไม่ต้องเลือกโมเดล คำถามที่ต้องค้นคว้าก็จัดการได้ครอบคลุม และอาการหลอนลดลง
Pair programming: โดดเด่นมากในการแก้บั๊ก การสร้างฟีเจอร์ และการทำความเข้าใจ codebase ขนาดใหญ่ ทั้งเร็วและแม่นยำ
งานเขียน: รูปแบบประโยคเฉพาะตัวของ AI ลดลง ใช้ภาษาหลากหลายขึ้น เหมาะกับการร่างต้นฉบับ และสามารถเรียนรู้สไตล์เฉพาะได้
วิศวกรรมแบบ agentic: ในโปรเจกต์ระยะยาวและการสร้างโค้ดอัตโนมัติมักหยุดบ่อย และคุณภาพเอาต์พุตต่ำ
การแก้ไขงานเขียน: ความสม่ำเสมอในการประเมินคุณภาพงานเขียนและความเป็นธรรมชาติของประโยคยังต่ำ จึงเชื่อถือได้ไม่มาก

อินไซต์จากราวด์เทเบิลของทีม

Kieran Klaassen (หัวหน้าทีม Cora) : GPT-5 เหมาะกับงานทำซ้ำที่อิงคำสั่งละเอียด และอยู่ในระดับที่แทน Sonnet 3.5 ได้

"GPT-5 ทำตามที่คุณสั่ง มันทำอย่างรอบคอบ ค่อย ๆ ไปทีละขั้น และแทบไม่หลุดออกนอกเส้นทางเลย — และนั่นแหละคือปัญหาของผม มันเก่งเรื่องโค้ด แต่ไม่ได้ถูกปรับให้เหมาะกับงาน agentic ในกระบวนการพัฒนาแบบทำซ้ำที่ค่อนข้างดั้งเดิม ถ้าคุณบอกว่า 'อันนี้ดีแล้ว ทีนี้ช่วยทำอันนั้นต่อ' มันจะจัดการได้ง่าย แต่แบบนั้นคือวิธีที่เราทำงานกับ AI ในปี 2024 GPT-5 ไม่ใช่การกระโดดสู่อนาคต แต่เป็นตัวโค่น Sonnet 3.5 มากกว่า"
Danny Aziz (หัวหน้าทีม Spiral) : เหมาะที่สุดกับ งานที่กำหนดขอบเขตชัดเจน เช่นการรวมโค้ดที่ซับซ้อน แต่สำหรับรีวิวระยะยาวและการวิเคราะห์ขนาดใหญ่ยังชอบ Claude มากกว่า

"ช่วงเวลาที่ GPT-5 ดูเหมือนเวทมนตร์สำหรับผมคือการรวม codebase ซับซ้อนสองชุดเข้าด้วยกัน ตอนที่เฟรมเวิร์กโอเพนซอร์สที่ผมใช้อยู่ทำฟีเจอร์ที่ต้องการไม่ได้ ผมจึงให้มันรวมโค้ดจากอีกเฟรมเวิร์กเข้ามา มันไม่ได้เสร็จในครั้งเดียว แต่ผมรู้สึกถึงความเป็นงานร่วมมือที่เราค่อย ๆ ไปถึงเป้าหมายด้วยกัน ผมชอบใช้ GPT-5 กับงานเขียนโค้ดที่ชัดเจนและกำหนดไว้ดีแล้ว สำหรับงาน agentic ระยะยาวอย่าง code review ผมยังใช้ Claude Code แต่เวลาติดขัดหรือขี้เกียจคิดลึก ๆ GPT-5 จะพาผมไปถึงจุดหมาย"
Alex Duffy (หัวหน้าฝ่ายการศึกษา AI) : สำหรับผู้ใช้ฟรีถือเป็นการอัปเกรดครั้งใหญ่จาก GPT-4o และเด่นในงานประมวลผลข้อมูลจำนวนมากกับงานที่เป็นรูปแบบชัดเจน

"สำหรับผู้บริโภค GPT-5 เป็นการอัปเกรดจาก GPT-4o แบบชัดเจน ถ้าคุณเป็นผู้ใช้ฟรีจะรู้สึกถึงความต่างอย่างมาก ผู้ใช้ระดับมืออาชีพยังคงเลือกใช้เครื่องมือเฉพาะทางอย่าง o3 หรือ Opus ได้ แต่สำหรับนักพัฒนา คุณค่าของ GPT-5 คือเป็นโมเดลที่เชื่อถือได้และทำตามพรอมป์ต์ได้ดี โดยเฉพาะกับงานสรุปและจัดระเบียบข้อมูลจำนวนมหาศาลให้มีคุณภาพสูง ราคา output token แพงกว่า o4-mini แต่ก็แลกมากับการทำตามคำสั่งที่ยอดเยี่ยม GPT-5-mini แข่งขันด้านราคากับ Flash ได้ และถ้าความเร็วเอาอยู่ มันอาจกลายเป็นม้ามืดตัวจริง"
โฆษณา
Naveen Naidu (EIR) : แก้บั๊กแอปค้างที่หาทางออกไม่ได้มา 4 วันได้ด้วยการทำงานร่วมกับ GPT-5

"ในแอปถอดเสียงด้วย AI ที่ผมกำลังทำชื่อ ‘Monologue’ ผมหาต้นตอของบั๊กแอปค้างไม่เจออยู่ 4 วัน ผมใช้ Claude Code ไป 4 ชั่วโมงในวันอาทิตย์ก็ยังไม่สำเร็จ แต่กับ GPT-5 มันเหมือนทำงานร่วมกับเพื่อนร่วมทีม เราช่วยกันไล่หาว่าส่วนไหนคือปัญหา และสุดท้ายก็เจอบั๊กที่ถูกต้อง"
Katie Parrott (นักเขียนและผู้นำด้าน AI operations) : พอใจกับการร่างต้นฉบับมากกว่า Opus เด่นเรื่องการสัมภาษณ์และการออกแบบคำถาม แต่ vibe coding ไม่มีประสิทธิภาพ

"ผมใช้ GPT-5 ในงานเขียนเพื่อเปลี่ยนโครงร่างให้เป็นร่างแรก และมันออกมาดี หลังจากใช้พรอมป์ต์ไม่กี่ครั้งเพื่อให้มันเรียนรู้สไตล์ของ Every แล้วสั่งให้เขียนในสไตล์ ‘บทความ Atlantic ผสมโพสต์ยอดนิยมบน Hacker News’ มันให้ผลลัพธ์ที่แข็งแรง รูปแบบซ้ำซากแบบที่มักเจอในงานเขียน AI อย่าง ‘It’s not just X, but Y’ ลดลง ตอนทำบทสัมภาษณ์ มันก็ช่วยวางโครงคำถามได้ดี สำหรับงานร่างต้นฉบับ ผมพอใจกับ GPT-5 มากกว่า Opus
แต่เวลาใช้ vibe coding ใน Codex มันมีประสิทธิภาพน้อยกว่า มันพยายามทำงานเป็นชิ้นเล็ก ๆ เท่านั้น และผมต้องกด ‘continue’ ทุกครั้ง แถมมันยังไม่อธิบายแผนขั้นตอนถัดไปเหมือน Claude"
Yash Poojary (หัวหน้าทีม Sparkle): ยังน่าผิดหวังในงานเขียน Swift แต่ดีที่สุดในด้านการวิเคราะห์เทคนิคที่ซับซ้อน การออกแบบ และการประเมิน trade-off

"สำหรับผม Swift สำคัญที่สุด GPT-5 ตอนแรกไม่ได้ดูน่าประทับใจ ต้องให้พรอมป์ต์ตั้งค่าเฉพาะถึงจะใช้งานได้ดี ถึงอย่างนั้นในงานเขียน Swift มันก็ยังไม่ถึงระดับที่แทน Claude ได้
แต่ในงานวิจัยล้วน ๆ มันดีที่สุด ตัวอย่างเช่น ตอนผมถามวิธีค้นหาไฟล์ซ้ำบน Mac มันให้การวิเคราะห์ที่แม่นยำทางเทคนิคที่สุดเท่าที่ผมเคยเห็นจาก AI เหมือนมี system architect IQ 140 ที่เคยสร้างระบบนี้มาแล้วสามครั้งและกำลังอธิบายบทเรียนทั้งหมดให้ฟัง ถ้าจะลงมือทำจริงผมยังใช้ Claude แต่ถ้าต้องการบริบทลึก การวิเคราะห์ trade-off และการคุยเรื่องการออกแบบ ผมจะใช้ GPT-5"
โฆษณา
Dan’s mom (มุมมองผู้ใช้ทั่วไป) : มองว่าเป็นหนึ่งในคำตอบจาก ChatGPT ที่ดีที่สุดทั้งด้านปริมาณข้อมูล ความอ่านง่าย และการลื่นไหล

"โมเดลนี้น่าทึ่งจริง ๆ มันครอบคลุมกว่าคำตอบใด ๆ ที่ฉันเคยได้จาก ChatGPT มาก่อน ข้อมูลอ่านง่ายและลื่นไหลมาก โมเดลนี้คือของจริง"

ผล benchmark แบบละเอียด

การประเมินงานเขียน: แม้เป็นงานเขียนชิ้นเดียวกันก็ยังขาดความสม่ำเสมอ ทำให้ความน่าเชื่อถือต่ำกว่า Opus
การสร้างเกมแบบ one-shot: รันได้เสถียร แต่ขาดความสร้างสรรค์และความสนุก โดย Opus 4.1 ได้รับการประเมินดีกว่า
AI Diplomacy: ประสิทธิภาพจากพรอมป์ต์พื้นฐานยังต่ำ แต่เมื่อใช้คำสั่งที่ปรับแต่งแล้วทำได้ระดับเดียวกับ Flash โดยมี steerability เป็นจุดแข็ง
ปริศนาที่เป็นไปไม่ได้: แก้ได้ภายใน 1 นาที 10 วินาที เร็วกว่า o3 อย่างมาก
การสร้างแอปดนตรีแบบ one-shot: ทำฟีเจอร์คล้าย GarageBand ได้ แต่ UI เรียบง่าย และทีมชอบดีไซน์ของ Opus 4 มากกว่า
การทดสอบอื่น ๆ: ใน benchmark อย่าง Pelican on a bicycle และ thup แสดงให้เห็นความต่างด้านลักษณะนิสัยกับ Claude อย่างชัดเจน

1 ความคิดเห็น

anveloper 2025-08-11

คำตอบส่วนใหญ่ของ GPT-5 ใช้เวลาคิดเกิน 10 วินาที แบบนี้น่าจะถามได้สัก 3~4 รอบแล้วไหมนะ? แต่ขณะเดียวกันก็ให้ความรู้สึกว่า อ้อ ถ้างั้นน่าจะถามเพิ่มอีกหลายคำถามเหมือนกัน
ไม่แน่ใจว่ามันโดดเด่นทางเทคนิคหรือเปล่า แต่ดูเหมือนเป็นแค่วิธีที่ใช้เวลามากขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีกว่า