OpenAI เปิดตัว GPT-4.1

(openai.com)

3 คะแนน โดย GN⁺ 2025-04-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เปิดตัว 3 โมเดล: GPT-4.1, GPT-4.1 mini, GPT-4.1 nano
ให้ประสิทธิภาพที่ดีขึ้นโดยรวมเมื่อเทียบกับ GPT-4o โดยเฉพาะในด้าน การเขียนโค้ด, การทำตามคำสั่ง, การเข้าใจบริบทยาว
ทั้งสามโมเดลรองรับ context window สูงสุด 1 ล้านโทเค็น เหมาะสำหรับการวิเคราะห์โค้ดเบสขนาดใหญ่และเอกสารที่ซับซ้อน
ให้ประสิทธิภาพโดดเด่นพร้อม ลดเวลาแฝงและลดต้นทุน
การปรับปรุงประสิทธิภาพหลัก
- ความสามารถด้านโค้ด: บน SWE-bench Verified ได้ 54.6% ดีขึ้น +21.4 จุดเปอร์เซ็นต์เมื่อเทียบกับ GPT-4o
- การทำตามคำสั่ง: คะแนน MultiChallenge 38.3% ดีขึ้น +10.5 จุดเปอร์เซ็นต์จาก GPT-4o
- ความเข้าใจบริบทยาวแบบมัลติโหมด: บน Video-MME(long, no subtitles) ได้ 72.0% สูงกว่า GPT-4o +6.7 จุดเปอร์เซ็นต์
จุดเด่นของตระกูลโมเดล GPT-4.1
- GPT-4.1 mini: ผลการประเมินด้านสติปัญญาดีกว่า GPT-4o, เวลาแฝงลดลงครึ่งหนึ่ง, ต้นทุนลดลง 83%
- GPT-4.1 nano: ต้นทุนต่ำสุดและเวลาแฝงต่ำสุด โดยยังคงประสิทธิภาพสูง
GPT-4.5 Preview มีกำหนดยุติในวันที่ 14 กรกฎาคม 2025 และแนะนำให้ย้ายไปใช้ซีรีส์ GPT-4.1
วิชัน (การเข้าใจภาพและมัลติโหมด)
- GPT-4.1 mini ทำได้ดีกว่า GPT-4o ใน เบนช์มาร์กที่อิงภาพ
- มีความแม่นยำสูงใน MMMU, MathVista, CharXiv เป็นต้น
- Video-MME (คำถามจากวิดีโอ 30~60 นาทีที่ไม่มีซับไตเติล): ความแม่นยำ 72.0%
นโยบายราคา
- ทุกโมเดลเปิดให้ใช้งานแล้ว
- GPT-4.1 ถูกกว่า GPT-4o โดยเฉลี่ย 26%
- GPT-4.1 nano เป็นโมเดลที่มีต้นทุนต่ำที่สุด
- หากใช้แคชอินพุตจะลดค่าใช้จ่าย 75% และบริบทยาวไม่มีค่าใช้จ่ายเพิ่มเติม
ราคาแยกตามโมเดล
- GPT-4.1: อินพุต $2.00 ต่อ 1 ล้านโทเค็น, เอาต์พุต $8.00, ต้นทุนเฉลี่ยประมาณ $1.84
- GPT-4.1 mini: อินพุต $0.40, เอาต์พุต $1.60, เฉลี่ย $0.42
- GPT-4.1 nano: อินพุต $0.10, เอาต์พุต $0.40, เฉลี่ย $0.12
- ขยายส่วนลด prompt cache จากเดิม 50% เป็น สูงสุด 75%
- คำขอที่ใช้บริบทยาวไม่มีค่าธรรมเนียมเพิ่มเติม คิดตามการใช้โทเค็นเท่านั้น

1 ความคิดเห็น

GN⁺ 2025-04-15

ความคิดเห็นบน Hacker News

ผู้ใช้ ChatGPT แสดงความสับสนกับสถานการณ์ที่ต้องเลือกใช้โมเดลหลากหลายแบบ
- 4o สามารถค้นหาเว็บ ใช้ Canvas ประเมินผล Python ฝั่งเซิร์ฟเวอร์ และสร้างภาพได้ แต่ไม่มี chain-of-thought
- o3-mini ค้นหาเว็บ, CoT และ Canvas ได้ แต่สร้างภาพไม่ได้
- o1 ใช้ CoT ได้ แต่ใช้ Canvas ค้นหาเว็บ หรือสร้างภาพไม่ได้
- Deep Research ทรงพลัง แต่ใช้ได้เพียงเดือนละ 10 ครั้ง จึงแทบไม่ได้ใช้
- 4.5 โดดเด่นด้านการเขียนเชิงสร้างสรรค์ แต่มีข้อจำกัดด้านจำนวนคำขอ และไม่แน่ใจว่ารองรับฟีเจอร์อื่นหรือไม่
- มีคำถามว่าทำไม 4o "with scheduled tasks" ถึงเป็นโมเดลแทนที่จะเป็นเครื่องมือ
การเปรียบเทียบ SWE-bench Verified, Aider Polyglot, ค่าใช้จ่าย, โทเคนเอาต์พุตต่อวินาที, เดือน/ปีของ knowledge cutoff
- เปรียบเทียบประสิทธิภาพและต้นทุนของ Claude, Gemini, GPT-4.1, DeepSeek R1 และ Grok 3 Beta
- เปรียบเทียบกันโดยตรงได้ยาก เพราะอาจรวมสภาพแวดล้อมการทดสอบและระดับการใช้เหตุผลที่แตกต่างกัน
OAI ออกคู่มือการเขียนพรอมป์สำหรับ GPT 4.1
- การทำให้โมเดลมีความคงเส้นคงวาช่วยเพิ่มประสิทธิภาพได้
- แนะนำให้ใช้ XML หรือ arxiv 2406.13121 (รูปแบบ GDM) แทน JSON
- ควรวางพรอมป์ไว้ทั้งด้านบนและด้านล่าง
ตามประกาศของ OpenAI, GPT-4.1 ให้ข้อเสนอที่ดีกว่าใน 55% ของกรณีในการแข่งขันสร้าง code review กับ Claude Sonnet 3.7
- GPT-4.1 เหนือกว่าด้านความแม่นยำและความครอบคลุม
ใน Ted Talk ล่าสุด Sam กล่าวไว้ว่าโมเดลมาแล้วก็ไป แต่ต้องการเป็นแพลตฟอร์มที่ดีที่สุด
- สิ่งนี้ให้ความรู้สึกว่าเป็นการเปลี่ยนแปลงครั้งใหญ่
แชร์ประสบการณ์การใช้ GPT-4.1 กับ code base ที่ซับซ้อน
- ให้ความรู้สึกเหมือนเป็นเอเจนต์โมเดลตัวแรกของ OpenAI
- ยังต้องปรับปรุงอีก และการเรียกใช้เครื่องมือยังล้มเหลวบ่อย
- ความสามารถในการจัดการความซับซ้อนด้อยกว่า Claude
- หากคำขอไม่ซับซ้อนเกินไป ก็ทำตามคำสั่งได้ดี
มีการตั้งคำถามถึงความจำเป็นของเบนช์มาร์กสำหรับโมเดลที่มีจำนวนโทเคนสูงสุดยาวมาก
- มีประสบการณ์ว่าคุณภาพของโมเดล Gemini ลดลงหลัง 200k
- สงสัยว่าการเพิ่มขีดจำกัดโทเคนสูงสุดนั้นมีประโยชน์จริงหรือไม่
ห้องแล็บ AI รายใหญ่กำลังทำสงครามหลายตลาดพร้อมกัน
- กำลังแข่งขันกันในหลายแนวรบ เช่น การเติบโตฝั่งผู้บริโภค, เวิร์กโหลดองค์กร, งานวิจัยล้ำสมัย, คำมั่นเรื่องการให้เหตุผล และการตอบโต้ภัยคุกคามจาก DeepSeek
ผลลัพธ์ที่ GPT-4.1 ใช้สรุปเธรด Hacker News ที่มี 164 คอมเมนต์
- ถูกประเมินว่าทำตามคำสั่งได้ดี
- มีการระบุต้นทุนโทเคนรวมและการเปรียบเทียบกับโมเดลอื่น

OpenAI เปิดตัว GPT-4.1

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News