3 คะแนน โดย GN⁺ 2025-04-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เปิดตัว 3 โมเดล: GPT-4.1, GPT-4.1 mini, GPT-4.1 nano
  • ให้ประสิทธิภาพที่ดีขึ้นโดยรวมเมื่อเทียบกับ GPT-4o โดยเฉพาะในด้าน การเขียนโค้ด, การทำตามคำสั่ง, การเข้าใจบริบทยาว
  • ทั้งสามโมเดลรองรับ context window สูงสุด 1 ล้านโทเค็น เหมาะสำหรับการวิเคราะห์โค้ดเบสขนาดใหญ่และเอกสารที่ซับซ้อน
  • ให้ประสิทธิภาพโดดเด่นพร้อม ลดเวลาแฝงและลดต้นทุน
  • การปรับปรุงประสิทธิภาพหลัก
    • ความสามารถด้านโค้ด: บน SWE-bench Verified ได้ 54.6% ดีขึ้น +21.4 จุดเปอร์เซ็นต์เมื่อเทียบกับ GPT-4o
    • การทำตามคำสั่ง: คะแนน MultiChallenge 38.3% ดีขึ้น +10.5 จุดเปอร์เซ็นต์จาก GPT-4o
    • ความเข้าใจบริบทยาวแบบมัลติโหมด: บน Video-MME(long, no subtitles) ได้ 72.0% สูงกว่า GPT-4o +6.7 จุดเปอร์เซ็นต์
  • จุดเด่นของตระกูลโมเดล GPT-4.1
    • GPT-4.1 mini: ผลการประเมินด้านสติปัญญาดีกว่า GPT-4o, เวลาแฝงลดลงครึ่งหนึ่ง, ต้นทุนลดลง 83%
    • GPT-4.1 nano: ต้นทุนต่ำสุดและเวลาแฝงต่ำสุด โดยยังคงประสิทธิภาพสูง
  • GPT-4.5 Preview มีกำหนดยุติในวันที่ 14 กรกฎาคม 2025 และแนะนำให้ย้ายไปใช้ซีรีส์ GPT-4.1
  • วิชัน (การเข้าใจภาพและมัลติโหมด)
    • GPT-4.1 mini ทำได้ดีกว่า GPT-4o ใน เบนช์มาร์กที่อิงภาพ
    • มีความแม่นยำสูงใน MMMU, MathVista, CharXiv เป็นต้น
    • Video-MME (คำถามจากวิดีโอ 30~60 นาทีที่ไม่มีซับไตเติล): ความแม่นยำ 72.0%
  • นโยบายราคา
    • ทุกโมเดลเปิดให้ใช้งานแล้ว
    • GPT-4.1 ถูกกว่า GPT-4o โดยเฉลี่ย 26%
    • GPT-4.1 nano เป็นโมเดลที่มีต้นทุนต่ำที่สุด
    • หากใช้แคชอินพุตจะลดค่าใช้จ่าย 75% และบริบทยาวไม่มีค่าใช้จ่ายเพิ่มเติม
  • ราคาแยกตามโมเดล
    • GPT-4.1: อินพุต $2.00 ต่อ 1 ล้านโทเค็น, เอาต์พุต $8.00, ต้นทุนเฉลี่ยประมาณ $1.84
    • GPT-4.1 mini: อินพุต $0.40, เอาต์พุต $1.60, เฉลี่ย $0.42
    • GPT-4.1 nano: อินพุต $0.10, เอาต์พุต $0.40, เฉลี่ย $0.12
    • ขยายส่วนลด prompt cache จากเดิม 50% เป็น สูงสุด 75%
    • คำขอที่ใช้บริบทยาวไม่มีค่าธรรมเนียมเพิ่มเติม คิดตามการใช้โทเค็นเท่านั้น

1 ความคิดเห็น

 
GN⁺ 2025-04-15
ความคิดเห็นบน Hacker News
  • ผู้ใช้ ChatGPT แสดงความสับสนกับสถานการณ์ที่ต้องเลือกใช้โมเดลหลากหลายแบบ

    • 4o สามารถค้นหาเว็บ ใช้ Canvas ประเมินผล Python ฝั่งเซิร์ฟเวอร์ และสร้างภาพได้ แต่ไม่มี chain-of-thought
    • o3-mini ค้นหาเว็บ, CoT และ Canvas ได้ แต่สร้างภาพไม่ได้
    • o1 ใช้ CoT ได้ แต่ใช้ Canvas ค้นหาเว็บ หรือสร้างภาพไม่ได้
    • Deep Research ทรงพลัง แต่ใช้ได้เพียงเดือนละ 10 ครั้ง จึงแทบไม่ได้ใช้
    • 4.5 โดดเด่นด้านการเขียนเชิงสร้างสรรค์ แต่มีข้อจำกัดด้านจำนวนคำขอ และไม่แน่ใจว่ารองรับฟีเจอร์อื่นหรือไม่
    • มีคำถามว่าทำไม 4o "with scheduled tasks" ถึงเป็นโมเดลแทนที่จะเป็นเครื่องมือ
  • การเปรียบเทียบ SWE-bench Verified, Aider Polyglot, ค่าใช้จ่าย, โทเคนเอาต์พุตต่อวินาที, เดือน/ปีของ knowledge cutoff

    • เปรียบเทียบประสิทธิภาพและต้นทุนของ Claude, Gemini, GPT-4.1, DeepSeek R1 และ Grok 3 Beta
    • เปรียบเทียบกันโดยตรงได้ยาก เพราะอาจรวมสภาพแวดล้อมการทดสอบและระดับการใช้เหตุผลที่แตกต่างกัน
  • OAI ออกคู่มือการเขียนพรอมป์สำหรับ GPT 4.1

    • การทำให้โมเดลมีความคงเส้นคงวาช่วยเพิ่มประสิทธิภาพได้
    • แนะนำให้ใช้ XML หรือ arxiv 2406.13121 (รูปแบบ GDM) แทน JSON
    • ควรวางพรอมป์ไว้ทั้งด้านบนและด้านล่าง
  • ตามประกาศของ OpenAI, GPT-4.1 ให้ข้อเสนอที่ดีกว่าใน 55% ของกรณีในการแข่งขันสร้าง code review กับ Claude Sonnet 3.7

    • GPT-4.1 เหนือกว่าด้านความแม่นยำและความครอบคลุม
  • ใน Ted Talk ล่าสุด Sam กล่าวไว้ว่าโมเดลมาแล้วก็ไป แต่ต้องการเป็นแพลตฟอร์มที่ดีที่สุด

    • สิ่งนี้ให้ความรู้สึกว่าเป็นการเปลี่ยนแปลงครั้งใหญ่
  • แชร์ประสบการณ์การใช้ GPT-4.1 กับ code base ที่ซับซ้อน

    • ให้ความรู้สึกเหมือนเป็นเอเจนต์โมเดลตัวแรกของ OpenAI
    • ยังต้องปรับปรุงอีก และการเรียกใช้เครื่องมือยังล้มเหลวบ่อย
    • ความสามารถในการจัดการความซับซ้อนด้อยกว่า Claude
    • หากคำขอไม่ซับซ้อนเกินไป ก็ทำตามคำสั่งได้ดี
  • มีการตั้งคำถามถึงความจำเป็นของเบนช์มาร์กสำหรับโมเดลที่มีจำนวนโทเคนสูงสุดยาวมาก

    • มีประสบการณ์ว่าคุณภาพของโมเดล Gemini ลดลงหลัง 200k
    • สงสัยว่าการเพิ่มขีดจำกัดโทเคนสูงสุดนั้นมีประโยชน์จริงหรือไม่
  • ห้องแล็บ AI รายใหญ่กำลังทำสงครามหลายตลาดพร้อมกัน

    • กำลังแข่งขันกันในหลายแนวรบ เช่น การเติบโตฝั่งผู้บริโภค, เวิร์กโหลดองค์กร, งานวิจัยล้ำสมัย, คำมั่นเรื่องการให้เหตุผล และการตอบโต้ภัยคุกคามจาก DeepSeek
  • ผลลัพธ์ที่ GPT-4.1 ใช้สรุปเธรด Hacker News ที่มี 164 คอมเมนต์

    • ถูกประเมินว่าทำตามคำสั่งได้ดี
    • มีการระบุต้นทุนโทเคนรวมและการเปรียบเทียบกับโมเดลอื่น