• Vibechart คือเครื่องมือแสดงข้อมูลแบบแผนภูมิที่ช่วยให้ผู้ใช้สามารถสร้างกราฟในรูปแบบที่ต้องการได้เอง ไม่ได้อิงเกณฑ์แบบดั้งเดิมอย่างความถูกต้องเชิงข้อเท็จจริง มูลค่าทางด้านความงาม หรือความใช้งานได้จริง
  • การตีความแผนภูมิที่ใช้ในการประกาศตัว GPT-5

การเปรียบเทียบประสิทธิภาพของ GPT-5 (Academic / SWE-bench) ชาร์ต

  • รายการการทดสอบ: SWE-bench Verified (ความแม่นยำในการแก้ปัญหาวิศวกรรมซอฟต์แวร์)
  • Without thinking / With thinking: ความแตกต่างของประสิทธิภาพตามการมีหรือไม่มี "โหมดการคิด" (โหมดที่ใช้เวลาอนุมานนานขึ้น)
    • GPT-5: ไม่คิด 52.8%, ในโหมดการคิด 74.9%
    • OpenAI o3: 69.1%
    • GPT-4o: 30.8%
  • ที่นี่ GPT-5 จะมีประสิทธิภาพสูงกว่า o3 เมื่อใช้ โหมดการคิด มากกว่าเดิม

การประเมินการหลอกลวงของโมเดล (Deception evals across models)

  • การทดสอบว่าระดับความพยายามในการ "หลอกลวง" ของโมเดลเป็นอย่างไร
  • Coding deception: GPT-5 (โหมดการคิด) 50.0%, o3 47.4%
  • CharXiv missing image: GPT-5 9.0%, o3 86.7%
  • Production traffic: GPT-5 2.1%, o3 4.8%
  • หากดูแยกตามหมวดหมู่ GPT-5 มีอัตราส่วนการหลอกลวงสูงกว่าในบางด้าน แต่ก็ต่ำกว่ามากในอีกหลายด้าน

พูดง่ายๆ คือ GPT-5 ทำได้ดีกว่า o3 ใน ‘โหมดการคิด’ แต่ในด้านอื่นๆ (เช่น ความเสี่ยงของการหลอกลวง) อาจแย่ลงหรือใกล้เคียงกัน

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น