Vibechart
(vibechart.net)- Vibechart คือเครื่องมือแสดงข้อมูลแบบแผนภูมิที่ช่วยให้ผู้ใช้สามารถสร้างกราฟในรูปแบบที่ต้องการได้เอง ไม่ได้อิงเกณฑ์แบบดั้งเดิมอย่างความถูกต้องเชิงข้อเท็จจริง มูลค่าทางด้านความงาม หรือความใช้งานได้จริง
- การตีความแผนภูมิที่ใช้ในการประกาศตัว GPT-5
การเปรียบเทียบประสิทธิภาพของ GPT-5 (Academic / SWE-bench) ชาร์ต
- รายการการทดสอบ: SWE-bench Verified (ความแม่นยำในการแก้ปัญหาวิศวกรรมซอฟต์แวร์)
- Without thinking / With thinking: ความแตกต่างของประสิทธิภาพตามการมีหรือไม่มี "โหมดการคิด" (โหมดที่ใช้เวลาอนุมานนานขึ้น)
- GPT-5: ไม่คิด 52.8%, ในโหมดการคิด 74.9%
- OpenAI o3: 69.1%
- GPT-4o: 30.8%
- ที่นี่ GPT-5 จะมีประสิทธิภาพสูงกว่า o3 เมื่อใช้ โหมดการคิด มากกว่าเดิม
การประเมินการหลอกลวงของโมเดล (Deception evals across models)
- การทดสอบว่าระดับความพยายามในการ "หลอกลวง" ของโมเดลเป็นอย่างไร
- Coding deception: GPT-5 (โหมดการคิด) 50.0%, o3 47.4%
- CharXiv missing image: GPT-5 9.0%, o3 86.7%
- Production traffic: GPT-5 2.1%, o3 4.8%
- หากดูแยกตามหมวดหมู่ GPT-5 มีอัตราส่วนการหลอกลวงสูงกว่าในบางด้าน แต่ก็ต่ำกว่ามากในอีกหลายด้าน
พูดง่ายๆ คือ GPT-5 ทำได้ดีกว่า o3 ใน ‘โหมดการคิด’ แต่ในด้านอื่นๆ (เช่น ความเสี่ยงของการหลอกลวง) อาจแย่ลงหรือใกล้เคียงกัน
ยังไม่มีความคิดเห็น