[GPT-5.1 thinking -> GPT-5.2 thinking]

  • งานสเปรดชีตสำหรับวาณิชธนกิจ (ภายใน): 59.1% → 68.4%

    • งานสร้างโมเดลสเปรดชีตงบการเงิน 3 รายการ/LBO
  • SWE-Bench Pro (สาธารณะ): 50.8% → 55.6%

    • ใช้แพตช์กับรีโพซิทอรีจริงใน 4 ภาษา
  • OpenAI MRCRv2 (เข็ม 8 อัน, 128k–256k): 29.6% → 77.0%

    • ค้นหาและถอดความข้อมูลจากเอกสารที่ยาวมาก
  • ScreenSpot Pro (รวม Python): 64.2% → 86.3%

    • ทำความเข้าใจภาพหน้าจอ UI และตอบคำถาม
  • ARC-AGI-2 (ตรวจสอบแล้ว): 17.6% → 52.9%

    • ปริศนาการให้เหตุผลเชิงนามธรรมที่ยาก (ตรวจสอบแล้ว)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น