5 คะแนน โดย GN⁺ 2025-12-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • GPT‑5.2 คือ ซีรีส์โมเดล AI ที่ทรงพลังที่สุดสำหรับงานความรู้ระดับมืออาชีพ โดยปรับปรุงความสามารถด้านการเขียนโค้ด การรู้จำภาพ และการทำโปรเจกต์ที่ซับซ้อน
  • ในการประเมิน GDPval ทำได้ดีกว่าหรือเทียบเท่าผู้เชี่ยวชาญในภารกิจงานความรู้ของ 44 อาชีพถึง 70.9% โดยมีความเร็วมากกว่า 11 เท่า และมีต้นทุนต่ำกว่า 1%
  • ทำสถิติประสิทธิภาพสูงสุดในเบนช์มาร์กสำคัญ เช่น SWE‑Bench Pro 55.6% , GPQA Diamond 92.4% , ARC‑AGI‑1 86.2%
  • แสดงการปรับปรุงอย่างมากจาก GPT‑5.1 ในด้าน ความเข้าใจบริบทยาว (256k โทเคน), การประมวลผลข้อมูลภาพ, และ การใช้เครื่องมือ (98.7%)
  • จะทยอยเปิดให้ใช้งานใน ChatGPT และ API โดยมีเป้าหมายเพื่อ ยกระดับประสิทธิภาพการทำงานและความน่าเชื่อถือสำหรับผู้เชี่ยวชาญ

ภาพรวมของ GPT‑5.2

  • GPT‑5.2 เป็น ซีรีส์โมเดล AI สำหรับงานความรู้ระดับมืออาชีพ ที่เสริมความสามารถในการสร้างสเปรดชีต ทำพรีเซนเทชัน เขียนโค้ด รู้จำภาพ เข้าใจข้อความยาว ใช้เครื่องมือ และดำเนินโปรเจกต์ที่ซับซ้อน
  • ผู้ใช้ ChatGPT Enterprise ประหยัดเวลาได้เฉลี่ยวันละ 40~60 นาที หรือมากกว่า 10 ชั่วโมงต่อสัปดาห์อยู่แล้ว และ GPT‑5.2 จะยิ่งขยายประสิทธิภาพนี้ต่อไป
  • ใน ChatGPT มีให้เลือก 3 เวอร์ชันคือ Instant, Thinking, และ Pro ส่วนใน API เปิดให้ใช้งานแก่นักพัฒนาทันที

ประสิทธิภาพของโมเดล

  • GPT‑5.2 Thinking เป็นรุ่นแรกที่ทำผลงานได้ถึงระดับผู้เชี่ยวชาญหรือสูงกว่าในการประเมิน GDPval
    • ในภารกิจงานความรู้ของ 44 อาชีพ ทำได้ดีกว่าหรือเทียบเท่าผู้เชี่ยวชาญถึง 70.9%
    • เร็วกว่า 11 เท่าเมื่อเทียบกับผู้เชี่ยวชาญ และมีต้นทุนต่ำกว่า 1%
  • ในการประเมินภายใน คะแนนของงานสร้างแบบจำลองสเปรดชีตเพื่อการวิเคราะห์วาณิชธนกิจดีขึ้น 9.3% เมื่อเทียบกับ GPT‑5.1 (59.1% → 68.4%)
  • SWE‑Bench Pro 55.6% และ SWE‑Bench Verified 80% แสดงให้เห็นถึงประสิทธิภาพด้านวิศวกรรมซอฟต์แวร์ที่ดีขึ้น
    • ทำงานได้เสถียรกว่าในงานดีบักโค้ดจริง การพัฒนาฟีเจอร์ การรีแฟกเตอร์ และการดีพลอย
  • ยังปรับปรุงจาก GPT‑5.1 ในงานพัฒนาฟรอนต์เอนด์และงาน 3D UI
  • อัตราการตอบผิดพลาดลดลง 30% ทำให้ความถี่ของ ภาพหลอน (hallucination) ลดลง

ความเข้าใจบริบทยาวและการรับรู้ภาพ

  • ทำสถิติสูงสุดด้านความสามารถในการเข้าใจและบูรณาการเอกสารยาวในการประเมิน OpenAI MRCRv2
    • ทำความแม่นยำได้เกือบ 100% จนถึง 256k โทเคน
    • เหมาะกับการวิเคราะห์เอกสารยาว เช่น รายงาน สัญญา และงานวิจัย
  • รองรับกับเอนด์พอยต์ /compact เพื่อสนับสนุน เวิร์กโฟลว์แบบขยายบริบท
  • ความสามารถด้านการรับรู้ภาพดีขึ้น ทำให้อัตราความผิดพลาดในการอ่านชาร์ต แดชบอร์ด และภาพหน้าจอ UI ลดลงเหลือประมาณครึ่งหนึ่ง
    • เสริมความสามารถในการ เข้าใจการจัดวางเชิงพื้นที่ ขององค์ประกอบภายในภาพ

การใช้เครื่องมือและงานหลายขั้นตอน

  • ทำสถิติสูงสุดด้านการใช้เครื่องมือด้วย Tau2‑bench Telecom 98.7%
  • เสริมความสามารถในการทำ เวิร์กโฟลว์แบบ end‑to‑end เช่น การสนับสนุนลูกค้าหลายขั้นตอน การรวบรวมข้อมูล การวิเคราะห์ และการสร้างผลลัพธ์
    • ตัวอย่าง: จัดการขั้นตอนบริการลูกค้าที่ซับซ้อน เช่น เที่ยวบินล่าช้า การต่อเครื่อง และการขอค่าชดเชย ได้ครบถ้วน

ความสามารถด้านวิทยาศาสตร์ คณิตศาสตร์ และการใช้เหตุผล

  • ทำสถิติสูงสุดในเบนช์มาร์กวิชาการสำคัญ ได้แก่ GPQA Diamond 92.4% , FrontierMath Tier 1–3 40.3% , ARC‑AGI‑1 86.2% , ARC‑AGI‑2 52.9%
  • GPT‑5.2 Pro ทำคะแนน ARC‑AGI‑1 ได้เกิน 90% และมีประสิทธิภาพด้านต้นทุนดีขึ้น 390 เท่า
  • GPT‑5.2 Pro และ Thinking สามารถนำไปใช้เพื่อ เร่งการวิจัยทางวิทยาศาสตร์ ได้
    • มีการยกตัวอย่างกรณีจริงที่ใช้เสนอและตรวจสอบการพิสูจน์ทฤษฎีทางสถิติ

ประสบการณ์ใช้งานใน ChatGPT

  • GPT‑5.2 Instant: ให้คำตอบรวดเร็วและคำอธิบายที่ชัดเจน เหมาะกับการเรียนรู้และงานประจำวัน
  • GPT‑5.2 Thinking: เหมาะกับงานซับซ้อน เช่น การเขียนโค้ด การสรุปข้อความยาว การแก้ปัญหาคณิตศาสตร์และตรรกะ และการวางแผน
  • GPT‑5.2 Pro: ให้คำตอบที่น่าเชื่อถือสูงสำหรับคำถามยาก พร้อมลดอัตราความผิดพลาด

การเสริมความปลอดภัย

  • GPT‑5.2 พัฒนาต่อยอดจากงานวิจัย Safe Completion ของ GPT‑5 เพื่อปรับปรุงการตอบในบทสนทนาเกี่ยวกับการฆ่าตัวตาย สุขภาพจิต และการพึ่งพาทางอารมณ์
    • ลดสัดส่วนการตอบที่ไม่เหมาะสมลงเมื่อเทียบกับ GPT‑5.1
  • นำ โมเดลคาดการณ์อายุ มาใช้เพื่อจำกัดการเข้าถึงเนื้อหาอ่อนไหวสำหรับผู้ใช้ที่อายุต่ำกว่า 18 ปี
  • กำลังปรับปรุงปัญหาการปฏิเสธมากเกินไป (over‑refusal) ของ ChatGPT

ราคาและรูปแบบการให้บริการ

  • จะทยอยเปิดให้กับแพ็กเกจเสียเงินของ ChatGPT (Plus, Pro, Business, Enterprise) ก่อน
  • ใน API ให้บริการเป็น gpt‑5.2, gpt‑5.2‑chat‑latest, gpt‑5.2‑pro
  • ราคา: อินพุต $1.75 ต่อ 1 ล้านโทเคน, เอาต์พุต $14 ต่อ 1 ล้านโทเคน, อินพุตแบบแคชลด 90%
    • แม้ราคาต่อหน่วยจะสูงกว่า GPT‑5.1 แต่ ต้นทุนรวมลดลงจากประสิทธิภาพการใช้โทเคนที่ดีขึ้น
  • GPT‑5.1 จะยังคงอยู่ต่ออีก 3 เดือนก่อนทยอยยุติการให้บริการ
  • เวอร์ชันที่ปรับแต่งสำหรับ Codex มีกำหนดเปิดเผยในภายหลัง

พันธมิตรด้านเทคโนโลยี

  • พัฒนา GPT‑5.2 ร่วมกับ NVIDIA และ Microsoft
    • ใช้โครงสร้างพื้นฐาน Azure data center และ GPU H100, H200, GB200‑NVL72
    • รองรับประสิทธิภาพการฝึกขนาดใหญ่และการยกระดับความฉลาดของโมเดล

สรุปเบนช์มาร์กสำคัญ

  • GDPval: 70.9% (GPT‑5.1 38.8%)
  • SWE‑Bench Verified: 80.0%
  • OpenAI MRCRv2 (256k) : 77.0%
  • CharXiv Reasoning (w/ Python) : 88.7%
  • Tau2‑bench Telecom: 98.7%
  • ARC‑AGI‑1 (Verified) : 86.2%
  • AIME 2025: 100%
  • FrontierMath Tier 1–3: 40.3%

GPT‑5.2 ก้าวข้ามโมเดลรุ่นก่อนอย่างชัดเจนในด้าน ความฉลาด ความน่าเชื่อถือ และประสิทธิภาพการทำงาน และกำลังก้าวขึ้นเป็น AI สำหรับช่วยงานจริงในระดับผู้เชี่ยวชาญ.

1 ความคิดเห็น

 
GN⁺ 2025-12-12
ความเห็นจาก Hacker News
  • ช่วงไม่กี่เดือนที่ผ่านมา ฉันจ่ายเงินใช้ ChatGPT และเอาไปใช้แทบทุกอย่าง ทั้งเขียนโค้ด ข่าว วิเคราะห์หุ้น และแก้ปัญหาในชีวิตประจำวัน
    แต่พอ Gemini 3 ออกมาแล้วลองใช้ กลับพบว่าให้ผลลัพธ์ดีกว่ามากในแทบทุกกรณีการใช้งาน
    โดยเฉพาะการค้นหาข้อมูลล่าสุดที่ต้องใช้ การผสานกับการค้นหาเว็บ มันทำได้เด่นมาก OCR ก็ดีเยี่ยมจนลายมือหวัดของฉันยังอ่านออก
    อย่างไรก็ตาม แอปมีบั๊กเยอะ เซสชันหลุดบ่อย และยังมีปัญหาอัปโหลดรูปผิดพลาดด้วย
    สิ่งที่ไม่พอใจที่สุดคือทุกลิงก์ต้องผ่าน Google Search ก่อน ถ้าจะเข้าเว็บโดยตรงต้องแก้เอง
    โดยรวมแล้วสรุปได้ว่า ChatGPT ดูตามหลังในเรื่อง ความสามารถการผสานกับการค้นหา และน่าจะไล่ตามได้ยาก

    • คำว่า “มีปัญหาแค่นโยบาย” ยังเบาไปมาก ทุกวันนี้มี บั๊กที่ทำให้ทั้งเธรดหายไป วันละหลายครั้งจนอยากด่า
      แค่การหยุดก็ทำให้ข้อมูลหายได้แล้ว ให้ความรู้สึกเหมือนเป็น ผลิตภัณฑ์แบบ Google ที่ยังไม่เสร็จ ตามสูตร
      ไอเดียโหมดเสียงดี แต่พังบ่อย และชอบทวนคำถามเองมั่วๆ
    • ฉันมีประสบการณ์ตรงกันข้ามเลย ChatGPT จะค้นหาหลายรอบ วิเคราะห์ผล แล้วค้นหาต่อเพิ่มอีก ขณะที่ Gemini แทบไม่ค้นหาอะไร
      ChatGPT ยังเปิด PDF หรือสกรีนช็อตแล้วใช้เป็น อินพุต OCR ได้ แต่ Gemini กลับเมินมัน
    • เหตุที่ลิงก์ต้องผ่าน Google Search เป็นเพราะภายในมีการตรวจ มัลแวร์·ฟิชชิง
      แต่สมัยนี้เบราว์เซอร์จัดการเองได้อยู่แล้ว จึงไม่จำเป็นต้องส่งข้อมูลการคลิกไปให้ Google
      แก้ให้เป็นลิงก์ตรงก็ไม่มีปัญหา
    • สำหรับฉัน Gemini 3 Pro กลับมีอาการ หลอน (hallucination) หนักกว่า บางครั้งถึงขั้นแต่งแหล่งอ้างอิงที่ไม่มีอยู่จริง
      Opus 4.5 คุณภาพดีกว่า แต่ข้อจำกัดการใช้งานหนักมาก เลยกำลังคิดว่าจะสมัครหลายบริการควบคู่กันดีไหม
    • คุณภาพการรู้จำเสียง ของ Gemini แย่มากจนใช้งานไม่ได้
      ฉันใช้ฟีเจอร์เสียงมากกว่า OCR เลยถือว่าเป็นจุดเสียหายร้ายแรง
      ส่วนคำกล่าวที่ว่า “จุดแข็งคือการผสานกับการค้นหา” ก็ยังไม่เข้าใจ อยากรู้ว่ามีตัวอย่างไหนบ้างที่ ChatGPT แย่กว่าจริงในการค้นหาข้อมูลล่าสุด
  • แม้จะไม่ได้เขียนไว้ในประกาศบนบล็อก แต่ ขนาดคอนเท็กซ์วินโดว์ จริงคือ 400,000 โทเค็น
    มีระบุไว้ในเอกสารทางการ
    และยังบอกว่าความสามารถในการใช้คอนเท็กซ์ทั้งหมดก็ดีขึ้นด้วย เลยน่าคาดหวัง
    ฉันเคยใช้ Codex 5.1 กับโปรเจกต์ Rust/CUDA แล้วเปลี่ยนไป Gemini 3 ตอนแรกประทับใจมากที่มันจับบั๊กได้ดี แต่ไม่นานก็แทบเป็นบ้าเพราะ ไม่สนใจคำสั่ง เอาต์พุตพัง และกระบวนการให้เหตุผลที่ไม่โปร่งใส
    พอกลับมาใช้ Codex ก็พบว่าเสถียรกว่าและรับฟีดแบ็กได้ดี ตอนนี้ยังมีโหมด GPT‑5.2 xhigh ออกมาอีก เลยรู้สึกเหมือนได้ของขวัญคริสต์มาส

    • 400,000 โทเค็นมีอยู่แล้วใน GPT‑5, 5.1, 5‑mini ฯลฯ แต่ถ้า ประสิทธิภาพการจัดการบริบทยาว ดีขึ้นจริงก็มีความหมายมาก
    • ฉันกลับรู้สึกว่าโหมด xhigh ให้ผลลัพธ์แย่กว่า high เลยสงสัยว่าเป็น PEBKAC (ผู้ใช้ทำพลาดเอง) หรือเปล่า อยากรู้ว่าเคยลองเทียบกันไหม
    • ทุกวันนี้อ่านคอมเมนต์แล้วแยกไม่ออกว่าเป็นรีวิวจริงหรือ โฆษณาแฝงแบบสปอนเซอร์
      เลยคิดถึงวัฒนธรรมฟอรัมแบบเก่าที่คนคุยกันตรงๆ เรื่องปัญหาและวิธีแก้
  • ฉันเห็นนักพัฒนาหลายคนใช้ทุกเรื่องปนกันในเซสชันเดียว ทั้งทำอาหาร ของขวัญ เขียนโค้ด ฯลฯ แล้วก็ได้คำตอบแปลกๆ
    เพราะ LLM จะส่งบริบทของบทสนทนาทั้งหมดต่อเนื่อง จึงควรเริ่มแชตใหม่แยกตามหัวข้อ
    ไม่อย่างนั้นคุณอาจได้คำตอบประหลาดอย่าง “ภรรยาผมคิดยังไงกับตัวแปร global”

    • บางทีก็คิดว่า สำหรับคนที่ไม่รู้ กลไกการทำงานภายในของ LLM เครื่องมือพวกนี้จะดูประหลาดขนาดไหน
      แอปอย่าง Cursor หรือ ChatGPT น่าจะเข้าใจยากมาก
    • ฉันเองก็ได้ประโยชน์มากจากการเรียนคอร์ส fast.ai และลองจับ VLLM กับโมเดลหลายตัวด้วยตัวเอง
      ถ้าไม่รู้จักแนวคิดเรื่อง คอนเท็กซ์วินโดว์ ก็อาจรู้สึกว่า AI โง่ได้ น่าจะเป็นเหตุผลที่หลายคนประเมิน AI ต่ำเกินไป
    • มันก็ยังไม่ชัดว่าควรเก็บบริบทแบบไหนไว้ ฉันเคยใส่ข้อความที่สไตล์คล้ายกันเข้าไปแล้วผลลัพธ์กลับแย่ลง
      แถมยังไม่รู้ด้วยว่าโมเดลกำลังทำ A/B test อยู่ไหม หรือจำกัด reasoning token หรือเปล่า เลยรู้สึกว่าไว้ใจยาก
    • ตัวเลือก “Reference chat history” ของ ChatGPT ถูกเปิดเป็นค่าเริ่มต้นอยู่ เลยถึงจะเริ่มบทสนทนาใหม่ก็ยังมีเนื้อหาเก่าปะปน
      ถ้าจะให้แยกจริงๆ ต้องปิดตัวเลือกนี้
    • ฉันเคยฟังพอดแคสต์เกี่ยวกับคนที่ตกอยู่ใน “ความสัมพันธ์เชิงโรแมนติก” กับ LLM แล้วรู้สึกว่าพวกเขาเหมือนไม่รู้ว่าแค่รีเซ็ตบริบท มันก็กลับไปเป็นสิ่งแปลกหน้าทันที
  • ในภาพเมนบอร์ด ตำแหน่ง RAM, สล็อต PCIe และ DisplayPort ผิดหมดเลย
    ลิงก์ภาพ
    สงสัยว่าทำไมถึงเอาอะไรแบบนี้มาใช้เป็นภาพโปรโมต

    • น่าจะตั้งใจสื่อว่า ความสามารถด้านวิชันของ GPT‑5.2 ดีขึ้นแต่ยังไม่สมบูรณ์แบบ ถ้าเลือกแต่ผลลัพธ์ที่สมบูรณ์แบบก็อาจทำให้คนเข้าใจผิดได้
    • พอร์ต USB Type‑A ก็ไม่ใช่กองเป็นคู่ละ 2 พอร์ต แต่เป็น 4 พอร์ต
    • ในเนื้อหาบทความก็เขียนชัดว่า “ทั้งสองโมเดลยังมีข้อผิดพลาด แต่ GPT‑5.2 แสดงความเข้าใจที่ดีกว่า”
    • ฉันมองว่านี่เป็นผลจาก วัฒนธรรมคอมมูนิตี้ AI ยุคนี้ที่ชอบผลิตงานสร้างออกมาเรื่อยๆ โดยไม่ตรวจสอบผลลัพธ์
    • ถึงอย่างนั้น ความละเอียดของภาพก็ระดับมือถือฝาพับปี 2003 เลย จะมีข้อผิดพลาดก็ไม่แปลก
  • ใน เบนช์มาร์ก Extended NYT Connections รุ่นที่ใช้การให้เหตุผลสูงของ GPT‑5.2 ดีขึ้นจาก 69.9 → 77.9
    ลิงก์เบนช์มาร์ก
    รุ่นการให้เหตุผลระดับกลางและต่ำก็ดีขึ้นทั้งหมด แต่ Gemini 3 Pro กับ Grok 4.1 Fast Reasoning ยังสูงกว่าอยู่

    • Gemini 3 Pro Preview ได้ 96.8% ในเทสต์เดียวกัน ถือว่าน่าประทับใจ
    • มีคนอื่นลองทดสอบด้วยปริศนา Clues by Sam แล้ว GPT‑5 Pro ก็ขึ้นอันดับ 1 ไปแล้ว
    • สงสัยว่าทำไมผลของ Grok 4.1 reasoning ถึงถูกตัดออก
  • เทสต์ “นกกระทุงขี่จักรยาน” น่าสนใจดี
    ตัวอย่างภาพ

    • ความผันผวนสูงเกินไปเลยทำให้คุณค่าของการทดสอบต่ำ ฉันลองรัน 10 รอบ ครึ่งหนึ่งออกมาสมบูรณ์แบบ
    • น่าจะเป็นการตอบรับฟีดแบ็กที่ว่าเวอร์ชัน 5.1 เรียบเกินไป ฉันก็เจอแบบเดียวกันในเวอร์ชัน POV‑Ray
    • พอเห็นมันค่อยๆ วิวัฒน์ตามหลักอากาศพลศาสตร์ ก็รู้สึกว่า AI ฉลาดขึ้นเรื่อยๆ
    • ถึงขั้นมีมุกว่า “นี่คือเบนช์มาร์กเดียวที่ฉันเชื่อถือ”
    • แต่การใช้เบนช์มาร์กเดิมนานเกินไปก็ไม่ใช่เรื่องดี
  • คะแนน ARC‑AGI‑2 ที่ดีขึ้น น่าทึ่งมาก ดูเหมือนความสามารถในการทำให้เป็นนามธรรมจะดีขึ้นมาก
    โมเดลก่อนหน้านี้ให้ความรู้สึกเหมือนโอเวอร์ฟิต แต่ตอนนี้ การแก้ไขตัวเอง (self‑correction) ทำได้ดีขึ้น
    ถ้าปรับปรุงได้ระดับนี้โดยไม่ต้องมีดาต้าเซ็นเตอร์ใหม่หรือขยายโมเดลครั้งใหญ่ อนาคตก็น่าตื่นเต้นมาก

    • ฉันเองก็จับตาผล ARC‑AGI‑2 อยู่เหมือนกัน นี่เป็นการก้าวกระโดดครั้งใหญ่จริงๆ
  • ตอนนี้รู้สึกว่า ประสบการณ์ผู้ใช้ สำคัญกว่าเบนช์มาร์กแล้ว
    เหตุผลที่ฉันยังสมัคร ChatGPT ต่อไปก็เพราะ ฟีเจอร์จัดระเบียบแชตตามโปรเจกต์
    แต่ทุกแพลตฟอร์มก็มีปัญหาร่วมกันคือ

    • โกหก อย่างมั่นใจ
    • ไม่ทำตามพรอมป์ต์ให้ดีพอ
    • ไม่แสดงความไม่แน่ใจ
    • หยุดคำชมฟุ่มเฟือยและคำตอบเยิ่นเย้อไม่ได้
    • อ้างอิงแหล่งที่มาไม่สม่ำเสมอ
    • ไม่บอกให้ชัดว่าอ่านต้นฉบับหรืออ่านสรุปมา
      ต้องแก้ปัญหาพื้นฐานด้านการใช้งานพวกนี้ก่อน
    • เมื่อออกนอกตัวชี้วัดเชิงวัตถุวิสัย ก็ยากจะโน้มน้าวว่าการวัดนั้นใช้ได้จริง แต่ในทางกลับกัน ตัวชี้วัดที่วัดได้ก็มักถูกปั่นได้ง่าย
      เพราะอย่างนั้นเบนช์มาร์กเลยกลายเป็นเกมแบบ แมวไล่จับหนู ไปแล้ว
  • รู้สึกว่าโพสต์บ่นใน r/Codex โดนกลั่นกรอง เลยขอพูดตรงๆ ที่นี่
    มันเร็วขึ้นก็จริง แต่ยังช้ากว่า Opus 4.5 และเมื่อเทียบกับ 5.1 แล้ว แทบไม่รู้สึกถึงการพัฒนา
    ค่าโทเค็นขึ้นถึง 40% แต่ไม่รู้สึกว่าคุ้มค่า
    Gemini 3 ให้ระดับ ChatGPT Pro ได้ฟรี ส่วน Claude Code $100/เดือนก็ทรงพลังมาก
    ดูเหมือน OpenAI กำลังเจอ วิกฤตเชิงภววิทยา

    • ตอนจาก Gemini 2.5 ไป 3 ก็แทบไม่มีความเปลี่ยนแปลงใหญ่เหมือนกัน โดยรวมให้ความรู้สึกว่า ความก้าวหน้าที่จับต้องได้ กำลังชะงัก
  • ประเด็นที่ว่า “knowledge cutoff คือเดือนสิงหาคม 2025” พร้อมกับการขึ้นราคา ทำให้น่าคิดว่านี่คือโมเดล pretrain ใหม่
    เคยมีข้อมูลว่า GPT‑5.1 ใช้ pretrain เดียวกับ GPT‑4o

    • การทำ pretrain ใหม่มีต้นทุนมหาศาล จึงไม่น่าจะลงเอยแค่เพิ่มเลขเวอร์ชัน 0.1
    • หรือไม่ 5.1 อาจเป็นเช็กพอยต์ที่เก่ากว่า หรือผ่าน quantization หนักกว่า
    • หรือไม่ก็แค่เอาโมเดลเดิมไปป้อน ข้อมูลคุณภาพต่ำ (slop) เพิ่มอีกรอบก็ได้