เปิดตัว GPT‑5.2
(openai.com)- GPT‑5.2 คือ ซีรีส์โมเดล AI ที่ทรงพลังที่สุดสำหรับงานความรู้ระดับมืออาชีพ โดยปรับปรุงความสามารถด้านการเขียนโค้ด การรู้จำภาพ และการทำโปรเจกต์ที่ซับซ้อน
- ในการประเมิน GDPval ทำได้ดีกว่าหรือเทียบเท่าผู้เชี่ยวชาญในภารกิจงานความรู้ของ 44 อาชีพถึง 70.9% โดยมีความเร็วมากกว่า 11 เท่า และมีต้นทุนต่ำกว่า 1%
- ทำสถิติประสิทธิภาพสูงสุดในเบนช์มาร์กสำคัญ เช่น SWE‑Bench Pro 55.6% , GPQA Diamond 92.4% , ARC‑AGI‑1 86.2%
- แสดงการปรับปรุงอย่างมากจาก GPT‑5.1 ในด้าน ความเข้าใจบริบทยาว (256k โทเคน), การประมวลผลข้อมูลภาพ, และ การใช้เครื่องมือ (98.7%)
- จะทยอยเปิดให้ใช้งานใน ChatGPT และ API โดยมีเป้าหมายเพื่อ ยกระดับประสิทธิภาพการทำงานและความน่าเชื่อถือสำหรับผู้เชี่ยวชาญ
ภาพรวมของ GPT‑5.2
- GPT‑5.2 เป็น ซีรีส์โมเดล AI สำหรับงานความรู้ระดับมืออาชีพ ที่เสริมความสามารถในการสร้างสเปรดชีต ทำพรีเซนเทชัน เขียนโค้ด รู้จำภาพ เข้าใจข้อความยาว ใช้เครื่องมือ และดำเนินโปรเจกต์ที่ซับซ้อน
- ผู้ใช้ ChatGPT Enterprise ประหยัดเวลาได้เฉลี่ยวันละ 40~60 นาที หรือมากกว่า 10 ชั่วโมงต่อสัปดาห์อยู่แล้ว และ GPT‑5.2 จะยิ่งขยายประสิทธิภาพนี้ต่อไป
- ใน ChatGPT มีให้เลือก 3 เวอร์ชันคือ Instant, Thinking, และ Pro ส่วนใน API เปิดให้ใช้งานแก่นักพัฒนาทันที
ประสิทธิภาพของโมเดล
- GPT‑5.2 Thinking เป็นรุ่นแรกที่ทำผลงานได้ถึงระดับผู้เชี่ยวชาญหรือสูงกว่าในการประเมิน GDPval
- ในภารกิจงานความรู้ของ 44 อาชีพ ทำได้ดีกว่าหรือเทียบเท่าผู้เชี่ยวชาญถึง 70.9%
- เร็วกว่า 11 เท่าเมื่อเทียบกับผู้เชี่ยวชาญ และมีต้นทุนต่ำกว่า 1%
- ในการประเมินภายใน คะแนนของงานสร้างแบบจำลองสเปรดชีตเพื่อการวิเคราะห์วาณิชธนกิจดีขึ้น 9.3% เมื่อเทียบกับ GPT‑5.1 (59.1% → 68.4%)
- SWE‑Bench Pro 55.6% และ SWE‑Bench Verified 80% แสดงให้เห็นถึงประสิทธิภาพด้านวิศวกรรมซอฟต์แวร์ที่ดีขึ้น
- ทำงานได้เสถียรกว่าในงานดีบักโค้ดจริง การพัฒนาฟีเจอร์ การรีแฟกเตอร์ และการดีพลอย
- ยังปรับปรุงจาก GPT‑5.1 ในงานพัฒนาฟรอนต์เอนด์และงาน 3D UI
- อัตราการตอบผิดพลาดลดลง 30% ทำให้ความถี่ของ ภาพหลอน (hallucination) ลดลง
ความเข้าใจบริบทยาวและการรับรู้ภาพ
- ทำสถิติสูงสุดด้านความสามารถในการเข้าใจและบูรณาการเอกสารยาวในการประเมิน OpenAI MRCRv2
- ทำความแม่นยำได้เกือบ 100% จนถึง 256k โทเคน
- เหมาะกับการวิเคราะห์เอกสารยาว เช่น รายงาน สัญญา และงานวิจัย
- รองรับกับเอนด์พอยต์
/compactเพื่อสนับสนุน เวิร์กโฟลว์แบบขยายบริบท - ความสามารถด้านการรับรู้ภาพดีขึ้น ทำให้อัตราความผิดพลาดในการอ่านชาร์ต แดชบอร์ด และภาพหน้าจอ UI ลดลงเหลือประมาณครึ่งหนึ่ง
- เสริมความสามารถในการ เข้าใจการจัดวางเชิงพื้นที่ ขององค์ประกอบภายในภาพ
การใช้เครื่องมือและงานหลายขั้นตอน
- ทำสถิติสูงสุดด้านการใช้เครื่องมือด้วย Tau2‑bench Telecom 98.7%
- เสริมความสามารถในการทำ เวิร์กโฟลว์แบบ end‑to‑end เช่น การสนับสนุนลูกค้าหลายขั้นตอน การรวบรวมข้อมูล การวิเคราะห์ และการสร้างผลลัพธ์
- ตัวอย่าง: จัดการขั้นตอนบริการลูกค้าที่ซับซ้อน เช่น เที่ยวบินล่าช้า การต่อเครื่อง และการขอค่าชดเชย ได้ครบถ้วน
ความสามารถด้านวิทยาศาสตร์ คณิตศาสตร์ และการใช้เหตุผล
- ทำสถิติสูงสุดในเบนช์มาร์กวิชาการสำคัญ ได้แก่ GPQA Diamond 92.4% , FrontierMath Tier 1–3 40.3% , ARC‑AGI‑1 86.2% , ARC‑AGI‑2 52.9%
- GPT‑5.2 Pro ทำคะแนน ARC‑AGI‑1 ได้เกิน 90% และมีประสิทธิภาพด้านต้นทุนดีขึ้น 390 เท่า
- GPT‑5.2 Pro และ Thinking สามารถนำไปใช้เพื่อ เร่งการวิจัยทางวิทยาศาสตร์ ได้
- มีการยกตัวอย่างกรณีจริงที่ใช้เสนอและตรวจสอบการพิสูจน์ทฤษฎีทางสถิติ
ประสบการณ์ใช้งานใน ChatGPT
- GPT‑5.2 Instant: ให้คำตอบรวดเร็วและคำอธิบายที่ชัดเจน เหมาะกับการเรียนรู้และงานประจำวัน
- GPT‑5.2 Thinking: เหมาะกับงานซับซ้อน เช่น การเขียนโค้ด การสรุปข้อความยาว การแก้ปัญหาคณิตศาสตร์และตรรกะ และการวางแผน
- GPT‑5.2 Pro: ให้คำตอบที่น่าเชื่อถือสูงสำหรับคำถามยาก พร้อมลดอัตราความผิดพลาด
การเสริมความปลอดภัย
- GPT‑5.2 พัฒนาต่อยอดจากงานวิจัย Safe Completion ของ GPT‑5 เพื่อปรับปรุงการตอบในบทสนทนาเกี่ยวกับการฆ่าตัวตาย สุขภาพจิต และการพึ่งพาทางอารมณ์
- ลดสัดส่วนการตอบที่ไม่เหมาะสมลงเมื่อเทียบกับ GPT‑5.1
- นำ โมเดลคาดการณ์อายุ มาใช้เพื่อจำกัดการเข้าถึงเนื้อหาอ่อนไหวสำหรับผู้ใช้ที่อายุต่ำกว่า 18 ปี
- กำลังปรับปรุงปัญหาการปฏิเสธมากเกินไป (over‑refusal) ของ ChatGPT
ราคาและรูปแบบการให้บริการ
- จะทยอยเปิดให้กับแพ็กเกจเสียเงินของ ChatGPT (Plus, Pro, Business, Enterprise) ก่อน
- ใน API ให้บริการเป็น
gpt‑5.2,gpt‑5.2‑chat‑latest,gpt‑5.2‑pro - ราคา: อินพุต $1.75 ต่อ 1 ล้านโทเคน, เอาต์พุต $14 ต่อ 1 ล้านโทเคน, อินพุตแบบแคชลด 90%
- แม้ราคาต่อหน่วยจะสูงกว่า GPT‑5.1 แต่ ต้นทุนรวมลดลงจากประสิทธิภาพการใช้โทเคนที่ดีขึ้น
- GPT‑5.1 จะยังคงอยู่ต่ออีก 3 เดือนก่อนทยอยยุติการให้บริการ
- เวอร์ชันที่ปรับแต่งสำหรับ Codex มีกำหนดเปิดเผยในภายหลัง
พันธมิตรด้านเทคโนโลยี
- พัฒนา GPT‑5.2 ร่วมกับ NVIDIA และ Microsoft
- ใช้โครงสร้างพื้นฐาน Azure data center และ GPU H100, H200, GB200‑NVL72
- รองรับประสิทธิภาพการฝึกขนาดใหญ่และการยกระดับความฉลาดของโมเดล
สรุปเบนช์มาร์กสำคัญ
- GDPval: 70.9% (GPT‑5.1 38.8%)
- SWE‑Bench Verified: 80.0%
- OpenAI MRCRv2 (256k) : 77.0%
- CharXiv Reasoning (w/ Python) : 88.7%
- Tau2‑bench Telecom: 98.7%
- ARC‑AGI‑1 (Verified) : 86.2%
- AIME 2025: 100%
- FrontierMath Tier 1–3: 40.3%
GPT‑5.2 ก้าวข้ามโมเดลรุ่นก่อนอย่างชัดเจนในด้าน ความฉลาด ความน่าเชื่อถือ และประสิทธิภาพการทำงาน และกำลังก้าวขึ้นเป็น AI สำหรับช่วยงานจริงในระดับผู้เชี่ยวชาญ.
1 ความคิดเห็น
ความเห็นจาก Hacker News
ช่วงไม่กี่เดือนที่ผ่านมา ฉันจ่ายเงินใช้ ChatGPT และเอาไปใช้แทบทุกอย่าง ทั้งเขียนโค้ด ข่าว วิเคราะห์หุ้น และแก้ปัญหาในชีวิตประจำวัน
แต่พอ Gemini 3 ออกมาแล้วลองใช้ กลับพบว่าให้ผลลัพธ์ดีกว่ามากในแทบทุกกรณีการใช้งาน
โดยเฉพาะการค้นหาข้อมูลล่าสุดที่ต้องใช้ การผสานกับการค้นหาเว็บ มันทำได้เด่นมาก OCR ก็ดีเยี่ยมจนลายมือหวัดของฉันยังอ่านออก
อย่างไรก็ตาม แอปมีบั๊กเยอะ เซสชันหลุดบ่อย และยังมีปัญหาอัปโหลดรูปผิดพลาดด้วย
สิ่งที่ไม่พอใจที่สุดคือทุกลิงก์ต้องผ่าน Google Search ก่อน ถ้าจะเข้าเว็บโดยตรงต้องแก้เอง
โดยรวมแล้วสรุปได้ว่า ChatGPT ดูตามหลังในเรื่อง ความสามารถการผสานกับการค้นหา และน่าจะไล่ตามได้ยาก
แค่การหยุดก็ทำให้ข้อมูลหายได้แล้ว ให้ความรู้สึกเหมือนเป็น ผลิตภัณฑ์แบบ Google ที่ยังไม่เสร็จ ตามสูตร
ไอเดียโหมดเสียงดี แต่พังบ่อย และชอบทวนคำถามเองมั่วๆ
ChatGPT ยังเปิด PDF หรือสกรีนช็อตแล้วใช้เป็น อินพุต OCR ได้ แต่ Gemini กลับเมินมัน
แต่สมัยนี้เบราว์เซอร์จัดการเองได้อยู่แล้ว จึงไม่จำเป็นต้องส่งข้อมูลการคลิกไปให้ Google
แก้ให้เป็นลิงก์ตรงก็ไม่มีปัญหา
Opus 4.5 คุณภาพดีกว่า แต่ข้อจำกัดการใช้งานหนักมาก เลยกำลังคิดว่าจะสมัครหลายบริการควบคู่กันดีไหม
ฉันใช้ฟีเจอร์เสียงมากกว่า OCR เลยถือว่าเป็นจุดเสียหายร้ายแรง
ส่วนคำกล่าวที่ว่า “จุดแข็งคือการผสานกับการค้นหา” ก็ยังไม่เข้าใจ อยากรู้ว่ามีตัวอย่างไหนบ้างที่ ChatGPT แย่กว่าจริงในการค้นหาข้อมูลล่าสุด
แม้จะไม่ได้เขียนไว้ในประกาศบนบล็อก แต่ ขนาดคอนเท็กซ์วินโดว์ จริงคือ 400,000 โทเค็น
มีระบุไว้ในเอกสารทางการ
และยังบอกว่าความสามารถในการใช้คอนเท็กซ์ทั้งหมดก็ดีขึ้นด้วย เลยน่าคาดหวัง
ฉันเคยใช้ Codex 5.1 กับโปรเจกต์ Rust/CUDA แล้วเปลี่ยนไป Gemini 3 ตอนแรกประทับใจมากที่มันจับบั๊กได้ดี แต่ไม่นานก็แทบเป็นบ้าเพราะ ไม่สนใจคำสั่ง เอาต์พุตพัง และกระบวนการให้เหตุผลที่ไม่โปร่งใส
พอกลับมาใช้ Codex ก็พบว่าเสถียรกว่าและรับฟีดแบ็กได้ดี ตอนนี้ยังมีโหมด GPT‑5.2 xhigh ออกมาอีก เลยรู้สึกเหมือนได้ของขวัญคริสต์มาส
เลยคิดถึงวัฒนธรรมฟอรัมแบบเก่าที่คนคุยกันตรงๆ เรื่องปัญหาและวิธีแก้
ฉันเห็นนักพัฒนาหลายคนใช้ทุกเรื่องปนกันในเซสชันเดียว ทั้งทำอาหาร ของขวัญ เขียนโค้ด ฯลฯ แล้วก็ได้คำตอบแปลกๆ
เพราะ LLM จะส่งบริบทของบทสนทนาทั้งหมดต่อเนื่อง จึงควรเริ่มแชตใหม่แยกตามหัวข้อ
ไม่อย่างนั้นคุณอาจได้คำตอบประหลาดอย่าง “ภรรยาผมคิดยังไงกับตัวแปร global”
แอปอย่าง Cursor หรือ ChatGPT น่าจะเข้าใจยากมาก
ถ้าไม่รู้จักแนวคิดเรื่อง คอนเท็กซ์วินโดว์ ก็อาจรู้สึกว่า AI โง่ได้ น่าจะเป็นเหตุผลที่หลายคนประเมิน AI ต่ำเกินไป
แถมยังไม่รู้ด้วยว่าโมเดลกำลังทำ A/B test อยู่ไหม หรือจำกัด reasoning token หรือเปล่า เลยรู้สึกว่าไว้ใจยาก
ถ้าจะให้แยกจริงๆ ต้องปิดตัวเลือกนี้
ในภาพเมนบอร์ด ตำแหน่ง RAM, สล็อต PCIe และ DisplayPort ผิดหมดเลย
ลิงก์ภาพ
สงสัยว่าทำไมถึงเอาอะไรแบบนี้มาใช้เป็นภาพโปรโมต
ใน เบนช์มาร์ก Extended NYT Connections รุ่นที่ใช้การให้เหตุผลสูงของ GPT‑5.2 ดีขึ้นจาก 69.9 → 77.9
ลิงก์เบนช์มาร์ก
รุ่นการให้เหตุผลระดับกลางและต่ำก็ดีขึ้นทั้งหมด แต่ Gemini 3 Pro กับ Grok 4.1 Fast Reasoning ยังสูงกว่าอยู่
เทสต์ “นกกระทุงขี่จักรยาน” น่าสนใจดี
ตัวอย่างภาพ
คะแนน ARC‑AGI‑2 ที่ดีขึ้น น่าทึ่งมาก ดูเหมือนความสามารถในการทำให้เป็นนามธรรมจะดีขึ้นมาก
โมเดลก่อนหน้านี้ให้ความรู้สึกเหมือนโอเวอร์ฟิต แต่ตอนนี้ การแก้ไขตัวเอง (self‑correction) ทำได้ดีขึ้น
ถ้าปรับปรุงได้ระดับนี้โดยไม่ต้องมีดาต้าเซ็นเตอร์ใหม่หรือขยายโมเดลครั้งใหญ่ อนาคตก็น่าตื่นเต้นมาก
ตอนนี้รู้สึกว่า ประสบการณ์ผู้ใช้ สำคัญกว่าเบนช์มาร์กแล้ว
เหตุผลที่ฉันยังสมัคร ChatGPT ต่อไปก็เพราะ ฟีเจอร์จัดระเบียบแชตตามโปรเจกต์
แต่ทุกแพลตฟอร์มก็มีปัญหาร่วมกันคือ
ต้องแก้ปัญหาพื้นฐานด้านการใช้งานพวกนี้ก่อน
เพราะอย่างนั้นเบนช์มาร์กเลยกลายเป็นเกมแบบ แมวไล่จับหนู ไปแล้ว
รู้สึกว่าโพสต์บ่นใน r/Codex โดนกลั่นกรอง เลยขอพูดตรงๆ ที่นี่
มันเร็วขึ้นก็จริง แต่ยังช้ากว่า Opus 4.5 และเมื่อเทียบกับ 5.1 แล้ว แทบไม่รู้สึกถึงการพัฒนา
ค่าโทเค็นขึ้นถึง 40% แต่ไม่รู้สึกว่าคุ้มค่า
Gemini 3 ให้ระดับ ChatGPT Pro ได้ฟรี ส่วน Claude Code $100/เดือนก็ทรงพลังมาก
ดูเหมือน OpenAI กำลังเจอ วิกฤตเชิงภววิทยา
ประเด็นที่ว่า “knowledge cutoff คือเดือนสิงหาคม 2025” พร้อมกับการขึ้นราคา ทำให้น่าคิดว่านี่คือโมเดล pretrain ใหม่
เคยมีข้อมูลว่า GPT‑5.1 ใช้ pretrain เดียวกับ GPT‑4o