เปิดตัว Gemini 3 Deep Think

(blog.google)

7 คะแนน โดย GN⁺ 2026-02-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Gemini 3 Deep Think โมเดล AI ของ Google ที่มุ่งแก้ปัญหา ด้านวิทยาศาสตร์ การวิจัย และวิศวกรรม ได้รับการอัปเกรดครั้งใหญ่
เวอร์ชันใหม่นี้ถูกออกแบบผ่าน ความร่วมมือกับนักวิทยาศาสตร์และนักวิจัย เพื่อจัดการปัญหาซับซ้อนที่มีข้อมูลไม่สมบูรณ์หรือไม่มีคำตอบที่ชัดเจน
ทำผลงานได้ในระดับ เหรียญทอง ในโอลิมปิกและเบนช์มาร์กระดับนานาชาติหลากหลายสาขา เช่น คณิตศาสตร์ การเขียนโปรแกรม ฟิสิกส์ และเคมี
รองรับ งานวิจัยจริงและการประยุกต์ใช้ด้านวิศวกรรม พร้อมความสามารถใช้งานจริง เช่น สร้างโมเดลที่พิมพ์ 3D ได้จากสเก็ตช์
ใช้งานได้ผ่านผู้สมัครสมาชิก Google AI Ultra และ โปรแกรมเข้าถึงล่วงหน้าของ Gemini API โดยมีแผนขยายให้แก่นักวิจัยและองค์กรต่อไป

ภาพรวมสำคัญของ Gemini 3 Deep Think

Gemini 3 Deep Think คือ โหมดการให้เหตุผลเฉพาะทาง ที่ออกแบบมาเพื่อ แก้โจทย์ท้าทายสมัยใหม่ในด้านวิทยาศาสตร์ การวิจัย และวิศวกรรม
- Google ทำงานร่วมกับนักวิทยาศาสตร์และนักวิจัยอย่างใกล้ชิด เพื่อเสริมความสามารถในการจัดการปัญหาที่ไม่มีคำตอบชัดเจนหรือมีข้อมูลไม่สมบูรณ์
- ผสาน ความรู้เชิงทฤษฎีและการนำไปใช้ด้านวิศวกรรมในทางปฏิบัติ เพื่อพัฒนาเป็นโมเดลที่เน้นการใช้งานจริง
การอัปเกรดครั้งนี้เปิดให้ผู้สมัครสมาชิก Google AI Ultra ใช้งานผ่าน แอป Gemini และนักวิจัย วิศวกร และองค์กรสามารถสมัครเข้าถึงล่วงหน้าผ่าน Gemini API ได้

กรณีใช้งานจากผู้ใช้กลุ่มแรก

Lisa Carbone นักคณิตศาสตร์จาก Rutgers University ใช้ Deep Think เพื่อตรวจทานบทความคณิตศาสตร์ที่เกี่ยวข้องกับฟิสิกส์พลังงานสูง และพบ ข้อผิดพลาดเชิงตรรกะ ที่ผ่านการตรวจทานโดยมนุษย์มาแล้ว
Wang Lab แห่ง Duke University ปรับกระบวนการเติบโตของผลึกที่ซับซ้อนให้เหมาะสมเพื่อค้นหาวัสดุสารกึ่งตัวนำ และออกแบบ สูตรการเติบโตของฟิล์มบางขนาดมากกว่า 100μm
Anupam Pathak จากฝ่าย Platforms & Devices ของ Google ทดสอบ Deep Think เพื่อเร่งการออกแบบชิ้นส่วนทางกายภาพ

เพิ่มความแม่นยำทางคณิตศาสตร์และอัลกอริทึม

Deep Think ทำผลงานระดับเหรียญทองใน การแข่งขันคณิตศาสตร์โอลิมปิกนานาชาติ และ การแข่งขันเขียนโปรแกรมสำหรับนักศึกษามหาวิทยาลัยระดับนานาชาติ
เวอร์ชันล่าสุดทำสถิติสูงสุดใน เบนช์มาร์กเชิงวิชาการ ดังนี้
- Humanity’s Last Exam: 48.4% (ไม่ใช้เครื่องมือ)
- ARC-AGI-2: 84.6% (รับรองโดย ARC Prize Foundation)
- Codeforces: Elo 3455
- International Math Olympiad 2025: ผลงานระดับเหรียญทอง
Deep Think ยังถูกนำไปใช้ในการพัฒนา เอเจนต์เฉพาะทางที่ทำการสำรวจทางคณิตศาสตร์ ด้วย

สำรวจขอบเขตวิทยาศาสตร์ที่ซับซ้อน

นอกเหนือจากคณิตศาสตร์และการเขียนโปรแกรมแล้ว ยังมีประสิทธิภาพที่ดีขึ้นใน วิทยาศาสตร์โดยรวม เช่น เคมีและฟิสิกส์
- ในส่วนข้อเขียนของ โอลิมปิกฟิสิกส์และเคมีนานาชาติปี 2025 ทำผลลัพธ์ได้ในระดับเหรียญทอง
- ทำคะแนนได้ 50.5% ใน CMT-Benchmark ซึ่งเป็นเบนช์มาร์กด้านฟิสิกส์ทฤษฎี
ประสิทธิภาพเหล่านี้พิสูจน์ให้เห็นถึง การขยายความสามารถด้านการให้เหตุผลเชิงวิทยาศาสตร์ ของ Deep Think

เร่งงานวิศวกรรมในโลกจริง

Deep Think รองรับ การตีความข้อมูลที่ซับซ้อน และ การสร้างแบบจำลองระบบทางกายภาพ โดยมุ่งให้ใช้งานได้จริงสำหรับนักวิจัยและวิศวกร
กำลังขยายการเข้าถึงในสภาพแวดล้อมการวิจัยจริงผ่าน Gemini API
ตัวอย่างเช่น ผู้ใช้สามารถ ป้อนสเก็ตช์เพื่อสร้างโมเดลที่พิมพ์ 3D ได้ และ Deep Think จะทำการวิเคราะห์ สร้างแบบจำลอง และสร้างไฟล์ให้ครบ

การเข้าถึงและการใช้งาน

ผู้สมัครสมาชิก Google AI Ultra สามารถใช้ Deep Think ได้ทันทีในแอป Gemini
นักวิจัย วิศวกร และองค์กร สามารถสมัครเข้าร่วม โปรแกรมเข้าถึงล่วงหน้า ผ่าน Gemini API ได้
Google คาดหวังว่า Deep Think จะช่วยให้เกิดการค้นพบทางวิทยาศาสตร์และกรณีการใช้งานใหม่ ๆ มากขึ้น

1 ความคิดเห็น

GN⁺ 2026-02-13

ความเห็นบน Hacker News

คะแนน Arc-AGI-2 สูงถึง 84.6% น่าทึ่งมาก
ในบล็อกโพสต์อย่างเป็นทางการมีรายละเอียดของ Gemini 3 Deep Think อยู่
- ก่อนหน้านี้ก็รู้สึกมาตลอดว่า Gemini 3 มีความ อเนกประสงค์ (general) จนน่าเหลือเชื่อ
  มันสามารถชนะ Balatro (ante 8) ได้ด้วยคำอธิบายเป็นข้อความอย่างเดียว แม้สำหรับมนุษย์จะไม่ใช่เรื่องยาก แต่การที่ LLM ทำได้โดยไม่มีการฝึกเฉพาะทางก็น่าทึ่งมาก
  ทดสอบใน Balatro Bench แล้ว Deepseek เล่นเกมนี้ไม่ได้เลย
- แค่เมื่อ 1 ปีก่อน คะแนนบนเบนช์มาร์กนี้ยังอยู่แค่ราว 1~10% แต่ตอนนี้ขึ้นมาจนแทบเรียกได้ว่าเป็นระดับ AGI แล้ว ไม่น่าเชื่อจริงๆ
- คะแนน ARC-AGI ที่เพิ่มขึ้นนั้นน่าสนใจ แต่การมองว่านี่คือ การกระโดดของ ‘ปัญญาทั่วไป’ ก็ดูเกินจริงไป
  ผมชอบล้อว่า G ใน ARC-AGI หมายถึง ‘graphical’ ก่อนหน้านี้โมเดลอ่อนเรื่องการให้เหตุผลเชิงพื้นที่ (spatial reasoning) และดูเหมือนว่าคราวนี้จะแก้จุดนั้นได้แล้ว
  ใน ARC-AGI 3 ก็หวังว่าจะมี โจทย์แบบเกมที่อาศัยการลองผิดลองถูก เพิ่มเข้ามา
- ถ้าดูARC Prize leaderboard ตอนนี้ต้นทุนอยู่ที่ประมาณ $13.62 ต่อโจทย์
  ในทางปฏิบัติคงต้องรออีก 5~10 ปี ต้นทุนรันถึงจะลงมาอยู่ในระดับสมเหตุสมผล
  แต่ก็ยังสงสัยว่าโมเดลนี้ ฟิตกับเบนช์มาร์กมากเกินไป (overfitting) หรือเปล่า
- ถ้าจะเทียบกันอย่างยุติธรรม ก็ควรเทียบกับโมเดลระดับเดียวกันอย่าง GPT-5.x Pro
รู้สึกว่าความเร็วในการปล่อยโมเดลนั้น เร็วผิดปกติขึ้นเรื่อยๆ
แค่วันนี้ก็มีทั้ง Gemini 3 Deep Think และ GPT 5.3 Codex Spark ออกมาแล้ว ไม่กี่วันก่อนหน้านั้นก็มี Opus 4.6, GLM5, MiniMax M2.5
- ดูเหมือนช่วงตรุษจีนจะมีผลอยู่เหมือนกัน
  สถาบันวิจัยในจีนมักปล่อยโมเดลช่วงนี้ ส่วนสถาบันวิจัยในสหรัฐก็น่าจะรีบเปิดตัวโมเดลที่แรงกว่าเพื่อหลีกเลี่ยงผลกระทบแบบ DeepSeek R1 (20 มกราคม 2025)
- ทุกวันนี้มีโมเดลเยอะเกินไปจน แทบแยกไม่ออกแล้ว
  Gemini 3 Deep Think ดูไม่ใช่โมเดลใหม่ทั้งหมด แต่เหมือนเป็น Gemini 3 Pro ที่เพิ่ม ความสามารถด้านการให้เหตุผล (subagent) เข้าไป
  และยังเชื่อมกับเฟรมเวิร์กเอเจนต์ภายนอกอย่าง OpenClaw ได้ด้วย ดังนั้นกระแสถกเถียงเรื่อง ‘agent workflow’ อาจจะถูกพูดเกินจริงไป
- ไม่กี่สัปดาห์ที่ผ่านมาเป็นช่วงที่ วงจรการเปิดตัวระเบิดสุดๆ จริงๆ
- ถ้าจะสรุปสั้นๆ คำเดียวก็คือ Fast takeoff
Google กำลัง นำอยู่แบบชัดเจน
คนเคยคิดว่าพวกเขาตามหลัง แต่กลับกลายเป็นว่านั่นอาจเป็นกลยุทธ์ที่ดีที่สุด
- โมเดลน่าประทับใจ แต่ คุณภาพของผลิตภัณฑ์แย่มาก
  ผมใช้ Gemini web/CLI มาสองเดือนแล้ว ระหว่างคุยมันหลุดบริบทบ่อย ถ้าถามเรื่องการปรับปรุงคุณภาพอากาศก็จะตอบเป็นรายชื่อเครื่องฟอกอากาศแบบไม่เกี่ยวกับบริบท
  บางครั้งถึงขั้นอ้างเว็บโฆษณาชวนเชื่อของรัสเซีย หรือจู่ๆ ก็สลับเป็นภาษาจีนกลางประโยค
  คุณภาพแบบนี้จ่ายเดือนละ 20 ยูโรไม่คุ้มเลย
- ปกติ Google มักช้าและเป็นระบบราชการ แต่ Google ในโหมดสงคราม ทำงานได้เร็วอย่างน่าทึ่ง
- อีกไม่กี่ชั่วโมง OpenAI ก็คงปล่อยอะไรออกมาอีก การแข่งขันแบบนี้สนุกดี
  คนที่เคยบอกว่า ARC-AGI-2 คือขีดจำกัดของ LLM ตอนนี้ก็คงเปลี่ยนเกณฑ์กันอีก
  ดูเหมือนความพยายามส่วนใหญ่ของมนุษย์จะถูกใช้ไปกับการพิสูจน์ว่า “AI ยังไม่ใช่ AGI”
- ถึงอย่างนั้นในแง่ การใช้งานจริงในโลกความเป็นจริง Google ก็ยังตามหลังอยู่
  Gemini 3 Pro ยังมีปัญหาอยู่มาก
ผมกำลังใช้ Gemini 3 Pro ทำ โครงการดิจิไทซ์เอกสารประวัติศาสตร์
เป็นการสแกนบันทึกการประชุมลายมือภาษาเยอรมันช่วงปี 1885~1974 แล้วถอดความและแปลทีละหน้า
ตอนนี้ประมวลผลไปแล้วประมาณ 2,370 หน้า, ความแม่นยำ 95% และค่า API อยู่ที่ราว $50
ยังต้องตรวจทานด้วยมือ แต่ ประหยัดเวลาได้มหาศาล
- อาจเพียงพอแม้ทำแค่รอบเดียว ดังนั้นหลังตรวจทานแล้วก็น่าจะต้องประเมินประสิทธิภาพโดยรวมอีกครั้ง
โดยสัญชาตญาณของผม โมเดลมีอยู่สามสเปกตรัม
คือ แบบไม่ใช้การคิด, แบบใช้การคิด, และ แบบ best-of-N (Deep Think, GPT Pro)
ความซับซ้อนในการคำนวณเพิ่มขึ้นประมาณเชิงเส้น, กำลังสอง, และกำลังสามตามลำดับ
โมเดลแบบใช้การคิดสามารถแก้ปัญหาที่ต้อง เขียน scratchpad ได้
- ขั้นต่อไปน่าจะเป็น agent swarm
  คือมีโมเดลผู้จัดการรับพรอมป์ต์ แล้วสร้างเอเจนต์ย่อยหลายตัวมาลองแบบขนาน ประเมินผล แล้วกระจายงานใหม่
- จุดสำคัญของโมเดลแบบ best-of-N คือ การใช้คอนเท็กซ์ยาว
  Google ตั้งแต่เวอร์ชัน 2.5 ก็จัดการบริบทยาวได้ดีอย่างใช้งานได้จริงแล้ว
  แนวคิด pass@N ก็น่าสนใจมาก เหมาะกับงานค้นหาเชิงสำรวจที่ เปลี่ยนเวลาเป็นเงิน เช่น การหาช่องโหว่ความปลอดภัยหรือปัญหาการหาค่าเหมาะที่สุด
- สำหรับคำถามที่ว่าโมเดลใหญ่แบบไม่ใช้การคิดจะให้ผลงานเท่ากับโมเดลเล็กแบบใช้การคิดได้ไหม โมเดลของ Anthropic เป็นตัวอย่างที่ดี
  ในภาพนี้ Opus 4.6 แสดงประสิทธิภาพสูงได้แม้ไม่มีการคิด
PDF วิธีประเมินผลของทุกเบนช์มาร์กอยู่ที่นี่
คะแนน ARC-AGI-2 ที่ 84.6% นั้นอิงจาก ชุด semi-private และ
ถ้าทำได้เกิน 85% บนชุด private จะถือว่า “solved” และได้รับ เงินรางวัล $700K
ดูคู่มือ ARC Prize เพิ่มเติม
- ถ้าดูจากชื่อเอกสารที่ใช้คำว่า “Gemini 3.1 Pro” ก็เหมือนว่าจะมีเวอร์ชันใหม่ออกมาเร็วๆ นี้
- แต่ก็น่าจะยากที่จะเกิน 85% บนชุด private เพราะนั่นอาจหมายถึง ข้อมูลรั่วไหล
ทุกวันนี้โมเดลพัฒนา เร็วมากเกินไป จนรู้สึกว่างานของผมอาจหายไปในอีก 3~5 ปี
ตอนนี้ดูเหมือน LLM จะเข้าสู่ช่วงที่พัฒนาตัวเองได้แล้ว
เสียดายที่ไม่มีบน OpenRouter
ตอนนี้โมเดล Deep Think ระดับท็อปมักถูกปิดไว้ให้ใช้ได้เฉพาะบนแพลตฟอร์มของตัวเอง
- OpenRouter ก็ดี แต่ litellm เป็นแค่ไลบรารี Python ธรรมดา เลยดูสะอาดกว่ามาก
  ดูเอกสาร litellm ได้
- แต่ตอนนี้ก็รู้สึกเหมือน ยุคทอง (golden age) จบลงแล้ว
Gemini ให้ความรู้สึกเหมือนเป็น โมเดลที่ความรู้แน่นแต่ยืดหยุ่นน้อย มาโดยตลอด
ถ้าขออะไรที่อยู่นอกสคริปต์ก็มักพังง่าย
- จริงๆ แล้วประสบการณ์แบบนี้อาจเป็นเรื่องของ การปรับตัวของผู้ใช้ ก็ได้
  ผมใช้โมเดลของ Google มานาน เลยรู้สึกว่าโมเดลของ OpenAI แย่กว่ามาก
  ฝั่งผู้ใช้ OpenAI ก็คงรู้สึกว่าโมเดลของตัวเองดีที่สุดด้วยเหตุผลเดียวกัน
- ในบางแง่ Gemini ก็เหมือนเป็น โมเดลที่คิดในแบบของตัวเอง
  ยังไม่ได้ลองทดสอบ แต่ความสามารถในการทำตามคำสั่งอาจดีขึ้นแล้วก็ได้
น่าทึ่งที่ความเร็วในการพัฒนาโมเดลสูงขนาดนี้
เคยคิดว่าน่าจะชนกำแพงแล้ว แต่โมเดลใหม่ๆ กลับ ทำลายเบนช์มาร์กเดิมแบบหมดรูป
- แต่ในขณะที่บริษัทต่างๆ มุ่ง ปรับคะแนนเบนช์มาร์กให้ดีที่สุด ความสัมพันธ์กับประสิทธิภาพจริงก็ยิ่งลดลงเรื่อยๆ

เปิดตัว Gemini 3 Deep Think

ภาพรวมสำคัญของ Gemini 3 Deep Think

กรณีใช้งานจากผู้ใช้กลุ่มแรก

เพิ่มความแม่นยำทางคณิตศาสตร์และอัลกอริทึม

สำรวจขอบเขตวิทยาศาสตร์ที่ซับซ้อน

เร่งงานวิศวกรรมในโลกจริง

การเข้าถึงและการใช้งาน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นบน Hacker News