- Gemini 3 Deep Think โมเดล AI ของ Google ที่มุ่งแก้ปัญหา ด้านวิทยาศาสตร์ การวิจัย และวิศวกรรม ได้รับการอัปเกรดครั้งใหญ่
- เวอร์ชันใหม่นี้ถูกออกแบบผ่าน ความร่วมมือกับนักวิทยาศาสตร์และนักวิจัย เพื่อจัดการปัญหาซับซ้อนที่มีข้อมูลไม่สมบูรณ์หรือไม่มีคำตอบที่ชัดเจน
- ทำผลงานได้ในระดับ เหรียญทอง ในโอลิมปิกและเบนช์มาร์กระดับนานาชาติหลากหลายสาขา เช่น คณิตศาสตร์ การเขียนโปรแกรม ฟิสิกส์ และเคมี
- รองรับ งานวิจัยจริงและการประยุกต์ใช้ด้านวิศวกรรม พร้อมความสามารถใช้งานจริง เช่น สร้างโมเดลที่พิมพ์ 3D ได้จากสเก็ตช์
- ใช้งานได้ผ่านผู้สมัครสมาชิก Google AI Ultra และ โปรแกรมเข้าถึงล่วงหน้าของ Gemini API โดยมีแผนขยายให้แก่นักวิจัยและองค์กรต่อไป
ภาพรวมสำคัญของ Gemini 3 Deep Think
- Gemini 3 Deep Think คือ โหมดการให้เหตุผลเฉพาะทาง ที่ออกแบบมาเพื่อ แก้โจทย์ท้าทายสมัยใหม่ในด้านวิทยาศาสตร์ การวิจัย และวิศวกรรม
- Google ทำงานร่วมกับนักวิทยาศาสตร์และนักวิจัยอย่างใกล้ชิด เพื่อเสริมความสามารถในการจัดการปัญหาที่ไม่มีคำตอบชัดเจนหรือมีข้อมูลไม่สมบูรณ์
- ผสาน ความรู้เชิงทฤษฎีและการนำไปใช้ด้านวิศวกรรมในทางปฏิบัติ เพื่อพัฒนาเป็นโมเดลที่เน้นการใช้งานจริง
- การอัปเกรดครั้งนี้เปิดให้ผู้สมัครสมาชิก Google AI Ultra ใช้งานผ่าน แอป Gemini และนักวิจัย วิศวกร และองค์กรสามารถสมัครเข้าถึงล่วงหน้าผ่าน Gemini API ได้
กรณีใช้งานจากผู้ใช้กลุ่มแรก
- Lisa Carbone นักคณิตศาสตร์จาก Rutgers University ใช้ Deep Think เพื่อตรวจทานบทความคณิตศาสตร์ที่เกี่ยวข้องกับฟิสิกส์พลังงานสูง และพบ ข้อผิดพลาดเชิงตรรกะ ที่ผ่านการตรวจทานโดยมนุษย์มาแล้ว
- Wang Lab แห่ง Duke University ปรับกระบวนการเติบโตของผลึกที่ซับซ้อนให้เหมาะสมเพื่อค้นหาวัสดุสารกึ่งตัวนำ และออกแบบ สูตรการเติบโตของฟิล์มบางขนาดมากกว่า 100μm
- Anupam Pathak จากฝ่าย Platforms & Devices ของ Google ทดสอบ Deep Think เพื่อเร่งการออกแบบชิ้นส่วนทางกายภาพ
เพิ่มความแม่นยำทางคณิตศาสตร์และอัลกอริทึม
- Deep Think ทำผลงานระดับเหรียญทองใน การแข่งขันคณิตศาสตร์โอลิมปิกนานาชาติ และ การแข่งขันเขียนโปรแกรมสำหรับนักศึกษามหาวิทยาลัยระดับนานาชาติ
- เวอร์ชันล่าสุดทำสถิติสูงสุดใน เบนช์มาร์กเชิงวิชาการ ดังนี้
- Humanity’s Last Exam: 48.4% (ไม่ใช้เครื่องมือ)
- ARC-AGI-2: 84.6% (รับรองโดย ARC Prize Foundation)
- Codeforces: Elo 3455
- International Math Olympiad 2025: ผลงานระดับเหรียญทอง
- Deep Think ยังถูกนำไปใช้ในการพัฒนา เอเจนต์เฉพาะทางที่ทำการสำรวจทางคณิตศาสตร์ ด้วย
สำรวจขอบเขตวิทยาศาสตร์ที่ซับซ้อน
- นอกเหนือจากคณิตศาสตร์และการเขียนโปรแกรมแล้ว ยังมีประสิทธิภาพที่ดีขึ้นใน วิทยาศาสตร์โดยรวม เช่น เคมีและฟิสิกส์
- ในส่วนข้อเขียนของ โอลิมปิกฟิสิกส์และเคมีนานาชาติปี 2025 ทำผลลัพธ์ได้ในระดับเหรียญทอง
- ทำคะแนนได้ 50.5% ใน CMT-Benchmark ซึ่งเป็นเบนช์มาร์กด้านฟิสิกส์ทฤษฎี
- ประสิทธิภาพเหล่านี้พิสูจน์ให้เห็นถึง การขยายความสามารถด้านการให้เหตุผลเชิงวิทยาศาสตร์ ของ Deep Think
เร่งงานวิศวกรรมในโลกจริง
- Deep Think รองรับ การตีความข้อมูลที่ซับซ้อน และ การสร้างแบบจำลองระบบทางกายภาพ โดยมุ่งให้ใช้งานได้จริงสำหรับนักวิจัยและวิศวกร
- กำลังขยายการเข้าถึงในสภาพแวดล้อมการวิจัยจริงผ่าน Gemini API
- ตัวอย่างเช่น ผู้ใช้สามารถ ป้อนสเก็ตช์เพื่อสร้างโมเดลที่พิมพ์ 3D ได้ และ Deep Think จะทำการวิเคราะห์ สร้างแบบจำลอง และสร้างไฟล์ให้ครบ
การเข้าถึงและการใช้งาน
- ผู้สมัครสมาชิก Google AI Ultra สามารถใช้ Deep Think ได้ทันทีในแอป Gemini
- นักวิจัย วิศวกร และองค์กร สามารถสมัครเข้าร่วม โปรแกรมเข้าถึงล่วงหน้า ผ่าน Gemini API ได้
- Google คาดหวังว่า Deep Think จะช่วยให้เกิดการค้นพบทางวิทยาศาสตร์และกรณีการใช้งานใหม่ ๆ มากขึ้น
1 ความคิดเห็น
ความเห็นบน Hacker News
คะแนน Arc-AGI-2 สูงถึง 84.6% น่าทึ่งมาก
ในบล็อกโพสต์อย่างเป็นทางการมีรายละเอียดของ Gemini 3 Deep Think อยู่
มันสามารถชนะ Balatro (ante 8) ได้ด้วยคำอธิบายเป็นข้อความอย่างเดียว แม้สำหรับมนุษย์จะไม่ใช่เรื่องยาก แต่การที่ LLM ทำได้โดยไม่มีการฝึกเฉพาะทางก็น่าทึ่งมาก
ทดสอบใน Balatro Bench แล้ว Deepseek เล่นเกมนี้ไม่ได้เลย
ผมชอบล้อว่า G ใน ARC-AGI หมายถึง ‘graphical’ ก่อนหน้านี้โมเดลอ่อนเรื่องการให้เหตุผลเชิงพื้นที่ (spatial reasoning) และดูเหมือนว่าคราวนี้จะแก้จุดนั้นได้แล้ว
ใน ARC-AGI 3 ก็หวังว่าจะมี โจทย์แบบเกมที่อาศัยการลองผิดลองถูก เพิ่มเข้ามา
ในทางปฏิบัติคงต้องรออีก 5~10 ปี ต้นทุนรันถึงจะลงมาอยู่ในระดับสมเหตุสมผล
แต่ก็ยังสงสัยว่าโมเดลนี้ ฟิตกับเบนช์มาร์กมากเกินไป (overfitting) หรือเปล่า
รู้สึกว่าความเร็วในการปล่อยโมเดลนั้น เร็วผิดปกติขึ้นเรื่อยๆ
แค่วันนี้ก็มีทั้ง Gemini 3 Deep Think และ GPT 5.3 Codex Spark ออกมาแล้ว ไม่กี่วันก่อนหน้านั้นก็มี Opus 4.6, GLM5, MiniMax M2.5
สถาบันวิจัยในจีนมักปล่อยโมเดลช่วงนี้ ส่วนสถาบันวิจัยในสหรัฐก็น่าจะรีบเปิดตัวโมเดลที่แรงกว่าเพื่อหลีกเลี่ยงผลกระทบแบบ DeepSeek R1 (20 มกราคม 2025)
Gemini 3 Deep Think ดูไม่ใช่โมเดลใหม่ทั้งหมด แต่เหมือนเป็น Gemini 3 Pro ที่เพิ่ม ความสามารถด้านการให้เหตุผล (subagent) เข้าไป
และยังเชื่อมกับเฟรมเวิร์กเอเจนต์ภายนอกอย่าง OpenClaw ได้ด้วย ดังนั้นกระแสถกเถียงเรื่อง ‘agent workflow’ อาจจะถูกพูดเกินจริงไป
Google กำลัง นำอยู่แบบชัดเจน
คนเคยคิดว่าพวกเขาตามหลัง แต่กลับกลายเป็นว่านั่นอาจเป็นกลยุทธ์ที่ดีที่สุด
ผมใช้ Gemini web/CLI มาสองเดือนแล้ว ระหว่างคุยมันหลุดบริบทบ่อย ถ้าถามเรื่องการปรับปรุงคุณภาพอากาศก็จะตอบเป็นรายชื่อเครื่องฟอกอากาศแบบไม่เกี่ยวกับบริบท
บางครั้งถึงขั้นอ้างเว็บโฆษณาชวนเชื่อของรัสเซีย หรือจู่ๆ ก็สลับเป็นภาษาจีนกลางประโยค
คุณภาพแบบนี้จ่ายเดือนละ 20 ยูโรไม่คุ้มเลย
คนที่เคยบอกว่า ARC-AGI-2 คือขีดจำกัดของ LLM ตอนนี้ก็คงเปลี่ยนเกณฑ์กันอีก
ดูเหมือนความพยายามส่วนใหญ่ของมนุษย์จะถูกใช้ไปกับการพิสูจน์ว่า “AI ยังไม่ใช่ AGI”
Gemini 3 Pro ยังมีปัญหาอยู่มาก
ผมกำลังใช้ Gemini 3 Pro ทำ โครงการดิจิไทซ์เอกสารประวัติศาสตร์
เป็นการสแกนบันทึกการประชุมลายมือภาษาเยอรมันช่วงปี 1885~1974 แล้วถอดความและแปลทีละหน้า
ตอนนี้ประมวลผลไปแล้วประมาณ 2,370 หน้า, ความแม่นยำ 95% และค่า API อยู่ที่ราว $50
ยังต้องตรวจทานด้วยมือ แต่ ประหยัดเวลาได้มหาศาล
โดยสัญชาตญาณของผม โมเดลมีอยู่สามสเปกตรัม
คือ แบบไม่ใช้การคิด, แบบใช้การคิด, และ แบบ best-of-N (Deep Think, GPT Pro)
ความซับซ้อนในการคำนวณเพิ่มขึ้นประมาณเชิงเส้น, กำลังสอง, และกำลังสามตามลำดับ
โมเดลแบบใช้การคิดสามารถแก้ปัญหาที่ต้อง เขียน scratchpad ได้
คือมีโมเดลผู้จัดการรับพรอมป์ต์ แล้วสร้างเอเจนต์ย่อยหลายตัวมาลองแบบขนาน ประเมินผล แล้วกระจายงานใหม่
Google ตั้งแต่เวอร์ชัน 2.5 ก็จัดการบริบทยาวได้ดีอย่างใช้งานได้จริงแล้ว
แนวคิด pass@N ก็น่าสนใจมาก เหมาะกับงานค้นหาเชิงสำรวจที่ เปลี่ยนเวลาเป็นเงิน เช่น การหาช่องโหว่ความปลอดภัยหรือปัญหาการหาค่าเหมาะที่สุด
ในภาพนี้ Opus 4.6 แสดงประสิทธิภาพสูงได้แม้ไม่มีการคิด
PDF วิธีประเมินผลของทุกเบนช์มาร์กอยู่ที่นี่
คะแนน ARC-AGI-2 ที่ 84.6% นั้นอิงจาก ชุด semi-private และ
ถ้าทำได้เกิน 85% บนชุด private จะถือว่า “solved” และได้รับ เงินรางวัล $700K
ดูคู่มือ ARC Prize เพิ่มเติม
ทุกวันนี้โมเดลพัฒนา เร็วมากเกินไป จนรู้สึกว่างานของผมอาจหายไปในอีก 3~5 ปี
ตอนนี้ดูเหมือน LLM จะเข้าสู่ช่วงที่พัฒนาตัวเองได้แล้ว
เสียดายที่ไม่มีบน OpenRouter
ตอนนี้โมเดล Deep Think ระดับท็อปมักถูกปิดไว้ให้ใช้ได้เฉพาะบนแพลตฟอร์มของตัวเอง
ดูเอกสาร litellm ได้
Gemini ให้ความรู้สึกเหมือนเป็น โมเดลที่ความรู้แน่นแต่ยืดหยุ่นน้อย มาโดยตลอด
ถ้าขออะไรที่อยู่นอกสคริปต์ก็มักพังง่าย
ผมใช้โมเดลของ Google มานาน เลยรู้สึกว่าโมเดลของ OpenAI แย่กว่ามาก
ฝั่งผู้ใช้ OpenAI ก็คงรู้สึกว่าโมเดลของตัวเองดีที่สุดด้วยเหตุผลเดียวกัน
ยังไม่ได้ลองทดสอบ แต่ความสามารถในการทำตามคำสั่งอาจดีขึ้นแล้วก็ได้
น่าทึ่งที่ความเร็วในการพัฒนาโมเดลสูงขนาดนี้
เคยคิดว่าน่าจะชนกำแพงแล้ว แต่โมเดลใหม่ๆ กลับ ทำลายเบนช์มาร์กเดิมแบบหมดรูป