Gemini 3 - Google เปิดตัวโมเดล AI Gemini รุ่นล่าสุด

(blog.google)

19 คะแนน โดย GN⁺ 2025-11-19 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

Google เปิดตัว Gemini 3 โมเดล AI ที่ฉลาดที่สุด มาพร้อม ความสามารถด้านการให้เหตุผลและความเข้าใจแบบมัลติโหมด ที่ดีขึ้น
Gemini 3 Pro ทำผลงานได้ ดีที่สุดในทุกเบนช์มาร์กหลักเมื่อเทียบกับรุ่นก่อน และรองรับอินพุตหลากหลายทั้งข้อความ ภาพ วิดีโอ และโค้ด
โหมด Deep Think เพิ่มความสามารถด้านการให้เหตุผลขั้นสูงสำหรับการแก้ปัญหาที่ซับซ้อน และจะทยอยเปิดให้สมาชิก Ultra ใช้งาน
Gemini 3 รองรับทั้ง การเรียนรู้ การพัฒนา และการวางแผน และใช้งานได้บน Google Search, แอป Gemini, AI Studio, Vertex AI และบริการอื่น ๆ
Google เร่งการเปลี่ยนผ่านสู่ยุคของ เอเจนต์อัจฉริยะและ AI แบบเฉพาะบุคคล ผ่าน Gemini 3

ภาพรวมของ Gemini 3

Gemini 3 คือ โมเดล AI ที่ฉลาดที่สุด ที่ Google พัฒนาขึ้น เพื่อช่วยให้ผู้ใช้ทำไอเดียใด ๆ ให้เป็นจริงได้
ผสาน ความเข้าใจแบบมัลติโหมด กับความสามารถ Agentic Coding เพื่อประมวลผลอินพุตที่หลากหลาย ทั้งข้อความ ภาพ วิดีโอ เสียง และโค้ด แบบรวมศูนย์
Gemini 3 Pro ใช้งานได้ทั่วทั้งอีโคซิสเต็มของ Google เช่น AI Studio, Vertex AI, แอป Gemini และแพลตฟอร์ม Google Antigravity
โหมด Deep Think รองรับการแก้ปัญหาที่ซับซ้อนด้วยความสามารถด้านการให้เหตุผลที่ดีขึ้น และมีแผนเปิดให้สมาชิก Google AI Ultra ใช้งาน

ข้อความจาก CEO

Sundar Pichai กล่าวถึงผลงานตลอด 2 ปีนับตั้งแต่เริ่มโครงการ Gemini เช่น ผู้ใช้ AI Overviews ต่อเดือน 2 พันล้านคน, ผู้ใช้แอป Gemini 650 ล้านคน และ นักพัฒนาที่เข้าร่วมมากกว่า 130,000 คน
โครงสร้าง นวัตกรรม AI แบบฟูลสแตก ของ Google (โครงสร้างพื้นฐาน–งานวิจัย–โมเดล–ผลิตภัณฑ์) ช่วยให้เทคโนโลยีแพร่กระจายได้อย่างรวดเร็ว
Gemini 3 เป็นโมเดลที่ รวมความสามารถด้านมัลติโหมด การให้เหตุผล และการทำงานแบบเอเจนต์จากรุ่นก่อนหน้าเข้าด้วยกัน ทำให้เข้าใจเจตนาและบริบทของผู้ใช้ได้แม่นยำยิ่งขึ้น
Gemini 3 เปิดตัวพร้อมกันบน AI Mode ของ Search, แอป Gemini, AI Studio, Vertex AI และ Google Antigravity

ประสิทธิภาพของ Gemini 3 Pro

Gemini 3 Pro ทำผลงานได้ เหนือกว่า 2.5 Pro ในทุกเบนช์มาร์ก AI หลัก
- ทำได้ 1501 Elo บนลีดเดอร์บอร์ด LMArena, 37.5% ใน Humanity’s Last Exam, 91.9% ใน GPQA Diamond และ 23.4% ใน MathArena Apex
- ในเบนช์มาร์กมัลติโหมดทำได้ 81% ใน MMMU-Pro, 87.6% ใน Video-MMMU และ 72.1% ใน SimpleQA Verified
ให้คำตอบที่ แม่นยำและกระชับ และนำไปใช้ได้ทั้งการทำภาพแนวคิดทางวิทยาศาสตร์ให้เข้าใจง่าย หรือการทำไอเดียสร้างสรรค์ให้เป็นรูปธรรม
ตัวอย่างเช่น สามารถ สร้างโค้ดแสดงภาพการไหลของพลาสมาในโทคาแมค และ แต่งบทกวีในหัวข้อฟิสิกส์ฟิวชันนิวเคลียร์ ได้

Gemini 3 Deep Think

โหมด Deep Think ช่วย ยกระดับความสามารถด้านการให้เหตุผลและความเข้าใจแบบมัลติโหมดของ Gemini 3 ไปอีกขั้น
- ทำได้ 41.0% ใน Humanity’s Last Exam, 93.8% ใน GPQA Diamond และ 45.1% ใน ARC-AGI-2 ซึ่งอยู่ในระดับแนวหน้า
แสดงให้เห็นถึง ความสามารถด้านการให้เหตุผลขั้นสูง สำหรับการแก้ปัญหาซับซ้อนและความท้าทายรูปแบบใหม่

การเรียนรู้ (Learn anything)

Gemini 3 รองรับการเรียนรู้ด้วย หน้าต่างบริบท 1 ล้านโทเค็น และ การให้เหตุผลแบบมัลติโหมด
- แปลสูตรอาหารที่เขียนด้วยลายมือและจัดทำเป็นหนังสือทำอาหารดิจิทัล
- สรุปเลกเชอร์หรือบทความวิชาการขนาดยาว พร้อมสร้าง แฟลชการ์ดแบบอินเทอร์แอ็กทีฟหรือโค้ดสำหรับการทำภาพข้อมูล
- สร้าง แผนการฝึกเฉพาะบุคคล จากการวิเคราะห์วิดีโอกีฬา
AI Mode ของ Google Search ซึ่งขับเคลื่อนด้วย Gemini 3 สามารถสร้าง เลย์เอาต์ภาพแบบสมจริงและเครื่องมือเชิงโต้ตอบ ได้แบบเรียลไทม์

การพัฒนา (Build anything)

Gemini 3 เด่นด้าน การสร้างแบบ zero-shot และ การจัดการพรอมป์ตที่ซับซ้อน โดยทำได้ 1487 Elo ใน WebDev Arena
- ทำได้ 54.2% ใน Terminal-Bench 2.0 และ 76.2% ใน SWE-bench Verified สะท้อนประสิทธิภาพที่ดีขึ้นของการใช้เครื่องมือและเอเจนต์ด้านการเขียนโค้ด
นักพัฒนาสามารถพัฒนาได้บน Google AI Studio, Vertex AI, Gemini CLI และ Google Antigravity
รองรับบนแพลตฟอร์มของบุคคลที่สาม เช่น Cursor, GitHub, JetBrains, Manus และ Replit

Google Antigravity: สภาพแวดล้อมการพัฒนาแบบเน้นเอเจนต์

Google Antigravity คือ แพลตฟอร์มพัฒนาแบบเอเจนต์ ที่ขับเคลื่อนด้วย Gemini 3 ซึ่งช่วยให้นักพัฒนาสามารถทำงานร่วมกับ AI ได้ในระดับที่ยึดตามงานเป็นศูนย์กลาง
เอเจนต์สามารถ เข้าถึงเอดิเตอร์ เทอร์มินัล และเบราว์เซอร์ได้โดยตรง เพื่อเขียน รัน และตรวจสอบโค้ดโดยอัตโนมัติ
มีการผสาน Gemini 3 Pro, โมเดล Gemini 2.5 Computer Use และ โมเดลตัดต่อภาพ Nano Banana ไว้ด้วยกัน
ตัวอย่างเช่น เอเจนต์สามารถสร้างเวิร์กโฟลว์ที่ ออกแบบ เขียนโค้ด และตรวจสอบแอปติดตามเที่ยวบินได้ด้วยตัวเอง

การวางแผน (Plan anything)

Gemini 3 เสริมความสามารถด้าน การวางแผนระยะยาว และขึ้นอันดับ 1 บน ลีดเดอร์บอร์ด Vending-Bench 2
- ในการจำลองการดำเนินธุรกิจตู้จำหน่ายสินค้าอัตโนมัติ สามารถรักษาการตัดสินใจที่มีเสถียรภาพได้ตลอด 1 ปี
รองรับ การทำงานอัตโนมัติหลายขั้นตอนที่ซับซ้อน เช่น การจัดระเบียบอีเมล หรือการจองบริการ
สมาชิก Ultra สามารถทดลองใช้ได้โดยตรงในแอป Gemini ผ่านความสามารถ Gemini Agent

การพัฒนาอย่างมีความรับผิดชอบ

Gemini 3 เป็น โมเดลที่ปลอดภัยที่สุด ในบรรดา Google AI โดยเสริมทั้ง ความทนทานต่อ prompt injection และ ความสามารถในการป้องกันการโจมตีทางไซเบอร์
มีการทดสอบภายในและประเมินโดยผู้เชี่ยวชาญภายนอกตาม Frontier Safety Framework
- มีองค์กรเข้าร่วม เช่น UK AISI, Apollo, Vaultis และ Dreadnode
เปิดเผยผลการประเมินด้านความปลอดภัยอย่างละเอียดใน Gemini 3 model card

การเริ่มต้นยุค Gemini 3

Gemini 3 เริ่มทยอยเปิดให้ใช้งานผ่านช่องทางต่อไปนี้
- แอป Gemini และ AI Mode ของ Search
- การเข้าถึงสำหรับนักพัฒนาผ่าน AI Studio, Google Antigravity และ Gemini CLI
- การใช้งานระดับองค์กรผ่าน Vertex AI และ Gemini Enterprise
โหมด Deep Think จะเปิดให้สมาชิก Ultra ใช้งานหลังผ่านการตรวจสอบด้านความปลอดภัยเพิ่มเติม
มีแผนเปิดตัวโมเดลเพิ่มเติมในซีรีส์ Gemini 3 ต่อไป และขยายต่อยอดจากฟีดแบ็กของผู้ใช้

3 ความคิดเห็น

t7vonn 2025-11-19

เทพเจมินี่ โหดจัดดด

GN⁺ 2025-11-19

ความเห็นจาก Hacker News

ลองเอา แอปเครื่องคิดเลขที่ใช้ XML แบบเก่าใส่ให้ Gemini ดู แล้วมันสร้างเว็บแอปที่สมบูรณ์ให้ได้ในเวลาไม่ถึง 1 นาที
ฉันเคยลงมือทำ คอมไพเลอร์ สำหรับแปลง XML แบบคัสตอมให้เป็นแอป Android/Swing มาหลายปี แต่ Gemini ทำได้โดยไม่ต้องมีคำอธิบายฟอร์แมตเลย
ตอนลองกับ Lovable แอปใช้งานไม่ได้จริงและมีแต่เปลืองเครดิต แต่ครั้งนี้อยู่คนละระดับไปเลย
ลิงก์ผลลัพธ์
ลองให้ Gemini ทำ โจทย์ Project Euler ล่าสุด (#970) ดู โอกาสสูงที่มันจะไม่อยู่ในข้อมูลฝึก แต่พอคิดอยู่ 5 นาที 10 วินาที มันก็ให้ โค้ด Python ที่ตอบถูกออกมา
เวลาที่มนุษย์ 3 อันดับแรกใช้แก้คือ 14 นาที, 20 นาที และ 1 ชั่วโมง 14 นาทีตามลำดับ
เดิมก็คิดว่าโจทย์แนวนี้น่าจะเป็นขอบเขตที่โมเดลถูกจูนด้วย RL มาอยู่แล้ว แต่ก็ยังน่าทึ่งที่มันแก้ปัญหาที่คนอาจใช้เวลาหลายวันได้ภายในไม่กี่นาที
- ฉันก็ลองให้ Gemini 3 Pro Preview แก้โจทย์เดียวกัน ได้ผลลัพธ์ใน 4 นาที 31 วินาที แต่คำตอบผิด
  ทั้งที่ห้ามค้นเว็บ มันกลับคืน “แหล่งที่มา” มา 8 รายการ เช่น stackexchange, youtube เป็นต้น
  ถึงอย่างนั้น insight ส่วนใหญ่ก็ถูกต้อง และถือว่าเป็นเครื่องมือที่มีประโยชน์มาก
  ลิงก์พรอมป์ต์
- ฉันกลับไปลอง โจทย์ low ของ Kattis ที่ใช้ทดสอบมานานอีกครั้ง และเป็นครั้งแรกที่ LLM ผ่าน
  ตั้งแต่ ChatGPT เป็นต้นมา ยังไม่มีโมเดลไหนทำได้ จนกระทั่ง Gemini 3 ทำสำเร็จในที่สุด
- คะแนน Elo ที่สูงของโมเดลอาจเป็นผลจากความเร็วล้วน ๆ ก็ได้
  แต่เมื่อดูผลแบบนี้แล้ว ก็รู้สึกว่าอีกไม่เกิน 10 ปี เราน่าจะได้เห็น AI ระดับ Stockfish สำหรับการแก้ปริศนา
- สำหรับข้อมูลอ้างอิง ตอนนี้โจทย์ล่าสุดคือ Project Euler #970
- พอลองด้วย gpt-5.1 thinking มันกลับไปค้นคำตอบจากอินเทอร์เน็ตตรง ๆ เลย 😅
เมื่อก่อนฉันเคยทดลองพรอมป์ต์สำหรับ วิดเจ็ตนาฬิกาอนาล็อก กับ Flash 2.5 แล้วพอเอาไปใส่ใน Gemini 3 Pro Preview ก็ได้ผลลัพธ์ที่ทำงานสมบูรณ์แบบในครั้งเดียว
ลิงก์ผลลัพธ์
- Flash 2.5 เองก็ถือว่าโอเคอยู่ มันสร้าง นาฬิกา UNIX แบบเมตริก ให้ โดยแสดงหน่วยวินาทีเป็น กิโลวินาที (kiloseconds)
  หนึ่งวันคือ 86.4ks และตอนนี้อยู่ที่เวลาประมาณ 1.76 กิกะวินาทีของ AUNIX ฉันอยากสร้างนาฬิกาจริงขนาด 20 ฟุตสักวันหนึ่ง
- ฉันทนไม่ได้ที่ไม่มี แอนิเมชัน “wiggle” ตอนเข็มวินาทีแตะเลข 12 😂
- โปรเจ็กต์นี้เป็นตัวอย่างในคอร์ส 30 Days of JavaScript ของ Wes Bos เลยมีโอกาสสูงว่าจะอยู่ในข้อมูลฝึก
- ฉันเพิ่มการปรับปรุงบางอย่างเข้าไป และสำเร็จเฉพาะ เสียงติ๊ก ในความพยายามครั้งที่สอง
  ลิงก์เวอร์ชันปรับปรุง
- พรอมป์ต์ที่อีกคนใช้เรียบง่ายกว่ามาก ของเดิมที่ฉันใช้เป็นแบบให้สร้างเฉพาะ HTML/CSS ที่มีตัวแปร ${time} อยู่ด้วย และ Gemini ก็ทำพังแบบหมดจด
  ลิงก์ตัวอย่างที่ล้มเหลว
ฉันสรุปบันทึกของตัวเองเกี่ยวกับเบนช์มาร์ก Pelican และ เวอร์ชันยากใหม่ ไว้แล้ว
บทความบล็อก
- ตอนนี้แต่ละแล็บน่าจะมี ‘คนรับผิดชอบเรื่องเพลิแกน’ กันแล้ว คงกำลังฝึกกันทั้งวันทั้งคืนเพื่อวาด SVG เพลิแกนขี่จักรยานให้เก่งขึ้น
- พวกเขาฝึกเรื่องเพลิแกนกันมาหลายเดือน แต่พอฉันเปลี่ยนเบนช์มาร์ก เป้าหมายก็เปลี่ยนตามทันที 😂
- มีโอกาสสูงที่ “เพลิแกนขี่จักรยาน” จะอยู่ในข้อมูลฝึกอยู่แล้ว
- ถึงจะบอกว่าไม่มีปัญหาเรื่อง saturation แต่ดูจากผลแล้ว เหมือนแล็บใหญ่ ๆ จะ แอบปีนเขาเพลิแกนกันอยู่ลับ ๆ
- น่าเสียดายที่ knowledge cutoff ของ Gemini 3 คือเดือนมกราคม 2025 เหมือนกับ 2.5
  เป็นไปได้ว่าพวกเขาใช้ base model เดียวกันและ ปรับปรุงแค่การจูนด้วย RL
Gemini 3 Pro Preview ล้มเหลวแบบหมดรูปกับ เบนช์มาร์ก Python พื้นฐาน ของฉัน
Gemini 2.5 Pro เข้าใกล้กว่าเล็กน้อย แต่ก็ยังตอบผิดอยู่ดี
ในทางกลับกัน gpt-5.1-thinking, Claude Sonnet 4.5 และ Opus 4.1 ผ่านทั้งหมด
พอเห็นแบบนี้ก็ยิ่งรู้สึกว่า เบนช์มาร์กไม่ใช่มาตรวัดแบบสัมบูรณ์
- การบอกว่า “เบนช์มาร์กไม่มีความหมาย” ถือว่าเกินจริงไปหน่อย มัน มีข้อจำกัด แต่ก็ยังเป็นตัวชี้วัดที่มีประโยชน์
  ถ้าเป็นโจทย์ Python แบบ “พื้นฐาน” ที่ GPT-5 thinking ยังพลาด ก็อยากรู้ว่าเป็นโจทย์แบบไหน
- การสรุปจากเบนช์มาร์กส่วนตัวเพียงอันเดียวไม่น่าเชื่อถือเท่าไร ถ้าแชร์ออกมาก็น่าจะช่วยกันตรวจสอบได้
- ฉันชอบใช้โจทย์ “สร้างเกม Pac-Man ใน HTML หน้าเดียว” เป็นการทดสอบบ่อย ๆ และ Gemini 3 ก็ล้มเหลวคล้ายกับ 2.5
- ความหมายของเบนช์มาร์กขึ้นอยู่กับคุณภาพการออกแบบ ไม่อาจตัดสินได้แค่จากการเปิดเผยหรือไม่เปิดเผย
- จากคะแนน SWEBench ที่ Google ประกาศ Gemini 3 Pro ได้ต่ำกว่า Claude Sonnet 4.5 และก็ชวนสงสัยว่า Opus 4.5 อาจทำได้ดีกว่าหรือไม่
ระหว่างจัดการปัญหาด้านการแพทย์ Gemini 2.5 Pro ตอบถูกแค่ประมาณครึ่งเดียว แต่ Gemini 3.0 แก้ได้สมบูรณ์แบบ
มันช่วยจัดระเบียบทั้งข้อบังคับ งานวิจัย และขั้นตอนการอนุมัติอย่างมีตรรกะ จน ช่วยในการตัดสินใจจริง ๆ
โมเดลแบบนี้ดูเหมือนจะเปลี่ยนชีวิตผู้คนได้จริง
ฉันขำมากที่ในโพสต์ประกาศของ Google มีปุ่ม “อ่านสรุปที่ AI สร้าง”
ขั้นต่อไปคงเป็น “ให้ AI ของเราอ่านสรุปจาก AI ของคุณ”
สุดท้ายแล้ว แม้แต่ความเชื่อก็คงถูกทำให้เป็นอัตโนมัติได้ เหมือน Electric Monk ของ Douglas Adams
- ฉันเองก็เคยจะตั้งชื่อโปรเจ็กต์ AI ในบริษัทว่า Electric Monk แต่เพราะดูอาจเป็นประเด็นเกินไปเลยเปลี่ยนเป็น Electric Mentor
- ในเรื่องนี้ การ์ตูน SMBC ช่างเหมาะเจาะมาก
- ตอนนี้อยากให้ AI ช่วยแก้ปัญหา cloud outage แบบอัตโนมัติได้แล้ว
- ดูเหมือนวันเวลาที่ AI จะมาแทน บทบาทของผู้จัดการ ไม่ใช่แค่นักพัฒนา จะมาถึงในไม่ช้า
เบนช์มาร์กที่ฉันชอบคือการสรุป ไฟล์เสียงประชุมยาว ๆ พร้อมแยกผู้พูด
Gemini 2.5 สรุปได้พอใช้ แต่การแยกผู้พูดเละเทะมาก ส่วน 3.0 ทำได้ถูกต้องสมบูรณ์
- ฉันลองกับพอดแคสต์ยาว 90 นาที แล้ว Gemini 3 กลับสร้าง คำพูดอ้างอิงหลอน และ timestamp ก็ผิดทั้งหมด
  กับเสียงยาว ๆ มันยังมีข้อจำกัดอยู่
- ถ้าใช้โมเดลเสียงเฉพาะทางอย่าง ElevenLabs หรือ Soniox จะแม่นยำกว่ามาก
- อยากรู้ว่าใช้พรอมป์ต์แบบไหน
- ฉันเองก็กำลังทำโปรเจ็กต์แยกผู้พูดในพอดแคสต์อยู่ และมันทำงานได้ค่อนข้างดี
- Parakeet TDT v3 น่าจะเหมาะกับงานแบบนี้มาก
ในการทดสอบ ภาพสุนัขที่มี 5 ขา ที่ฉันทำขึ้น Gemini 3 ก็ยังล้มเหลว
แต่ต่างจากโมเดลอื่นตรงที่มันรับรู้ขาที่ห้าได้ เพียงแต่เข้าใจผิดว่าเป็นอวัยวะส่วนอื่น
การรับรู้ทางภาพยังคงเป็นโจทย์ใหญ่
- การรับรู้ (perception) เป็นขอบเขตที่วิวัฒนาการใช้เวลาขัดเกลามานานหลายพันล้านปี จึงเป็นปัญหาที่ยากกว่ามากในเชิงการคำนวณ
- อาจเป็นไปได้ว่าเกิดจาก blind spot ของตัวกรองด้านความปลอดภัย เลยทำให้ตัดสินผิดแบบนั้น

nullptr 2025-11-19

ขณะนี้สามารถใช้งานได้ฟรีบน Antigravity ( https://antigravity.google/pricing ) ซึ่งเป็น VSCode OSS fork ที่ Google เปิดตัว
ส่วนใน gemini-cli ดูเหมือนว่าตอนนี้จะใช้งานได้เฉพาะ AI Ultra (เดือนละ 360,000 วอน) เท่านั้น