19 คะแนน โดย GN⁺ 2025-11-19 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • Google เปิดตัว Gemini 3 โมเดล AI ที่ฉลาดที่สุด มาพร้อม ความสามารถด้านการให้เหตุผลและความเข้าใจแบบมัลติโหมด ที่ดีขึ้น
  • Gemini 3 Pro ทำผลงานได้ ดีที่สุดในทุกเบนช์มาร์กหลักเมื่อเทียบกับรุ่นก่อน และรองรับอินพุตหลากหลายทั้งข้อความ ภาพ วิดีโอ และโค้ด
  • โหมด Deep Think เพิ่มความสามารถด้านการให้เหตุผลขั้นสูงสำหรับการแก้ปัญหาที่ซับซ้อน และจะทยอยเปิดให้สมาชิก Ultra ใช้งาน
  • Gemini 3 รองรับทั้ง การเรียนรู้ การพัฒนา และการวางแผน และใช้งานได้บน Google Search, แอป Gemini, AI Studio, Vertex AI และบริการอื่น ๆ
  • Google เร่งการเปลี่ยนผ่านสู่ยุคของ เอเจนต์อัจฉริยะและ AI แบบเฉพาะบุคคล ผ่าน Gemini 3

ภาพรวมของ Gemini 3

  • Gemini 3 คือ โมเดล AI ที่ฉลาดที่สุด ที่ Google พัฒนาขึ้น เพื่อช่วยให้ผู้ใช้ทำไอเดียใด ๆ ให้เป็นจริงได้
  • ผสาน ความเข้าใจแบบมัลติโหมด กับความสามารถ Agentic Coding เพื่อประมวลผลอินพุตที่หลากหลาย ทั้งข้อความ ภาพ วิดีโอ เสียง และโค้ด แบบรวมศูนย์
  • Gemini 3 Pro ใช้งานได้ทั่วทั้งอีโคซิสเต็มของ Google เช่น AI Studio, Vertex AI, แอป Gemini และแพลตฟอร์ม Google Antigravity
  • โหมด Deep Think รองรับการแก้ปัญหาที่ซับซ้อนด้วยความสามารถด้านการให้เหตุผลที่ดีขึ้น และมีแผนเปิดให้สมาชิก Google AI Ultra ใช้งาน

ข้อความจาก CEO

  • Sundar Pichai กล่าวถึงผลงานตลอด 2 ปีนับตั้งแต่เริ่มโครงการ Gemini เช่น ผู้ใช้ AI Overviews ต่อเดือน 2 พันล้านคน, ผู้ใช้แอป Gemini 650 ล้านคน และ นักพัฒนาที่เข้าร่วมมากกว่า 130,000 คน
  • โครงสร้าง นวัตกรรม AI แบบฟูลสแตก ของ Google (โครงสร้างพื้นฐาน–งานวิจัย–โมเดล–ผลิตภัณฑ์) ช่วยให้เทคโนโลยีแพร่กระจายได้อย่างรวดเร็ว
  • Gemini 3 เป็นโมเดลที่ รวมความสามารถด้านมัลติโหมด การให้เหตุผล และการทำงานแบบเอเจนต์จากรุ่นก่อนหน้าเข้าด้วยกัน ทำให้เข้าใจเจตนาและบริบทของผู้ใช้ได้แม่นยำยิ่งขึ้น
  • Gemini 3 เปิดตัวพร้อมกันบน AI Mode ของ Search, แอป Gemini, AI Studio, Vertex AI และ Google Antigravity

ประสิทธิภาพของ Gemini 3 Pro

  • Gemini 3 Pro ทำผลงานได้ เหนือกว่า 2.5 Pro ในทุกเบนช์มาร์ก AI หลัก
    • ทำได้ 1501 Elo บนลีดเดอร์บอร์ด LMArena, 37.5% ใน Humanity’s Last Exam, 91.9% ใน GPQA Diamond และ 23.4% ใน MathArena Apex
    • ในเบนช์มาร์กมัลติโหมดทำได้ 81% ใน MMMU-Pro, 87.6% ใน Video-MMMU และ 72.1% ใน SimpleQA Verified
  • ให้คำตอบที่ แม่นยำและกระชับ และนำไปใช้ได้ทั้งการทำภาพแนวคิดทางวิทยาศาสตร์ให้เข้าใจง่าย หรือการทำไอเดียสร้างสรรค์ให้เป็นรูปธรรม
  • ตัวอย่างเช่น สามารถ สร้างโค้ดแสดงภาพการไหลของพลาสมาในโทคาแมค และ แต่งบทกวีในหัวข้อฟิสิกส์ฟิวชันนิวเคลียร์ ได้

Gemini 3 Deep Think

  • โหมด Deep Think ช่วย ยกระดับความสามารถด้านการให้เหตุผลและความเข้าใจแบบมัลติโหมดของ Gemini 3 ไปอีกขั้น
    • ทำได้ 41.0% ใน Humanity’s Last Exam, 93.8% ใน GPQA Diamond และ 45.1% ใน ARC-AGI-2 ซึ่งอยู่ในระดับแนวหน้า
  • แสดงให้เห็นถึง ความสามารถด้านการให้เหตุผลขั้นสูง สำหรับการแก้ปัญหาซับซ้อนและความท้าทายรูปแบบใหม่

การเรียนรู้ (Learn anything)

  • Gemini 3 รองรับการเรียนรู้ด้วย หน้าต่างบริบท 1 ล้านโทเค็น และ การให้เหตุผลแบบมัลติโหมด
    • แปลสูตรอาหารที่เขียนด้วยลายมือและจัดทำเป็นหนังสือทำอาหารดิจิทัล
    • สรุปเลกเชอร์หรือบทความวิชาการขนาดยาว พร้อมสร้าง แฟลชการ์ดแบบอินเทอร์แอ็กทีฟหรือโค้ดสำหรับการทำภาพข้อมูล
    • สร้าง แผนการฝึกเฉพาะบุคคล จากการวิเคราะห์วิดีโอกีฬา
  • AI Mode ของ Google Search ซึ่งขับเคลื่อนด้วย Gemini 3 สามารถสร้าง เลย์เอาต์ภาพแบบสมจริงและเครื่องมือเชิงโต้ตอบ ได้แบบเรียลไทม์

การพัฒนา (Build anything)

  • Gemini 3 เด่นด้าน การสร้างแบบ zero-shot และ การจัดการพรอมป์ตที่ซับซ้อน โดยทำได้ 1487 Elo ใน WebDev Arena
    • ทำได้ 54.2% ใน Terminal-Bench 2.0 และ 76.2% ใน SWE-bench Verified สะท้อนประสิทธิภาพที่ดีขึ้นของการใช้เครื่องมือและเอเจนต์ด้านการเขียนโค้ด
  • นักพัฒนาสามารถพัฒนาได้บน Google AI Studio, Vertex AI, Gemini CLI และ Google Antigravity
  • รองรับบนแพลตฟอร์มของบุคคลที่สาม เช่น Cursor, GitHub, JetBrains, Manus และ Replit

Google Antigravity: สภาพแวดล้อมการพัฒนาแบบเน้นเอเจนต์

  • Google Antigravity คือ แพลตฟอร์มพัฒนาแบบเอเจนต์ ที่ขับเคลื่อนด้วย Gemini 3 ซึ่งช่วยให้นักพัฒนาสามารถทำงานร่วมกับ AI ได้ในระดับที่ยึดตามงานเป็นศูนย์กลาง
  • เอเจนต์สามารถ เข้าถึงเอดิเตอร์ เทอร์มินัล และเบราว์เซอร์ได้โดยตรง เพื่อเขียน รัน และตรวจสอบโค้ดโดยอัตโนมัติ
  • มีการผสาน Gemini 3 Pro, โมเดล Gemini 2.5 Computer Use และ โมเดลตัดต่อภาพ Nano Banana ไว้ด้วยกัน
  • ตัวอย่างเช่น เอเจนต์สามารถสร้างเวิร์กโฟลว์ที่ ออกแบบ เขียนโค้ด และตรวจสอบแอปติดตามเที่ยวบินได้ด้วยตัวเอง

การวางแผน (Plan anything)

  • Gemini 3 เสริมความสามารถด้าน การวางแผนระยะยาว และขึ้นอันดับ 1 บน ลีดเดอร์บอร์ด Vending-Bench 2
    • ในการจำลองการดำเนินธุรกิจตู้จำหน่ายสินค้าอัตโนมัติ สามารถรักษาการตัดสินใจที่มีเสถียรภาพได้ตลอด 1 ปี
  • รองรับ การทำงานอัตโนมัติหลายขั้นตอนที่ซับซ้อน เช่น การจัดระเบียบอีเมล หรือการจองบริการ
  • สมาชิก Ultra สามารถทดลองใช้ได้โดยตรงในแอป Gemini ผ่านความสามารถ Gemini Agent

การพัฒนาอย่างมีความรับผิดชอบ

  • Gemini 3 เป็น โมเดลที่ปลอดภัยที่สุด ในบรรดา Google AI โดยเสริมทั้ง ความทนทานต่อ prompt injection และ ความสามารถในการป้องกันการโจมตีทางไซเบอร์
  • มีการทดสอบภายในและประเมินโดยผู้เชี่ยวชาญภายนอกตาม Frontier Safety Framework
    • มีองค์กรเข้าร่วม เช่น UK AISI, Apollo, Vaultis และ Dreadnode
  • เปิดเผยผลการประเมินด้านความปลอดภัยอย่างละเอียดใน Gemini 3 model card

การเริ่มต้นยุค Gemini 3

  • Gemini 3 เริ่มทยอยเปิดให้ใช้งานผ่านช่องทางต่อไปนี้
    • แอป Gemini และ AI Mode ของ Search
    • การเข้าถึงสำหรับนักพัฒนาผ่าน AI Studio, Google Antigravity และ Gemini CLI
    • การใช้งานระดับองค์กรผ่าน Vertex AI และ Gemini Enterprise
  • โหมด Deep Think จะเปิดให้สมาชิก Ultra ใช้งานหลังผ่านการตรวจสอบด้านความปลอดภัยเพิ่มเติม
  • มีแผนเปิดตัวโมเดลเพิ่มเติมในซีรีส์ Gemini 3 ต่อไป และขยายต่อยอดจากฟีดแบ็กของผู้ใช้

3 ความคิดเห็น

 
t7vonn 2025-11-19

เทพเจมินี่ โหดจัดดด

 
GN⁺ 2025-11-19
ความเห็นจาก Hacker News
  • ลองเอา แอปเครื่องคิดเลขที่ใช้ XML แบบเก่าใส่ให้ Gemini ดู แล้วมันสร้างเว็บแอปที่สมบูรณ์ให้ได้ในเวลาไม่ถึง 1 นาที
    ฉันเคยลงมือทำ คอมไพเลอร์ สำหรับแปลง XML แบบคัสตอมให้เป็นแอป Android/Swing มาหลายปี แต่ Gemini ทำได้โดยไม่ต้องมีคำอธิบายฟอร์แมตเลย
    ตอนลองกับ Lovable แอปใช้งานไม่ได้จริงและมีแต่เปลืองเครดิต แต่ครั้งนี้อยู่คนละระดับไปเลย
    ลิงก์ผลลัพธ์

  • ลองให้ Gemini ทำ โจทย์ Project Euler ล่าสุด (#970) ดู โอกาสสูงที่มันจะไม่อยู่ในข้อมูลฝึก แต่พอคิดอยู่ 5 นาที 10 วินาที มันก็ให้ โค้ด Python ที่ตอบถูกออกมา
    เวลาที่มนุษย์ 3 อันดับแรกใช้แก้คือ 14 นาที, 20 นาที และ 1 ชั่วโมง 14 นาทีตามลำดับ
    เดิมก็คิดว่าโจทย์แนวนี้น่าจะเป็นขอบเขตที่โมเดลถูกจูนด้วย RL มาอยู่แล้ว แต่ก็ยังน่าทึ่งที่มันแก้ปัญหาที่คนอาจใช้เวลาหลายวันได้ภายในไม่กี่นาที

    • ฉันก็ลองให้ Gemini 3 Pro Preview แก้โจทย์เดียวกัน ได้ผลลัพธ์ใน 4 นาที 31 วินาที แต่คำตอบผิด
      ทั้งที่ห้ามค้นเว็บ มันกลับคืน “แหล่งที่มา” มา 8 รายการ เช่น stackexchange, youtube เป็นต้น
      ถึงอย่างนั้น insight ส่วนใหญ่ก็ถูกต้อง และถือว่าเป็นเครื่องมือที่มีประโยชน์มาก
      ลิงก์พรอมป์ต์
    • ฉันกลับไปลอง โจทย์ low ของ Kattis ที่ใช้ทดสอบมานานอีกครั้ง และเป็นครั้งแรกที่ LLM ผ่าน
      ตั้งแต่ ChatGPT เป็นต้นมา ยังไม่มีโมเดลไหนทำได้ จนกระทั่ง Gemini 3 ทำสำเร็จในที่สุด
    • คะแนน Elo ที่สูงของโมเดลอาจเป็นผลจากความเร็วล้วน ๆ ก็ได้
      แต่เมื่อดูผลแบบนี้แล้ว ก็รู้สึกว่าอีกไม่เกิน 10 ปี เราน่าจะได้เห็น AI ระดับ Stockfish สำหรับการแก้ปริศนา
    • สำหรับข้อมูลอ้างอิง ตอนนี้โจทย์ล่าสุดคือ Project Euler #970
    • พอลองด้วย gpt-5.1 thinking มันกลับไปค้นคำตอบจากอินเทอร์เน็ตตรง ๆ เลย 😅
  • เมื่อก่อนฉันเคยทดลองพรอมป์ต์สำหรับ วิดเจ็ตนาฬิกาอนาล็อก กับ Flash 2.5 แล้วพอเอาไปใส่ใน Gemini 3 Pro Preview ก็ได้ผลลัพธ์ที่ทำงานสมบูรณ์แบบในครั้งเดียว
    ลิงก์ผลลัพธ์

    • Flash 2.5 เองก็ถือว่าโอเคอยู่ มันสร้าง นาฬิกา UNIX แบบเมตริก ให้ โดยแสดงหน่วยวินาทีเป็น กิโลวินาที (kiloseconds)
      หนึ่งวันคือ 86.4ks และตอนนี้อยู่ที่เวลาประมาณ 1.76 กิกะวินาทีของ AUNIX ฉันอยากสร้างนาฬิกาจริงขนาด 20 ฟุตสักวันหนึ่ง
    • ฉันทนไม่ได้ที่ไม่มี แอนิเมชัน “wiggle” ตอนเข็มวินาทีแตะเลข 12 😂
    • โปรเจ็กต์นี้เป็นตัวอย่างในคอร์ส 30 Days of JavaScript ของ Wes Bos เลยมีโอกาสสูงว่าจะอยู่ในข้อมูลฝึก
    • ฉันเพิ่มการปรับปรุงบางอย่างเข้าไป และสำเร็จเฉพาะ เสียงติ๊ก ในความพยายามครั้งที่สอง
      ลิงก์เวอร์ชันปรับปรุง
    • พรอมป์ต์ที่อีกคนใช้เรียบง่ายกว่ามาก ของเดิมที่ฉันใช้เป็นแบบให้สร้างเฉพาะ HTML/CSS ที่มีตัวแปร ${time} อยู่ด้วย และ Gemini ก็ทำพังแบบหมดจด
      ลิงก์ตัวอย่างที่ล้มเหลว
  • ฉันสรุปบันทึกของตัวเองเกี่ยวกับเบนช์มาร์ก Pelican และ เวอร์ชันยากใหม่ ไว้แล้ว
    บทความบล็อก

    • ตอนนี้แต่ละแล็บน่าจะมี ‘คนรับผิดชอบเรื่องเพลิแกน’ กันแล้ว คงกำลังฝึกกันทั้งวันทั้งคืนเพื่อวาด SVG เพลิแกนขี่จักรยานให้เก่งขึ้น
    • พวกเขาฝึกเรื่องเพลิแกนกันมาหลายเดือน แต่พอฉันเปลี่ยนเบนช์มาร์ก เป้าหมายก็เปลี่ยนตามทันที 😂
    • มีโอกาสสูงที่ “เพลิแกนขี่จักรยาน” จะอยู่ในข้อมูลฝึกอยู่แล้ว
    • ถึงจะบอกว่าไม่มีปัญหาเรื่อง saturation แต่ดูจากผลแล้ว เหมือนแล็บใหญ่ ๆ จะ แอบปีนเขาเพลิแกนกันอยู่ลับ ๆ
    • น่าเสียดายที่ knowledge cutoff ของ Gemini 3 คือเดือนมกราคม 2025 เหมือนกับ 2.5
      เป็นไปได้ว่าพวกเขาใช้ base model เดียวกันและ ปรับปรุงแค่การจูนด้วย RL
  • Gemini 3 Pro Preview ล้มเหลวแบบหมดรูปกับ เบนช์มาร์ก Python พื้นฐาน ของฉัน
    Gemini 2.5 Pro เข้าใกล้กว่าเล็กน้อย แต่ก็ยังตอบผิดอยู่ดี
    ในทางกลับกัน gpt-5.1-thinking, Claude Sonnet 4.5 และ Opus 4.1 ผ่านทั้งหมด
    พอเห็นแบบนี้ก็ยิ่งรู้สึกว่า เบนช์มาร์กไม่ใช่มาตรวัดแบบสัมบูรณ์

    • การบอกว่า “เบนช์มาร์กไม่มีความหมาย” ถือว่าเกินจริงไปหน่อย มัน มีข้อจำกัด แต่ก็ยังเป็นตัวชี้วัดที่มีประโยชน์
      ถ้าเป็นโจทย์ Python แบบ “พื้นฐาน” ที่ GPT-5 thinking ยังพลาด ก็อยากรู้ว่าเป็นโจทย์แบบไหน
    • การสรุปจากเบนช์มาร์กส่วนตัวเพียงอันเดียวไม่น่าเชื่อถือเท่าไร ถ้าแชร์ออกมาก็น่าจะช่วยกันตรวจสอบได้
    • ฉันชอบใช้โจทย์ “สร้างเกม Pac-Man ใน HTML หน้าเดียว” เป็นการทดสอบบ่อย ๆ และ Gemini 3 ก็ล้มเหลวคล้ายกับ 2.5
    • ความหมายของเบนช์มาร์กขึ้นอยู่กับคุณภาพการออกแบบ ไม่อาจตัดสินได้แค่จากการเปิดเผยหรือไม่เปิดเผย
    • จากคะแนน SWEBench ที่ Google ประกาศ Gemini 3 Pro ได้ต่ำกว่า Claude Sonnet 4.5 และก็ชวนสงสัยว่า Opus 4.5 อาจทำได้ดีกว่าหรือไม่
  • ระหว่างจัดการปัญหาด้านการแพทย์ Gemini 2.5 Pro ตอบถูกแค่ประมาณครึ่งเดียว แต่ Gemini 3.0 แก้ได้สมบูรณ์แบบ
    มันช่วยจัดระเบียบทั้งข้อบังคับ งานวิจัย และขั้นตอนการอนุมัติอย่างมีตรรกะ จน ช่วยในการตัดสินใจจริง ๆ
    โมเดลแบบนี้ดูเหมือนจะเปลี่ยนชีวิตผู้คนได้จริง

  • ฉันขำมากที่ในโพสต์ประกาศของ Google มีปุ่ม “อ่านสรุปที่ AI สร้าง
    ขั้นต่อไปคงเป็น “ให้ AI ของเราอ่านสรุปจาก AI ของคุณ”
    สุดท้ายแล้ว แม้แต่ความเชื่อก็คงถูกทำให้เป็นอัตโนมัติได้ เหมือน Electric Monk ของ Douglas Adams

    • ฉันเองก็เคยจะตั้งชื่อโปรเจ็กต์ AI ในบริษัทว่า Electric Monk แต่เพราะดูอาจเป็นประเด็นเกินไปเลยเปลี่ยนเป็น Electric Mentor
    • ในเรื่องนี้ การ์ตูน SMBC ช่างเหมาะเจาะมาก
    • ตอนนี้อยากให้ AI ช่วยแก้ปัญหา cloud outage แบบอัตโนมัติได้แล้ว
    • ดูเหมือนวันเวลาที่ AI จะมาแทน บทบาทของผู้จัดการ ไม่ใช่แค่นักพัฒนา จะมาถึงในไม่ช้า
  • เบนช์มาร์กที่ฉันชอบคือการสรุป ไฟล์เสียงประชุมยาว ๆ พร้อมแยกผู้พูด
    Gemini 2.5 สรุปได้พอใช้ แต่การแยกผู้พูดเละเทะมาก ส่วน 3.0 ทำได้ถูกต้องสมบูรณ์

    • ฉันลองกับพอดแคสต์ยาว 90 นาที แล้ว Gemini 3 กลับสร้าง คำพูดอ้างอิงหลอน และ timestamp ก็ผิดทั้งหมด
      กับเสียงยาว ๆ มันยังมีข้อจำกัดอยู่
    • ถ้าใช้โมเดลเสียงเฉพาะทางอย่าง ElevenLabs หรือ Soniox จะแม่นยำกว่ามาก
    • อยากรู้ว่าใช้พรอมป์ต์แบบไหน
    • ฉันเองก็กำลังทำโปรเจ็กต์แยกผู้พูดในพอดแคสต์อยู่ และมันทำงานได้ค่อนข้างดี
    • Parakeet TDT v3 น่าจะเหมาะกับงานแบบนี้มาก
  • ในการทดสอบ ภาพสุนัขที่มี 5 ขา ที่ฉันทำขึ้น Gemini 3 ก็ยังล้มเหลว
    แต่ต่างจากโมเดลอื่นตรงที่มันรับรู้ขาที่ห้าได้ เพียงแต่เข้าใจผิดว่าเป็นอวัยวะส่วนอื่น
    การรับรู้ทางภาพยังคงเป็นโจทย์ใหญ่

    • การรับรู้ (perception) เป็นขอบเขตที่วิวัฒนาการใช้เวลาขัดเกลามานานหลายพันล้านปี จึงเป็นปัญหาที่ยากกว่ามากในเชิงการคำนวณ
    • อาจเป็นไปได้ว่าเกิดจาก blind spot ของตัวกรองด้านความปลอดภัย เลยทำให้ตัดสินผิดแบบนั้น
 
nullptr 2025-11-19

ขณะนี้สามารถใช้งานได้ฟรีบน Antigravity ( https://antigravity.google/pricing ) ซึ่งเป็น VSCode OSS fork ที่ Google เปิดตัว
ส่วนใน gemini-cli ดูเหมือนว่าตอนนี้จะใช้งานได้เฉพาะ AI Ultra (เดือนละ 360,000 วอน) เท่านั้น