- โมเดล AI แบบมัลติโหมดขั้นสูงสำหรับจัดการงานที่ซับซ้อน โดยมุ่งแก้ปัญหาที่ไปไกลกว่าการให้คำตอบแบบง่าย ๆ
- ทำคะแนนตรวจสอบได้ 77.1% บน ARC-AGI-2 benchmark บรรลุ ประสิทธิภาพด้านการให้เหตุผลมากกว่า 2 เท่า เมื่อเทียบกับ 3 Pro รุ่นก่อนหน้า
- แสดงความสามารถด้านการให้เหตุผลที่ดีขึ้นในงานยาก เช่น การรวมข้อมูล, การอธิบายเชิงภาพ, การเขียนโค้ดเชิงสร้างสรรค์
- รองรับ รูปแบบอินพุตที่หลากหลาย เช่น ข้อความ เสียง ภาพ วิดีโอ และคลังโค้ด พร้อมรองรับ คอนเท็กซ์สูงสุด 1 ล้านโทเค็น และเอาต์พุต 64K โทเค็น
- Google กำลังใช้พรีวิวครั้งนี้เพื่อ ยกระดับ agentic workflow และตรวจสอบความพร้อมก่อนการเปิดให้ใช้งานทั่วไปในอนาคต
ภาพรวมของ Gemini 3.1 Pro
- Gemini 3.1 Pro คือ โมเดล AI แบบมัลติโหมดขั้นสูงสำหรับจัดการงานที่ซับซ้อน โดยมุ่งแก้ปัญหาที่ไปไกลกว่าการให้คำตอบแบบง่าย ๆ
- Google ระบุว่านี่คือการอัปเกรดด้านสติปัญญาหลักที่ทำให้ความสามารถของ Gemini 3 Deep Think เป็นไปได้
- รองรับ อินพุตหลายโมดัล เช่น ข้อความ เสียง ภาพ วิดีโอ และคลังโค้ด
- รองรับ หน้าต่างคอนเท็กซ์สูงสุด 1 ล้านโทเค็น และเอาต์พุต 64K โทเค็น
- เวอร์ชันนี้กำลังทยอยเปิดใช้งานใน ผลิตภัณฑ์สำหรับผู้บริโภค นักพัฒนา และองค์กร
- ช่องทางการเปิดใช้งานมีดังนี้
ประสิทธิภาพและเบนช์มาร์ก
- Gemini 3.1 Pro ได้รับการปรับปรุงโดยเน้นที่ ความสามารถในการให้เหตุผล (reasoning) เพื่อให้เหมาะกับการแก้ปัญหาที่ซับซ้อน
- ทำคะแนนตรวจสอบได้ 77.1% บน ARC-AGI-2 benchmark ซึ่งมากกว่ารุ่น 3 Pro ก่อนหน้ากว่า 2 เท่า
- ผลการเปรียบเทียบประสิทธิภาพหลัก (เทียบกับ Gemini 3 Pro):
- ARC-AGI-2: 77.1% (vs 31.1%)
- GPQA Diamond: 94.3% (vs 91.9%)
- Terminal-Bench 2.0: 68.5% (vs 56.9%)
- LiveCodeBench Pro: Elo 2887 (vs 2439)
- BrowseComp: 85.9% (vs 59.2%)
- เบนช์มาร์กนี้ใช้ประเมินความสามารถของโมเดลในการแก้รูปแบบตรรกะใหม่ทั้งหมด
- Google นิยามสิ่งนี้ว่าเป็น “โมเดลพื้นฐานที่ฉลาดและมีความสามารถมากขึ้น” และนำเสนอให้เป็นรากฐานของการแก้ปัญหาที่ซับซ้อน
กรณีการใช้งานจริง
- Gemini 3.1 Pro แสดงให้เห็นการนำ การให้เหตุผลขั้นสูงไปใช้ในรูปแบบที่ใช้งานได้จริง และเปิดความเป็นไปได้ในการประยุกต์ใช้อย่างหลากหลาย
- การสร้างคำอธิบายเชิงภาพ: ความสามารถในการอธิบายหัวข้อที่ซับซ้อนให้ชัดเจนและเข้าใจได้ในเชิงภาพ
- การรวมข้อมูล: สังเคราะห์ข้อมูลหลายชุดให้เป็นมุมมองรวมเดียว
- การสร้างโปรเจกต์เชิงสร้างสรรค์: นำไอเดียด้านศิลปะและการออกแบบมาสร้างเป็นโค้ด
- ตัวอย่างที่เป็นรูปธรรม
- แอนิเมชันที่สร้างด้วยโค้ด: สร้าง SVG animation สำหรับเว็บไซต์จากข้อความพรอมป์ต์ โดยลดขนาดไฟล์ให้เล็กที่สุดโดยไม่สูญเสียความละเอียด
- การรวมระบบที่ซับซ้อน: สร้างแดชบอร์ดสำหรับแสดงภาพวงโคจรของ สถานีอวกาศนานาชาติ (ISS) แบบเรียลไทม์
- การออกแบบเชิงโต้ตอบ: เขียนโค้ด การจำลองฝูงนกสตาร์ลิงแบบ 3D เพื่อสร้างอินเทอร์เฟซที่ติดตามมือและตอบสนองต่อดนตรี
- การเขียนโค้ดเชิงสร้างสรรค์: ออกแบบเว็บไซต์พอร์ตโฟลิโอสมัยใหม่ที่สะท้อนบรรยากาศทางวรรณกรรมของ 『Wuthering Heights』
การเปิดใช้งานและการเข้าถึง
- Gemini 3.1 Pro เปิดให้ใช้งานในรูปแบบ พรีวิว (preview) เพื่อรวบรวมฟีดแบ็กจากผู้ใช้
- ผู้ใช้ Google AI Pro และ Ultra สามารถใช้งานได้ด้วยขีดจำกัดที่สูงขึ้นในแอป Gemini
- ใน NotebookLM เปิดให้เฉพาะผู้ใช้ Pro และ Ultra
- นักพัฒนาและองค์กรสามารถเข้าถึงได้ผ่าน AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, Android Studio
แผนในอนาคต
- หลังการเปิดตัว Gemini 3 Pro, Google ยังคงรักษาความเร็วในการปรับปรุงอย่างต่อเนื่อง และกำลังใช้พรีวิว 3.1 Pro ครั้งนี้เพื่อ ตรวจสอบการอัปเดตและขยาย agentic workflow
- การเปิดให้ใช้งานทั่วไป (GA) จะเกิดขึ้นหลังจากการตรวจสอบเสร็จสมบูรณ์ โดย Google ระบุว่า “เราตั้งตารอดูว่าผู้ใช้จะสร้างและค้นพบอะไรด้วยโมเดลนี้”
4 ความคิดเห็น
หวังว่าประสิทธิภาพด้านการเขียนโค้ดจะตาม Claude Opus ได้เร็ว ๆ นะ
ใช่ครับ วันแรกที่โมเดล 3.0 preview ขึ้นมาอยู่บน cli แล้วได้ลองใช้ ผมชอบมากจนถึงกับเขียนความรู้สึกลงบล็อกไว้เลย แต่หลังจากนั้นก็ดิ่งลงอย่างรวดเร็ว ... ตอนนี้เลยใช้งาน codex กับ claude code เป็นหลักอยู่ครับ แต่ claude ก็ยังแอบ... กำลังดูอยู่ว่า 4.6 opus หรือ sonnet จะโอเคไหม ถ้าไม่ก็อาจจะลงตัวด้วยการใช้ codex สำหรับเขียนโค้ด และใช้ gemini สำหรับงานอื่น ๆ ครับ..
ความคิดเห็นจาก Hacker News
ตื่นเต้นกับ Gemini 3.1 Pro มาก
ก่อนหน้านี้แทบจะเอนเอียงไปทาง Claude ตลอด แต่ Claude Opus เด่นมากโดยเฉพาะเรื่องการเขียนโค้ด
Gemini ก็เกือบจะยอดเยี่ยมแล้ว แต่ยังไม่ถึงระดับ Claude
เลยสลับสมัคร ChatGPT Plus ↔ Gemini Pro ↔ Claude รายเดือน เพื่อไม่ให้พลาดจุดเด่นของแต่ละโมเดล
ในฐานะอดีตพนักงาน Google ก็หวังว่า Gemini 3.1 Pro จะดีกว่า 3.0
แต่สำหรับงานพัฒนา Gemini เป็น โมเดลที่น่าอึดอัดที่สุด ที่เคยใช้
Claude Opus ใน VS Code Copilot ให้สมดุลที่ดีระหว่างลำดับความคิดกับคำตอบ แต่ Gemini ใช้แค่ thinking token แล้วไม่อธิบายผลลัพธ์
มักจะติดลูป ใช้เครื่องมือไม่เก่ง และแก้ไฟล์ผิดที่ผิดทาง
เลยเคยใช้กลยุทธ์ ‘วางแผนด้วย Gemini ลงมือทำด้วย Claude’ แต่สุดท้ายก็ใช้แต่ Claude
ขณะที่ Anthropic เหมือนจะขัดเกลาโมเดลโดยยึดโปรเจ็กต์จริงเป็นศูนย์กลาง แต่ Google ดูเหมือนยังทดสอบการใช้งานจริงไม่พอ
สับสนระหว่าง int8 กับ float หรือไม่ก็ลืมว่า normalize แล้วหรือยัง
ให้ความรู้สึกเหมือนคนที่ความจำไม่ค่อยดี
ถึงอย่างนั้นก็ยังช่วยได้มากในการคุยเรื่องการออกแบบสถาปัตยกรรม
เป็น ที่สุดของความไร้ประสิทธิภาพ
Claude ให้ความรู้สึกเหมือนเรียนรู้ ‘กระบวนการเขียนโค้ด’ มาโดยตรง และ Anthropic ก็น่าจะนำฟีดแบ็กผู้ใช้ไปใช้ในการจูน
ส่วน Google ตั้งเป้าเป็นโมเดลอเนกประสงค์ เลยดูเหมือนอยู่ในสภาพ ‘ทำได้ทุกอย่างนิดหน่อย แต่ไม่มีอะไรสมบูรณ์แบบเลย’
Claude หรือ Codex จะอธิบายวิธีเข้าหาปัญหา แต่ Gemini จะลงมือทำเลย
มองข้ามคำขอให้แก้ไขและทำให้ workspace เลอะเทอะ
ถึงจะใช้ฟรีได้ก็แทบไม่อยากใช้
Anthropic ดูเหมือนจะเข้าใจตั้งแต่เนิ่น ๆ ว่า ‘ผู้ใช้ต้องควบคุมได้’
OpenAI ตามขึ้นมาใกล้ระดับ Claude แล้ว แต่ Google ยังอีกไกล
คนส่วนใหญ่ประเมิน ความคุ้มค่าด้านต้นทุน ของ Google ต่ำเกินไป
ราคาแค่ครึ่งเดียวของ Opus แต่ประสิทธิภาพก็ดีมาก
ตาม ดัชนีของ Artificial Analysis รุ่น 3.1 ถูกกว่า Opus 40% และเร็วกว่า 30%
ถ้าใช้เพื่อพัฒนา ต่อให้เดือนละ 300 ดอลลาร์ก็คุ้มที่จะใช้โมเดลที่ดีที่สุด
แต่ใน AI สำหรับผู้บริโภค การคำนวณนี้อาจต่างออกไป
แต่ถ้าประสิทธิภาพตามทัน ความสามารถในการแข่งขันด้านราคาก็น่าสนใจมาก
แต่ถ้าประสิทธิภาพใกล้เคียงกัน การลดต้นทุนได้ 50% ก็เป็นข้อได้เปรียบใหญ่
สำหรับฉันมันใช้งานได้ดีทั้งงานและงานเขียนโค้ดเป็นงานอดิเรก
ถึงอย่างนั้นในชุมชนกลับมีเสียงวิจารณ์แรงมากจนน่าแปลกใจ
โมเดลสมัยนี้ทรงพลังเกินไปมาก
ตอนนี้สร้างซอฟต์แวร์ที่สมบูรณ์ได้ในเวลาสั้นกว่าสมัยก่อนมาก
แต่ พฤติกรรมที่ต่างกัน ระหว่างแต่ละเวอร์ชันก็มากเกินไป จนเหมือนต้องบริหารทีมใหม่ทุกเดือน
โมเดลอาจถูกเปลี่ยนแบบไม่ประกาศล่วงหน้าหรือเปลี่ยนไปอย่างแนบเนียน เลยดูเหมือนเป็น รากฐานที่ไม่มั่นคง
ดูได้ใน sqlite-chronicle issue
หลังจากนั้นก็ช่วยปลดล็อกจุดติดขัดในหลายโปรเจ็กต์
ถึงอย่างนั้นก็เพียงพอสำหรับหาไอเดียและเริ่มต้น codebase
เหมือนจะมี ความสอดคล้องกับตัวเอง คือแม้เป็นโค้ดเดียวกัน แต่โมเดลที่เป็นคนสร้างจะกลับมาจัดการต่อได้ง่ายกว่า
ถึงอย่างนั้นก็ยังเป็นเทคโนโลยีที่น่าทึ่งมาก
ราคา ของ Gemini 3.1 Pro ไม่เปลี่ยน
อินพุต $2/M เอาต์พุต $12/M ตามที่ระบุไว้ในเอกสารทางการ
knowledge cutoff คือเดือนมกราคม 2025 และเพิ่มโหมด “medium thinking” เข้ามาใหม่
เทียบกับ Opus 4.6 ที่ $5/$25 แล้วต่างกันมาก
ติดขัดตั้งแต่การตั้งกฎ IAM, ระบบชำระเงิน, ไปจนถึงการหาชื่อผลิตภัณฑ์
OpenAI กับ Anthropic ง่ายกว่ามาก
ถึงอย่างนั้นค่าบริการรายเดือนก็ใกล้เคียงกัน
ตอนนี้ Anthropic นำอยู่ด้วย การปรับแต่งแบบ full-stack
ยังไม่มีโมเดลที่เร็วและฉลาดแบบ Opus 4.6 โดยปิด thinking ได้
Gemini 3 ยังอยู่ในสถานะ preview และ 2.5 ก็กำลังจะถูกเลิกใช้ในไม่ช้า
ดูจากกำหนดการเลิกใช้อย่างเป็นทางการ จะเห็นว่าบางโมเดลยุติลงโดยไม่มีโมเดลทดแทนด้วยซ้ำ
เลยสงสัยว่าเมื่อไร Google จะออกโมเดล production จริง ๆ เสียที
มีระบบที่รันใช้งานจริงอยู่ด้วย เลยรู้สึก กังวลมาก
ดู Killed by Google ก็จะรู้ว่าคำพูดนั้นว่างเปล่าแค่ไหน
ถ้า 3.0 ยังเป็น preview งั้น 2.5 ก็น่าจะอยู่ต่ออีกอย่างน้อย 1 ปี
ในเอกสารทางการก็ระบุไว้ชัดว่า “วันสิ้นสุดที่แน่นอนจะแจ้งให้ทราบล่วงหน้า”
Gemini แก้ปัญหา race condition ระหว่าง UI กับการซิงก์ข้อมูล ได้ในครั้งเดียว
แม้แต่ Opus 4.6 ก็ยังต้องลองถึงสามครั้งถึงจะแก้ได้ เลยค่อนข้างน่าทึ่ง
ตอนนี้มันพูดน้อยลงและเข้าประเด็นได้ไวกว่าเดิม
ต่อไปคงใช้กลยุทธ์ให้ Gemini ทำ R&D แล้วให้ Opus/Sonnet 4.6 ปิดงาน
ถ้าใช้ wrapper แบบรวมศูนย์ ที่รองรับหลายโมเดล ก็จะกังวลเรื่องการเลือกโมเดลน้อยลง
สุดท้ายสิ่งสำคัญคือ “โมเดลที่เหมาะกับปัญหาของฉันที่สุด”
Gemini ตอบ “คำถามเรื่องร้านล้างรถ” ได้สมบูรณ์แบบ
คำตอบมีตรรกะประมาณว่า “ถ้าเดินไปก็จะไม่มีรถให้ล้าง ดังนั้นต้องขับรถไป”
Gemini อธิบายอย่างมีเหตุผลว่า “ต้องพาช้างไปด้วย” พร้อมให้เหตุผลย่อยอย่างเป็นระบบ
ถือเป็นความสามารถด้านการให้เหตุผลที่น่าประทับใจทีเดียว
เพียงแต่ประโยคของ Gemini เรื่อง “พยากรณ์ล้างรถในวันฝนตก” ฟังดูน่ารักแต่ก็มั่นใจเกินไปหน่อย
ในการทดสอบ “SVG รูปนกกระทุงขี่จักรยาน” Gemini ทำได้ดี
ดูได้จากลิงก์ผลลัพธ์
ดูเหมือน ความสามารถในการสร้างภาพเชิงภาพ จะดีขึ้น เพราะคะแนน ARC-AGI benchmark สูงขึ้น
benchmark เองก็เหมือนจะหมดความหมาย และกลายเป็นเรื่องของ รสนิยม มากกว่า
น่าจะต้องมี benchmark แบบใหม่ที่เป็น ‘vibe check’
เป็นความเปลี่ยนแปลงที่น่าสนใจ
สุดท้ายก็ยังต้องอาศัย มือของนักออกแบบมนุษย์
อาจเป็นผลจากการที่ Google ปรับให้เหมาะกับ SVG โดยเฉพาะ
SVG นกกระทุงของ บล็อก Simon Willison ออกมาค่อนข้างดี แต่ใช้เวลาสร้างเกิน 5 นาที
ดูเหมือนจะเป็น ปัญหาด้านประสิทธิภาพ ในช่วงเปิดตัว
ทั้งที่ต้องการแค่นกกระทุงกับจักรยาน แต่มันกลับเพิ่มเมฆ พระอาทิตย์ และหมวกเข้ามาอีก
ตอนเขียนโค้ดก็เหมือนกัน มันหยุด รีแฟกเตอร์โดยไม่ขอและเพิ่มคอมเมนต์ที่ไม่ต้องการ ไม่ได้
ทวีตของ Jeff Dean ก็เหมือนจะสื่อแบบนั้น
ทั้งที่ความเข้าใจเชิงพื้นที่ด้านอื่นยังอ่อน แต่กลับ สร้างรูปทรงได้แม่นยำ มาก
นั่นแปลว่าอาจไม่ใช่ความสามารถทั่วไปที่ดีขึ้น แต่เป็นผลจาก การฝึกแบบเจาะจงอย่างชัดเจน
คิดว่าอีกไม่นานก็คงจะมีการลดประสิทธิภาพลงแบบเงียบ ๆ ซึ่งประเด็นสำคัญที่สุดน่าจะอยู่ที่ว่าจะถูกลดลงมากแค่ไหน (แม้ว่า AI model ส่วนใหญ่จะให้ความรู้สึกว่าโง่ลงเมื่อเวลาผ่านไปอยู่แล้ว แต่ของ Google ดูจะหนักเป็นพิเศษ)
ตอนที่ 3 Pro ออกมาใหม่ ๆ ก็เคยดีอยู่หรอก แต่จำได้ว่าผ่านไปประมาณสักหนึ่งสัปดาห์ จู่ ๆ มันก็ดูโง่ลงอย่างเห็นได้ชัด สุดท้ายเลยเลิกใช้ไปเลยครับ