Gemini 3.1 Pro

(blog.google)

4 คะแนน โดย GN⁺ 2026-02-20 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล AI แบบมัลติโหมดขั้นสูงสำหรับจัดการงานที่ซับซ้อน โดยมุ่งแก้ปัญหาที่ไปไกลกว่าการให้คำตอบแบบง่าย ๆ
ทำคะแนนตรวจสอบได้ 77.1% บน ARC-AGI-2 benchmark บรรลุ ประสิทธิภาพด้านการให้เหตุผลมากกว่า 2 เท่า เมื่อเทียบกับ 3 Pro รุ่นก่อนหน้า
แสดงความสามารถด้านการให้เหตุผลที่ดีขึ้นในงานยาก เช่น การรวมข้อมูล, การอธิบายเชิงภาพ, การเขียนโค้ดเชิงสร้างสรรค์
รองรับ รูปแบบอินพุตที่หลากหลาย เช่น ข้อความ เสียง ภาพ วิดีโอ และคลังโค้ด พร้อมรองรับ คอนเท็กซ์สูงสุด 1 ล้านโทเค็น และเอาต์พุต 64K โทเค็น
Google กำลังใช้พรีวิวครั้งนี้เพื่อ ยกระดับ agentic workflow และตรวจสอบความพร้อมก่อนการเปิดให้ใช้งานทั่วไปในอนาคต

ภาพรวมของ Gemini 3.1 Pro

Gemini 3.1 Pro คือ โมเดล AI แบบมัลติโหมดขั้นสูงสำหรับจัดการงานที่ซับซ้อน โดยมุ่งแก้ปัญหาที่ไปไกลกว่าการให้คำตอบแบบง่าย ๆ
- Google ระบุว่านี่คือการอัปเกรดด้านสติปัญญาหลักที่ทำให้ความสามารถของ Gemini 3 Deep Think เป็นไปได้
- รองรับ อินพุตหลายโมดัล เช่น ข้อความ เสียง ภาพ วิดีโอ และคลังโค้ด
- รองรับ หน้าต่างคอนเท็กซ์สูงสุด 1 ล้านโทเค็น และเอาต์พุต 64K โทเค็น
- เวอร์ชันนี้กำลังทยอยเปิดใช้งานใน ผลิตภัณฑ์สำหรับผู้บริโภค นักพัฒนา และองค์กร
ช่องทางการเปิดใช้งานมีดังนี้
- นักพัฒนา: Gemini API in Google AI Studio, Gemini CLI, Antigravity, Android Studio
- องค์กร: Vertex AI, Gemini Enterprise
- ผู้บริโภค: แอป Gemini, NotebookLM

ประสิทธิภาพและเบนช์มาร์ก

Gemini 3.1 Pro ได้รับการปรับปรุงโดยเน้นที่ ความสามารถในการให้เหตุผล (reasoning) เพื่อให้เหมาะกับการแก้ปัญหาที่ซับซ้อน
- ทำคะแนนตรวจสอบได้ 77.1% บน ARC-AGI-2 benchmark ซึ่งมากกว่ารุ่น 3 Pro ก่อนหน้ากว่า 2 เท่า
- ผลการเปรียบเทียบประสิทธิภาพหลัก (เทียบกับ Gemini 3 Pro):
  - ARC-AGI-2: 77.1% (vs 31.1%)
  - GPQA Diamond: 94.3% (vs 91.9%)
  - Terminal-Bench 2.0: 68.5% (vs 56.9%)
  - LiveCodeBench Pro: Elo 2887 (vs 2439)
  - BrowseComp: 85.9% (vs 59.2%)
- เบนช์มาร์กนี้ใช้ประเมินความสามารถของโมเดลในการแก้รูปแบบตรรกะใหม่ทั้งหมด
Google นิยามสิ่งนี้ว่าเป็น “โมเดลพื้นฐานที่ฉลาดและมีความสามารถมากขึ้น” และนำเสนอให้เป็นรากฐานของการแก้ปัญหาที่ซับซ้อน

กรณีการใช้งานจริง

Gemini 3.1 Pro แสดงให้เห็นการนำ การให้เหตุผลขั้นสูงไปใช้ในรูปแบบที่ใช้งานได้จริง และเปิดความเป็นไปได้ในการประยุกต์ใช้อย่างหลากหลาย
- การสร้างคำอธิบายเชิงภาพ: ความสามารถในการอธิบายหัวข้อที่ซับซ้อนให้ชัดเจนและเข้าใจได้ในเชิงภาพ
- การรวมข้อมูล: สังเคราะห์ข้อมูลหลายชุดให้เป็นมุมมองรวมเดียว
- การสร้างโปรเจกต์เชิงสร้างสรรค์: นำไอเดียด้านศิลปะและการออกแบบมาสร้างเป็นโค้ด
ตัวอย่างที่เป็นรูปธรรม
- แอนิเมชันที่สร้างด้วยโค้ด: สร้าง SVG animation สำหรับเว็บไซต์จากข้อความพรอมป์ต์ โดยลดขนาดไฟล์ให้เล็กที่สุดโดยไม่สูญเสียความละเอียด
- การรวมระบบที่ซับซ้อน: สร้างแดชบอร์ดสำหรับแสดงภาพวงโคจรของ สถานีอวกาศนานาชาติ (ISS) แบบเรียลไทม์
- การออกแบบเชิงโต้ตอบ: เขียนโค้ด การจำลองฝูงนกสตาร์ลิงแบบ 3D เพื่อสร้างอินเทอร์เฟซที่ติดตามมือและตอบสนองต่อดนตรี
- การเขียนโค้ดเชิงสร้างสรรค์: ออกแบบเว็บไซต์พอร์ตโฟลิโอสมัยใหม่ที่สะท้อนบรรยากาศทางวรรณกรรมของ 『Wuthering Heights』

การเปิดใช้งานและการเข้าถึง

Gemini 3.1 Pro เปิดให้ใช้งานในรูปแบบ พรีวิว (preview) เพื่อรวบรวมฟีดแบ็กจากผู้ใช้
- ผู้ใช้ Google AI Pro และ Ultra สามารถใช้งานได้ด้วยขีดจำกัดที่สูงขึ้นในแอป Gemini
- ใน NotebookLM เปิดให้เฉพาะผู้ใช้ Pro และ Ultra
- นักพัฒนาและองค์กรสามารถเข้าถึงได้ผ่าน AI Studio, Antigravity, Vertex AI, Gemini Enterprise, Gemini CLI, Android Studio

แผนในอนาคต

หลังการเปิดตัว Gemini 3 Pro, Google ยังคงรักษาความเร็วในการปรับปรุงอย่างต่อเนื่อง และกำลังใช้พรีวิว 3.1 Pro ครั้งนี้เพื่อ ตรวจสอบการอัปเดตและขยาย agentic workflow
การเปิดให้ใช้งานทั่วไป (GA) จะเกิดขึ้นหลังจากการตรวจสอบเสร็จสมบูรณ์ โดย Google ระบุว่า “เราตั้งตารอดูว่าผู้ใช้จะสร้างและค้นพบอะไรด้วยโมเดลนี้”

4 ความคิดเห็น

jwh926 2026-02-20

หวังว่าประสิทธิภาพด้านการเขียนโค้ดจะตาม Claude Opus ได้เร็ว ๆ นะ

ifmkl 2026-02-20

ใช่ครับ วันแรกที่โมเดล 3.0 preview ขึ้นมาอยู่บน cli แล้วได้ลองใช้ ผมชอบมากจนถึงกับเขียนความรู้สึกลงบล็อกไว้เลย แต่หลังจากนั้นก็ดิ่งลงอย่างรวดเร็ว ... ตอนนี้เลยใช้งาน codex กับ claude code เป็นหลักอยู่ครับ แต่ claude ก็ยังแอบ... กำลังดูอยู่ว่า 4.6 opus หรือ sonnet จะโอเคไหม ถ้าไม่ก็อาจจะลงตัวด้วยการใช้ codex สำหรับเขียนโค้ด และใช้ gemini สำหรับงานอื่น ๆ ครับ..

GN⁺ 2026-02-20

ความคิดเห็นจาก Hacker News

ตื่นเต้นกับ Gemini 3.1 Pro มาก
ก่อนหน้านี้แทบจะเอนเอียงไปทาง Claude ตลอด แต่ Claude Opus เด่นมากโดยเฉพาะเรื่องการเขียนโค้ด
Gemini ก็เกือบจะยอดเยี่ยมแล้ว แต่ยังไม่ถึงระดับ Claude
เลยสลับสมัคร ChatGPT Plus ↔ Gemini Pro ↔ Claude รายเดือน เพื่อไม่ให้พลาดจุดเด่นของแต่ละโมเดล
ในฐานะอดีตพนักงาน Google ก็หวังว่า Gemini 3.1 Pro จะดีกว่า 3.0
แต่สำหรับงานพัฒนา Gemini เป็น โมเดลที่น่าอึดอัดที่สุด ที่เคยใช้
Claude Opus ใน VS Code Copilot ให้สมดุลที่ดีระหว่างลำดับความคิดกับคำตอบ แต่ Gemini ใช้แค่ thinking token แล้วไม่อธิบายผลลัพธ์
มักจะติดลูป ใช้เครื่องมือไม่เก่ง และแก้ไฟล์ผิดที่ผิดทาง
เลยเคยใช้กลยุทธ์ ‘วางแผนด้วย Gemini ลงมือทำด้วย Claude’ แต่สุดท้ายก็ใช้แต่ Claude
ขณะที่ Anthropic เหมือนจะขัดเกลาโมเดลโดยยึดโปรเจ็กต์จริงเป็นศูนย์กลาง แต่ Google ดูเหมือนยังทดสอบการใช้งานจริงไม่พอ
- โปรเจ็กต์ของฉันมีคณิตศาสตร์เรื่อง color space เยอะมาก แต่ Gemini 3 Pro มักทำ type error พื้นฐาน บ่อย ๆ
  สับสนระหว่าง int8 กับ float หรือไม่ก็ลืมว่า normalize แล้วหรือยัง
  ให้ความรู้สึกเหมือนคนที่ความจำไม่ค่อยดี
  ถึงอย่างนั้นก็ยังช่วยได้มากในการคุยเรื่องการออกแบบสถาปัตยกรรม
- ตอนใช้ Gemini 3 บน Openclaw เสียค่าใช้จ่ายราว 10~20 ดอลลาร์ต่อชั่วโมง และ 1.5~3 ดอลลาร์ต่อพรอมป์ต์
  เป็น ที่สุดของความไร้ประสิทธิภาพ
- ประสิทธิภาพของโมเดลสุดท้ายก็ขึ้นอยู่กับ การจูนและการผสานเครื่องมือ
  Claude ให้ความรู้สึกเหมือนเรียนรู้ ‘กระบวนการเขียนโค้ด’ มาโดยตรง และ Anthropic ก็น่าจะนำฟีดแบ็กผู้ใช้ไปใช้ในการจูน
  ส่วน Google ตั้งเป้าเป็นโมเดลอเนกประสงค์ เลยดูเหมือนอยู่ในสภาพ ‘ทำได้ทุกอย่างนิดหน่อย แต่ไม่มีอะไรสมบูรณ์แบบเลย’
- Gemini 3.0 สำหรับฉันอยู่ในระดับ ใช้งานไม่ได้
  Claude หรือ Codex จะอธิบายวิธีเข้าหาปัญหา แต่ Gemini จะลงมือทำเลย
  มองข้ามคำขอให้แก้ไขและทำให้ workspace เลอะเทอะ
  ถึงจะใช้ฟรีได้ก็แทบไม่อยากใช้
  Anthropic ดูเหมือนจะเข้าใจตั้งแต่เนิ่น ๆ ว่า ‘ผู้ใช้ต้องควบคุมได้’
- Gemini ยังอ่อนในงานแบบ agentic
  OpenAI ตามขึ้นมาใกล้ระดับ Claude แล้ว แต่ Google ยังอีกไกล
คนส่วนใหญ่ประเมิน ความคุ้มค่าด้านต้นทุน ของ Google ต่ำเกินไป
ราคาแค่ครึ่งเดียวของ Opus แต่ประสิทธิภาพก็ดีมาก
ตาม ดัชนีของ Artificial Analysis รุ่น 3.1 ถูกกว่า Opus 40% และเร็วกว่า 30%
- แต่ก็มีมุมมองว่า “คำตอบธรรมดาราคา 1 เซ็นต์” สู้ “คำตอบยอดเยี่ยมราคา 2 เซ็นต์” ไม่ได้
  ถ้าใช้เพื่อพัฒนา ต่อให้เดือนละ 300 ดอลลาร์ก็คุ้มที่จะใช้โมเดลที่ดีที่สุด
  แต่ใน AI สำหรับผู้บริโภค การคำนวณนี้อาจต่างออกไป
- แน่นอนว่า ถ้า ทำงานได้ไม่ดีพอ ต่อให้ครึ่งราคาก็ไม่มีความหมาย
  แต่ถ้าประสิทธิภาพตามทัน ความสามารถในการแข่งขันด้านราคาก็น่าสนใจมาก
- ถ้า Opus เขียนโค้ดได้ดีกว่า 20% ความต่างนั้นมีผลมากในโปรเจ็กต์จริง
  แต่ถ้าประสิทธิภาพใกล้เคียงกัน การลดต้นทุนได้ 50% ก็เป็นข้อได้เปรียบใหญ่
- Gemini ทำคะแนน benchmark ได้ดี และวิศวกร DeepMind ก็เก่งมาก
  สำหรับฉันมันใช้งานได้ดีทั้งงานและงานเขียนโค้ดเป็นงานอดิเรก
  ถึงอย่างนั้นในชุมชนกลับมีเสียงวิจารณ์แรงมากจนน่าแปลกใจ
- Deepseek มีราคาแค่ 2% ของ Opus แต่คนส่วนใหญ่ก็ยังไม่ใช้มันสำหรับการเขียนโค้ด
โมเดลสมัยนี้ทรงพลังเกินไปมาก
ตอนนี้สร้างซอฟต์แวร์ที่สมบูรณ์ได้ในเวลาสั้นกว่าสมัยก่อนมาก
แต่ พฤติกรรมที่ต่างกัน ระหว่างแต่ละเวอร์ชันก็มากเกินไป จนเหมือนต้องบริหารทีมใหม่ทุกเดือน
โมเดลอาจถูกเปลี่ยนแบบไม่ประกาศล่วงหน้าหรือเปลี่ยนไปอย่างแนบเนียน เลยดูเหมือนเป็น รากฐานที่ไม่มั่นคง
- Opus 4.6 แก้ปัญหาที่ก่อนหน้านี้ o4-mini แก้ไม่ได้
  ดูได้ใน sqlite-chronicle issue
  หลังจากนั้นก็ช่วยปลดล็อกจุดติดขัดในหลายโปรเจ็กต์
- ฉันลองทั้งโมเดลของ Anthropic, Google, OpenAI แล้ว แต่ยังไม่พอสำหรับการสร้างผลิตภัณฑ์ที่เสร็จสมบูรณ์
  ถึงอย่างนั้นก็เพียงพอสำหรับหาไอเดียและเริ่มต้น codebase
- แอปที่สร้างด้วย GPT 5.1 codex max ก็ยังทำงานได้ดีอยู่
  เหมือนจะมี ความสอดคล้องกับตัวเอง คือแม้เป็นโค้ดเดียวกัน แต่โมเดลที่เป็นคนสร้างจะกลับมาจัดการต่อได้ง่ายกว่า
- เอาเข้าจริงมันให้ความรู้สึกเหมือนกำลังบริหาร ‘วิศวกรอัจฉริยะที่เพี้ยน ๆ’
  ถึงอย่างนั้นก็ยังเป็นเทคโนโลยีที่น่าทึ่งมาก
- มีคนพูดเล่นว่า “ค่าอาหารซูชื้อมื้อเดียว จ้างวิศวกรอัจฉริยะได้ทั้งเดือน” แล้วก็มีคนแซวกลับว่า “แล้วสุดท้ายใช้มันทำเครื่องคิดเลขเนี่ยนะ”
ราคา ของ Gemini 3.1 Pro ไม่เปลี่ยน
อินพุต $2/M เอาต์พุต $12/M ตามที่ระบุไว้ในเอกสารทางการ
knowledge cutoff คือเดือนมกราคม 2025 และเพิ่มโหมด “medium thinking” เข้ามาใหม่
เทียบกับ Opus 4.6 ที่ $5/$25 แล้วต่างกันมาก
- ถ้าจะใช้ CLI agent สำหรับองค์กร ขั้นตอนที่ ซับซ้อน ของ Google เป็นปัญหา
  ติดขัดตั้งแต่การตั้งกฎ IAM, ระบบชำระเงิน, ไปจนถึงการหาชื่อผลิตภัณฑ์
  OpenAI กับ Anthropic ง่ายกว่ามาก
  ถึงอย่างนั้นค่าบริการรายเดือนก็ใกล้เคียงกัน
- ถ้าใน Vendor-Bench 2 ประสิทธิภาพด้านการให้เหตุผลระยะยาวยังไม่ดีขึ้น ก็ยังไม่คิดจะย้ายจาก CC
  ตอนนี้ Anthropic นำอยู่ด้วย การปรับแต่งแบบ full-stack
- ยังไม่มี minimal reasoning อยู่ดี
  ยังไม่มีโมเดลที่เร็วและฉลาดแบบ Opus 4.6 โดยปิด thinking ได้
- ดูเหมือนจะถูกกว่า Codex เลยค่อนข้างน่าสนใจ
- knowledge cutoff อยู่ที่มกราคม 2025 เลยรู้สึกว่าเก่าไปนิด
Gemini 3 ยังอยู่ในสถานะ preview และ 2.5 ก็กำลังจะถูกเลิกใช้ในไม่ช้า
ดูจากกำหนดการเลิกใช้อย่างเป็นทางการ จะเห็นว่าบางโมเดลยุติลงโดยไม่มีโมเดลทดแทนด้วยซ้ำ
เลยสงสัยว่าเมื่อไร Google จะออกโมเดล production จริง ๆ เสียที
- ฉันก็เห็นด้วย การพึ่งพาโมเดลที่กำลังจะถูกเลิกใช้หรือยังไม่เปิดตัวจริงเป็นเรื่องเสี่ยง
  มีระบบที่รันใช้งานจริงอยู่ด้วย เลยรู้สึก กังวลมาก
- เหมือนคุณจะอ่านลิงก์ผิดนะ มีแค่ 2.5-preview ที่จะเลิกใช้ ส่วน 2.5 ตัวจริงจะอยู่ถึงฤดูใบไม้ร่วงปี 2026
- Google คงไม่ยกเลิกซอฟต์แวร์ที่มีคนจำนวนมากพึ่งพาหรอกมั้ง?
  ดู Killed by Google ก็จะรู้ว่าคำพูดนั้นว่างเปล่าแค่ไหน
- สถานการณ์แบบนี้แหละที่ทำให้นึกว่า “อ๋อ นี่มันสไตล์ Google ชัด ๆ”
- ยังไม่มีประกาศเลิกใช้ 2.5
  ถ้า 3.0 ยังเป็น preview งั้น 2.5 ก็น่าจะอยู่ต่ออีกอย่างน้อย 1 ปี
  ในเอกสารทางการก็ระบุไว้ชัดว่า “วันสิ้นสุดที่แน่นอนจะแจ้งให้ทราบล่วงหน้า”
Gemini แก้ปัญหา race condition ระหว่าง UI กับการซิงก์ข้อมูล ได้ในครั้งเดียว
แม้แต่ Opus 4.6 ก็ยังต้องลองถึงสามครั้งถึงจะแก้ได้ เลยค่อนข้างน่าทึ่ง
ตอนนี้มันพูดน้อยลงและเข้าประเด็นได้ไวกว่าเดิม
ต่อไปคงใช้กลยุทธ์ให้ Gemini ทำ R&D แล้วให้ Opus/Sonnet 4.6 ปิดงาน
- ชุดที่ฉันใช้คือ Opus 4.6 สำหรับค้นคว้าโค้ด, GPT 5.3 codex สำหรับเขียนโค้ด, Gemini สำหรับอัลกอริทึมวิทยาศาสตร์และคณิตศาสตร์, และ Grok สำหรับคำถามด้านความปลอดภัย
  ถ้าใช้ wrapper แบบรวมศูนย์ ที่รองรับหลายโมเดล ก็จะกังวลเรื่องการเลือกโมเดลน้อยลง
  สุดท้ายสิ่งสำคัญคือ “โมเดลที่เหมาะกับปัญหาของฉันที่สุด”
Gemini ตอบ “คำถามเรื่องร้านล้างรถ” ได้สมบูรณ์แบบ
คำตอบมีตรรกะประมาณว่า “ถ้าเดินไปก็จะไม่มีรถให้ล้าง ดังนั้นต้องขับรถไป”
- แต่อาจเป็นคำถามที่อยู่ในข้อมูลฝึกก็ได้ เลยลองเปลี่ยนเป็น คำถามเรื่องล้างช้าง แทน
  Gemini อธิบายอย่างมีเหตุผลว่า “ต้องพาช้างไปด้วย” พร้อมให้เหตุผลย่อยอย่างเป็นระบบ
  ถือเป็นความสามารถด้านการให้เหตุผลที่น่าประทับใจทีเดียว
- GPT-OSS-120b ก็ตอบคำถามเดียวกันได้ถูก
  เพียงแต่ประโยคของ Gemini เรื่อง “พยากรณ์ล้างรถในวันฝนตก” ฟังดูน่ารักแต่ก็มั่นใจเกินไปหน่อย
- ประเด็นสำคัญไม่ใช่แค่ว่าตอบถูกหรือไม่ แต่คือ มันให้เหตุผลได้ถูกต้องจริงไหม
- ที่จริง Gemini 3 Pro กับ Flash ก็ตอบคำถามนี้ได้ถูกอยู่แล้ว
- แต่คำตอบมัน ยืดยาว เกินไปจนชวนล้า
ในการทดสอบ “SVG รูปนกกระทุงขี่จักรยาน” Gemini ทำได้ดี
ดูได้จากลิงก์ผลลัพธ์
ดูเหมือน ความสามารถในการสร้างภาพเชิงภาพ จะดีขึ้น เพราะคะแนน ARC-AGI benchmark สูงขึ้น
- ตอนนี้ animated SVG ถูกใส่เป็นตัวอย่างพื้นฐานไปแล้ว
  benchmark เองก็เหมือนจะหมดความหมาย และกลายเป็นเรื่องของ รสนิยม มากกว่า
  น่าจะต้องมี benchmark แบบใหม่ที่เป็น ‘vibe check’
- ผลที่ฉันได้ออกมามีสไตล์แบบ 3D มากกว่านกกระทุง
  เป็นความเปลี่ยนแปลงที่น่าสนใจ
- แต่ benchmark SVG ส่วนตัวของฉันเอง (ภาพตัดขวางหัวใจมนุษย์) ก็ยังไม่ผ่านอยู่ดี
  สุดท้ายก็ยังต้องอาศัย มือของนักออกแบบมนุษย์
- ถ้าโมเดลพัฒนาไปมากกว่านี้ ก็น่าจะทำ UI แบบเรียลไทม์หรือสื่ออินเทอร์แอกทีฟบนพื้นฐาน SVG ได้
- ในทางกลับกัน ฟอร์แมตเวกเตอร์อื่นอย่าง PostScript แทบไม่มีพัฒนาการเลย
  อาจเป็นผลจากการที่ Google ปรับให้เหมาะกับ SVG โดยเฉพาะ
SVG นกกระทุงของ บล็อก Simon Willison ออกมาค่อนข้างดี แต่ใช้เวลาสร้างเกิน 5 นาที
ดูเหมือนจะเป็น ปัญหาด้านประสิทธิภาพ ในช่วงเปิดตัว
- ปัญหาของ Gemini คือมันมัก “พยายามช่วยมากเกินไป” เสมอ
  ทั้งที่ต้องการแค่นกกระทุงกับจักรยาน แต่มันกลับเพิ่มเมฆ พระอาทิตย์ และหมวกเข้ามาอีก
  ตอนเขียนโค้ดก็เหมือนกัน มันหยุด รีแฟกเตอร์โดยไม่ขอและเพิ่มคอมเมนต์ที่ไม่ต้องการ ไม่ได้
- ตลกตรงที่ การทดสอบแบบนี้ทำให้ Google ต้องทุ่มแรงกับการสร้าง SVG สัตว์+ยานพาหนะ จริง ๆ
  ทวีตของ Jeff Dean ก็เหมือนจะสื่อแบบนั้น
- สงสัยเหมือนกันว่าทำไม LLM ถึงเก่ง SVG มาก
  ทั้งที่ความเข้าใจเชิงพื้นที่ด้านอื่นยังอ่อน แต่กลับ สร้างรูปทรงได้แม่นยำ มาก
- อีกไม่นานโมเดลต่าง ๆ คงแข่ง benchmark กันด้วย ‘การสร้าง SVG นกกระทุงขี่จักรยาน’
- ถ้าดูโพสต์อย่างเป็นทางการบนบล็อก Google จะเห็นว่าการสร้าง SVG ถูกยกเป็นหนึ่งใน use case หลัก
  นั่นแปลว่าอาจไม่ใช่ความสามารถทั่วไปที่ดีขึ้น แต่เป็นผลจาก การฝึกแบบเจาะจงอย่างชัดเจน

clumsily 2026-02-20

คิดว่าอีกไม่นานก็คงจะมีการลดประสิทธิภาพลงแบบเงียบ ๆ ซึ่งประเด็นสำคัญที่สุดน่าจะอยู่ที่ว่าจะถูกลดลงมากแค่ไหน (แม้ว่า AI model ส่วนใหญ่จะให้ความรู้สึกว่าโง่ลงเมื่อเวลาผ่านไปอยู่แล้ว แต่ของ Google ดูจะหนักเป็นพิเศษ)
ตอนที่ 3 Pro ออกมาใหม่ ๆ ก็เคยดีอยู่หรอก แต่จำได้ว่าผ่านไปประมาณสักหนึ่งสัปดาห์ จู่ ๆ มันก็ดูโง่ลงอย่างเห็นได้ชัด สุดท้ายเลยเลิกใช้ไปเลยครับ