Gemini 3 Pro: ขอบเขตใหม่ของ Vision AI

(blog.google)

3 คะแนน โดย GN⁺ 2025-12-06 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

Gemini 3 Pro เป็นโมเดล มัลติโมดัล รุ่นใหม่ที่ก้าวข้ามขั้นตอนการรับรู้แบบพื้นฐานไปสู่การทำ การอนุมานเชิงภาพและเชิงพื้นที่
บันทึก ประสิทธิภาพล้ำสมัย ในหลายด้าน เช่น การเข้าใจเอกสาร พื้นที่ หน้าจอ และวิดีโอ และก้าวขึ้นสู่ระดับสูงสุดใน benchmark การอนุมานภาพที่ซับซ้อน
ในการทำความเข้าใจเอกสาร มีการนำเสนอ OCR ที่แม่นยำและการกู้คืนโครงสร้าง (derendering) และฟังก์ชันการอนุมานขั้นสูง เช่น การวิเคราะห์ตารางและแผนภูมิแบบหลายขั้นตอน
ในการเข้าใจพื้นที่ หน้าจอ และวิดีโอ เสริมความสามารถในการโต้ตอบกับสภาพแวดล้อมจริงผ่าน การชี้ตำแหน่งแบบพิกัด, การวิเคราะห์เฟรมความเร็วสูง, และ การติดตามสาเหตุในวิดีโอ
รองรับ การเข้าใจเชิงภาพที่ละเอียดแม่นยำและการอัตโนมัติ ในอุตสาหกรรมต่าง ๆ เช่น การศึกษา การแพทย์ กฎหมาย และการเงิน โดยนักพัฒนาสามารถปรับสมดุลระหว่างประสิทธิภาพและค่าใช้จ่ายได้ด้วยพารามิเตอร์ media_resolution

ภาพรวม Gemini 3 Pro

Gemini 3 Pro เป็นโมเดลที่พัฒนาจากการรับรู้แบบพื้นฐานสู่การทำ การอนุมานเชิงภาพและเชิงพื้นที่ และเป็น โมเดลมัลติโมดัลที่ทรงพลังที่สุด ที่ Google พัฒนา
- ทำคะแนนสูงสุดล่าสุดในมาตรฐานทั่วไประดับต่าง ๆ ของการทำความเข้าใจเอกสาร พื้นที่ หน้าจอ และวิดีโอ
- ทำ สถิติสูงสุดใหม่ ในการทดสอบการอนุมานภาพที่ซับซ้อน เช่น MMMU Pro และ Video MMMU

1. การเข้าใจเอกสาร

เอกสารจริงมักผสมส่วนประกอบที่ไม่เป็นโครงสร้าง เช่น รูปภาพ ลายมือ ตาราง และสมการ โดย Gemini 3 Pro รับรู้และจัดโครงสร้างเนื้อหาเหล่านี้ได้อย่างแม่นยำ
- มี ความแม่นยำของ OCR และ ความสามารถในการอนุมานเชิงภาพ ที่ดีขึ้นอย่างมาก
ด้วย ฟังก์ชัน Derendering สามารถคืนโครงสร้างของเอกสารภาพเป็นโค้ดเชิงโครงสร้าง เช่น HTML, LaTeX และ Markdown ได้
- เช่นการแปลงบัญชีการค้าในศตวรรษที่ 18 ให้เป็นตาราง หรือนำภาพสมการกลับมาเขียนเป็นโค้ด LaTeX
- ทำให้แผนภูมิดั้งเดิมของ Florence Nightingale กลับมาเป็น แผนภูมิแบบโต้ตอบ
ด้วย ความสามารถในการอนุมานแบบซับซ้อน สามารถวิเคราะห์ตารางและแผนภูมิเพื่อเชื่อมโยงเหตุผลทีละขั้นในรายงานยาว
- ทำคะแนนเหนือระดับมนุษย์ (80.5%) ในเกณฑ์ CharXiv Reasoning
- ในตัวอย่างรายงานของ U.S. Census Bureau โมเดลเชื่อมการเปลี่ยนแปลงของดัชนี Gini เข้ากับการวิเคราะห์ตัวเลขและนโยบาย และระบุสาเหตุอย่างแม่นยำ (การยกเลิกโครงการ ARPA และการสิ้นสุดมาตรการกระตุ้นเศรษฐกิจ)
- สรุปได้ว่ามีสัดส่วนกลุ่มรายได้ 5 ล่างสุดเพิ่มขึ้นจากการเปรียบเทียบตาราง

2. การเข้าใจเชิงพื้นที่

Gemini 3 Pro เป็นเวอร์ชันที่มี ความสามารถในการรับรู้เชิงพื้นที่ ที่แข็งแกร่งที่สุด และได้รับการปรับให้เหมาะกับการเข้าใจโลกทางกายภาพ
- ชี้ตำแหน่งเฉพาะในภาพได้อย่างแม่นยำผ่านการแสดง พิกัดระดับพิกเซล
- ใช้จุด 2D ตามลำดับเพื่อทำ การประมาณท่าทางร่างกาย หรือ การติดตามเส้นทาง
ด้วย ฟังก์ชันอ้างอิงพจนานุกรมแบบเปิด สามารถจำแนกวัตถุและเจตนาได้
- สามารถสร้างแผนเชิงพื้นที่สำหรับหุ่นยนต์ได้ เช่น สั่งว่า “จัดหมวดหมู่ขยะบนโต๊ะนี้”
- รองรับการปฏิบัติการตามคำสั่งภาพบนอุปกรณ์ AR/XR เช่น “ชี้น๊อตตามคู่มือผู้ใช้”

3. การเข้าใจหน้าจอ

รู้จำหน้าจอ OS เดสก์ท็อปและมือถือได้อย่างแม่นยำเพื่อรองรับ การอัตโนมัติการใช้งานคอมพิวเตอร์
- ใช้ได้กับงานอัตโนมัติที่ทำซ้ำ, การทดสอบ QA, การแนะนำผู้ใช้ใหม่, และการวิเคราะห์ UX
- รับรู้องค์ประกอบ UI และกำหนดตำแหน่งคลิกได้อย่างละเอียดแม่นยำ

4. การเข้าใจวิดีโอ

วิดีโอเป็นรูปแบบข้อมูลที่ซับซ้อนที่สุด และ Gemini 3 Pro วิเคราะห์ได้อย่างเร็วและแม่นยำสูง
- ด้วยการประมวลผลอัตราเฟรมสูง (> 1 FPS) รู้จำการเคลื่อนไหวที่รวดเร็วได้ และสามารถวิเคราะห์การเคลื่อนไหวละเอียดในสวิงกอล์ฟ
- เมื่อประมวลผลที่ 10 FPS สามารถจับการเคลื่อนย้ายน้ำหนักและรายละเอียดท่าทางสวิงได้อย่างครบถ้วน
ด้วยโหมด ‘Thinking’ ขยายจากการรับรู้วัตถุอย่างเดียวไปสู่การอนุมานวิดีโอแบบติดตามสาเหตุ-ผล
- เข้าใจทั้งว่า “อะไรเกิดขึ้น” และ “เพราะเหตุใด”
สามารถวิเคราะห์วิดีโอยาวเพื่อแปลงเป็นโค้ดแอปหรือข้อมูลเชิงโครงสร้าง สร้างความเชื่อมโยงระหว่างวิดีโอและโค้ดให้แข็งแรงขึ้น

5. กรณีใช้งานจริง

การศึกษา: ยกระดับความสามารถในการแก้ปัญหาที่เน้นแผนภูมิในคณิตศาสตร์และวิทย์
- รองรับโจทย์ การอนุมานมัลติโมดัล ระดับมัธยมถึงมหาวิทยาลัย
- วิเคราะห์ปัญหาคณิตศาสตร์เชิงภาพอย่าง [Math Kangaroo] และไดอะแกรมเคมี/ฟิสิกส์ที่ซับซ้อน
- ร่วมกับ [Nano Banana Pro] เพื่อไฮไลต์ข้อผิดพลาดในงานที่มอบให้แก่นักเรียนแบบเห็นภาพได้ชัดเจน
การแพทย์และชีววิทยา: ทำผลงานได้ดีที่สุดใน benchmark ภาพทางการแพทย์ เช่น MedXpertQA-MM, VQA-RAD, MicroVQA
- ถูกนำไปใช้กับคำถามตอบบนภาพรังสี และการวิจัยชีววิทยาด้วยการสังเกตแบบจุลทรรศน์
กฎหมายและการเงิน: วิเคราะห์ตารางและแผนภูมิในรายงานและสัญญาที่ซับซ้อน เพื่อสนับสนุน การอัตโนมัติการประมวลผลเอกสารมืออาชีพ

6. การควบคุมความละเอียดสื่อ

เมื่อประมวลผลอินพุตเชิงภาพ การรักษาอัตราส่วนภาพต้นฉบับช่วยยกระดับคุณภาพ
สามารถปรับสมดุลระหว่างประสิทธิภาพและต้นทุนผ่านพารามิเตอร์ media_resolution
- High resolution: เหมาะกับ OCR รายละเอียดสูงและการทำความเข้าใจเอกสารที่ซับซ้อน
- Low resolution: เหมาะสำหรับการรับรู้ฉากและการประมวลผลบริบทที่ยาว โดยเน้นการเพิ่มประสิทธิภาพต้นทุน/หน่วงเวลา
รายละเอียดการตั้งค่าเพิ่มเติมดูได้ใน [คู่มือ Gemini 3.0 Documentation Guide]

การเข้าถึงนักพัฒนา

Gemini 3 Pro สามารถทดลองได้โดยตรงใน Google AI Studio และ
เอกสารสำหรับนักพัฒนา ให้การสนับสนุนการผสาน API และการใช้งานโมเดล

3 ความคิดเห็น

y15un 2025-12-06

ทุกอย่างก็ดีอยู่หรอก แต่อยากให้แก้เรื่องที่ชอบฝังวิดีโอ YouTube ทั้งที่ขัดกับคำสั่งของผู้ใช้เสียที ระหว่างตอบก็มักเปิดเล่นอัตโนมัติมาทำลายสมาธิอยู่เรื่อย จนผมตั้งห้ามวิดีโอไว้ใน personal context แล้ว แต่บางครั้งก็ยังเมินแล้วดันวิดีโอเข้ามาอีก น่าหงุดหงิด...

colus001 2025-12-08

พอผมขอให้ทำลิสต์อยู่ดี ๆ ก็จู่ ๆ บอกให้เชื่อมต่อ Google Drive ซะงั้น 555

GN⁺ 2025-12-06

ความคิดเห็นจาก Hacker News

มีโมเดลตัวแรกที่ได้คะแนนบางส่วนในการทดสอบภาพด้วย LLM ที่ฉันทำขึ้น
การทดสอบคือให้นับจำนวนขาของสุนัขที่มี 5 ขา แต่ LLM ส่วนใหญ่ยืนกรานว่ามี 4 ขา
GPT-5 ถึงกับเขียน สคริปต์ตรวจจับขอบ เองเพื่อหาเส้นแบ่งระหว่าง “อุ้งเท้าสุนัขสีทอง” กับ “หญ้าสีเขียวสด” เพื่อพิสูจน์ว่ามี 4 ขา แต่พอมันเจอ 5 ขาจริง ๆ ก็อ้างว่าเป็นบั๊กแล้วปรับค่าความไวแทน
Gemini 3 ตอนแรกนับขาผิด แต่กลับตรวจพบ “โครงสร้างทางกายวิภาคของเพศชาย” ในภาพ นั่นคือขาที่ 5 อยู่ตรงตำแหน่งนั้น
ถึงอย่างนั้นก็ยังยากจะบอกว่าน่าประทับใจ
อนึ่ง image slicer ของ Meta กลับระบุได้ถูกต้องว่ามี 5 ขา ภาพสุนัขหลายขาทั้งหมดถูกสร้างด้วย nano-banana
- ฉันก็ลองให้ Gemini สร้างภาพสุนัข 5 ขาเหมือนกัน แต่มันทำไม่ได้ ส่วนใหญ่จะสร้างสุนัขปกติ หรือไม่ก็เปลี่ยนหางให้เป็นส่วนเกินประหลาด ๆ
  พอลองให้ Gemini กับ Grok นับจำนวนขา ทั้งคู่ก็ยืนกรานว่ามี 4 ขา
  พอฉันบอกว่า Grok ผิด มันก็เข้าสู่ภาวะ สับสนเชิงภววิทยา แล้วสุดท้ายสรุปว่า “นี่คือภาพลวงตาชื่อดังที่ดูเหมือนสุนัขไม่มีหัว แต่จริง ๆ มีแค่สามขา”
  การทดสอบแบบนี้ทำให้กลับสู่ความเป็นจริงทุกครั้งที่เริ่มรู้สึกว่า LLM ‘ฉลาด’ จริง
- ฉันไม่ใช่ผู้เชี่ยวชาญด้าน AI แต่มี แบบทดสอบภาพเขาวงกต ที่ทุกโมเดลล้มเหลว
  ถ้าขอให้ LLM วาดเส้นทางที่ดีที่สุด มันพลาดทั้งหมด
  นี่คือผลลัพธ์จาก Nano Banana: ลิงก์ทดสอบ
- การทดสอบพวกนี้ให้ความรู้สึกเหมือนเป็น แนวทางที่มีอคติ ที่เอาวิธีรับรู้ของมนุษย์มาใช้ตัดสิน LLM
  แทบไม่ได้พิสูจน์อะไรนอกจากว่าโมเดลไม่ได้คิดแบบมนุษย์
  อยากรู้ว่าในพรอมป์ต์ระบุชัดไหมว่าให้ “ตีความภาพนี้แบบตรงตัวมาก ๆ” หรือมันถูกออกแบบมาให้หลอกกันแน่
  เกณฑ์ความสำเร็จก็ยังไม่ชัด ว่าแค่ตอบว่า “5” ก็พอ หรือรวมบริบทการสนทนาด้วย
  สุดท้ายการทดสอบพวกนี้เลยดูเหมือนเป็น การวิเคราะห์ที่ไม่ก่อประโยชน์ สำหรับการประเมินระดับการรับรู้ของ LLM
- Nano Banana 2 สร้าง ภาพสุนัข 5 ขา ที่ดูน่าเชื่อพอสมควรได้จริง
  ลิงก์ผลลัพธ์
  แต่โมเดลไม่ได้ ‘คิด’ ว่าตัวเองทำแบบนั้น
  ในขั้นตอนการให้เหตุผลสุดท้าย มันยอมรับข้อจำกัดของตัวเองว่ามี “ขาที่ห้ามักหายไปเรื่อย ๆ” และสรุปว่า “รับรู้ข้อบกพร่องแล้ว แต่จะส่งภาพที่ดีที่สุดเท่าที่ทำได้”
- เมื่อต้องเอาชนะ แนวคิดที่ปรากฏไม่สมดุล ในข้อมูลฝึก โมเดลมักจะลำบาก
  ตัวอย่างเช่น ถ้าลองสร้างแมงมุมที่ขาหายไปหนึ่งข้าง ดาวเก้าแฉก โคลเวอร์ห้าใบ หรือคนที่มีจำนวนนิ้วไม่เท่าปกติ อัตราความสำเร็จไม่ถึง 25%
  โดยเฉพาะปัญหาเรื่องนิ้วนี่ช่างน่าขัน เมื่อคิดถึงความพยายามที่เคยทุ่มไปเพื่อแก้ข้อผิดพลาดทางกายวิภาคของ SD 1.5 ในอดีต
ฉันทำงาน เขียนแบบไฟฟ้าสำหรับงานก่อสร้าง และโยนงานง่าย ๆ ให้ LLM ลองทำ
ฉันให้ฮาร์เนสที่ค่อนข้างหยาบ ๆ ไป แต่มันก็จัดวางปลั๊กไฟในห้องได้เกือบครบในครั้งเดียว
ถ้าควบคุมได้ละเอียดกว่านี้อีกหน่อย ดูเหมือนอีกไม่นานมันอาจแทนที่ งานส่วนใหญ่ของเพื่อนร่วมงาน ได้
- อยากมี ไม้กายสิทธิ์ ที่ทำให้เครื่องมืออย่าง AVEVA หรือ AutoCAD ใช้งานเจ็บปวดน้อยลง
  คนที่ควรปรับปรุงเครื่องมือพวกนี้ไม่ควรเป็นวิศวกรผู้ใช้ แต่ควรเป็นบริษัทที่สร้างเครื่องมือเอง
  การพึ่งตัวเร่งจากบุคคลที่สามที่ความน่าเชื่อถือต่ำเป็นเรื่องเสี่ยง
- อยากเห็นตัวอย่างว่าคุณใช้ฮาร์เนสแบบไหน ฉันก็อยากลองทดสอบบ้าง
- คำพูดที่ว่า “AI ไม่มีวันแทนที่ความคิดสร้างสรรค์ของมนุษย์ได้” ชวนให้รู้สึกเหมือนเป็น เส้นชัยที่เลื่อนไปเรื่อย ๆ
  ขอบเขตมันกำลังขยายจากดิจิทัลอาร์ต การบริหารโปรเจกต์ วิศวกรรม ไปจนถึงงานปฏิบัติการมากขึ้นเรื่อย ๆ
  เหมือนไม่มีใครจำแล้วว่าเมื่อก่อน การทดสอบทัวริง เคยเป็นประเด็นถกเถียงกันอย่างจริงจัง
ถ้าการปรับปรุงประสิทธิภาพของ OCR ถูกนำไปใช้กับ Google Books น่าจะมหาศาลมาก
ในระยะยาวอาจทำให้เก็บหนังสือหายากแบบบีบอัดได้ในราคาไม่เกิน $5,000
บทความบล็อกของ Anna’s Archive ก็น่าอ่านประกอบ
อยากให้ archive.org ใช้อันนี้แทน Tesseract แต่อยากรู้เหมือนกันว่าต้นทุนเท่าไร
- นี่เป็นโครงสร้างแบบ data flywheel คลาสสิก — โมเดลดีขึ้น → ข้อมูลดีขึ้น → โมเดลดียิ่งขึ้น
- “ขอข้อมูลเพิ่มแด่เทพแห่งข้อมูล!”
ผลลัพธ์ของ ScreenSpot Pro น่าสนใจมาก
```
72.7% Gemini 3 Pro
11.4% Gemini 2.5 Pro
49.9% Claude Opus 4.5
3.50% GPT-5.1
```
เป็นการทดสอบการใช้งานคอมพิวเตอร์แบบ GUI ความละเอียดสูง
ลิงก์งานวิจัย
- เมื่อไม่กี่เดือนก่อน ฉันแปลกใจมากที่ GPT-5 ทำผลงาน ย่ำแย่ กว่า Opus 4.1 กับ Gemini 2.5 มาก ในการทดสอบ OCR แบบง่าย
  กำลังจะลองทดสอบใหม่ด้วยโมเดลล่าสุด
  บล็อกที่เกี่ยวข้อง
- ผลของ GPT-5.1 ต่ำผิดปกติอย่างมาก หรือว่าเกิดการสูญเสียข้อมูลจากการ downscale?
- ถ้าแนวโน้มยังแบบนี้ อีกไม่นานความแม่นยำน่าจะไปถึงระดับ 90% กว่า ๆ
แจ้งผู้เขียนบทความ — ลิงก์ “HTML transcription” เสีย
มันชี้ไปยังที่อยู่ Google ภายในองค์กร
- ขำดีที่ดีไซน์พอร์ทัลภายในบริษัทแทบไม่เปลี่ยนมาหลายสิบปีแล้ว สไตล์เก่า ๆ แบบนั้นชวนให้คิดถึงอดีต
- ผมคือ Rohan ผู้เขียนบทความ ขอบคุณที่แจ้ง ตอนนี้แก้แล้ว
- น่าแปลกที่ลิงก์ช่วยเหลือการล็อกอินเปิดได้โดยไม่ต้องล็อกอิน
- ลิงก์ “See prompt in Google AI Studio” ก็ชี้ไปยังพรอมป์ต์ส่วนตัวเหมือนกัน
Nano Banana Pro ยังแก้ ปริศนาหาคำ ได้ไม่สมบูรณ์แบบ
ในทางกลับกัน Gemini 3 Pro with Code Execution กลับตอบถูกทั้งหมดในครั้งเดียวและยังระบุตำแหน่งคำได้อย่างแม่นยำ
ภาพปริศนา, ผลลัพธ์ Nano Banana 1, ผลลัพธ์ 2
Nano Banana ตอบถูกแค่สองคำ แต่ก็ถือว่าก้าวหน้ามากเมื่อเทียบกับก่อนหน้า
เป็นปัญหาที่ต้องใช้ การเตรียมข้อมูลล่วงหน้าแบบละเอียด เช่น การจัดการตัวพิมพ์เล็กพิมพ์ใหญ่หรือการลบช่องว่าง
- เวลาใช้เว็บแอป Gemini อย่าเริ่มจากโหมดสร้างภาพตั้งแต่แรก ควรตั้ง ลำดับพรอมป์ต์ที่แม่นยำ ในโหมดสนทนาปกติก่อน แล้วค่อยสั่งสร้างภาพ
มีคนบอกว่า “Gemini 3 Pro คือการก้าวกระโดดข้ามรุ่นจากการรู้จำธรรมดาไปสู่ การให้เหตุผลเชิงพื้นที่”
แต่พอขอ “แก้วไวน์ที่เต็ม” มันกลับวาดแก้วที่มีไวน์แค่ 2/3
การให้เหตุผลเชิงพื้นที่ที่แท้จริงยังอีกไกล
- Gemini 3 Pro ไม่เหมือน Nano Banana Pro และ ความแข็งแกร่ง ของโมเดลถอดรหัสภาพอาจด้อยกว่า
  Nano Banana Pro เก่งกว่าในการอนุมานตำแหน่งข้อผิดพลาดภายในภาพ
- ฉันลองใช้พรอมป์ต์เดียวกัน แล้วพอพูดเพิ่มอีกครั้งว่า “ช่วยเติมจนเกือบล้นแก้ว” มันก็สร้างแก้วที่เต็มสมบูรณ์ออกมา
- ในทางกลับกัน ถ้าให้ภาพแล้วถามว่า “แก้วนี้เต็มหรือยัง?” มันน่าจะตอบได้ถูกต้อง Qwen-VL ก็ทำอะไรแบบนั้นได้ดีอยู่แล้ว
การประกาศครั้งนี้ไม่ใช่โมเดลใหม่ แต่เป็นแค่การเน้น กรณีใช้งานด้านวิชันจริง ของ Gemini 3 เท่านั้น
เขาว่า ฟีเจอร์ส่งออกพิกัด ของ Gemini 3 ใช้ทำ pose estimation หรือ trajectory tracking ได้
แต่เสียดายที่ไม่มีพรอมป์ต์หรือตัวเอกสารอธิบายที่เป็นรูปธรรม
- อยากได้ฟีเจอร์ใน CMS ที่ช่วย จัดเฟรมภาพตามสัดส่วน ให้อัตโนมัติ
  เช่น ครอปรูปเป็นอัตราส่วนไวด์ สี่เหลี่ยมจัตุรัส แนวตั้ง หรือ 4:3 มีโมเดลแบบนี้ไหม? ใน Hugging Face หาไม่เจอ
- บล็อกที่เกี่ยวข้องของ Simon Willison น่าจะช่วยได้: Bounding Box Visualization
ถ้าทำ YouTube พร้อมคำบรรยายเสียง ได้จริงก็น่าทึ่งมาก
ต่อให้ไม่ต้องเล่นเอง ก็ยังฟัง เพลย์ทรูแบบบรรยาย ที่ Gemini อธิบายฉากให้ได้
- ฉันวิเคราะห์วิดีโอ Zelda TOTK ทุก 5 วินาทีเพื่อสร้าง คำบรรยายเสียงเชิงเล่าเรื่อง
  วิดีโอต้นฉบับ, สคริปต์, เสียง TTS
  เพราะเป็นวิดีโอ 144p รายละเอียดบางจุดเลยคลาดเคลื่อนนิดหน่อย แต่คำอธิบายฉากค่อนข้างแม่น
- ฉันก็ประมวลผลวิดีโอ Witcher 3 ความยาว 1 ชั่วโมงที่ 144p เช่นกัน และสร้างคำอธิบายรายฉากได้ง่าย ๆ ที่ประมาณ 300,000 โทเค็น
- ฉันอัปโหลดวิดีโอเปิดเกม Zelda: Breath of the Wild ช่วง 5 นาทีเข้าแอป Gemini แล้วขอคำอธิบายทีละฉาก
  วิดีโอต้นฉบับ, ผลลัพธ์ gist
  มันแม่นพอสมควรในฐานะคำบรรยายสำหรับผู้พิการทางสายตา