- Gemini 3 Pro เป็นโมเดล มัลติโมดัล รุ่นใหม่ที่ก้าวข้ามขั้นตอนการรับรู้แบบพื้นฐานไปสู่การทำ การอนุมานเชิงภาพและเชิงพื้นที่
- บันทึก ประสิทธิภาพล้ำสมัย ในหลายด้าน เช่น การเข้าใจเอกสาร พื้นที่ หน้าจอ และวิดีโอ และก้าวขึ้นสู่ระดับสูงสุดใน benchmark การอนุมานภาพที่ซับซ้อน
- ในการทำความเข้าใจเอกสาร มีการนำเสนอ OCR ที่แม่นยำและการกู้คืนโครงสร้าง (derendering) และฟังก์ชันการอนุมานขั้นสูง เช่น การวิเคราะห์ตารางและแผนภูมิแบบหลายขั้นตอน
- ในการเข้าใจพื้นที่ หน้าจอ และวิดีโอ เสริมความสามารถในการโต้ตอบกับสภาพแวดล้อมจริงผ่าน การชี้ตำแหน่งแบบพิกัด, การวิเคราะห์เฟรมความเร็วสูง, และ การติดตามสาเหตุในวิดีโอ
- รองรับ การเข้าใจเชิงภาพที่ละเอียดแม่นยำและการอัตโนมัติ ในอุตสาหกรรมต่าง ๆ เช่น การศึกษา การแพทย์ กฎหมาย และการเงิน โดยนักพัฒนาสามารถปรับสมดุลระหว่างประสิทธิภาพและค่าใช้จ่ายได้ด้วยพารามิเตอร์ media_resolution
ภาพรวม Gemini 3 Pro
- Gemini 3 Pro เป็นโมเดลที่พัฒนาจากการรับรู้แบบพื้นฐานสู่การทำ การอนุมานเชิงภาพและเชิงพื้นที่ และเป็น โมเดลมัลติโมดัลที่ทรงพลังที่สุด ที่ Google พัฒนา
- ทำคะแนนสูงสุดล่าสุดในมาตรฐานทั่วไประดับต่าง ๆ ของการทำความเข้าใจเอกสาร พื้นที่ หน้าจอ และวิดีโอ
- ทำ สถิติสูงสุดใหม่ ในการทดสอบการอนุมานภาพที่ซับซ้อน เช่น MMMU Pro และ Video MMMU
1. การเข้าใจเอกสาร
- เอกสารจริงมักผสมส่วนประกอบที่ไม่เป็นโครงสร้าง เช่น รูปภาพ ลายมือ ตาราง และสมการ โดย Gemini 3 Pro รับรู้และจัดโครงสร้างเนื้อหาเหล่านี้ได้อย่างแม่นยำ
- มี ความแม่นยำของ OCR และ ความสามารถในการอนุมานเชิงภาพ ที่ดีขึ้นอย่างมาก
- ด้วย ฟังก์ชัน Derendering สามารถคืนโครงสร้างของเอกสารภาพเป็นโค้ดเชิงโครงสร้าง เช่น HTML, LaTeX และ Markdown ได้
- เช่นการแปลงบัญชีการค้าในศตวรรษที่ 18 ให้เป็นตาราง หรือนำภาพสมการกลับมาเขียนเป็นโค้ด LaTeX
- ทำให้แผนภูมิดั้งเดิมของ Florence Nightingale กลับมาเป็น แผนภูมิแบบโต้ตอบ
- ด้วย ความสามารถในการอนุมานแบบซับซ้อน สามารถวิเคราะห์ตารางและแผนภูมิเพื่อเชื่อมโยงเหตุผลทีละขั้นในรายงานยาว
- ทำคะแนนเหนือระดับมนุษย์ (80.5%) ในเกณฑ์ CharXiv Reasoning
- ในตัวอย่างรายงานของ U.S. Census Bureau โมเดลเชื่อมการเปลี่ยนแปลงของดัชนี Gini เข้ากับการวิเคราะห์ตัวเลขและนโยบาย และระบุสาเหตุอย่างแม่นยำ (การยกเลิกโครงการ ARPA และการสิ้นสุดมาตรการกระตุ้นเศรษฐกิจ)
- สรุปได้ว่ามีสัดส่วนกลุ่มรายได้ 5 ล่างสุดเพิ่มขึ้นจากการเปรียบเทียบตาราง
2. การเข้าใจเชิงพื้นที่
- Gemini 3 Pro เป็นเวอร์ชันที่มี ความสามารถในการรับรู้เชิงพื้นที่ ที่แข็งแกร่งที่สุด และได้รับการปรับให้เหมาะกับการเข้าใจโลกทางกายภาพ
- ชี้ตำแหน่งเฉพาะในภาพได้อย่างแม่นยำผ่านการแสดง พิกัดระดับพิกเซล
- ใช้จุด 2D ตามลำดับเพื่อทำ การประมาณท่าทางร่างกาย หรือ การติดตามเส้นทาง
- ด้วย ฟังก์ชันอ้างอิงพจนานุกรมแบบเปิด สามารถจำแนกวัตถุและเจตนาได้
- สามารถสร้างแผนเชิงพื้นที่สำหรับหุ่นยนต์ได้ เช่น สั่งว่า “จัดหมวดหมู่ขยะบนโต๊ะนี้”
- รองรับการปฏิบัติการตามคำสั่งภาพบนอุปกรณ์ AR/XR เช่น “ชี้น๊อตตามคู่มือผู้ใช้”
3. การเข้าใจหน้าจอ
- รู้จำหน้าจอ OS เดสก์ท็อปและมือถือได้อย่างแม่นยำเพื่อรองรับ การอัตโนมัติการใช้งานคอมพิวเตอร์
- ใช้ได้กับงานอัตโนมัติที่ทำซ้ำ, การทดสอบ QA, การแนะนำผู้ใช้ใหม่, และการวิเคราะห์ UX
- รับรู้องค์ประกอบ UI และกำหนดตำแหน่งคลิกได้อย่างละเอียดแม่นยำ
4. การเข้าใจวิดีโอ
- วิดีโอเป็นรูปแบบข้อมูลที่ซับซ้อนที่สุด และ Gemini 3 Pro วิเคราะห์ได้อย่างเร็วและแม่นยำสูง
- ด้วยการประมวลผลอัตราเฟรมสูง (> 1 FPS) รู้จำการเคลื่อนไหวที่รวดเร็วได้ และสามารถวิเคราะห์การเคลื่อนไหวละเอียดในสวิงกอล์ฟ
- เมื่อประมวลผลที่ 10 FPS สามารถจับการเคลื่อนย้ายน้ำหนักและรายละเอียดท่าทางสวิงได้อย่างครบถ้วน
- ด้วยโหมด ‘Thinking’ ขยายจากการรับรู้วัตถุอย่างเดียวไปสู่การอนุมานวิดีโอแบบติดตามสาเหตุ-ผล
- เข้าใจทั้งว่า “อะไรเกิดขึ้น” และ “เพราะเหตุใด”
- สามารถวิเคราะห์วิดีโอยาวเพื่อแปลงเป็นโค้ดแอปหรือข้อมูลเชิงโครงสร้าง สร้างความเชื่อมโยงระหว่างวิดีโอและโค้ดให้แข็งแรงขึ้น
5. กรณีใช้งานจริง
- การศึกษา: ยกระดับความสามารถในการแก้ปัญหาที่เน้นแผนภูมิในคณิตศาสตร์และวิทย์
- รองรับโจทย์ การอนุมานมัลติโมดัล ระดับมัธยมถึงมหาวิทยาลัย
- วิเคราะห์ปัญหาคณิตศาสตร์เชิงภาพอย่าง [Math Kangaroo] และไดอะแกรมเคมี/ฟิสิกส์ที่ซับซ้อน
- ร่วมกับ [Nano Banana Pro] เพื่อไฮไลต์ข้อผิดพลาดในงานที่มอบให้แก่นักเรียนแบบเห็นภาพได้ชัดเจน
- การแพทย์และชีววิทยา: ทำผลงานได้ดีที่สุดใน benchmark ภาพทางการแพทย์ เช่น MedXpertQA-MM, VQA-RAD, MicroVQA
- ถูกนำไปใช้กับคำถามตอบบนภาพรังสี และการวิจัยชีววิทยาด้วยการสังเกตแบบจุลทรรศน์
- กฎหมายและการเงิน: วิเคราะห์ตารางและแผนภูมิในรายงานและสัญญาที่ซับซ้อน เพื่อสนับสนุน การอัตโนมัติการประมวลผลเอกสารมืออาชีพ
6. การควบคุมความละเอียดสื่อ
- เมื่อประมวลผลอินพุตเชิงภาพ การรักษาอัตราส่วนภาพต้นฉบับช่วยยกระดับคุณภาพ
- สามารถปรับสมดุลระหว่างประสิทธิภาพและต้นทุนผ่านพารามิเตอร์ media_resolution
- High resolution: เหมาะกับ OCR รายละเอียดสูงและการทำความเข้าใจเอกสารที่ซับซ้อน
- Low resolution: เหมาะสำหรับการรับรู้ฉากและการประมวลผลบริบทที่ยาว โดยเน้นการเพิ่มประสิทธิภาพต้นทุน/หน่วงเวลา
- รายละเอียดการตั้งค่าเพิ่มเติมดูได้ใน [คู่มือ Gemini 3.0 Documentation Guide]
การเข้าถึงนักพัฒนา
- Gemini 3 Pro สามารถทดลองได้โดยตรงใน Google AI Studio และ
- เอกสารสำหรับนักพัฒนา ให้การสนับสนุนการผสาน API และการใช้งานโมเดล
3 ความคิดเห็น
ทุกอย่างก็ดีอยู่หรอก แต่อยากให้แก้เรื่องที่ชอบฝังวิดีโอ YouTube ทั้งที่ขัดกับคำสั่งของผู้ใช้เสียที ระหว่างตอบก็มักเปิดเล่นอัตโนมัติมาทำลายสมาธิอยู่เรื่อย จนผมตั้งห้ามวิดีโอไว้ใน personal context แล้ว แต่บางครั้งก็ยังเมินแล้วดันวิดีโอเข้ามาอีก น่าหงุดหงิด...
พอผมขอให้ทำลิสต์อยู่ดี ๆ ก็จู่ ๆ บอกให้เชื่อมต่อ Google Drive ซะงั้น 555
ความคิดเห็นจาก Hacker News
มีโมเดลตัวแรกที่ได้คะแนนบางส่วนในการทดสอบภาพด้วย LLM ที่ฉันทำขึ้น
การทดสอบคือให้นับจำนวนขาของสุนัขที่มี 5 ขา แต่ LLM ส่วนใหญ่ยืนกรานว่ามี 4 ขา
GPT-5 ถึงกับเขียน สคริปต์ตรวจจับขอบ เองเพื่อหาเส้นแบ่งระหว่าง “อุ้งเท้าสุนัขสีทอง” กับ “หญ้าสีเขียวสด” เพื่อพิสูจน์ว่ามี 4 ขา แต่พอมันเจอ 5 ขาจริง ๆ ก็อ้างว่าเป็นบั๊กแล้วปรับค่าความไวแทน
Gemini 3 ตอนแรกนับขาผิด แต่กลับตรวจพบ “โครงสร้างทางกายวิภาคของเพศชาย” ในภาพ นั่นคือขาที่ 5 อยู่ตรงตำแหน่งนั้น
ถึงอย่างนั้นก็ยังยากจะบอกว่าน่าประทับใจ
อนึ่ง image slicer ของ Meta กลับระบุได้ถูกต้องว่ามี 5 ขา ภาพสุนัขหลายขาทั้งหมดถูกสร้างด้วย nano-banana
พอลองให้ Gemini กับ Grok นับจำนวนขา ทั้งคู่ก็ยืนกรานว่ามี 4 ขา
พอฉันบอกว่า Grok ผิด มันก็เข้าสู่ภาวะ สับสนเชิงภววิทยา แล้วสุดท้ายสรุปว่า “นี่คือภาพลวงตาชื่อดังที่ดูเหมือนสุนัขไม่มีหัว แต่จริง ๆ มีแค่สามขา”
การทดสอบแบบนี้ทำให้กลับสู่ความเป็นจริงทุกครั้งที่เริ่มรู้สึกว่า LLM ‘ฉลาด’ จริง
ถ้าขอให้ LLM วาดเส้นทางที่ดีที่สุด มันพลาดทั้งหมด
นี่คือผลลัพธ์จาก Nano Banana: ลิงก์ทดสอบ
แทบไม่ได้พิสูจน์อะไรนอกจากว่าโมเดลไม่ได้คิดแบบมนุษย์
อยากรู้ว่าในพรอมป์ต์ระบุชัดไหมว่าให้ “ตีความภาพนี้แบบตรงตัวมาก ๆ” หรือมันถูกออกแบบมาให้หลอกกันแน่
เกณฑ์ความสำเร็จก็ยังไม่ชัด ว่าแค่ตอบว่า “5” ก็พอ หรือรวมบริบทการสนทนาด้วย
สุดท้ายการทดสอบพวกนี้เลยดูเหมือนเป็น การวิเคราะห์ที่ไม่ก่อประโยชน์ สำหรับการประเมินระดับการรับรู้ของ LLM
ลิงก์ผลลัพธ์
แต่โมเดลไม่ได้ ‘คิด’ ว่าตัวเองทำแบบนั้น
ในขั้นตอนการให้เหตุผลสุดท้าย มันยอมรับข้อจำกัดของตัวเองว่ามี “ขาที่ห้ามักหายไปเรื่อย ๆ” และสรุปว่า “รับรู้ข้อบกพร่องแล้ว แต่จะส่งภาพที่ดีที่สุดเท่าที่ทำได้”
ตัวอย่างเช่น ถ้าลองสร้างแมงมุมที่ขาหายไปหนึ่งข้าง ดาวเก้าแฉก โคลเวอร์ห้าใบ หรือคนที่มีจำนวนนิ้วไม่เท่าปกติ อัตราความสำเร็จไม่ถึง 25%
โดยเฉพาะปัญหาเรื่องนิ้วนี่ช่างน่าขัน เมื่อคิดถึงความพยายามที่เคยทุ่มไปเพื่อแก้ข้อผิดพลาดทางกายวิภาคของ SD 1.5 ในอดีต
ฉันทำงาน เขียนแบบไฟฟ้าสำหรับงานก่อสร้าง และโยนงานง่าย ๆ ให้ LLM ลองทำ
ฉันให้ฮาร์เนสที่ค่อนข้างหยาบ ๆ ไป แต่มันก็จัดวางปลั๊กไฟในห้องได้เกือบครบในครั้งเดียว
ถ้าควบคุมได้ละเอียดกว่านี้อีกหน่อย ดูเหมือนอีกไม่นานมันอาจแทนที่ งานส่วนใหญ่ของเพื่อนร่วมงาน ได้
คนที่ควรปรับปรุงเครื่องมือพวกนี้ไม่ควรเป็นวิศวกรผู้ใช้ แต่ควรเป็นบริษัทที่สร้างเครื่องมือเอง
การพึ่งตัวเร่งจากบุคคลที่สามที่ความน่าเชื่อถือต่ำเป็นเรื่องเสี่ยง
ขอบเขตมันกำลังขยายจากดิจิทัลอาร์ต การบริหารโปรเจกต์ วิศวกรรม ไปจนถึงงานปฏิบัติการมากขึ้นเรื่อย ๆ
เหมือนไม่มีใครจำแล้วว่าเมื่อก่อน การทดสอบทัวริง เคยเป็นประเด็นถกเถียงกันอย่างจริงจัง
ถ้าการปรับปรุงประสิทธิภาพของ OCR ถูกนำไปใช้กับ Google Books น่าจะมหาศาลมาก
ในระยะยาวอาจทำให้เก็บหนังสือหายากแบบบีบอัดได้ในราคาไม่เกิน $5,000
บทความบล็อกของ Anna’s Archive ก็น่าอ่านประกอบ
อยากให้ archive.org ใช้อันนี้แทน Tesseract แต่อยากรู้เหมือนกันว่าต้นทุนเท่าไร
ผลลัพธ์ของ ScreenSpot Pro น่าสนใจมาก
เป็นการทดสอบการใช้งานคอมพิวเตอร์แบบ GUI ความละเอียดสูง
ลิงก์งานวิจัย
กำลังจะลองทดสอบใหม่ด้วยโมเดลล่าสุด
บล็อกที่เกี่ยวข้อง
แจ้งผู้เขียนบทความ — ลิงก์ “HTML transcription” เสีย
มันชี้ไปยังที่อยู่ Google ภายในองค์กร
Nano Banana Pro ยังแก้ ปริศนาหาคำ ได้ไม่สมบูรณ์แบบ
ในทางกลับกัน Gemini 3 Pro with Code Execution กลับตอบถูกทั้งหมดในครั้งเดียวและยังระบุตำแหน่งคำได้อย่างแม่นยำ
ภาพปริศนา, ผลลัพธ์ Nano Banana 1, ผลลัพธ์ 2
Nano Banana ตอบถูกแค่สองคำ แต่ก็ถือว่าก้าวหน้ามากเมื่อเทียบกับก่อนหน้า
เป็นปัญหาที่ต้องใช้ การเตรียมข้อมูลล่วงหน้าแบบละเอียด เช่น การจัดการตัวพิมพ์เล็กพิมพ์ใหญ่หรือการลบช่องว่าง
มีคนบอกว่า “Gemini 3 Pro คือการก้าวกระโดดข้ามรุ่นจากการรู้จำธรรมดาไปสู่ การให้เหตุผลเชิงพื้นที่”
แต่พอขอ “แก้วไวน์ที่เต็ม” มันกลับวาดแก้วที่มีไวน์แค่ 2/3
การให้เหตุผลเชิงพื้นที่ที่แท้จริงยังอีกไกล
Nano Banana Pro เก่งกว่าในการอนุมานตำแหน่งข้อผิดพลาดภายในภาพ
การประกาศครั้งนี้ไม่ใช่โมเดลใหม่ แต่เป็นแค่การเน้น กรณีใช้งานด้านวิชันจริง ของ Gemini 3 เท่านั้น
เขาว่า ฟีเจอร์ส่งออกพิกัด ของ Gemini 3 ใช้ทำ pose estimation หรือ trajectory tracking ได้
แต่เสียดายที่ไม่มีพรอมป์ต์หรือตัวเอกสารอธิบายที่เป็นรูปธรรม
เช่น ครอปรูปเป็นอัตราส่วนไวด์ สี่เหลี่ยมจัตุรัส แนวตั้ง หรือ 4:3 มีโมเดลแบบนี้ไหม? ใน Hugging Face หาไม่เจอ
ถ้าทำ YouTube พร้อมคำบรรยายเสียง ได้จริงก็น่าทึ่งมาก
ต่อให้ไม่ต้องเล่นเอง ก็ยังฟัง เพลย์ทรูแบบบรรยาย ที่ Gemini อธิบายฉากให้ได้
วิดีโอต้นฉบับ, สคริปต์, เสียง TTS
เพราะเป็นวิดีโอ 144p รายละเอียดบางจุดเลยคลาดเคลื่อนนิดหน่อย แต่คำอธิบายฉากค่อนข้างแม่น
วิดีโอต้นฉบับ, ผลลัพธ์ gist
มันแม่นพอสมควรในฐานะคำบรรยายสำหรับผู้พิการทางสายตา