3 คะแนน โดย GN⁺ 2025-12-06 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • Gemini 3 Pro เป็นโมเดล มัลติโมดัล รุ่นใหม่ที่ก้าวข้ามขั้นตอนการรับรู้แบบพื้นฐานไปสู่การทำ การอนุมานเชิงภาพและเชิงพื้นที่
  • บันทึก ประสิทธิภาพล้ำสมัย ในหลายด้าน เช่น การเข้าใจเอกสาร พื้นที่ หน้าจอ และวิดีโอ และก้าวขึ้นสู่ระดับสูงสุดใน benchmark การอนุมานภาพที่ซับซ้อน
  • ในการทำความเข้าใจเอกสาร มีการนำเสนอ OCR ที่แม่นยำและการกู้คืนโครงสร้าง (derendering) และฟังก์ชันการอนุมานขั้นสูง เช่น การวิเคราะห์ตารางและแผนภูมิแบบหลายขั้นตอน
  • ในการเข้าใจพื้นที่ หน้าจอ และวิดีโอ เสริมความสามารถในการโต้ตอบกับสภาพแวดล้อมจริงผ่าน การชี้ตำแหน่งแบบพิกัด, การวิเคราะห์เฟรมความเร็วสูง, และ การติดตามสาเหตุในวิดีโอ
  • รองรับ การเข้าใจเชิงภาพที่ละเอียดแม่นยำและการอัตโนมัติ ในอุตสาหกรรมต่าง ๆ เช่น การศึกษา การแพทย์ กฎหมาย และการเงิน โดยนักพัฒนาสามารถปรับสมดุลระหว่างประสิทธิภาพและค่าใช้จ่ายได้ด้วยพารามิเตอร์ media_resolution

ภาพรวม Gemini 3 Pro

  • Gemini 3 Pro เป็นโมเดลที่พัฒนาจากการรับรู้แบบพื้นฐานสู่การทำ การอนุมานเชิงภาพและเชิงพื้นที่ และเป็น โมเดลมัลติโมดัลที่ทรงพลังที่สุด ที่ Google พัฒนา
    • ทำคะแนนสูงสุดล่าสุดในมาตรฐานทั่วไประดับต่าง ๆ ของการทำความเข้าใจเอกสาร พื้นที่ หน้าจอ และวิดีโอ
    • ทำ สถิติสูงสุดใหม่ ในการทดสอบการอนุมานภาพที่ซับซ้อน เช่น MMMU Pro และ Video MMMU

1. การเข้าใจเอกสาร

  • เอกสารจริงมักผสมส่วนประกอบที่ไม่เป็นโครงสร้าง เช่น รูปภาพ ลายมือ ตาราง และสมการ โดย Gemini 3 Pro รับรู้และจัดโครงสร้างเนื้อหาเหล่านี้ได้อย่างแม่นยำ
    • มี ความแม่นยำของ OCR และ ความสามารถในการอนุมานเชิงภาพ ที่ดีขึ้นอย่างมาก
  • ด้วย ฟังก์ชัน Derendering สามารถคืนโครงสร้างของเอกสารภาพเป็นโค้ดเชิงโครงสร้าง เช่น HTML, LaTeX และ Markdown ได้
    • เช่นการแปลงบัญชีการค้าในศตวรรษที่ 18 ให้เป็นตาราง หรือนำภาพสมการกลับมาเขียนเป็นโค้ด LaTeX
    • ทำให้แผนภูมิดั้งเดิมของ Florence Nightingale กลับมาเป็น แผนภูมิแบบโต้ตอบ
  • ด้วย ความสามารถในการอนุมานแบบซับซ้อน สามารถวิเคราะห์ตารางและแผนภูมิเพื่อเชื่อมโยงเหตุผลทีละขั้นในรายงานยาว
    • ทำคะแนนเหนือระดับมนุษย์ (80.5%) ในเกณฑ์ CharXiv Reasoning
    • ในตัวอย่างรายงานของ U.S. Census Bureau โมเดลเชื่อมการเปลี่ยนแปลงของดัชนี Gini เข้ากับการวิเคราะห์ตัวเลขและนโยบาย และระบุสาเหตุอย่างแม่นยำ (การยกเลิกโครงการ ARPA และการสิ้นสุดมาตรการกระตุ้นเศรษฐกิจ)
    • สรุปได้ว่ามีสัดส่วนกลุ่มรายได้ 5 ล่างสุดเพิ่มขึ้นจากการเปรียบเทียบตาราง

2. การเข้าใจเชิงพื้นที่

  • Gemini 3 Pro เป็นเวอร์ชันที่มี ความสามารถในการรับรู้เชิงพื้นที่ ที่แข็งแกร่งที่สุด และได้รับการปรับให้เหมาะกับการเข้าใจโลกทางกายภาพ
    • ชี้ตำแหน่งเฉพาะในภาพได้อย่างแม่นยำผ่านการแสดง พิกัดระดับพิกเซล
    • ใช้จุด 2D ตามลำดับเพื่อทำ การประมาณท่าทางร่างกาย หรือ การติดตามเส้นทาง
  • ด้วย ฟังก์ชันอ้างอิงพจนานุกรมแบบเปิด สามารถจำแนกวัตถุและเจตนาได้
    • สามารถสร้างแผนเชิงพื้นที่สำหรับหุ่นยนต์ได้ เช่น สั่งว่า “จัดหมวดหมู่ขยะบนโต๊ะนี้”
    • รองรับการปฏิบัติการตามคำสั่งภาพบนอุปกรณ์ AR/XR เช่น “ชี้น๊อตตามคู่มือผู้ใช้”

3. การเข้าใจหน้าจอ

  • รู้จำหน้าจอ OS เดสก์ท็อปและมือถือได้อย่างแม่นยำเพื่อรองรับ การอัตโนมัติการใช้งานคอมพิวเตอร์
    • ใช้ได้กับงานอัตโนมัติที่ทำซ้ำ, การทดสอบ QA, การแนะนำผู้ใช้ใหม่, และการวิเคราะห์ UX
    • รับรู้องค์ประกอบ UI และกำหนดตำแหน่งคลิกได้อย่างละเอียดแม่นยำ

4. การเข้าใจวิดีโอ

  • วิดีโอเป็นรูปแบบข้อมูลที่ซับซ้อนที่สุด และ Gemini 3 Pro วิเคราะห์ได้อย่างเร็วและแม่นยำสูง
    • ด้วยการประมวลผลอัตราเฟรมสูง (> 1 FPS) รู้จำการเคลื่อนไหวที่รวดเร็วได้ และสามารถวิเคราะห์การเคลื่อนไหวละเอียดในสวิงกอล์ฟ
    • เมื่อประมวลผลที่ 10 FPS สามารถจับการเคลื่อนย้ายน้ำหนักและรายละเอียดท่าทางสวิงได้อย่างครบถ้วน
  • ด้วยโหมด ‘Thinking’ ขยายจากการรับรู้วัตถุอย่างเดียวไปสู่การอนุมานวิดีโอแบบติดตามสาเหตุ-ผล
    • เข้าใจทั้งว่า “อะไรเกิดขึ้น” และ “เพราะเหตุใด”
  • สามารถวิเคราะห์วิดีโอยาวเพื่อแปลงเป็นโค้ดแอปหรือข้อมูลเชิงโครงสร้าง สร้างความเชื่อมโยงระหว่างวิดีโอและโค้ดให้แข็งแรงขึ้น

5. กรณีใช้งานจริง

  • การศึกษา: ยกระดับความสามารถในการแก้ปัญหาที่เน้นแผนภูมิในคณิตศาสตร์และวิทย์
    • รองรับโจทย์ การอนุมานมัลติโมดัล ระดับมัธยมถึงมหาวิทยาลัย
    • วิเคราะห์ปัญหาคณิตศาสตร์เชิงภาพอย่าง [Math Kangaroo] และไดอะแกรมเคมี/ฟิสิกส์ที่ซับซ้อน
    • ร่วมกับ [Nano Banana Pro] เพื่อไฮไลต์ข้อผิดพลาดในงานที่มอบให้แก่นักเรียนแบบเห็นภาพได้ชัดเจน
  • การแพทย์และชีววิทยา: ทำผลงานได้ดีที่สุดใน benchmark ภาพทางการแพทย์ เช่น MedXpertQA-MM, VQA-RAD, MicroVQA
    • ถูกนำไปใช้กับคำถามตอบบนภาพรังสี และการวิจัยชีววิทยาด้วยการสังเกตแบบจุลทรรศน์
  • กฎหมายและการเงิน: วิเคราะห์ตารางและแผนภูมิในรายงานและสัญญาที่ซับซ้อน เพื่อสนับสนุน การอัตโนมัติการประมวลผลเอกสารมืออาชีพ

6. การควบคุมความละเอียดสื่อ

  • เมื่อประมวลผลอินพุตเชิงภาพ การรักษาอัตราส่วนภาพต้นฉบับช่วยยกระดับคุณภาพ
  • สามารถปรับสมดุลระหว่างประสิทธิภาพและต้นทุนผ่านพารามิเตอร์ media_resolution
    • High resolution: เหมาะกับ OCR รายละเอียดสูงและการทำความเข้าใจเอกสารที่ซับซ้อน
    • Low resolution: เหมาะสำหรับการรับรู้ฉากและการประมวลผลบริบทที่ยาว โดยเน้นการเพิ่มประสิทธิภาพต้นทุน/หน่วงเวลา
  • รายละเอียดการตั้งค่าเพิ่มเติมดูได้ใน [คู่มือ Gemini 3.0 Documentation Guide]

การเข้าถึงนักพัฒนา

3 ความคิดเห็น

 
y15un 2025-12-06

ทุกอย่างก็ดีอยู่หรอก แต่อยากให้แก้เรื่องที่ชอบฝังวิดีโอ YouTube ทั้งที่ขัดกับคำสั่งของผู้ใช้เสียที ระหว่างตอบก็มักเปิดเล่นอัตโนมัติมาทำลายสมาธิอยู่เรื่อย จนผมตั้งห้ามวิดีโอไว้ใน personal context แล้ว แต่บางครั้งก็ยังเมินแล้วดันวิดีโอเข้ามาอีก น่าหงุดหงิด...

 
colus001 2025-12-08

พอผมขอให้ทำลิสต์อยู่ดี ๆ ก็จู่ ๆ บอกให้เชื่อมต่อ Google Drive ซะงั้น 555

 
GN⁺ 2025-12-06
ความคิดเห็นจาก Hacker News
  • มีโมเดลตัวแรกที่ได้คะแนนบางส่วนในการทดสอบภาพด้วย LLM ที่ฉันทำขึ้น
    การทดสอบคือให้นับจำนวนขาของสุนัขที่มี 5 ขา แต่ LLM ส่วนใหญ่ยืนกรานว่ามี 4 ขา
    GPT-5 ถึงกับเขียน สคริปต์ตรวจจับขอบ เองเพื่อหาเส้นแบ่งระหว่าง “อุ้งเท้าสุนัขสีทอง” กับ “หญ้าสีเขียวสด” เพื่อพิสูจน์ว่ามี 4 ขา แต่พอมันเจอ 5 ขาจริง ๆ ก็อ้างว่าเป็นบั๊กแล้วปรับค่าความไวแทน
    Gemini 3 ตอนแรกนับขาผิด แต่กลับตรวจพบ “โครงสร้างทางกายวิภาคของเพศชาย” ในภาพ นั่นคือขาที่ 5 อยู่ตรงตำแหน่งนั้น
    ถึงอย่างนั้นก็ยังยากจะบอกว่าน่าประทับใจ
    อนึ่ง image slicer ของ Meta กลับระบุได้ถูกต้องว่ามี 5 ขา ภาพสุนัขหลายขาทั้งหมดถูกสร้างด้วย nano-banana

    • ฉันก็ลองให้ Gemini สร้างภาพสุนัข 5 ขาเหมือนกัน แต่มันทำไม่ได้ ส่วนใหญ่จะสร้างสุนัขปกติ หรือไม่ก็เปลี่ยนหางให้เป็นส่วนเกินประหลาด ๆ
      พอลองให้ Gemini กับ Grok นับจำนวนขา ทั้งคู่ก็ยืนกรานว่ามี 4 ขา
      พอฉันบอกว่า Grok ผิด มันก็เข้าสู่ภาวะ สับสนเชิงภววิทยา แล้วสุดท้ายสรุปว่า “นี่คือภาพลวงตาชื่อดังที่ดูเหมือนสุนัขไม่มีหัว แต่จริง ๆ มีแค่สามขา”
      การทดสอบแบบนี้ทำให้กลับสู่ความเป็นจริงทุกครั้งที่เริ่มรู้สึกว่า LLM ‘ฉลาด’ จริง
    • ฉันไม่ใช่ผู้เชี่ยวชาญด้าน AI แต่มี แบบทดสอบภาพเขาวงกต ที่ทุกโมเดลล้มเหลว
      ถ้าขอให้ LLM วาดเส้นทางที่ดีที่สุด มันพลาดทั้งหมด
      นี่คือผลลัพธ์จาก Nano Banana: ลิงก์ทดสอบ
    • การทดสอบพวกนี้ให้ความรู้สึกเหมือนเป็น แนวทางที่มีอคติ ที่เอาวิธีรับรู้ของมนุษย์มาใช้ตัดสิน LLM
      แทบไม่ได้พิสูจน์อะไรนอกจากว่าโมเดลไม่ได้คิดแบบมนุษย์
      อยากรู้ว่าในพรอมป์ต์ระบุชัดไหมว่าให้ “ตีความภาพนี้แบบตรงตัวมาก ๆ” หรือมันถูกออกแบบมาให้หลอกกันแน่
      เกณฑ์ความสำเร็จก็ยังไม่ชัด ว่าแค่ตอบว่า “5” ก็พอ หรือรวมบริบทการสนทนาด้วย
      สุดท้ายการทดสอบพวกนี้เลยดูเหมือนเป็น การวิเคราะห์ที่ไม่ก่อประโยชน์ สำหรับการประเมินระดับการรับรู้ของ LLM
    • Nano Banana 2 สร้าง ภาพสุนัข 5 ขา ที่ดูน่าเชื่อพอสมควรได้จริง
      ลิงก์ผลลัพธ์
      แต่โมเดลไม่ได้ ‘คิด’ ว่าตัวเองทำแบบนั้น
      ในขั้นตอนการให้เหตุผลสุดท้าย มันยอมรับข้อจำกัดของตัวเองว่ามี “ขาที่ห้ามักหายไปเรื่อย ๆ” และสรุปว่า “รับรู้ข้อบกพร่องแล้ว แต่จะส่งภาพที่ดีที่สุดเท่าที่ทำได้”
    • เมื่อต้องเอาชนะ แนวคิดที่ปรากฏไม่สมดุล ในข้อมูลฝึก โมเดลมักจะลำบาก
      ตัวอย่างเช่น ถ้าลองสร้างแมงมุมที่ขาหายไปหนึ่งข้าง ดาวเก้าแฉก โคลเวอร์ห้าใบ หรือคนที่มีจำนวนนิ้วไม่เท่าปกติ อัตราความสำเร็จไม่ถึง 25%
      โดยเฉพาะปัญหาเรื่องนิ้วนี่ช่างน่าขัน เมื่อคิดถึงความพยายามที่เคยทุ่มไปเพื่อแก้ข้อผิดพลาดทางกายวิภาคของ SD 1.5 ในอดีต
  • ฉันทำงาน เขียนแบบไฟฟ้าสำหรับงานก่อสร้าง และโยนงานง่าย ๆ ให้ LLM ลองทำ
    ฉันให้ฮาร์เนสที่ค่อนข้างหยาบ ๆ ไป แต่มันก็จัดวางปลั๊กไฟในห้องได้เกือบครบในครั้งเดียว
    ถ้าควบคุมได้ละเอียดกว่านี้อีกหน่อย ดูเหมือนอีกไม่นานมันอาจแทนที่ งานส่วนใหญ่ของเพื่อนร่วมงาน ได้

    • อยากมี ไม้กายสิทธิ์ ที่ทำให้เครื่องมืออย่าง AVEVA หรือ AutoCAD ใช้งานเจ็บปวดน้อยลง
      คนที่ควรปรับปรุงเครื่องมือพวกนี้ไม่ควรเป็นวิศวกรผู้ใช้ แต่ควรเป็นบริษัทที่สร้างเครื่องมือเอง
      การพึ่งตัวเร่งจากบุคคลที่สามที่ความน่าเชื่อถือต่ำเป็นเรื่องเสี่ยง
    • อยากเห็นตัวอย่างว่าคุณใช้ฮาร์เนสแบบไหน ฉันก็อยากลองทดสอบบ้าง
    • คำพูดที่ว่า “AI ไม่มีวันแทนที่ความคิดสร้างสรรค์ของมนุษย์ได้” ชวนให้รู้สึกเหมือนเป็น เส้นชัยที่เลื่อนไปเรื่อย ๆ
      ขอบเขตมันกำลังขยายจากดิจิทัลอาร์ต การบริหารโปรเจกต์ วิศวกรรม ไปจนถึงงานปฏิบัติการมากขึ้นเรื่อย ๆ
      เหมือนไม่มีใครจำแล้วว่าเมื่อก่อน การทดสอบทัวริง เคยเป็นประเด็นถกเถียงกันอย่างจริงจัง
  • ถ้าการปรับปรุงประสิทธิภาพของ OCR ถูกนำไปใช้กับ Google Books น่าจะมหาศาลมาก
    ในระยะยาวอาจทำให้เก็บหนังสือหายากแบบบีบอัดได้ในราคาไม่เกิน $5,000
    บทความบล็อกของ Anna’s Archive ก็น่าอ่านประกอบ
    อยากให้ archive.org ใช้อันนี้แทน Tesseract แต่อยากรู้เหมือนกันว่าต้นทุนเท่าไร

    • นี่เป็นโครงสร้างแบบ data flywheel คลาสสิก — โมเดลดีขึ้น → ข้อมูลดีขึ้น → โมเดลดียิ่งขึ้น
    • “ขอข้อมูลเพิ่มแด่เทพแห่งข้อมูล!”
  • ผลลัพธ์ของ ScreenSpot Pro น่าสนใจมาก

    72.7% Gemini 3 Pro
    11.4% Gemini 2.5 Pro
    49.9% Claude Opus 4.5
    3.50% GPT-5.1
    

    เป็นการทดสอบการใช้งานคอมพิวเตอร์แบบ GUI ความละเอียดสูง
    ลิงก์งานวิจัย

    • เมื่อไม่กี่เดือนก่อน ฉันแปลกใจมากที่ GPT-5 ทำผลงาน ย่ำแย่ กว่า Opus 4.1 กับ Gemini 2.5 มาก ในการทดสอบ OCR แบบง่าย
      กำลังจะลองทดสอบใหม่ด้วยโมเดลล่าสุด
      บล็อกที่เกี่ยวข้อง
    • ผลของ GPT-5.1 ต่ำผิดปกติอย่างมาก หรือว่าเกิดการสูญเสียข้อมูลจากการ downscale?
    • ถ้าแนวโน้มยังแบบนี้ อีกไม่นานความแม่นยำน่าจะไปถึงระดับ 90% กว่า ๆ
  • แจ้งผู้เขียนบทความ — ลิงก์ “HTML transcription” เสีย
    มันชี้ไปยังที่อยู่ Google ภายในองค์กร

    • ขำดีที่ดีไซน์พอร์ทัลภายในบริษัทแทบไม่เปลี่ยนมาหลายสิบปีแล้ว สไตล์เก่า ๆ แบบนั้นชวนให้คิดถึงอดีต
    • ผมคือ Rohan ผู้เขียนบทความ ขอบคุณที่แจ้ง ตอนนี้แก้แล้ว
    • น่าแปลกที่ลิงก์ช่วยเหลือการล็อกอินเปิดได้โดยไม่ต้องล็อกอิน
    • ลิงก์ “See prompt in Google AI Studio” ก็ชี้ไปยังพรอมป์ต์ส่วนตัวเหมือนกัน
  • Nano Banana Pro ยังแก้ ปริศนาหาคำ ได้ไม่สมบูรณ์แบบ
    ในทางกลับกัน Gemini 3 Pro with Code Execution กลับตอบถูกทั้งหมดในครั้งเดียวและยังระบุตำแหน่งคำได้อย่างแม่นยำ
    ภาพปริศนา, ผลลัพธ์ Nano Banana 1, ผลลัพธ์ 2
    Nano Banana ตอบถูกแค่สองคำ แต่ก็ถือว่าก้าวหน้ามากเมื่อเทียบกับก่อนหน้า
    เป็นปัญหาที่ต้องใช้ การเตรียมข้อมูลล่วงหน้าแบบละเอียด เช่น การจัดการตัวพิมพ์เล็กพิมพ์ใหญ่หรือการลบช่องว่าง

    • เวลาใช้เว็บแอป Gemini อย่าเริ่มจากโหมดสร้างภาพตั้งแต่แรก ควรตั้ง ลำดับพรอมป์ต์ที่แม่นยำ ในโหมดสนทนาปกติก่อน แล้วค่อยสั่งสร้างภาพ
  • มีคนบอกว่า “Gemini 3 Pro คือการก้าวกระโดดข้ามรุ่นจากการรู้จำธรรมดาไปสู่ การให้เหตุผลเชิงพื้นที่
    แต่พอขอ “แก้วไวน์ที่เต็ม” มันกลับวาดแก้วที่มีไวน์แค่ 2/3
    การให้เหตุผลเชิงพื้นที่ที่แท้จริงยังอีกไกล

    • Gemini 3 Pro ไม่เหมือน Nano Banana Pro และ ความแข็งแกร่ง ของโมเดลถอดรหัสภาพอาจด้อยกว่า
      Nano Banana Pro เก่งกว่าในการอนุมานตำแหน่งข้อผิดพลาดภายในภาพ
    • ฉันลองใช้พรอมป์ต์เดียวกัน แล้วพอพูดเพิ่มอีกครั้งว่า “ช่วยเติมจนเกือบล้นแก้ว” มันก็สร้างแก้วที่เต็มสมบูรณ์ออกมา
    • ในทางกลับกัน ถ้าให้ภาพแล้วถามว่า “แก้วนี้เต็มหรือยัง?” มันน่าจะตอบได้ถูกต้อง Qwen-VL ก็ทำอะไรแบบนั้นได้ดีอยู่แล้ว
  • การประกาศครั้งนี้ไม่ใช่โมเดลใหม่ แต่เป็นแค่การเน้น กรณีใช้งานด้านวิชันจริง ของ Gemini 3 เท่านั้น

  • เขาว่า ฟีเจอร์ส่งออกพิกัด ของ Gemini 3 ใช้ทำ pose estimation หรือ trajectory tracking ได้
    แต่เสียดายที่ไม่มีพรอมป์ต์หรือตัวเอกสารอธิบายที่เป็นรูปธรรม

    • อยากได้ฟีเจอร์ใน CMS ที่ช่วย จัดเฟรมภาพตามสัดส่วน ให้อัตโนมัติ
      เช่น ครอปรูปเป็นอัตราส่วนไวด์ สี่เหลี่ยมจัตุรัส แนวตั้ง หรือ 4:3 มีโมเดลแบบนี้ไหม? ใน Hugging Face หาไม่เจอ
    • บล็อกที่เกี่ยวข้องของ Simon Willison น่าจะช่วยได้: Bounding Box Visualization
  • ถ้าทำ YouTube พร้อมคำบรรยายเสียง ได้จริงก็น่าทึ่งมาก
    ต่อให้ไม่ต้องเล่นเอง ก็ยังฟัง เพลย์ทรูแบบบรรยาย ที่ Gemini อธิบายฉากให้ได้

    • ฉันวิเคราะห์วิดีโอ Zelda TOTK ทุก 5 วินาทีเพื่อสร้าง คำบรรยายเสียงเชิงเล่าเรื่อง
      วิดีโอต้นฉบับ, สคริปต์, เสียง TTS
      เพราะเป็นวิดีโอ 144p รายละเอียดบางจุดเลยคลาดเคลื่อนนิดหน่อย แต่คำอธิบายฉากค่อนข้างแม่น
    • ฉันก็ประมวลผลวิดีโอ Witcher 3 ความยาว 1 ชั่วโมงที่ 144p เช่นกัน และสร้างคำอธิบายรายฉากได้ง่าย ๆ ที่ประมาณ 300,000 โทเค็น
    • ฉันอัปโหลดวิดีโอเปิดเกม Zelda: Breath of the Wild ช่วง 5 นาทีเข้าแอป Gemini แล้วขอคำอธิบายทีละฉาก
      วิดีโอต้นฉบับ, ผลลัพธ์ gist
      มันแม่นพอสมควรในฐานะคำบรรยายสำหรับผู้พิการทางสายตา