Gemini Embedding 2: โมเดลเอ็มเบดดิงมัลติโหมดแบบเนทีฟตัวแรก

(blog.google)

14 คะแนน โดย GN⁺ 2026-03-11 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

เปิดพับลิกพรีวิวโมเดลเอ็มเบดดิงมัลติโหมดเต็มรูปแบบตัวแรก ที่แมปข้อความ รูปภาพ วิดีโอ เสียง และเอกสารเข้าสู่ พื้นที่เอ็มเบดดิงเดียวกัน
สร้างบนสถาปัตยกรรม Gemini และ จับเจตนาทางความหมาย ได้ในมากกว่า 100 ภาษา พร้อมรองรับงานปลายน้ำหลากหลาย เช่น RAG, semantic search, sentiment analysis และ data clustering
ใช้เทคนิค Matryoshka Representation Learning(MRL) ทำให้ย่อจากมิติพื้นฐาน 3072 ได้อย่างยืดหยุ่น ช่วยปรับสมดุลระหว่างประสิทธิภาพกับต้นทุนจัดเก็บข้อมูล
สร้าง มาตรฐานประสิทธิภาพใหม่ ที่เหนือกว่าโมเดลชั้นนำเดิมในงานข้อความ รูปภาพ และวิดีโอ พร้อมเพิ่มความสามารถด้าน voice embedding เข้ามาใหม่
ใช้งานได้ทันทีผ่าน Gemini API และ Vertex AI และรองรับ การผสานรวมกับเฟรมเวิร์กภายนอก หลัก ๆ เช่น LangChain, LlamaIndex และ Weaviate

โมดาลิตีใหม่และมิติเอาต์พุตที่ยืดหยุ่น

ใช้ความสามารถด้าน ความเข้าใจแบบมัลติโหมด ที่อิง Gemini เพื่อสร้างเอ็มเบดดิงคุณภาพสูงสำหรับอินพุตหลายประเภท
- ข้อความ: รองรับบริบทกว้างสูงสุด 8192 โทเค็นอินพุต
- รูปภาพ: ประมวลผลได้สูงสุด 6 ภาพต่อคำขอ รองรับฟอร์แมต PNG และ JPEG
- วิดีโอ: รองรับอินพุตวิดีโอสูงสุด 120 วินาทีในฟอร์แมต MP4 และ MOV
- เสียง: ทำ native embedding กับข้อมูลเสียงได้โดยตรงโดยไม่ต้องแปลงเป็นข้อความก่อน
- เอกสาร: ทำเอ็มเบดดิง PDF ได้โดยตรงสูงสุด 6 หน้า
ไม่เพียงรองรับโมดาลิตีเดี่ยว แต่ยังส่ง อินพุตแบบ interleaved (เช่น รูปภาพ + ข้อความ) ได้ในคำขอเดียว ทำให้จับความสัมพันธ์ที่ซับซ้อนและละเอียดอ่อนระหว่างสื่อคนละประเภทได้
ด้วยเทคนิค Matryoshka Representation Learning(MRL) ที่ซ้อนข้อมูลเป็นลำดับชั้น (nest) จึงลดมิติแบบไดนามิกได้
- ปรับลดขนาดจาก 3072 มิติพื้นฐานลงเป็น 1536, 768 เป็นต้น ได้อย่างยืดหยุ่น
- แนะนำให้ใช้ 3072, 1536, 768 มิติสำหรับคุณภาพสูงสุด

ประสิทธิภาพระดับล้ำสมัย

ไม่ใช่แค่การปรับปรุงเล็กน้อยจากโมเดลรุ่นเก่า แต่เป็นการสร้าง มาตรฐานประสิทธิภาพใหม่ในเชิงความลึกของมัลติโหมด
เหนือกว่าโมเดลชั้นนำเดิมในงานข้อความ รูปภาพ และวิดีโอ พร้อมเพิ่ม ความสามารถด้าน voice embedding ที่ทรงพลัง เข้ามาใหม่
มอบทั้งการยกระดับประสิทธิภาพที่วัดผลได้และความครอบคลุมแบบมัลติโหมดที่เป็นเอกลักษณ์ เพื่อตอบโจทย์ความต้องการด้านเอ็มเบดดิงที่หลากหลาย

ดึงความหมายที่ลึกขึ้นจากข้อมูล — กรณีศึกษาจากพาร์ตเนอร์ early access

เทคโนโลยีเอ็มเบดดิงเป็นเทคโนโลยีแกนหลักที่ขับเคลื่อนประสบการณ์ในผลิตภัณฑ์ Google จำนวนมาก และถูกใช้ตั้งแต่ context engineering สำหรับ RAG ไปจนถึงการจัดการข้อมูลขนาดใหญ่ การค้นหา และการวิเคราะห์
Everlaw (Max Christoff, CTO): นำ Gemini embedding มาใช้เพื่อช่วยผู้เชี่ยวชาญด้านกฎหมายค้นหาข้อมูลสำคัญในกระบวนการค้นพบพยานหลักฐานคดีความ ช่วย เพิ่ม precision และ recall ในบันทึกหลายล้านรายการ และใช้ความสามารถค้นหาใหม่ที่ทรงพลังสำหรับรูปภาพและวิดีโอ
Sparkonomy (Guneet Singh, ผู้ร่วมก่อตั้ง): ใช้เป็นฐานของ Creator Economic Equality Engine โดยด้วย native multimodality ทำให้ ลด latency ได้สูงสุด 70%, คะแนน semantic similarity ของคู่ข้อความ-รูปภาพและข้อความ-วิดีโอเพิ่มจาก 0.4 เป็น 0.8 เกือบ 2 เท่า และสามารถทำดัชนีวิดีโอหลายล้านนาทีได้ด้วยความแม่นยำที่ไม่เคยมีมาก่อน
Mindlid (Ertuğrul Çavuşoğlu, ผู้ร่วมก่อตั้ง): มี ความต่อเนื่องของ API ที่ยอดเยี่ยม จึงนำไปใช้กับเวิร์กโฟลว์เดิมได้แทบไม่ต้องเปลี่ยนแปลง กำลังทดสอบแนวทางฝังหน่วยความจำการสนทนาแบบข้อความร่วมกับ audio embedding และ visual embedding และยืนยันว่า top-1 recall เพิ่มขึ้น 20% ในแอปสุขภาวะส่วนบุคคล

เริ่มต้นใช้งาน

ใช้โมเดล Gemini Embedding 2 ได้ผ่าน Gemini API หรือ Vertex AI
มีตัวอย่างโค้ด Python SDK สำหรับทำเอ็มเบดดิงข้อความ รูปภาพ และเสียงในการเรียกครั้งเดียว
มี สมุดโน้ต Colab แบบอินเทอร์แอกทีฟ สำหรับ Gemini API และ Vertex AI
รองรับการผสานรวมกับเครื่องมือภายนอกหลัก เช่น LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB และ Vector Search

Gemini Embedding 2: โมเดลเอ็มเบดดิงมัลติโหมดแบบเนทีฟตัวแรก

โมดาลิตีใหม่และมิติเอาต์พุตที่ยืดหยุ่น

ประสิทธิภาพระดับล้ำสมัย

ดึงความหมายที่ลึกขึ้นจากข้อมูล — กรณีศึกษาจากพาร์ตเนอร์ early access

เริ่มต้นใช้งาน

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น