- เปิดพับลิกพรีวิวโมเดลเอ็มเบดดิงมัลติโหมดเต็มรูปแบบตัวแรก ที่แมปข้อความ รูปภาพ วิดีโอ เสียง และเอกสารเข้าสู่ พื้นที่เอ็มเบดดิงเดียวกัน
- สร้างบนสถาปัตยกรรม Gemini และ จับเจตนาทางความหมาย ได้ในมากกว่า 100 ภาษา พร้อมรองรับงานปลายน้ำหลากหลาย เช่น RAG, semantic search, sentiment analysis และ data clustering
- ใช้เทคนิค Matryoshka Representation Learning(MRL) ทำให้ย่อจากมิติพื้นฐาน 3072 ได้อย่างยืดหยุ่น ช่วยปรับสมดุลระหว่างประสิทธิภาพกับต้นทุนจัดเก็บข้อมูล
- สร้าง มาตรฐานประสิทธิภาพใหม่ ที่เหนือกว่าโมเดลชั้นนำเดิมในงานข้อความ รูปภาพ และวิดีโอ พร้อมเพิ่มความสามารถด้าน voice embedding เข้ามาใหม่
- ใช้งานได้ทันทีผ่าน Gemini API และ Vertex AI และรองรับ การผสานรวมกับเฟรมเวิร์กภายนอก หลัก ๆ เช่น LangChain, LlamaIndex และ Weaviate
โมดาลิตีใหม่และมิติเอาต์พุตที่ยืดหยุ่น
- ใช้ความสามารถด้าน ความเข้าใจแบบมัลติโหมด ที่อิง Gemini เพื่อสร้างเอ็มเบดดิงคุณภาพสูงสำหรับอินพุตหลายประเภท
- ข้อความ: รองรับบริบทกว้างสูงสุด 8192 โทเค็นอินพุต
- รูปภาพ: ประมวลผลได้สูงสุด 6 ภาพต่อคำขอ รองรับฟอร์แมต PNG และ JPEG
- วิดีโอ: รองรับอินพุตวิดีโอสูงสุด 120 วินาทีในฟอร์แมต MP4 และ MOV
- เสียง: ทำ native embedding กับข้อมูลเสียงได้โดยตรงโดยไม่ต้องแปลงเป็นข้อความก่อน
- เอกสาร: ทำเอ็มเบดดิง PDF ได้โดยตรงสูงสุด 6 หน้า
- ไม่เพียงรองรับโมดาลิตีเดี่ยว แต่ยังส่ง อินพุตแบบ interleaved (เช่น รูปภาพ + ข้อความ) ได้ในคำขอเดียว ทำให้จับความสัมพันธ์ที่ซับซ้อนและละเอียดอ่อนระหว่างสื่อคนละประเภทได้
- ด้วยเทคนิค Matryoshka Representation Learning(MRL) ที่ซ้อนข้อมูลเป็นลำดับชั้น (nest) จึงลดมิติแบบไดนามิกได้
- ปรับลดขนาดจาก 3072 มิติพื้นฐานลงเป็น 1536, 768 เป็นต้น ได้อย่างยืดหยุ่น
- แนะนำให้ใช้ 3072, 1536, 768 มิติสำหรับคุณภาพสูงสุด
ประสิทธิภาพระดับล้ำสมัย
- ไม่ใช่แค่การปรับปรุงเล็กน้อยจากโมเดลรุ่นเก่า แต่เป็นการสร้าง มาตรฐานประสิทธิภาพใหม่ในเชิงความลึกของมัลติโหมด
- เหนือกว่าโมเดลชั้นนำเดิมในงานข้อความ รูปภาพ และวิดีโอ พร้อมเพิ่ม ความสามารถด้าน voice embedding ที่ทรงพลัง เข้ามาใหม่
- มอบทั้งการยกระดับประสิทธิภาพที่วัดผลได้และความครอบคลุมแบบมัลติโหมดที่เป็นเอกลักษณ์ เพื่อตอบโจทย์ความต้องการด้านเอ็มเบดดิงที่หลากหลาย
ดึงความหมายที่ลึกขึ้นจากข้อมูล — กรณีศึกษาจากพาร์ตเนอร์ early access
- เทคโนโลยีเอ็มเบดดิงเป็นเทคโนโลยีแกนหลักที่ขับเคลื่อนประสบการณ์ในผลิตภัณฑ์ Google จำนวนมาก และถูกใช้ตั้งแต่ context engineering สำหรับ RAG ไปจนถึงการจัดการข้อมูลขนาดใหญ่ การค้นหา และการวิเคราะห์
- Everlaw (Max Christoff, CTO): นำ Gemini embedding มาใช้เพื่อช่วยผู้เชี่ยวชาญด้านกฎหมายค้นหาข้อมูลสำคัญในกระบวนการค้นพบพยานหลักฐานคดีความ ช่วย เพิ่ม precision และ recall ในบันทึกหลายล้านรายการ และใช้ความสามารถค้นหาใหม่ที่ทรงพลังสำหรับรูปภาพและวิดีโอ
- Sparkonomy (Guneet Singh, ผู้ร่วมก่อตั้ง): ใช้เป็นฐานของ Creator Economic Equality Engine โดยด้วย native multimodality ทำให้ ลด latency ได้สูงสุด 70%, คะแนน semantic similarity ของคู่ข้อความ-รูปภาพและข้อความ-วิดีโอเพิ่มจาก 0.4 เป็น 0.8 เกือบ 2 เท่า และสามารถทำดัชนีวิดีโอหลายล้านนาทีได้ด้วยความแม่นยำที่ไม่เคยมีมาก่อน
- Mindlid (Ertuğrul Çavuşoğlu, ผู้ร่วมก่อตั้ง): มี ความต่อเนื่องของ API ที่ยอดเยี่ยม จึงนำไปใช้กับเวิร์กโฟลว์เดิมได้แทบไม่ต้องเปลี่ยนแปลง กำลังทดสอบแนวทางฝังหน่วยความจำการสนทนาแบบข้อความร่วมกับ audio embedding และ visual embedding และยืนยันว่า top-1 recall เพิ่มขึ้น 20% ในแอปสุขภาวะส่วนบุคคล
เริ่มต้นใช้งาน
- ใช้โมเดล Gemini Embedding 2 ได้ผ่าน Gemini API หรือ Vertex AI
- มีตัวอย่างโค้ด Python SDK สำหรับทำเอ็มเบดดิงข้อความ รูปภาพ และเสียงในการเรียกครั้งเดียว
- มี สมุดโน้ต Colab แบบอินเทอร์แอกทีฟ สำหรับ Gemini API และ Vertex AI
- รองรับการผสานรวมกับเครื่องมือภายนอกหลัก เช่น LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB และ Vector Search
ยังไม่มีความคิดเห็น