Google ประกาศเปิดตัว PaliGemma 2 โมเดล vision-language รุ่นล่าสุดในตระกูล Gemma โดย PaliGemma 2 พัฒนาต่อยอดจากโมเดล Gemma 2 เดิม และเพิ่มความสามารถในการทำความเข้าใจและโต้ตอบกับภาพ เพื่อขยายความเป็นไปได้ของแอปพลิเคชัน AI ที่หลากหลาย

  • ประสิทธิภาพที่ปรับขยายได้: มีให้เลือกหลายขนาดโมเดล (พารามิเตอร์ 3B, 10B, 28B) และหลายความละเอียด (224px, 448px, 896px) เพื่อให้ได้ประสิทธิภาพที่เหมาะสมที่สุดสำหรับงานที่หลากหลาย
  • การสร้างคำบรรยายแบบยาว: สร้างคำบรรยายภาพที่ละเอียดและสอดคล้องกับบริบท ไม่ได้หยุดอยู่แค่การระบุวัตถุอย่างง่าย แต่ยังอธิบายการกระทำ อารมณ์ และเรื่องราวโดยรวมของฉากได้ด้วย
  • การขยายสู่โดเมนใหม่: แสดงประสิทธิภาพที่โดดเด่นในหลากหลายสาขา เช่น การรู้จำสูตรเคมี การรู้จำโน้ตเพลง การให้เหตุผลเชิงพื้นที่ และการสร้างรายงานเอกซเรย์ทรวงอก
  • อัปเกรดและปรับจูนได้ง่าย: ผู้ใช้ PaliGemma เดิมสามารถอัปเกรดได้อย่างสะดวก และสามารถปรับจูนโมเดลให้เข้ากับงานเฉพาะและชุดข้อมูลต่าง ๆ ได้อย่างง่ายดาย

การขยายระบบนิเวศ Gemmaverse:

นับตั้งแต่เปิดตัว PaliGemma ตระกูล Gemma ได้เติบโตอย่างรวดเร็วสู่ Gemmaverse ซึ่งเป็นระบบนิเวศที่คึกคักซึ่งมีทั้งโมเดลและแอปพลิเคชันหลายหมื่นรายการ ตัวอย่างนวัตกรรมต่าง ๆ เช่น ความก้าวหน้าด้านการค้นหาเอกสารด้วยภาพของ ColPali เทคนิคการปรับจูนของ RoboFlow และความก้าวหน้าด้านการติดตามวัตถุแบบเรียลไทม์ ล้วนแสดงให้เห็นถึงศักยภาพของ Gemmaverse

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น