Gemini AI
(deepmind.google)การมาถึงของยุค Gemini
- Gemini ถูกสร้างขึ้นบนพื้นฐานของความสามารถแบบมัลติโหมดที่ครอบคลุมข้อความ รูปภาพ วิดีโอ เสียง และโค้ด
- Gemini เวอร์ชันแรกถูกแนะนำว่าเป็นโมเดล AI ที่มีความสามารถมากที่สุดจนถึงปัจจุบัน
- เป็นโมเดลแรกที่เหนือกว่าผู้เชี่ยวชาญมนุษย์ โดยแสดงประสิทธิภาพสูงใน MMLU ซึ่งใช้ทดสอบความรู้และความสามารถในการแก้ปัญหาของโมเดล AI
เบนช์มาร์กความสามารถด้านข้อความ
- Gemini Ultra ทำผลงานได้สูงในเบนช์มาร์กหลากหลาย เช่น MMLU ทั่วไป, Big-Bench Hard ที่ต้องใช้การให้เหตุผลซับซ้อน, และ DROP ที่ใช้ประเมินความสามารถในการอ่านจับใจความ
- ยังแสดงผลลัพธ์ที่ยอดเยี่ยมในด้านการให้เหตุผลเชิงสามัญสำนึกในชีวิตประจำวัน การแก้โจทย์คณิตศาสตร์ และการสร้างโค้ด Python
- สามารถดูรายละเอียดประสิทธิภาพในวิธีการอื่น ๆ ได้ในรายงานทางเทคนิค
เบนช์มาร์กความสามารถแบบมัลติโหมด
- ในด้านรูปภาพ วิดีโอ และเสียง Gemini ก็เหนือกว่าผลงานระดับสูงสุดเดิมเช่นกัน
- Gemini Ultra แสดงประสิทธิภาพสูงในการแก้ปัญหาวิชาการระดับมหาวิทยาลัยที่หลากหลาย การทำความเข้าใจภาพธรรมชาติ และการทำความเข้าใจเอกสาร
- ในด้านเสียง Gemini Pro นำหน้าโมเดลคู่แข่งในการแปลเสียงพูดอัตโนมัติและการรู้จำเสียงพูด
การใช้งาน Gemini Pro ใน Bard
- เมื่อได้ลองใช้ Gemini Pro ใน Bard ก็สามารถค้นพบวิธีใหม่ ๆ สำหรับการสร้างสรรค์ การวางแผน และการระดมความคิด
ความเห็นของ GN⁺
- ประเด็นสำคัญที่สุดของบทความนี้คือ โมเดล AI Gemini มีความสามารถแบบมัลติโหมดที่สามารถเข้าใจและประมวลผลข้อมูลได้หลากหลายรูปแบบ เช่น ข้อความ รูปภาพ วิดีโอ เสียง และโค้ด พร้อมทั้งแสดงประสิทธิภาพที่เหนือกว่าผู้เชี่ยวชาญมนุษย์ในหลายเบนช์มาร์ก
- ความก้าวหน้านี้แสดงให้เห็นถึงพัฒนาการของเทคโนโลยี AI และคาดว่าจะขยายความเป็นไปได้ในการนำ AI ไปใช้ในหลากหลายด้าน เช่น การสร้างสรรค์ การวางแผน และการเรียนรู้ ได้อย่างมาก จึงเป็นข่าวที่น่าสนใจสำหรับผู้คน
1 ความคิดเห็น
ความเห็นจาก Hacker News