Gemini AI

(deepmind.google)

2 คะแนน โดย GN⁺ 2023-12-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การมาถึงของยุค Gemini

Gemini ถูกสร้างขึ้นบนพื้นฐานของความสามารถแบบมัลติโหมดที่ครอบคลุมข้อความ รูปภาพ วิดีโอ เสียง และโค้ด
Gemini เวอร์ชันแรกถูกแนะนำว่าเป็นโมเดล AI ที่มีความสามารถมากที่สุดจนถึงปัจจุบัน
เป็นโมเดลแรกที่เหนือกว่าผู้เชี่ยวชาญมนุษย์ โดยแสดงประสิทธิภาพสูงใน MMLU ซึ่งใช้ทดสอบความรู้และความสามารถในการแก้ปัญหาของโมเดล AI

เบนช์มาร์กความสามารถด้านข้อความ

Gemini Ultra ทำผลงานได้สูงในเบนช์มาร์กหลากหลาย เช่น MMLU ทั่วไป, Big-Bench Hard ที่ต้องใช้การให้เหตุผลซับซ้อน, และ DROP ที่ใช้ประเมินความสามารถในการอ่านจับใจความ
ยังแสดงผลลัพธ์ที่ยอดเยี่ยมในด้านการให้เหตุผลเชิงสามัญสำนึกในชีวิตประจำวัน การแก้โจทย์คณิตศาสตร์ และการสร้างโค้ด Python
สามารถดูรายละเอียดประสิทธิภาพในวิธีการอื่น ๆ ได้ในรายงานทางเทคนิค

เบนช์มาร์กความสามารถแบบมัลติโหมด

ในด้านรูปภาพ วิดีโอ และเสียง Gemini ก็เหนือกว่าผลงานระดับสูงสุดเดิมเช่นกัน
Gemini Ultra แสดงประสิทธิภาพสูงในการแก้ปัญหาวิชาการระดับมหาวิทยาลัยที่หลากหลาย การทำความเข้าใจภาพธรรมชาติ และการทำความเข้าใจเอกสาร
ในด้านเสียง Gemini Pro นำหน้าโมเดลคู่แข่งในการแปลเสียงพูดอัตโนมัติและการรู้จำเสียงพูด

การใช้งาน Gemini Pro ใน Bard

เมื่อได้ลองใช้ Gemini Pro ใน Bard ก็สามารถค้นพบวิธีใหม่ ๆ สำหรับการสร้างสรรค์ การวางแผน และการระดมความคิด

ความเห็นของ GN⁺

ประเด็นสำคัญที่สุดของบทความนี้คือ โมเดล AI Gemini มีความสามารถแบบมัลติโหมดที่สามารถเข้าใจและประมวลผลข้อมูลได้หลากหลายรูปแบบ เช่น ข้อความ รูปภาพ วิดีโอ เสียง และโค้ด พร้อมทั้งแสดงประสิทธิภาพที่เหนือกว่าผู้เชี่ยวชาญมนุษย์ในหลายเบนช์มาร์ก
ความก้าวหน้านี้แสดงให้เห็นถึงพัฒนาการของเทคโนโลยี AI และคาดว่าจะขยายความเป็นไปได้ในการนำ AI ไปใช้ในหลากหลายด้าน เช่น การสร้างสรรค์ การวางแผน และการเรียนรู้ ได้อย่างมาก จึงเป็นข่าวที่น่าสนใจสำหรับผู้คน

1 ความคิดเห็น

GN⁺ 2023-12-07

ความเห็นจาก Hacker News

บล็อกโพสต์ที่เกี่ยวข้อง: มีลิงก์ไปยังบล็อกโพสต์เกี่ยวกับ Gemini ซึ่งเป็นเทคโนโลยี AI ใหม่ของ Google และลิงก์ไปยังการสนทนาใน Hacker News โดย Gemini Ultra ยังไม่เปิดตัวและยังต้องรออีกหลายเดือน
Bard w/ Gemini Pro ใช้งานไม่ได้ในยุโรปและยังไม่ใช่แบบมัลติโหมด ไม่มีสถิติสาธารณะเกี่ยวกับ Gemini Pro แต่มีข้อมูลที่ซ่อนอยู่ในเอกสารทางเทคนิค
มีความเห็นว่านี่เป็นการโฆษณาเกินจริง เพราะยังไม่มีผลิตภัณฑ์ที่แข่งกับ GPT-4 ได้เปิดตัวในวันนี้ มองว่าการเปิดตัวผลิตภัณฑ์ที่ใช้งานได้ในประเทศส่วนใหญ่และมีสถิติตามที่โฆษณาไว้น่าจะดูดีกว่า
ประสิทธิภาพของ Gemini AI ที่น่าประทับใจ: เมื่อตอบคำถามเกี่ยวกับความสามารถที่เป็นไปไม่ได้ใน TypeScript ก็สามารถตอบได้อย่างถูกต้องว่าเป็นไปไม่ได้ และให้ลิงก์ GitHub issue ที่เกี่ยวข้อง ขณะที่ GPT-4 มักไม่ค่อยสร้างลิงก์ได้ดีเมื่อไม่ได้อยู่ในโหมดท่องเว็บ นอกจากนี้ยังรู้จัก Pixi.js v8 ซึ่งยังเป็นเบต้าได้เร็วกว่า GPT-4 และอธิบายความสามารถหลักได้อย่างถูกต้อง
คำอธิบายสำหรับผู้ที่สับสนกับเวอร์ชันของ Gemini: ตัวที่ถูกพูดถึงเป็นหลักคือ Gemini Ultra ซึ่งอ้างว่าเหนือกว่า GPT-4 ส่วนตัวที่ใช้งานผ่าน Bard ได้คือ Gemini Pro
การเปรียบเทียบประสิทธิภาพบนเบนช์มาร์กระหว่าง Gemini Ultra, Gemini Pro และ GPT-4 ตามรายงานทางเทคนิค โดยมีการให้คะแนนเปรียบเทียบในชุดข้อมูลหลายแบบ
มีลิงก์ไปยังวิดีโอเดโมของ Gemini AI
ข้อสังเกตต่อคำพูดสำคัญของ Sundar Pichai ในวิดีโอ: ให้ความรู้สึกเหมือน Google ต้องการเน้นว่าทำ AI มานานแล้ว แต่เพราะโมเดลล่าสุดที่เปิดเผยต่อสาธารณะในตอนนี้เป็นของ OpenAI จึงทำให้การเน้นเช่นนี้ดูไม่ค่อยเหมาะสม และมีความเห็นว่ากลยุทธ์ที่ดีกว่าคือแสดงของจริงให้เห็น
ข้อมูลว่าสามารถผสานรวมโมเดล Gemini เข้ากับแอปพลิเคชันได้ผ่าน Google AI Studio และ Google Cloud Vertex AI โดยคาดว่าจะใช้งานได้ตั้งแต่วันที่ 13 ธันวาคม
ความกังวลเกี่ยวกับปัญหาที่ตัดสินได้ยากว่าข้อมูลทดสอบในเบนช์มาร์กเป็นส่วนหนึ่งของข้อมูลฝึกหรือไม่ พร้อมยกตัวอย่างเช่น GPT-4 ที่ทำโจทย์คณิตผิด แต่กลับได้คะแนนสูงใน GSM8k
ความเห็นที่หลากหลายต่อการแซง GPT-4 ได้เพียงเล็กน้อย พร้อมแสดงความคาดหวังว่าหากการแข่งขันดุเดือดยิ่งขึ้นก็จะเป็นผลดีต่อทุกคน รวมถึงการบ่นเรื่องการประกาศล่วงหน้าและการชี้ว่าควรรอจนกว่าจะใช้งานได้จริง
มีลิงก์ไปยังการสนทนาเกี่ยวกับโมเดล Gemini บน Codeforces (แพลตฟอร์มแข่งขันเขียนโปรแกรม) โดยมีการแสดงความสงสัยต่อคำกล่าวอ้างว่าสามารถแก้โจทย์ระดับ 3200 ได้โดยไม่มีข้อมูลรั่วไหล
มีความคาดหวังสูงมากต่อ Gemini Nano โดยในเธรดของ Pixel 8 เคยมีความเห็นว่าการใช้ web API เป็นเพียงทางแก้ชั่วคราว และในอนาคตอาจถูกแทนที่ด้วยโมเดลบนอุปกรณ์ ซึ่งสิ่งนี้อาจเป็นจุดเริ่มต้นของแนวทางนั้น

Gemini AI

การมาถึงของยุค Gemini

เบนช์มาร์กความสามารถด้านข้อความ

เบนช์มาร์กความสามารถแบบมัลติโหมด

การใช้งาน Gemini Pro ใน Bard

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News