Google DeepMind เปิดตัว Gemini 2.0 โมเดล AI ใหม่สำหรับยุคเอเจนต์

(blog.google)

2 คะแนน โดย GN⁺ 2024-12-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Gemini 1.0 ได้สร้างความก้าวหน้าด้วยการเป็นโมเดลมัลติโหมดที่สามารถประมวลผลข้อมูลได้ทั้งข้อความ วิดีโอ ภาพ เสียง และโค้ด
Gemini 2.0 ได้ต่อยอดวิสัยทัศน์นี้ให้ก้าวหน้าไปอีกขั้น โดยพัฒนาเป็นโมเดลแบบเอเจนต์ที่สามารถเข้าใจโลก วางแผนหลายขั้นตอน และลงมือทำงานได้
Gemini 2.0 ถูกรวมเข้ากับผลิตภัณฑ์หลักอย่าง Google Search เพื่อมอบความสามารถในการจัดการหัวข้อที่ซับซ้อนยิ่งขึ้นและคำถามหลายขั้นตอน

คุณสมบัติหลักของ Gemini 2.0 Flash

ต่อยอดจากความสำเร็จของ 1.5 Flash ด้วยประสิทธิภาพที่ดีขึ้นและเวลาตอบสนองที่รวดเร็ว
เร็วกว่า 1.5 Pro ถึง 2 เท่า และทำผลงานได้ดีกว่าในเบนช์มาร์กสำคัญ
รองรับทั้งอินพุตมัลติโหมด เช่น ภาพ วิดีโอ และเสียง รวมถึงการสร้างภาพที่ผสมกับข้อความและการสังเคราะห์เสียงหลายภาษา
เรียกใช้เครื่องมืออย่าง Google Search, การรันโค้ด และฟังก์ชันที่กำหนดเองได้แบบเนทีฟ
เปิดให้ใช้งานก่อนสำหรับนักพัฒนาและผู้ทดสอบที่ได้รับความไว้วางใจ และมีแผนจะเปิดกว้างขึ้นในช่วงต้นปีหน้า

แนะนำโครงการวิจัย

Project Astra : ผู้ช่วย AI อเนกประสงค์พร้อมความสามารถด้านหน่วยความจำที่ดีขึ้น
- ปรับปรุงความสามารถ เช่น การสนทนาหลายภาษา การใช้ Google Search/Lens/Maps และหน่วยความจำของเซสชันราว 10 นาที
- อยู่ระหว่างพัฒนาโดยเก็บฟีดแบ็กจากผู้ทดสอบที่ได้รับความไว้วางใจผ่านอุปกรณ์ Android
Project Mariner : ต้นแบบงานวิจัยที่สามารถโต้ตอบกับเบราว์เซอร์และช่วยทำงานที่ซับซ้อนได้
- ทำผลงานสูงถึง 83.5% ในเบนช์มาร์ก WebVoyager
- มีมาตรการความปลอดภัยในตัว โดยจะขอการยืนยันก่อนที่ผู้ใช้จะอนุมัติงานขั้นสุดท้าย
Jules : เอเจนต์เขียนโค้ดที่ขับเคลื่อนด้วย AI และผสานเข้ากับเวิร์กโฟลว์ของ GitHub
- ช่วยสนับสนุนนักพัฒนาในการแก้ปัญหา issue และดำเนินการตามแผน

การประยุกต์ใช้ AI เอเจนต์

กำลังสำรวจการใช้งาน AI เอเจนต์ภายในเกมร่วมกับบริษัทพัฒนาเกม Supercell
กำลังทดลองประยุกต์ใช้ความสามารถด้านการให้เหตุผลเชิงพื้นที่ของ Gemini 2.0 ในสาขาหุ่นยนต์

ความปลอดภัยและการพัฒนาอย่างมีความรับผิดชอบ

ใช้แนวทางแบบค่อยเป็นค่อยไปและเชิงสำรวจในการพัฒนาเทคโนโลยีใหม่
ใช้แนวทาง red team ที่มี AI ช่วย เพื่อสร้างการตรวจจับความเสี่ยงและแนวทางบรรเทาโดยอัตโนมัติ
ใน Project Mariner มีการใช้งานฟีเจอร์เพื่อปกป้องผู้ใช้จากความพยายามโจมตีแบบ prompt injection ที่เป็นอันตราย
มีฟังก์ชันควบคุมและลบเซสชันเพื่อคุ้มครองความเป็นส่วนตัวของผู้ใช้

แผนในอนาคต

มีแผนขยายความสามารถของ Gemini 2.0 ไปยังแอป Gemini และผลิตภัณฑ์อื่นของ Google
จะให้ความสำคัญสูงสุดกับความปลอดภัยและความรับผิดชอบในการพัฒนาไปสู่ AGI

1 ความคิดเห็น

GN⁺ 2024-12-12

ความเห็นจาก Hacker News

ปลั๊กอิน llm-gemini ตัวใหม่รองรับโมเดล Gemini 2.0 Flash และมีการแชร์วิธีใช้งานบนเทอร์มินัล
- โมเดล Gemini มีความสามารถในการเขียนและรันโค้ด Python
- แม้จะไม่สามารถเรียกใช้เครือข่ายได้ แต่ก็มีการลองใช้แนวทางที่หลากหลาย
- แสดงประสิทธิภาพที่ยอดเยี่ยมในการอธิบายภาพ
บริษัทใหญ่เปลี่ยนทิศทางได้ช้า แต่เมื่อกำหนดทิศทางแล้ว ก็สามารถทำสิ่งที่บริษัทเล็กทำไม่ได้
- Google มีบุคลากรที่มีความสามารถจำนวนมากในด้านนี้ และกำลังสร้างผลลัพธ์ที่ดี
- ความสามารถในการทำ LLM ให้เป็นผลิตภัณฑ์และการตลาดยังต้องรอดู แต่ประสิทธิภาพนั้นยอดเยี่ยม
เหนือกว่า Gemini 1.5 Pro ในเบนช์มาร์กส่วนใหญ่
- Google DeepMind กำลังปรับตัวเข้าสู่ยุค LLM
- ควบคุมฮาร์ดแวร์ได้โดยตรงผ่าน TPU
มีการประกาศ SDK ใหม่ และดูเหมือนว่าจะยึดตามแนวทางปฏิบัติสมัยใหม่ที่ดี
- แม้จะมีการให้ OpenAI-compatible endpoint มาอยู่แล้ว แต่ยังไม่แน่ชัดว่าจะรองรับระยะยาวหรือไม่
- แนะนำให้ตั้งค่า Kubernetes cluster และ GCP bucket
ดีใจที่รีลีสใหม่ของ Google พร้อมใช้งานได้ทันที
- Gemini Flash 2.0 ทำได้ดีกว่า Gemini Pro 1.5 ในโจทย์ Advent of Code
- Flash 2.0 แก้ข้อผิดพลาดการคอมไพล์
รู้สึกว่าคำว่า "agentic" ฟังแล้วไม่ค่อยน่าพอใจ
- คำอย่าง "versatile", "multifaceted", "autonomous" น่าจะเหมาะสมกว่า
โมเดล Gemini 2 รองรับความสามารถด้านเสียงและการสร้างภาพ
- การสร้างภาพมีกำหนดเปิดให้ใช้งานทั่วไปในเดือนมกราคม
- งานด้าน computer vision จะสามารถทำผ่าน LLM ได้
Gemini 2 กำลังนำหน้า 4o ใน Chatbot Arena
คิดว่าคำว่า "agentic" ไม่เหมาะสม
- ส่วนใหญ่เป็นเพียงไปป์ไลน์ที่ประกอบด้วย system prompt และเครื่องมือ
เข้าถึง Gemini 2.0 Flash ผ่าน Google AI Studio บนเบราว์เซอร์ Safari ของ iPhone
- ระบุสิ่งที่มองเห็นผ่านกล้องได้อย่างแม่นยำ
- อ่านข้อความภาษาอังกฤษและภาษาญี่ปุ่นได้
- ระบุโน้ตเปียโนจากภาพได้ แต่ไม่สามารถทำได้จากเสียงอย่างเดียว

Google DeepMind เปิดตัว Gemini 2.0 โมเดล AI ใหม่สำหรับยุคเอเจนต์

คุณสมบัติหลักของ Gemini 2.0 Flash

แนะนำโครงการวิจัย

การประยุกต์ใช้ AI เอเจนต์

ความปลอดภัยและการพัฒนาอย่างมีความรับผิดชอบ

แผนในอนาคต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News