- Gemini 1.0 ได้สร้างความก้าวหน้าด้วยการเป็นโมเดลมัลติโหมดที่สามารถประมวลผลข้อมูลได้ทั้งข้อความ วิดีโอ ภาพ เสียง และโค้ด
- Gemini 2.0 ได้ต่อยอดวิสัยทัศน์นี้ให้ก้าวหน้าไปอีกขั้น โดยพัฒนาเป็นโมเดลแบบเอเจนต์ที่สามารถเข้าใจโลก วางแผนหลายขั้นตอน และลงมือทำงานได้
- Gemini 2.0 ถูกรวมเข้ากับผลิตภัณฑ์หลักอย่าง Google Search เพื่อมอบความสามารถในการจัดการหัวข้อที่ซับซ้อนยิ่งขึ้นและคำถามหลายขั้นตอน
คุณสมบัติหลักของ Gemini 2.0 Flash
- ต่อยอดจากความสำเร็จของ 1.5 Flash ด้วยประสิทธิภาพที่ดีขึ้นและเวลาตอบสนองที่รวดเร็ว
- เร็วกว่า 1.5 Pro ถึง 2 เท่า และทำผลงานได้ดีกว่าในเบนช์มาร์กสำคัญ
- รองรับทั้งอินพุตมัลติโหมด เช่น ภาพ วิดีโอ และเสียง รวมถึงการสร้างภาพที่ผสมกับข้อความและการสังเคราะห์เสียงหลายภาษา
- เรียกใช้เครื่องมืออย่าง Google Search, การรันโค้ด และฟังก์ชันที่กำหนดเองได้แบบเนทีฟ
- เปิดให้ใช้งานก่อนสำหรับนักพัฒนาและผู้ทดสอบที่ได้รับความไว้วางใจ และมีแผนจะเปิดกว้างขึ้นในช่วงต้นปีหน้า
แนะนำโครงการวิจัย
- Project Astra : ผู้ช่วย AI อเนกประสงค์พร้อมความสามารถด้านหน่วยความจำที่ดีขึ้น
- ปรับปรุงความสามารถ เช่น การสนทนาหลายภาษา การใช้ Google Search/Lens/Maps และหน่วยความจำของเซสชันราว 10 นาที
- อยู่ระหว่างพัฒนาโดยเก็บฟีดแบ็กจากผู้ทดสอบที่ได้รับความไว้วางใจผ่านอุปกรณ์ Android
- Project Mariner : ต้นแบบงานวิจัยที่สามารถโต้ตอบกับเบราว์เซอร์และช่วยทำงานที่ซับซ้อนได้
- ทำผลงานสูงถึง 83.5% ในเบนช์มาร์ก WebVoyager
- มีมาตรการความปลอดภัยในตัว โดยจะขอการยืนยันก่อนที่ผู้ใช้จะอนุมัติงานขั้นสุดท้าย
- Jules : เอเจนต์เขียนโค้ดที่ขับเคลื่อนด้วย AI และผสานเข้ากับเวิร์กโฟลว์ของ GitHub
- ช่วยสนับสนุนนักพัฒนาในการแก้ปัญหา issue และดำเนินการตามแผน
การประยุกต์ใช้ AI เอเจนต์
- กำลังสำรวจการใช้งาน AI เอเจนต์ภายในเกมร่วมกับบริษัทพัฒนาเกม Supercell
- กำลังทดลองประยุกต์ใช้ความสามารถด้านการให้เหตุผลเชิงพื้นที่ของ Gemini 2.0 ในสาขาหุ่นยนต์
ความปลอดภัยและการพัฒนาอย่างมีความรับผิดชอบ
- ใช้แนวทางแบบค่อยเป็นค่อยไปและเชิงสำรวจในการพัฒนาเทคโนโลยีใหม่
- ใช้แนวทาง red team ที่มี AI ช่วย เพื่อสร้างการตรวจจับความเสี่ยงและแนวทางบรรเทาโดยอัตโนมัติ
- ใน Project Mariner มีการใช้งานฟีเจอร์เพื่อปกป้องผู้ใช้จากความพยายามโจมตีแบบ prompt injection ที่เป็นอันตราย
- มีฟังก์ชันควบคุมและลบเซสชันเพื่อคุ้มครองความเป็นส่วนตัวของผู้ใช้
แผนในอนาคต
- มีแผนขยายความสามารถของ Gemini 2.0 ไปยังแอป Gemini และผลิตภัณฑ์อื่นของ Google
- จะให้ความสำคัญสูงสุดกับความปลอดภัยและความรับผิดชอบในการพัฒนาไปสู่ AGI
1 ความคิดเห็น
ความเห็นจาก Hacker News
ปลั๊กอิน llm-gemini ตัวใหม่รองรับโมเดล Gemini 2.0 Flash และมีการแชร์วิธีใช้งานบนเทอร์มินัล
บริษัทใหญ่เปลี่ยนทิศทางได้ช้า แต่เมื่อกำหนดทิศทางแล้ว ก็สามารถทำสิ่งที่บริษัทเล็กทำไม่ได้
เหนือกว่า Gemini 1.5 Pro ในเบนช์มาร์กส่วนใหญ่
มีการประกาศ SDK ใหม่ และดูเหมือนว่าจะยึดตามแนวทางปฏิบัติสมัยใหม่ที่ดี
ดีใจที่รีลีสใหม่ของ Google พร้อมใช้งานได้ทันที
รู้สึกว่าคำว่า "agentic" ฟังแล้วไม่ค่อยน่าพอใจ
โมเดล Gemini 2 รองรับความสามารถด้านเสียงและการสร้างภาพ
Gemini 2 กำลังนำหน้า 4o ใน Chatbot Arena
คิดว่าคำว่า "agentic" ไม่เหมาะสม
เข้าถึง Gemini 2.0 Flash ผ่าน Google AI Studio บนเบราว์เซอร์ Safari ของ iPhone