2 คะแนน โดย GN⁺ 2024-12-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Gemini 1.0 ได้สร้างความก้าวหน้าด้วยการเป็นโมเดลมัลติโหมดที่สามารถประมวลผลข้อมูลได้ทั้งข้อความ วิดีโอ ภาพ เสียง และโค้ด
  • Gemini 2.0 ได้ต่อยอดวิสัยทัศน์นี้ให้ก้าวหน้าไปอีกขั้น โดยพัฒนาเป็นโมเดลแบบเอเจนต์ที่สามารถเข้าใจโลก วางแผนหลายขั้นตอน และลงมือทำงานได้
  • Gemini 2.0 ถูกรวมเข้ากับผลิตภัณฑ์หลักอย่าง Google Search เพื่อมอบความสามารถในการจัดการหัวข้อที่ซับซ้อนยิ่งขึ้นและคำถามหลายขั้นตอน

คุณสมบัติหลักของ Gemini 2.0 Flash

  • ต่อยอดจากความสำเร็จของ 1.5 Flash ด้วยประสิทธิภาพที่ดีขึ้นและเวลาตอบสนองที่รวดเร็ว
  • เร็วกว่า 1.5 Pro ถึง 2 เท่า และทำผลงานได้ดีกว่าในเบนช์มาร์กสำคัญ
  • รองรับทั้งอินพุตมัลติโหมด เช่น ภาพ วิดีโอ และเสียง รวมถึงการสร้างภาพที่ผสมกับข้อความและการสังเคราะห์เสียงหลายภาษา
  • เรียกใช้เครื่องมืออย่าง Google Search, การรันโค้ด และฟังก์ชันที่กำหนดเองได้แบบเนทีฟ
  • เปิดให้ใช้งานก่อนสำหรับนักพัฒนาและผู้ทดสอบที่ได้รับความไว้วางใจ และมีแผนจะเปิดกว้างขึ้นในช่วงต้นปีหน้า

แนะนำโครงการวิจัย

  • Project Astra : ผู้ช่วย AI อเนกประสงค์พร้อมความสามารถด้านหน่วยความจำที่ดีขึ้น
    • ปรับปรุงความสามารถ เช่น การสนทนาหลายภาษา การใช้ Google Search/Lens/Maps และหน่วยความจำของเซสชันราว 10 นาที
    • อยู่ระหว่างพัฒนาโดยเก็บฟีดแบ็กจากผู้ทดสอบที่ได้รับความไว้วางใจผ่านอุปกรณ์ Android
  • Project Mariner : ต้นแบบงานวิจัยที่สามารถโต้ตอบกับเบราว์เซอร์และช่วยทำงานที่ซับซ้อนได้
    • ทำผลงานสูงถึง 83.5% ในเบนช์มาร์ก WebVoyager
    • มีมาตรการความปลอดภัยในตัว โดยจะขอการยืนยันก่อนที่ผู้ใช้จะอนุมัติงานขั้นสุดท้าย
  • Jules : เอเจนต์เขียนโค้ดที่ขับเคลื่อนด้วย AI และผสานเข้ากับเวิร์กโฟลว์ของ GitHub
    • ช่วยสนับสนุนนักพัฒนาในการแก้ปัญหา issue และดำเนินการตามแผน

การประยุกต์ใช้ AI เอเจนต์

  • กำลังสำรวจการใช้งาน AI เอเจนต์ภายในเกมร่วมกับบริษัทพัฒนาเกม Supercell
  • กำลังทดลองประยุกต์ใช้ความสามารถด้านการให้เหตุผลเชิงพื้นที่ของ Gemini 2.0 ในสาขาหุ่นยนต์

ความปลอดภัยและการพัฒนาอย่างมีความรับผิดชอบ

  • ใช้แนวทางแบบค่อยเป็นค่อยไปและเชิงสำรวจในการพัฒนาเทคโนโลยีใหม่
  • ใช้แนวทาง red team ที่มี AI ช่วย เพื่อสร้างการตรวจจับความเสี่ยงและแนวทางบรรเทาโดยอัตโนมัติ
  • ใน Project Mariner มีการใช้งานฟีเจอร์เพื่อปกป้องผู้ใช้จากความพยายามโจมตีแบบ prompt injection ที่เป็นอันตราย
  • มีฟังก์ชันควบคุมและลบเซสชันเพื่อคุ้มครองความเป็นส่วนตัวของผู้ใช้

แผนในอนาคต

  • มีแผนขยายความสามารถของ Gemini 2.0 ไปยังแอป Gemini และผลิตภัณฑ์อื่นของ Google
  • จะให้ความสำคัญสูงสุดกับความปลอดภัยและความรับผิดชอบในการพัฒนาไปสู่ AGI

1 ความคิดเห็น

 
GN⁺ 2024-12-12
ความเห็นจาก Hacker News
  • ปลั๊กอิน llm-gemini ตัวใหม่รองรับโมเดล Gemini 2.0 Flash และมีการแชร์วิธีใช้งานบนเทอร์มินัล

    • โมเดล Gemini มีความสามารถในการเขียนและรันโค้ด Python
    • แม้จะไม่สามารถเรียกใช้เครือข่ายได้ แต่ก็มีการลองใช้แนวทางที่หลากหลาย
    • แสดงประสิทธิภาพที่ยอดเยี่ยมในการอธิบายภาพ
  • บริษัทใหญ่เปลี่ยนทิศทางได้ช้า แต่เมื่อกำหนดทิศทางแล้ว ก็สามารถทำสิ่งที่บริษัทเล็กทำไม่ได้

    • Google มีบุคลากรที่มีความสามารถจำนวนมากในด้านนี้ และกำลังสร้างผลลัพธ์ที่ดี
    • ความสามารถในการทำ LLM ให้เป็นผลิตภัณฑ์และการตลาดยังต้องรอดู แต่ประสิทธิภาพนั้นยอดเยี่ยม
  • เหนือกว่า Gemini 1.5 Pro ในเบนช์มาร์กส่วนใหญ่

    • Google DeepMind กำลังปรับตัวเข้าสู่ยุค LLM
    • ควบคุมฮาร์ดแวร์ได้โดยตรงผ่าน TPU
  • มีการประกาศ SDK ใหม่ และดูเหมือนว่าจะยึดตามแนวทางปฏิบัติสมัยใหม่ที่ดี

    • แม้จะมีการให้ OpenAI-compatible endpoint มาอยู่แล้ว แต่ยังไม่แน่ชัดว่าจะรองรับระยะยาวหรือไม่
    • แนะนำให้ตั้งค่า Kubernetes cluster และ GCP bucket
  • ดีใจที่รีลีสใหม่ของ Google พร้อมใช้งานได้ทันที

    • Gemini Flash 2.0 ทำได้ดีกว่า Gemini Pro 1.5 ในโจทย์ Advent of Code
    • Flash 2.0 แก้ข้อผิดพลาดการคอมไพล์
  • รู้สึกว่าคำว่า "agentic" ฟังแล้วไม่ค่อยน่าพอใจ

    • คำอย่าง "versatile", "multifaceted", "autonomous" น่าจะเหมาะสมกว่า
  • โมเดล Gemini 2 รองรับความสามารถด้านเสียงและการสร้างภาพ

    • การสร้างภาพมีกำหนดเปิดให้ใช้งานทั่วไปในเดือนมกราคม
    • งานด้าน computer vision จะสามารถทำผ่าน LLM ได้
  • Gemini 2 กำลังนำหน้า 4o ใน Chatbot Arena

  • คิดว่าคำว่า "agentic" ไม่เหมาะสม

    • ส่วนใหญ่เป็นเพียงไปป์ไลน์ที่ประกอบด้วย system prompt และเครื่องมือ
  • เข้าถึง Gemini 2.0 Flash ผ่าน Google AI Studio บนเบราว์เซอร์ Safari ของ iPhone

    • ระบุสิ่งที่มองเห็นผ่านกล้องได้อย่างแม่นยำ
    • อ่านข้อความภาษาอังกฤษและภาษาญี่ปุ่นได้
    • ระบุโน้ตเปียโนจากภาพได้ แต่ไม่สามารถทำได้จากเสียงอย่างเดียว