เปิดตัว Gemini 2.0
(developers.googleblog.com)Gemini 2.0: โมเดล AI ยุคถัดไปสำหรับนักพัฒนา
- โมเดล AI ล้ำสมัยที่พัฒนาโดย Google เพื่อช่วยให้นักพัฒนาสร้างอนาคตของ AI ได้
- หลังการเปิดตัว Gemini 1.0 มีนักพัฒนาหลายล้านคนใช้งาน Gemini ผ่าน Google AI Studio และ Vertex AI ใน 109 ภาษา
- Gemini 2.0 Flash Experimental ช่วยให้พัฒนาแอปพลิเคชันที่สมจริงและโต้ตอบได้มากขึ้น พร้อมมอบโค้ดดิ้งเอเจนต์แบบใหม่ที่สามารถทำงานแทนนักพัฒนาได้
Gemini 2.0 Flash
- โมเดลที่สร้างต่อยอดจากความสำเร็จของ Gemini 1.5 Flash โดยมีความเร็วมากกว่า 1.5 Pro ถึง 2 เท่า พร้อมประสิทธิภาพอันทรงพลัง
- มาพร้อมความสามารถใหม่ด้านเอาต์พุตแบบมัลติโหมดและการใช้เครื่องมือแบบเนทีฟ
- เปิดตัว Multimodal Live API ที่ช่วยสร้างแอปพลิเคชันแบบไดนามิกผ่านการสตรีมเสียงและวิดีโอแบบเรียลไทม์
- นักพัฒนาสามารถทดสอบและสำรวจ Gemini 2.0 Flash รุ่นทดลองได้ใน Google AI Studio และ Vertex AI และมีแผนเปิดให้ใช้งานทั่วไปในช่วงต้นปีหน้า
ฟีเจอร์หลัก:
-
ประสิทธิภาพที่ดีขึ้น:
- ทรงพลังยิ่งกว่า Gemini 1.5 Pro ขณะยังคงความเร็วและประสิทธิภาพของรุ่น Flash
- ปรับปรุงความสามารถด้านมัลติโหมด ข้อความ โค้ด วิดีโอ ความเข้าใจเชิงพื้นที่ และการให้เหตุผล
- โดยเฉพาะอย่างยิ่ง ความสามารถด้านความเข้าใจเชิงพื้นที่ที่ดีขึ้นช่วยเพิ่มความแม่นยำในการสร้างกรอบล้อมรอบวัตถุขนาดเล็กในภาพที่ซับซ้อน
-
รูปแบบเอาต์พุตใหม่:
- สามารถสร้างคำตอบแบบรวมที่มีทั้งข้อความ เสียง และภาพได้ด้วยการเรียก API เพียงครั้งเดียว
- ใช้ลายน้ำที่มองไม่เห็นของ SynthID กับเอาต์พุตภาพและเสียงทั้งหมด เพื่อลดปัญหาข้อมูลผิดพลาดและการระบุแหล่งที่มาผิด
- เอาต์พุตเสียงแบบเนทีฟหลายภาษา: ควบคุมเอาต์พุต text-to-speech ได้อย่างละเอียด โดยเลือกเสียงคุณภาพสูง 8 แบบ พร้อมภาษาและสำเนียงที่หลากหลาย
- เอาต์พุตภาพแบบเนทีฟ: สร้างภาพและรองรับการแก้ไขแบบโต้ตอบหลายรอบ เพื่อปรับปรุงภาพจากเอาต์พุตก่อนหน้า มีประโยชน์สำหรับการสร้างคอนเทนต์มัลติโหมด เช่น สูตรอาหาร ที่ผสานข้อความและภาพเข้าด้วยกัน
-
การใช้เครื่องมือแบบเนทีฟ:
- มีความสามารถในการใช้เครื่องมือ ซึ่งเป็นฟังก์ชันพื้นฐานสำหรับการสร้างประสบการณ์แบบเอเจนต์
- สามารถเรียกใช้เครื่องมืออย่าง Google Search และการรันโค้ดได้โดยตรง รวมถึงใช้ความสามารถของบุคคลที่สามผ่าน custom function calling
- การใช้ Google Search เป็นเครื่องมือช่วยให้คำตอบมีความถูกต้องตามข้อเท็จจริงและครอบคลุมมากขึ้น พร้อมเพิ่มทราฟฟิกให้ผู้เผยแพร่
- สามารถรันการค้นหาหลายรายการแบบขนาน เพื่อค้นหาข้อมูลที่เกี่ยวข้องจากหลายแหล่งพร้อมกันและเพิ่มความแม่นยำ
-
Multimodal Live API:
- สร้างแอปพลิเคชันมัลติโหมดแบบเรียลไทม์ได้ด้วยอินพุตสตรีมเสียงและวิดีโอจากกล้องหรือหน้าจอ
- รองรับรูปแบบการสนทนาที่เป็นธรรมชาติ เช่น การขัดจังหวะและการตรวจจับกิจกรรมเสียงพูด
- สามารถรวมเครื่องมือหลายตัวเพื่อจัดการกรณีใช้งานที่ซับซ้อนด้วยการเรียก API เพียงครั้งเดียว
ความก้าวหน้าของการช่วยเขียนโค้ดด้วย AI
- การช่วยเขียนโค้ดด้วย AI กำลังพัฒนาอย่างรวดเร็วจากการค้นหาโค้ดแบบง่าย ไปสู่ผู้ช่วยที่ขับเคลื่อนด้วย AI ซึ่งฝังอยู่ในเวิร์กโฟลว์ของนักพัฒนา
- โค้ดดิ้งเอเจนต์ที่ใช้ Gemini 2.0 สามารถทำงานแทนนักพัฒนาได้
- 2.0 Flash ที่มาพร้อมเครื่องมือรันโค้ดทำอัตราความสำเร็จได้ 51.8% ใน SWE-bench Verified ซึ่งใช้ทดสอบประสิทธิภาพของเอเจนต์กับงานวิศวกรรมซอฟต์แวร์จริง
Jules: โค้ดเอเจนต์ที่ขับเคลื่อนด้วย AI
- โค้ดเอเจนต์เชิงทดลองที่ขับเคลื่อนด้วย AI สำหรับจัดการงานเขียนโค้ด Python และ Javascript
- ผสานการทำงานกับเวิร์กโฟลว์ของ GitHub และทำงานแบบอะซิงโครนัส เพื่อจัดการการแก้บั๊กและงานอื่น ๆ ที่ใช้เวลามาก
- Jules วางแผนหลายขั้นตอนอย่างครอบคลุมเพื่อแก้ปัญหา แก้ไขหลายไฟล์ได้อย่างมีประสิทธิภาพ และเตรียม pull request เพื่อส่งการแก้ไขขึ้น GitHub โดยตรง
ข้อดีของ Jules:
- เพิ่มประสิทธิภาพการทำงาน: ใช้การเขียนโค้ดแบบอะซิงโครนัส โดยมอบหมายปัญหาและงานเขียนโค้ดให้ Jules เพื่อเพิ่มประสิทธิภาพ
- ติดตามความคืบหน้า: รับข้อมูลผ่านการอัปเดตแบบเรียลไทม์ และจัดลำดับความสำคัญของงานที่ต้องการความสนใจได้
- นักพัฒนายังคงควบคุมได้: สามารถตรวจสอบแผนที่ Jules สร้างขึ้น ให้ข้อเสนอแนะ หรือขอให้ปรับแก้ได้ ตรวจสอบโค้ดที่ Jules เขียนและรวมเข้ากับโปรเจกต์ได้
- ขณะนี้เปิดให้กลุ่มผู้ทดสอบที่เชื่อถือได้ใช้งาน และมีแผนเปิดให้แก่นักพัฒนากลุ่มอื่นในช่วงต้นปี 2025
Data Science Agent ใน Colab
- มี Data Science Agent เชิงทดลองบน labs.google/code ที่ให้คุณอัปโหลดชุดข้อมูลและรับอินไซต์ได้ภายในไม่กี่นาที
- ผสานความสามารถของเอเจนต์เดียวกันเข้ากับ Colab โดยใช้ Gemini 2.0
- คุณสามารถอธิบายเป้าหมายการวิเคราะห์ด้วยคำสั่งภาษาธรรมชาติ และระบบจะสร้างโน้ตบุ๊กให้อัตโนมัติเพื่อเร่งงานวิจัยและการวิเคราะห์ข้อมูล
- เปิดให้เข้าถึงล่วงหน้าผ่านโปรแกรมผู้ทดสอบที่เชื่อถือได้ และมีแผนเปิดให้ผู้ใช้ Colab อย่างกว้างขวางมากขึ้นในช่วงครึ่งแรกของปี 2025
การสนับสนุนนักพัฒนา
- โมเดล Gemini 2.0 ช่วยให้นักพัฒนาสร้างแอป AI ทรงพลังได้เร็วขึ้นและง่ายขึ้น
- มีแผนผสาน Gemini 2.0 เข้ากับแพลตฟอร์มอย่าง Android Studio, Chrome DevTools และ Firebase
- สามารถใช้ Gemini 2.0 Flash ใน Gemini Code Assist เพื่อยกระดับความสามารถในการช่วยเขียนโค้ดใน IDE ยอดนิยม เช่น Visual Studio Code, IntelliJ และ PyCharm
1 ความคิดเห็น
ดูเหมือนว่าตอนนี้จะสามารถใช้งานได้บน Google AI Studio และ Vertex AI แล้ว
ประสิทธิภาพของโมเดลและความหน่วงของเสียงแบบไลฟ์ E2E น่าประทับใจมาก