เปิดตัว Gemini 2.0

lemonmint · 2024-12-12T12:16:45+09:00

Gemini 2.0: โมเดล AI ยุคถัดไปสำหรับนักพัฒนา โมเดล AI ล้ำสมัยที่พัฒนาโดย Google เพื่อช่วยให้นักพัฒนาสร้างอนาคตของ AI ได้ หลังการเปิดตัว Gemini 1.0 มีนักพัฒนาหลายล้านคนใช้งาน Gemini ผ่าน Google AI Studio และ Vertex AI ใน 109 ภาษา Gemini 2.0 Flash Experimental ช่วยให้พัฒนาแอปพลิเคชันที่สมจริงและโต้ตอบได้มากขึ้น พร้อมมอบโค้ดดิ้งเอเจนต์แบบใหม่ที่สามารถทำงานแทนนักพัฒนาได้ Gemini 2.0 Flash โมเดลที่สร้างต่อยอดจากความสำเร็จของ Gemini 1.5 Flash โดยมีความเร็วมากกว่า 1.5 Pro ถึง 2 เท่า พร้อมประสิทธิภาพอันทรงพลัง มาพร้อมความสามารถใหม่ด้านเอาต์พุตแบบมัลติโหมดและการใช้เครื่องมือแบบเนทีฟ เปิดตัว Multimodal Live API ที่ช่วยสร้างแอปพลิเคชันแบบไดนามิกผ่านการสตรีมเสียงและวิดีโอแบบเรียลไทม์ นักพัฒนาสามารถทดสอบและสำรวจ Gemini 2.0 Flash รุ่นทดลองได้ใน Google AI Studio และ Vertex AI และมีแผนเปิดให้ใช้งานทั่วไปในช่วงต้นปีหน้า ฟีเจอร์หลัก: ประสิทธิภาพที่ดีขึ้น: ทรงพลังยิ่งกว่า Gemini 1.5 Pro ขณะยังคงความเร็วและประสิทธิภาพของรุ่น Flash ปรับปรุงความสามารถด้านมัลติโหมด ข้อความ โค้ด วิดีโอ ความเข้าใจเชิงพื้นที่ และการให้เหตุผล โดยเฉพาะอย่างยิ่ง ความสามารถด้านความเข้าใจเชิงพื้นที่ที่ดีขึ้นช่วยเพิ่มความแม่นยำในการสร้างกรอบล้อมรอบวัตถุขนาดเล็กในภาพที่ซับซ้อน รูปแบบเอาต์พุตใหม่: สามารถสร้างคำตอบแบบรวมที่มีทั้งข้อความ เสียง และภาพได้ด้วยการเรียก API เพียงครั้งเดียว ใช้ลายน้ำที่มองไม่เห็นของ SynthID กับเอาต์พุตภาพและเสียงทั้งหมด เพื่อลดปัญหาข้อมูลผิดพลาดและการระบุแหล่งที่มาผิด เอาต์พุตเสียงแบบเนทีฟหลายภาษา: ควบคุมเอาต์พุต text-to-speech ได้อย่างละเอียด โดยเลือกเสียงคุณภาพสูง 8 แบบ พร้อมภาษาและสำเนียงที่หลากหลาย เอาต์พุตภาพแบบเนทีฟ: สร้างภาพและรองรับการแก้ไขแบบโต้ตอบหลายรอบ เพื่อปรับปรุงภาพจากเอาต์พุตก่อนหน้า มีประโยชน์สำหรับการสร้างคอนเทนต์มัลติโหมด เช่น สูตรอาหาร ที่ผสานข้อความและภาพเข้าด้วยกัน การใช้เครื่องมือแบบเนทีฟ: มีความสามารถในการใช้เครื่องมือ ซึ่งเป็นฟังก์ชันพื้นฐานสำหรับการสร้างประสบการณ์แบบเอเจนต์ สามารถเรียกใช้เครื่องมืออย่าง Google Search และการรันโค้ดได้โดยตรง รวมถึงใช้ความสามารถของบุคคลที่สามผ่าน custom function calling การใช้ Google Search เป็นเครื่องมือช่วยให้คำตอบมีความถูกต้องตามข้อเท็จจริงและครอบคลุมมากขึ้น พร้อมเพิ่มทราฟฟิกให้ผู้เผยแพร่ สามารถรันการค้นหาหลายรายการแบบขนาน เพื่อค้นหาข้อมูลที่เกี่ยวข้องจากหลายแหล่งพร้อมกันและเพิ่มความแม่นยำ Multimodal Live API: สร้างแอปพลิเคชันมัลติโหมดแบบเรียลไทม์ได้ด้วยอินพุตสตรีมเสียงและวิดีโอจากกล้องหรือหน้าจอ รองรับรูปแบบการสนทนาที่เป็นธรรมชาติ เช่น การขัดจังหวะและการตรวจจับกิจกรรมเสียงพูด สามารถรวมเครื่องมือหลายตัวเพื่อจัดการกรณีใช้งานที่ซับซ้อนด้วยการเรียก API เพียงครั้งเดียว ความก้าวหน้าของการช่วยเขียนโค้ดด้วย AI การช่วยเขียนโค้ดด้วย AI กำลังพัฒนาอย่างรวดเร็วจากการค้นหาโค้ดแบบง่าย ไปสู่ผู้ช่วยที่ขับเคลื่อนด้วย AI ซึ่งฝังอยู่ในเวิร์กโฟลว์ของนักพัฒนา โค้ดดิ้งเอเจนต์ที่ใช้ Gemini 2.0 สามารถทำงานแทนนักพัฒนาได้ 2.0 Flash ที่มาพร้อมเครื่องมือรันโค้ดทำอัตราความสำเร็จได้ 51.8% ใน SWE-bench Verified ซึ่งใช้ทดสอบประสิทธิภาพของเอเจนต์กับงานวิศวกรรมซอฟต์แวร์จริง Jules: โค้ดเอเจนต์ที่ขับเคลื่อนด้วย AI โค้ดเอเจนต์เชิงทดลองที่ขับเคลื่อนด้วย AI สำหรับจัดการงานเขียนโค้ด Python และ Javascript ผสานการทำงานกับเวิร์กโฟลว์ของ GitHub และทำงานแบบอะซิงโครนัส เพื่อจัดการการแก้บั๊กและงานอื่น ๆ ที่ใช้เวลามาก Jules วางแผนหลายขั้นตอนอย่างครอบคลุมเพื่อแก้ปัญหา แก้ไขหลายไฟล์ได้อย่างมีประสิทธิภาพ และเตรียม pull request เพื่อส่งการแก้ไขขึ้น GitHub โดยตรง ข้อดีของ Jules: เพิ่มประสิทธิภาพการทำงาน: ใช้การเขียนโค้ดแบบอะซิงโครนัส โดยมอบหมายปัญหาและงานเขียนโค้ดให้ Jules เพื่อเพิ่มประสิทธิภาพ ติดตามความคืบหน้า: รับข้อมูลผ่านการอัปเดตแบบเรียลไทม์ และจัดลำดับความสำคัญของงานที่ต้องการความสนใจได้ นักพัฒนายังคงควบคุมได้: สามารถตรวจสอบแผนที่ Jules สร้างขึ้น ให้ข้อเสนอแนะ หรือขอให้ปรับแก้ได้ ตรวจสอบโค้ดที่ Jules เขียนและรวมเข้ากับโปรเจกต์ได้ ขณะนี้เปิดให้กลุ่มผู้ทดสอบที่เชื่อถือได้ใช้งาน และมีแผนเปิดให้แก่นักพัฒนากลุ่มอื่นในช่วงต้นปี 2025 Data Science Agent ใน Colab มี Data Science Agent เชิงทดลองบน labs.google/code ที่ให้คุณอัปโหลดชุดข้อมูลและรับอินไซต์ได้ภายในไม่กี่นาที ผสานความสามารถของเอเจนต์เดียวกันเข้ากับ Colab โดยใช้ Gemini 2.0 คุณสามารถอธิบายเป้าหมายการวิเคราะห์ด้วยคำสั่งภาษาธรรมชาติ และระบบจะสร้างโน้ตบุ๊กให้อัตโนมัติเพื่อเร่งงานวิจัยและการวิเคราะห์ข้อมูล เปิดให้เข้าถึงล่วงหน้าผ่านโปรแกรมผู้ทดสอบที่เชื่อถือได้ และมีแผนเปิดให้ผู้ใช้ Colab อย่างกว้างขวางมากขึ้นในช่วงครึ่งแรกของปี 2025 การสนับสนุนนักพัฒนา โมเดล Gemini 2.0 ช่วยให้นักพัฒนาสร้างแอป AI ทรงพลังได้เร็วขึ้นและง่ายขึ้น มีแผนผสาน Gemini 2.0 เข้ากับแพลตฟอร์มอย่าง Android Studio, Chrome DevTools และ Firebase สามารถใช้ Gemini 2.0 Flash ใน Gemini Code Assist เพื่อยกระดับความสามารถในการช่วยเขียนโค้ดใน IDE ยอดนิยม เช่น Visual Studio Code, IntelliJ และ PyCharm

(developers.googleblog.com)

3 คะแนน โดย lemonmint 2024-12-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Gemini 2.0: โมเดล AI ยุคถัดไปสำหรับนักพัฒนา

โมเดล AI ล้ำสมัยที่พัฒนาโดย Google เพื่อช่วยให้นักพัฒนาสร้างอนาคตของ AI ได้
หลังการเปิดตัว Gemini 1.0 มีนักพัฒนาหลายล้านคนใช้งาน Gemini ผ่าน Google AI Studio และ Vertex AI ใน 109 ภาษา
Gemini 2.0 Flash Experimental ช่วยให้พัฒนาแอปพลิเคชันที่สมจริงและโต้ตอบได้มากขึ้น พร้อมมอบโค้ดดิ้งเอเจนต์แบบใหม่ที่สามารถทำงานแทนนักพัฒนาได้

Gemini 2.0 Flash

โมเดลที่สร้างต่อยอดจากความสำเร็จของ Gemini 1.5 Flash โดยมีความเร็วมากกว่า 1.5 Pro ถึง 2 เท่า พร้อมประสิทธิภาพอันทรงพลัง
มาพร้อมความสามารถใหม่ด้านเอาต์พุตแบบมัลติโหมดและการใช้เครื่องมือแบบเนทีฟ
เปิดตัว Multimodal Live API ที่ช่วยสร้างแอปพลิเคชันแบบไดนามิกผ่านการสตรีมเสียงและวิดีโอแบบเรียลไทม์
นักพัฒนาสามารถทดสอบและสำรวจ Gemini 2.0 Flash รุ่นทดลองได้ใน Google AI Studio และ Vertex AI และมีแผนเปิดให้ใช้งานทั่วไปในช่วงต้นปีหน้า

ฟีเจอร์หลัก:

ประสิทธิภาพที่ดีขึ้น:
- ทรงพลังยิ่งกว่า Gemini 1.5 Pro ขณะยังคงความเร็วและประสิทธิภาพของรุ่น Flash
- ปรับปรุงความสามารถด้านมัลติโหมด ข้อความ โค้ด วิดีโอ ความเข้าใจเชิงพื้นที่ และการให้เหตุผล
- โดยเฉพาะอย่างยิ่ง ความสามารถด้านความเข้าใจเชิงพื้นที่ที่ดีขึ้นช่วยเพิ่มความแม่นยำในการสร้างกรอบล้อมรอบวัตถุขนาดเล็กในภาพที่ซับซ้อน
รูปแบบเอาต์พุตใหม่:
- สามารถสร้างคำตอบแบบรวมที่มีทั้งข้อความ เสียง และภาพได้ด้วยการเรียก API เพียงครั้งเดียว
- ใช้ลายน้ำที่มองไม่เห็นของ SynthID กับเอาต์พุตภาพและเสียงทั้งหมด เพื่อลดปัญหาข้อมูลผิดพลาดและการระบุแหล่งที่มาผิด
- เอาต์พุตเสียงแบบเนทีฟหลายภาษา: ควบคุมเอาต์พุต text-to-speech ได้อย่างละเอียด โดยเลือกเสียงคุณภาพสูง 8 แบบ พร้อมภาษาและสำเนียงที่หลากหลาย
- เอาต์พุตภาพแบบเนทีฟ: สร้างภาพและรองรับการแก้ไขแบบโต้ตอบหลายรอบ เพื่อปรับปรุงภาพจากเอาต์พุตก่อนหน้า มีประโยชน์สำหรับการสร้างคอนเทนต์มัลติโหมด เช่น สูตรอาหาร ที่ผสานข้อความและภาพเข้าด้วยกัน
การใช้เครื่องมือแบบเนทีฟ:
- มีความสามารถในการใช้เครื่องมือ ซึ่งเป็นฟังก์ชันพื้นฐานสำหรับการสร้างประสบการณ์แบบเอเจนต์
- สามารถเรียกใช้เครื่องมืออย่าง Google Search และการรันโค้ดได้โดยตรง รวมถึงใช้ความสามารถของบุคคลที่สามผ่าน custom function calling
- การใช้ Google Search เป็นเครื่องมือช่วยให้คำตอบมีความถูกต้องตามข้อเท็จจริงและครอบคลุมมากขึ้น พร้อมเพิ่มทราฟฟิกให้ผู้เผยแพร่
- สามารถรันการค้นหาหลายรายการแบบขนาน เพื่อค้นหาข้อมูลที่เกี่ยวข้องจากหลายแหล่งพร้อมกันและเพิ่มความแม่นยำ
Multimodal Live API:
- สร้างแอปพลิเคชันมัลติโหมดแบบเรียลไทม์ได้ด้วยอินพุตสตรีมเสียงและวิดีโอจากกล้องหรือหน้าจอ
- รองรับรูปแบบการสนทนาที่เป็นธรรมชาติ เช่น การขัดจังหวะและการตรวจจับกิจกรรมเสียงพูด
- สามารถรวมเครื่องมือหลายตัวเพื่อจัดการกรณีใช้งานที่ซับซ้อนด้วยการเรียก API เพียงครั้งเดียว

ความก้าวหน้าของการช่วยเขียนโค้ดด้วย AI

การช่วยเขียนโค้ดด้วย AI กำลังพัฒนาอย่างรวดเร็วจากการค้นหาโค้ดแบบง่าย ไปสู่ผู้ช่วยที่ขับเคลื่อนด้วย AI ซึ่งฝังอยู่ในเวิร์กโฟลว์ของนักพัฒนา
โค้ดดิ้งเอเจนต์ที่ใช้ Gemini 2.0 สามารถทำงานแทนนักพัฒนาได้
2.0 Flash ที่มาพร้อมเครื่องมือรันโค้ดทำอัตราความสำเร็จได้ 51.8% ใน SWE-bench Verified ซึ่งใช้ทดสอบประสิทธิภาพของเอเจนต์กับงานวิศวกรรมซอฟต์แวร์จริง

Jules: โค้ดเอเจนต์ที่ขับเคลื่อนด้วย AI

โค้ดเอเจนต์เชิงทดลองที่ขับเคลื่อนด้วย AI สำหรับจัดการงานเขียนโค้ด Python และ Javascript
ผสานการทำงานกับเวิร์กโฟลว์ของ GitHub และทำงานแบบอะซิงโครนัส เพื่อจัดการการแก้บั๊กและงานอื่น ๆ ที่ใช้เวลามาก
Jules วางแผนหลายขั้นตอนอย่างครอบคลุมเพื่อแก้ปัญหา แก้ไขหลายไฟล์ได้อย่างมีประสิทธิภาพ และเตรียม pull request เพื่อส่งการแก้ไขขึ้น GitHub โดยตรง

ข้อดีของ Jules:

เพิ่มประสิทธิภาพการทำงาน: ใช้การเขียนโค้ดแบบอะซิงโครนัส โดยมอบหมายปัญหาและงานเขียนโค้ดให้ Jules เพื่อเพิ่มประสิทธิภาพ
ติดตามความคืบหน้า: รับข้อมูลผ่านการอัปเดตแบบเรียลไทม์ และจัดลำดับความสำคัญของงานที่ต้องการความสนใจได้
นักพัฒนายังคงควบคุมได้: สามารถตรวจสอบแผนที่ Jules สร้างขึ้น ให้ข้อเสนอแนะ หรือขอให้ปรับแก้ได้ ตรวจสอบโค้ดที่ Jules เขียนและรวมเข้ากับโปรเจกต์ได้
ขณะนี้เปิดให้กลุ่มผู้ทดสอบที่เชื่อถือได้ใช้งาน และมีแผนเปิดให้แก่นักพัฒนากลุ่มอื่นในช่วงต้นปี 2025

Data Science Agent ใน Colab

มี Data Science Agent เชิงทดลองบน labs.google/code ที่ให้คุณอัปโหลดชุดข้อมูลและรับอินไซต์ได้ภายในไม่กี่นาที
ผสานความสามารถของเอเจนต์เดียวกันเข้ากับ Colab โดยใช้ Gemini 2.0
คุณสามารถอธิบายเป้าหมายการวิเคราะห์ด้วยคำสั่งภาษาธรรมชาติ และระบบจะสร้างโน้ตบุ๊กให้อัตโนมัติเพื่อเร่งงานวิจัยและการวิเคราะห์ข้อมูล
เปิดให้เข้าถึงล่วงหน้าผ่านโปรแกรมผู้ทดสอบที่เชื่อถือได้ และมีแผนเปิดให้ผู้ใช้ Colab อย่างกว้างขวางมากขึ้นในช่วงครึ่งแรกของปี 2025

การสนับสนุนนักพัฒนา

โมเดล Gemini 2.0 ช่วยให้นักพัฒนาสร้างแอป AI ทรงพลังได้เร็วขึ้นและง่ายขึ้น
มีแผนผสาน Gemini 2.0 เข้ากับแพลตฟอร์มอย่าง Android Studio, Chrome DevTools และ Firebase
สามารถใช้ Gemini 2.0 Flash ใน Gemini Code Assist เพื่อยกระดับความสามารถในการช่วยเขียนโค้ดใน IDE ยอดนิยม เช่น Visual Studio Code, IntelliJ และ PyCharm

1 ความคิดเห็น

lemonmint 2024-12-12

ดูเหมือนว่าตอนนี้จะสามารถใช้งานได้บน Google AI Studio และ Vertex AI แล้ว

ประสิทธิภาพของโมเดลและความหน่วงของเสียงแบบไลฟ์ E2E น่าประทับใจมาก