ทุกสิ่งที่ประกาศในงาน Google I/O 2024

xguru · 2024-05-15T08:34:19+09:00

เปิดตัวโมเดล Gemini 1.5 Flash โมเดลมัลติโหมดใหม่ที่ทรงพลังพอๆ กับ Gemini 1.5 Pro แต่ปรับให้เหมาะกับงานที่เฉพาะเจาะจง เกิดขึ้นบ่อย และต้องการความหน่วงต่ำ เหมาะกับการสร้างคำตอบได้อย่างรวดเร็วยิ่งขึ้น ความสามารถด้านการแปล การให้เหตุผล และการเขียนโค้ดของ Gemini 1.5 ก็ได้รับการปรับปรุงเช่นกัน context window (ปริมาณข้อมูลที่รับเข้าได้) ของ Gemini 1.5 Pro เพิ่มขึ้นเป็นสองเท่าจาก 1 ล้านโทเค็นเป็น 2 ล้านโทเค็น Project Astra: วิสัยทัศน์อนาคต AI แบบ Star Trek ของ Google ผู้ช่วย AI แบบมัลติโหมดที่มีเป้าหมายให้สามารถมองเห็นและเข้าใจผ่านกล้องของอุปกรณ์ จดจำตำแหน่งของสิ่งของ และทำงานแทนผู้ใช้ได้ ถูกนำไปใช้กับเดโมที่น่าประทับใจที่สุดส่วนใหญ่ในงาน I/O ปีนี้ เป้าหมายคือการก้าวข้ามการเป็นแค่คู่สนทนา ไปสู่การเป็น AI agent ที่แท้จริงซึ่งลงมือทำงานแทนผู้ใช้ได้จริง Veo: การสร้างวิดีโอสไตล์ Sora ของ Google โมเดล generative AI ใหม่ของ Google ที่ออกมาตอบโต้ Sora ของ OpenAI โดยสามารถสร้างวิดีโอ 1080p จากพรอมป์ต์ที่อิงข้อความ ภาพ และวิดีโอได้ สามารถสร้างวิดีโอได้หลากหลายสไตล์ เช่น ภาพถ่ายทางอากาศหรือไทม์แลปส์ และปรับแต่งเพิ่มเติมได้ด้วยพรอมป์ต์เสริม กำลังเปิดให้ครีเอเตอร์บางรายใช้ทำวิดีโอ YouTube และยังถูกนำเสนอว่าสามารถใช้กับการสร้างภาพยนตร์ได้ด้วย การผสาน Gemini เข้ากับ Workspace Gemini 1.5 Pro ซึ่งเป็นโมเดลภาษารุ่นถัดไป ถูกผสานเข้ากับแถบด้านข้างของ Docs, Sheets, Slides, Drive และ Gmail มีกำหนดเปิดให้ผู้สมัครสมาชิกแบบชำระเงินในเดือนหน้า และจะทำหน้าที่เป็นผู้ช่วยอเนกประสงค์ภายใน Workspace สามารถดึงข้อมูลจากเนื้อหาทั้งหมดใน Drive ได้ สามารถทำงานอย่างเช่นเขียนอีเมลโดยอ้างอิงข้อมูลจากเอกสารที่กำลังเปิดดูอยู่ หรือเตือนให้ตอบอีเมลที่ตั้งใจจะกลับมาอ่านภายหลัง ขยายความสามารถของ Google Lens ตอนนี้ค้นหาได้ไม่ใช่แค่จากภาพ แต่จากวิดีโอได้ด้วย เพิ่มฟีเจอร์ที่ให้ผู้ใช้ถามคำถามขณะถ่ายวิดีโอ แล้ว AI ของ Google จะค้นหาคำตอบที่เกี่ยวข้องจากบนเว็บ การใช้งาน Google Photos ของ Gemini ฟีเจอร์ "Ask Photos" ที่จะเปิดตัวในช่วงฤดูร้อนนี้ จะวิเคราะห์คลัง Google Photos ของผู้ใช้เพื่อตอบคำถาม ไม่ได้หยุดอยู่แค่การหารูปสุนัขหรือแมว แต่สามารถตอบคำถามที่ซับซ้อนกว่าได้ เช่น การถามเลขป้ายทะเบียนรถของตัวเองอย่างที่ Sundar Pichai ซีอีโอสาธิตไว้ Gems: เพิ่มฟีเจอร์สร้างแชตบอตแบบปรับแต่งเองให้ Gemini เช่นเดียวกับ GPT ของ OpenAI, Gems จะเปิดให้ผู้ใช้สั่ง Gemini เพื่อปรับแต่งรูปแบบการตอบและความเชี่ยวชาญเฉพาะด้านได้ ตัวอย่างเช่น หากต้องการโค้ชวิ่งที่มองโลกในแง่ดีและไม่ย่อท้อ คอยให้แรงบันดาลใจและแผนการวิ่งทุกวัน ก็จะทำได้ในเร็วๆ นี้ (สำหรับผู้สมัครสมาชิก Gemini Advanced) ความสามารถในการสนทนาของ Gemini ที่ดีขึ้น ฟีเจอร์ใหม่ Gemini Live มีเป้าหมายทำให้การแชตด้วยเสียงกับ Gemini เป็นธรรมชาติมากขึ้น เสียงของแชตบอตจะมีบุคลิกมากขึ้น และผู้ใช้สามารถขัดจังหวะระหว่างพูด หรือขอให้รับข้อมูลแบบเรียลไทม์ผ่านกล้องสมาร์ตโฟนได้ Gemini ยังผสานกับ Google Calendar, Tasks และ Keep เพื่ออัปเดตหรือดึงข้อมูลได้ และใช้ความสามารถมัลติโหมดกับงานอย่างการเพิ่มรายละเอียดจากใบปลิวลงในปฏิทินส่วนตัว Circle to Search รองรับการแก้โจทย์คณิตศาสตร์ ตอนนี้บนโทรศัพท์หรือแท็บเล็ต Android ผู้ใช้สามารถวงโจทย์คณิตศาสตร์เพื่อขอความช่วยเหลือในการแก้ได้ AI ของ Google จะไม่เฉลยคำตอบตรงๆ เพื่อไม่ให้ช่วยนักเรียนโกงการบ้าน แต่จะแยกขั้นตอนให้เป็นลำดับเพื่อให้ทำต่อได้ง่ายขึ้น การยกเครื่อง Google Search ด้วย AI "AI Overviews" (เดิมเรียกว่า "Search Generative Experience") มีกำหนดเปิดตัวทั่วสหรัฐฯ ภายในสัปดาห์นี้ จากนี้โมเดล Gemini ที่ "เชี่ยวชาญเฉพาะทาง" จะออกแบบหน้าผลการค้นหาและเติมคำตอบแบบสรุปจากเว็บให้ (คล้ายกับที่เห็นในเครื่องมือค้นหา AI อย่าง Perplexity หรือ Arc Search) การตรวจจับการหลอกลวงด้วย AI บน Android Google ระบุว่าจะใช้ AI บนอุปกรณ์อย่าง Gemini Nano เพื่อช่วยให้โทรศัพท์ Android ตรวจจับสัญญาณอันตราย เช่น รูปแบบบทสนทนาทั่วไปของมิจฉาชีพ และแสดงคำเตือนแบบเรียลไทม์เพื่อช่วยหลีกเลี่ยงสายหลอกลวง รายละเอียดเพิ่มเติมของฟีเจอร์นี้จะมีออกมาในช่วงปลายปีนี้ เพิ่มความฉลาดด้วย AI ให้กับอุปกรณ์ Android Google ระบุว่า Gemini จะเปิดให้ผู้ใช้ถามเกี่ยวกับวิดีโอที่แสดงอยู่บนหน้าจอได้ในเร็วๆ นี้ และจะตอบโดยอิงจากคำบรรยายอัตโนมัติ สำหรับผู้ใช้ Gemini Advanced แบบชำระเงิน ยังสามารถอ่าน PDF และดึงข้อมูลมาให้ได้ การอัปเดตด้านมัลติโหมดและอื่นๆ สำหรับ Gemini on Android จะทยอยเปิดตัวในช่วงไม่กี่เดือนข้างหน้า เพิ่มผู้ช่วย AI ใน Google Chrome Google ประกาศเพิ่ม Gemini Nano เวอร์ชันน้ำหนักเบาเข้าไปใน Chrome บนเดสก์ท็อป ผู้ช่วยในตัวจะใช้ AI บนอุปกรณ์เพื่อช่วยสร้างข้อความสำหรับโพสต์โซเชียลมีเดีย รีวิวสินค้า และอื่นๆ ได้โดยตรงภายใน Google Chrome อัปเกรดลายน้ำ AI ของ SynthID Google ระบุว่าจะขยายความสามารถของ SynthID โดยจะฝังลายน้ำลงในคอนเทนต์ที่สร้างด้วยเครื่องมือสร้างวิดีโอใหม่ Veo และตอนนี้ยังสามารถตรวจจับวิดีโอที่สร้างด้วย AI ได้แล้ว

(theverge.com)

19 คะแนน โดย xguru 2024-05-15 | 6 ความคิดเห็น | แชร์ทาง WhatsApp

เปิดตัวโมเดล Gemini 1.5 Flash

โมเดลมัลติโหมดใหม่ที่ทรงพลังพอๆ กับ Gemini 1.5 Pro แต่ปรับให้เหมาะกับงานที่เฉพาะเจาะจง เกิดขึ้นบ่อย และต้องการความหน่วงต่ำ
เหมาะกับการสร้างคำตอบได้อย่างรวดเร็วยิ่งขึ้น
ความสามารถด้านการแปล การให้เหตุผล และการเขียนโค้ดของ Gemini 1.5 ก็ได้รับการปรับปรุงเช่นกัน
context window (ปริมาณข้อมูลที่รับเข้าได้) ของ Gemini 1.5 Pro เพิ่มขึ้นเป็นสองเท่าจาก 1 ล้านโทเค็นเป็น 2 ล้านโทเค็น

Project Astra: วิสัยทัศน์อนาคต AI แบบ Star Trek ของ Google

ผู้ช่วย AI แบบมัลติโหมดที่มีเป้าหมายให้สามารถมองเห็นและเข้าใจผ่านกล้องของอุปกรณ์ จดจำตำแหน่งของสิ่งของ และทำงานแทนผู้ใช้ได้
ถูกนำไปใช้กับเดโมที่น่าประทับใจที่สุดส่วนใหญ่ในงาน I/O ปีนี้
เป้าหมายคือการก้าวข้ามการเป็นแค่คู่สนทนา ไปสู่การเป็น AI agent ที่แท้จริงซึ่งลงมือทำงานแทนผู้ใช้ได้จริง

Veo: การสร้างวิดีโอสไตล์ Sora ของ Google

โมเดล generative AI ใหม่ของ Google ที่ออกมาตอบโต้ Sora ของ OpenAI โดยสามารถสร้างวิดีโอ 1080p จากพรอมป์ต์ที่อิงข้อความ ภาพ และวิดีโอได้
สามารถสร้างวิดีโอได้หลากหลายสไตล์ เช่น ภาพถ่ายทางอากาศหรือไทม์แลปส์ และปรับแต่งเพิ่มเติมได้ด้วยพรอมป์ต์เสริม
กำลังเปิดให้ครีเอเตอร์บางรายใช้ทำวิดีโอ YouTube และยังถูกนำเสนอว่าสามารถใช้กับการสร้างภาพยนตร์ได้ด้วย

การผสาน Gemini เข้ากับ Workspace

Gemini 1.5 Pro ซึ่งเป็นโมเดลภาษารุ่นถัดไป ถูกผสานเข้ากับแถบด้านข้างของ Docs, Sheets, Slides, Drive และ Gmail
มีกำหนดเปิดให้ผู้สมัครสมาชิกแบบชำระเงินในเดือนหน้า และจะทำหน้าที่เป็นผู้ช่วยอเนกประสงค์ภายใน Workspace
สามารถดึงข้อมูลจากเนื้อหาทั้งหมดใน Drive ได้
สามารถทำงานอย่างเช่นเขียนอีเมลโดยอ้างอิงข้อมูลจากเอกสารที่กำลังเปิดดูอยู่ หรือเตือนให้ตอบอีเมลที่ตั้งใจจะกลับมาอ่านภายหลัง

ขยายความสามารถของ Google Lens

ตอนนี้ค้นหาได้ไม่ใช่แค่จากภาพ แต่จากวิดีโอได้ด้วย
เพิ่มฟีเจอร์ที่ให้ผู้ใช้ถามคำถามขณะถ่ายวิดีโอ แล้ว AI ของ Google จะค้นหาคำตอบที่เกี่ยวข้องจากบนเว็บ

การใช้งาน Google Photos ของ Gemini

ฟีเจอร์ "Ask Photos" ที่จะเปิดตัวในช่วงฤดูร้อนนี้ จะวิเคราะห์คลัง Google Photos ของผู้ใช้เพื่อตอบคำถาม
ไม่ได้หยุดอยู่แค่การหารูปสุนัขหรือแมว แต่สามารถตอบคำถามที่ซับซ้อนกว่าได้ เช่น การถามเลขป้ายทะเบียนรถของตัวเองอย่างที่ Sundar Pichai ซีอีโอสาธิตไว้

Gems: เพิ่มฟีเจอร์สร้างแชตบอตแบบปรับแต่งเองให้ Gemini

เช่นเดียวกับ GPT ของ OpenAI, Gems จะเปิดให้ผู้ใช้สั่ง Gemini เพื่อปรับแต่งรูปแบบการตอบและความเชี่ยวชาญเฉพาะด้านได้
ตัวอย่างเช่น หากต้องการโค้ชวิ่งที่มองโลกในแง่ดีและไม่ย่อท้อ คอยให้แรงบันดาลใจและแผนการวิ่งทุกวัน ก็จะทำได้ในเร็วๆ นี้ (สำหรับผู้สมัครสมาชิก Gemini Advanced)

ความสามารถในการสนทนาของ Gemini ที่ดีขึ้น

ฟีเจอร์ใหม่ Gemini Live มีเป้าหมายทำให้การแชตด้วยเสียงกับ Gemini เป็นธรรมชาติมากขึ้น
เสียงของแชตบอตจะมีบุคลิกมากขึ้น และผู้ใช้สามารถขัดจังหวะระหว่างพูด หรือขอให้รับข้อมูลแบบเรียลไทม์ผ่านกล้องสมาร์ตโฟนได้
Gemini ยังผสานกับ Google Calendar, Tasks และ Keep เพื่ออัปเดตหรือดึงข้อมูลได้ และใช้ความสามารถมัลติโหมดกับงานอย่างการเพิ่มรายละเอียดจากใบปลิวลงในปฏิทินส่วนตัว

Circle to Search รองรับการแก้โจทย์คณิตศาสตร์

ตอนนี้บนโทรศัพท์หรือแท็บเล็ต Android ผู้ใช้สามารถวงโจทย์คณิตศาสตร์เพื่อขอความช่วยเหลือในการแก้ได้
AI ของ Google จะไม่เฉลยคำตอบตรงๆ เพื่อไม่ให้ช่วยนักเรียนโกงการบ้าน แต่จะแยกขั้นตอนให้เป็นลำดับเพื่อให้ทำต่อได้ง่ายขึ้น

การยกเครื่อง Google Search ด้วย AI

"AI Overviews" (เดิมเรียกว่า "Search Generative Experience") มีกำหนดเปิดตัวทั่วสหรัฐฯ ภายในสัปดาห์นี้
จากนี้โมเดล Gemini ที่ "เชี่ยวชาญเฉพาะทาง" จะออกแบบหน้าผลการค้นหาและเติมคำตอบแบบสรุปจากเว็บให้ (คล้ายกับที่เห็นในเครื่องมือค้นหา AI อย่าง Perplexity หรือ Arc Search)

การตรวจจับการหลอกลวงด้วย AI บน Android

Google ระบุว่าจะใช้ AI บนอุปกรณ์อย่าง Gemini Nano เพื่อช่วยให้โทรศัพท์ Android ตรวจจับสัญญาณอันตราย เช่น รูปแบบบทสนทนาทั่วไปของมิจฉาชีพ และแสดงคำเตือนแบบเรียลไทม์เพื่อช่วยหลีกเลี่ยงสายหลอกลวง
รายละเอียดเพิ่มเติมของฟีเจอร์นี้จะมีออกมาในช่วงปลายปีนี้

เพิ่มความฉลาดด้วย AI ให้กับอุปกรณ์ Android

Google ระบุว่า Gemini จะเปิดให้ผู้ใช้ถามเกี่ยวกับวิดีโอที่แสดงอยู่บนหน้าจอได้ในเร็วๆ นี้ และจะตอบโดยอิงจากคำบรรยายอัตโนมัติ
สำหรับผู้ใช้ Gemini Advanced แบบชำระเงิน ยังสามารถอ่าน PDF และดึงข้อมูลมาให้ได้
การอัปเดตด้านมัลติโหมดและอื่นๆ สำหรับ Gemini on Android จะทยอยเปิดตัวในช่วงไม่กี่เดือนข้างหน้า

เพิ่มผู้ช่วย AI ใน Google Chrome

Google ประกาศเพิ่ม Gemini Nano เวอร์ชันน้ำหนักเบาเข้าไปใน Chrome บนเดสก์ท็อป
ผู้ช่วยในตัวจะใช้ AI บนอุปกรณ์เพื่อช่วยสร้างข้อความสำหรับโพสต์โซเชียลมีเดีย รีวิวสินค้า และอื่นๆ ได้โดยตรงภายใน Google Chrome

อัปเกรดลายน้ำ AI ของ SynthID

Google ระบุว่าจะขยายความสามารถของ SynthID
โดยจะฝังลายน้ำลงในคอนเทนต์ที่สร้างด้วยเครื่องมือสร้างวิดีโอใหม่ Veo และตอนนี้ยังสามารถตรวจจับวิดีโอที่สร้างด้วย AI ได้แล้ว

6 ความคิดเห็น

pinks 2024-05-16

แชตบอตแค่ให้ใช้ฟรีก็เพียงพอแล้ว และเพราะไม่ได้ใช้งานด้านรูปภาพ วิดีโอ หรือเสียง ก็เลยยินดีที่มันถูกรวมเข้ากับผลิตภัณฑ์เดิมครับ

corelyai 2024-05-15

ความก้าวหน้าของ AI Project Astra และการสร้างวิดีโอของ Google

โมเดล Gemini ของ Google ถูกใช้อย่างแพร่หลายโดยนักพัฒนามากกว่า 1.5 ล้านคนสำหรับการดีบักโค้ด การหาอินไซต์ และการสร้างแอปพลิเคชัน AI โดย Project Astra กำลังเปิดตัวเอเจนต์ AI ที่สามารถประมวลผลข้อมูลจากวิดีโอและเสียงได้อย่างมีประสิทธิภาพ รวมถึงโมเดลวิดีโอเชิงกำเนิดขั้นสูงตัวใหม่อย่าง Vo ด้วย Vo สามารถสร้างวิดีโอคุณภาพสูงระดับ 1080p จากพรอมป์ต์แบบข้อความ รูปภาพ และวิดีโอ มอบการควบคุมเชิงสร้างสรรค์ในระดับที่ไม่เคยมีมาก่อน เทคโนโลยีนี้พัฒนาโดย DeepMind ของ Google และมีเป้าหมายเพื่อทำให้ไอเดียที่ก่อนหน้านี้เป็นไปไม่ได้ให้เกิดขึ้นจริง

TPU รุ่นที่ 6 ของ Google และการปรับโฉม AI ครั้งใหญ่

Google วางแผนเปิดตัว Trillium ซึ่งเป็น TPU รุ่นที่ 6 ในช่วงปลายปี 2024 และจะให้บริการแก่ลูกค้าคลาวด์ โดยมีประสิทธิภาพการประมวลผลต่อชิปเพิ่มขึ้น 4.7 เท่า นอกจากนี้ยังเปิดตัว CPU และ GPU ใหม่เพื่อรองรับเวิร์กโหลดที่หลากหลาย รวมถึงโปรเซสเซอร์ Axion และ GPU Blackwell ของ Envidia โดยตัวหลังมีกำหนดให้บริการในช่วงต้นปี 2025 Google ยังเปิดตัว Gemini ซึ่งเป็นประสบการณ์การค้นหาที่ขับเคลื่อนด้วย AI แบบใหม่ทั้งหมดและได้รับความพึงพอใจจากผู้ใช้สูง โดยจะเริ่มเปิดให้ใช้งานในสหรัฐฯ ก่อน โมเดลการค้นหาใหม่นี้รองรับคำค้นที่ซับซ้อนขึ้นและการค้นหาจากภาพถ่าย พร้อมมอบผลลัพธ์ที่มีโครงสร้างเพื่อประสบการณ์ผู้ใช้ที่ดียิ่งขึ้น

ความสามารถ AI ใหม่ของ Google และนวัตกรรมในอนาคต

Google กำลังนำเสนอหน้าผลการค้นหาแบบใหม่ที่จัดทำโดย AI โดยเริ่มจากหมวดอาหารและสูตรอาหารก่อน แล้วจะขยายไปยังหมวดอื่น ๆ AI สามารถใช้ปัจจัยตามบริบท เช่น ฤดูกาล เพื่อให้ภาพรวมของสาเหตุของปัญหาและขั้นตอนการแก้ไขได้ AI ของ Google อย่าง Gemini จะมอบประสบการณ์แบบไลฟ์ที่เป็นผู้เชี่ยวชาญส่วนบุคคลแบบปรับแต่งได้ ซึ่งเรียกว่า "Gems" ในเร็ว ๆ นี้ และจะผสานรวมกับ Project Astra เพื่อเสริมความสามารถด้านความเข้าใจวิดีโอ

ขอแนะนำ Gemini ผู้ช่วย AI ใหม่สำหรับ Android

Gemini คือผู้ช่วย AI ใหม่สำหรับ Android ที่มอบประสบการณ์ AI แบบ on-device พร้อมให้ความสำคัญกับความเป็นส่วนตัวของข้อมูล ได้รับการออกแบบมาเพื่อเสนอคำแนะนำตามบริบท เช่น ช่วยเรื่องการเรียน และให้คำแนะนำแบบเป็นขั้นตอนสำหรับปัญหาที่ยาก นอกจากนี้ Gemini ยังช่วยงานต่าง ๆ เช่น ค้นหารูปภาพ และตอบคำถามเฉพาะเจาะจงได้ โดยผสานเข้ากับเวิร์กโฟลว์ของผู้ใช้อย่างราบรื่น

ผลกระทบของ Gemini ของ Google ต่อการใช้งานสมาร์ตโฟน

Gemini ของ Google นำความสามารถด้าน AI มาสู่ผู้ใช้สมาร์ตโฟน ช่วยให้เข้าถึงข้อมูลในเอกสารได้ง่ายและให้คำตอบที่ชัดเจนสำหรับคำถามเฉพาะ โมเดลพื้นฐานแบบ on-device ช่วยยกระดับประสบการณ์บนสมาร์ตโฟนด้วยการตอบสนองที่รวดเร็วขึ้นพร้อมให้ความสำคัญกับความเป็นส่วนตัวของผู้ใช้ โมเดล Gemini Nano ที่จะเปิดตัวเร็ว ๆ นี้จะขยายความเป็นไปได้ให้มากขึ้น โดยทำให้โทรศัพท์สามารถเข้าใจโลกผ่านข้อความ ภาพ เสียง และภาษาพูดได้

Corely สรุปประเด็นสำคัญใน YouTube ได้ใน 10 วินาที! - https://corely.ai/content/google-io-2024-everything-revealed

xguru 2024-05-15

Gemini Flash
Google DeepMind Veo

savvykang 2024-05-15

https://killedbygoogle.com
ผมสงสัยว่าเมื่อไหร่ Gemini จะเข้าไปอยู่ในลิสต์นี้ ถ้าทำเงินไม่ได้ Google ก็มักจะเลิกแบบไม่เสียดายอยู่แล้ว เลยทำให้ผมไม่ค่อยผูกพันกับมัน