เปิดตัวโมเดล Gemini 1.5 Flash
- โมเดลมัลติโหมดใหม่ที่ทรงพลังพอๆ กับ Gemini 1.5 Pro แต่ปรับให้เหมาะกับงานที่เฉพาะเจาะจง เกิดขึ้นบ่อย และต้องการความหน่วงต่ำ
- เหมาะกับการสร้างคำตอบได้อย่างรวดเร็วยิ่งขึ้น
- ความสามารถด้านการแปล การให้เหตุผล และการเขียนโค้ดของ Gemini 1.5 ก็ได้รับการปรับปรุงเช่นกัน
- context window (ปริมาณข้อมูลที่รับเข้าได้) ของ Gemini 1.5 Pro เพิ่มขึ้นเป็นสองเท่าจาก 1 ล้านโทเค็นเป็น 2 ล้านโทเค็น
Project Astra: วิสัยทัศน์อนาคต AI แบบ Star Trek ของ Google
- ผู้ช่วย AI แบบมัลติโหมดที่มีเป้าหมายให้สามารถมองเห็นและเข้าใจผ่านกล้องของอุปกรณ์ จดจำตำแหน่งของสิ่งของ และทำงานแทนผู้ใช้ได้
- ถูกนำไปใช้กับเดโมที่น่าประทับใจที่สุดส่วนใหญ่ในงาน I/O ปีนี้
- เป้าหมายคือการก้าวข้ามการเป็นแค่คู่สนทนา ไปสู่การเป็น AI agent ที่แท้จริงซึ่งลงมือทำงานแทนผู้ใช้ได้จริง
Veo: การสร้างวิดีโอสไตล์ Sora ของ Google
- โมเดล generative AI ใหม่ของ Google ที่ออกมาตอบโต้ Sora ของ OpenAI โดยสามารถสร้างวิดีโอ 1080p จากพรอมป์ต์ที่อิงข้อความ ภาพ และวิดีโอได้
- สามารถสร้างวิดีโอได้หลากหลายสไตล์ เช่น ภาพถ่ายทางอากาศหรือไทม์แลปส์ และปรับแต่งเพิ่มเติมได้ด้วยพรอมป์ต์เสริม
- กำลังเปิดให้ครีเอเตอร์บางรายใช้ทำวิดีโอ YouTube และยังถูกนำเสนอว่าสามารถใช้กับการสร้างภาพยนตร์ได้ด้วย
การผสาน Gemini เข้ากับ Workspace
- Gemini 1.5 Pro ซึ่งเป็นโมเดลภาษารุ่นถัดไป ถูกผสานเข้ากับแถบด้านข้างของ Docs, Sheets, Slides, Drive และ Gmail
- มีกำหนดเปิดให้ผู้สมัครสมาชิกแบบชำระเงินในเดือนหน้า และจะทำหน้าที่เป็นผู้ช่วยอเนกประสงค์ภายใน Workspace
- สามารถดึงข้อมูลจากเนื้อหาทั้งหมดใน Drive ได้
- สามารถทำงานอย่างเช่นเขียนอีเมลโดยอ้างอิงข้อมูลจากเอกสารที่กำลังเปิดดูอยู่ หรือเตือนให้ตอบอีเมลที่ตั้งใจจะกลับมาอ่านภายหลัง
ขยายความสามารถของ Google Lens
- ตอนนี้ค้นหาได้ไม่ใช่แค่จากภาพ แต่จากวิดีโอได้ด้วย
- เพิ่มฟีเจอร์ที่ให้ผู้ใช้ถามคำถามขณะถ่ายวิดีโอ แล้ว AI ของ Google จะค้นหาคำตอบที่เกี่ยวข้องจากบนเว็บ
การใช้งาน Google Photos ของ Gemini
- ฟีเจอร์ "Ask Photos" ที่จะเปิดตัวในช่วงฤดูร้อนนี้ จะวิเคราะห์คลัง Google Photos ของผู้ใช้เพื่อตอบคำถาม
- ไม่ได้หยุดอยู่แค่การหารูปสุนัขหรือแมว แต่สามารถตอบคำถามที่ซับซ้อนกว่าได้ เช่น การถามเลขป้ายทะเบียนรถของตัวเองอย่างที่ Sundar Pichai ซีอีโอสาธิตไว้
Gems: เพิ่มฟีเจอร์สร้างแชตบอตแบบปรับแต่งเองให้ Gemini
- เช่นเดียวกับ GPT ของ OpenAI, Gems จะเปิดให้ผู้ใช้สั่ง Gemini เพื่อปรับแต่งรูปแบบการตอบและความเชี่ยวชาญเฉพาะด้านได้
- ตัวอย่างเช่น หากต้องการโค้ชวิ่งที่มองโลกในแง่ดีและไม่ย่อท้อ คอยให้แรงบันดาลใจและแผนการวิ่งทุกวัน ก็จะทำได้ในเร็วๆ นี้ (สำหรับผู้สมัครสมาชิก Gemini Advanced)
ความสามารถในการสนทนาของ Gemini ที่ดีขึ้น
- ฟีเจอร์ใหม่ Gemini Live มีเป้าหมายทำให้การแชตด้วยเสียงกับ Gemini เป็นธรรมชาติมากขึ้น
- เสียงของแชตบอตจะมีบุคลิกมากขึ้น และผู้ใช้สามารถขัดจังหวะระหว่างพูด หรือขอให้รับข้อมูลแบบเรียลไทม์ผ่านกล้องสมาร์ตโฟนได้
- Gemini ยังผสานกับ Google Calendar, Tasks และ Keep เพื่ออัปเดตหรือดึงข้อมูลได้ และใช้ความสามารถมัลติโหมดกับงานอย่างการเพิ่มรายละเอียดจากใบปลิวลงในปฏิทินส่วนตัว
Circle to Search รองรับการแก้โจทย์คณิตศาสตร์
- ตอนนี้บนโทรศัพท์หรือแท็บเล็ต Android ผู้ใช้สามารถวงโจทย์คณิตศาสตร์เพื่อขอความช่วยเหลือในการแก้ได้
- AI ของ Google จะไม่เฉลยคำตอบตรงๆ เพื่อไม่ให้ช่วยนักเรียนโกงการบ้าน แต่จะแยกขั้นตอนให้เป็นลำดับเพื่อให้ทำต่อได้ง่ายขึ้น
การยกเครื่อง Google Search ด้วย AI
- "AI Overviews" (เดิมเรียกว่า "Search Generative Experience") มีกำหนดเปิดตัวทั่วสหรัฐฯ ภายในสัปดาห์นี้
- จากนี้โมเดล Gemini ที่ "เชี่ยวชาญเฉพาะทาง" จะออกแบบหน้าผลการค้นหาและเติมคำตอบแบบสรุปจากเว็บให้ (คล้ายกับที่เห็นในเครื่องมือค้นหา AI อย่าง Perplexity หรือ Arc Search)
การตรวจจับการหลอกลวงด้วย AI บน Android
- Google ระบุว่าจะใช้ AI บนอุปกรณ์อย่าง Gemini Nano เพื่อช่วยให้โทรศัพท์ Android ตรวจจับสัญญาณอันตราย เช่น รูปแบบบทสนทนาทั่วไปของมิจฉาชีพ และแสดงคำเตือนแบบเรียลไทม์เพื่อช่วยหลีกเลี่ยงสายหลอกลวง
- รายละเอียดเพิ่มเติมของฟีเจอร์นี้จะมีออกมาในช่วงปลายปีนี้
เพิ่มความฉลาดด้วย AI ให้กับอุปกรณ์ Android
- Google ระบุว่า Gemini จะเปิดให้ผู้ใช้ถามเกี่ยวกับวิดีโอที่แสดงอยู่บนหน้าจอได้ในเร็วๆ นี้ และจะตอบโดยอิงจากคำบรรยายอัตโนมัติ
- สำหรับผู้ใช้ Gemini Advanced แบบชำระเงิน ยังสามารถอ่าน PDF และดึงข้อมูลมาให้ได้
- การอัปเดตด้านมัลติโหมดและอื่นๆ สำหรับ Gemini on Android จะทยอยเปิดตัวในช่วงไม่กี่เดือนข้างหน้า
เพิ่มผู้ช่วย AI ใน Google Chrome
- Google ประกาศเพิ่ม Gemini Nano เวอร์ชันน้ำหนักเบาเข้าไปใน Chrome บนเดสก์ท็อป
- ผู้ช่วยในตัวจะใช้ AI บนอุปกรณ์เพื่อช่วยสร้างข้อความสำหรับโพสต์โซเชียลมีเดีย รีวิวสินค้า และอื่นๆ ได้โดยตรงภายใน Google Chrome
อัปเกรดลายน้ำ AI ของ SynthID
- Google ระบุว่าจะขยายความสามารถของ SynthID
- โดยจะฝังลายน้ำลงในคอนเทนต์ที่สร้างด้วยเครื่องมือสร้างวิดีโอใหม่ Veo และตอนนี้ยังสามารถตรวจจับวิดีโอที่สร้างด้วย AI ได้แล้ว
6 ความคิดเห็น
แชตบอตแค่ให้ใช้ฟรีก็เพียงพอแล้ว และเพราะไม่ได้ใช้งานด้านรูปภาพ วิดีโอ หรือเสียง ก็เลยยินดีที่มันถูกรวมเข้ากับผลิตภัณฑ์เดิมครับ
ความก้าวหน้าของ AI Project Astra และการสร้างวิดีโอของ Google
โมเดล Gemini ของ Google ถูกใช้อย่างแพร่หลายโดยนักพัฒนามากกว่า 1.5 ล้านคนสำหรับการดีบักโค้ด การหาอินไซต์ และการสร้างแอปพลิเคชัน AI โดย Project Astra กำลังเปิดตัวเอเจนต์ AI ที่สามารถประมวลผลข้อมูลจากวิดีโอและเสียงได้อย่างมีประสิทธิภาพ รวมถึงโมเดลวิดีโอเชิงกำเนิดขั้นสูงตัวใหม่อย่าง Vo ด้วย Vo สามารถสร้างวิดีโอคุณภาพสูงระดับ 1080p จากพรอมป์ต์แบบข้อความ รูปภาพ และวิดีโอ มอบการควบคุมเชิงสร้างสรรค์ในระดับที่ไม่เคยมีมาก่อน เทคโนโลยีนี้พัฒนาโดย DeepMind ของ Google และมีเป้าหมายเพื่อทำให้ไอเดียที่ก่อนหน้านี้เป็นไปไม่ได้ให้เกิดขึ้นจริง
TPU รุ่นที่ 6 ของ Google และการปรับโฉม AI ครั้งใหญ่
Google วางแผนเปิดตัว Trillium ซึ่งเป็น TPU รุ่นที่ 6 ในช่วงปลายปี 2024 และจะให้บริการแก่ลูกค้าคลาวด์ โดยมีประสิทธิภาพการประมวลผลต่อชิปเพิ่มขึ้น 4.7 เท่า นอกจากนี้ยังเปิดตัว CPU และ GPU ใหม่เพื่อรองรับเวิร์กโหลดที่หลากหลาย รวมถึงโปรเซสเซอร์ Axion และ GPU Blackwell ของ Envidia โดยตัวหลังมีกำหนดให้บริการในช่วงต้นปี 2025 Google ยังเปิดตัว Gemini ซึ่งเป็นประสบการณ์การค้นหาที่ขับเคลื่อนด้วย AI แบบใหม่ทั้งหมดและได้รับความพึงพอใจจากผู้ใช้สูง โดยจะเริ่มเปิดให้ใช้งานในสหรัฐฯ ก่อน โมเดลการค้นหาใหม่นี้รองรับคำค้นที่ซับซ้อนขึ้นและการค้นหาจากภาพถ่าย พร้อมมอบผลลัพธ์ที่มีโครงสร้างเพื่อประสบการณ์ผู้ใช้ที่ดียิ่งขึ้น
ความสามารถ AI ใหม่ของ Google และนวัตกรรมในอนาคต
Google กำลังนำเสนอหน้าผลการค้นหาแบบใหม่ที่จัดทำโดย AI โดยเริ่มจากหมวดอาหารและสูตรอาหารก่อน แล้วจะขยายไปยังหมวดอื่น ๆ AI สามารถใช้ปัจจัยตามบริบท เช่น ฤดูกาล เพื่อให้ภาพรวมของสาเหตุของปัญหาและขั้นตอนการแก้ไขได้ AI ของ Google อย่าง Gemini จะมอบประสบการณ์แบบไลฟ์ที่เป็นผู้เชี่ยวชาญส่วนบุคคลแบบปรับแต่งได้ ซึ่งเรียกว่า "Gems" ในเร็ว ๆ นี้ และจะผสานรวมกับ Project Astra เพื่อเสริมความสามารถด้านความเข้าใจวิดีโอ
ขอแนะนำ Gemini ผู้ช่วย AI ใหม่สำหรับ Android
Gemini คือผู้ช่วย AI ใหม่สำหรับ Android ที่มอบประสบการณ์ AI แบบ on-device พร้อมให้ความสำคัญกับความเป็นส่วนตัวของข้อมูล ได้รับการออกแบบมาเพื่อเสนอคำแนะนำตามบริบท เช่น ช่วยเรื่องการเรียน และให้คำแนะนำแบบเป็นขั้นตอนสำหรับปัญหาที่ยาก นอกจากนี้ Gemini ยังช่วยงานต่าง ๆ เช่น ค้นหารูปภาพ และตอบคำถามเฉพาะเจาะจงได้ โดยผสานเข้ากับเวิร์กโฟลว์ของผู้ใช้อย่างราบรื่น
ผลกระทบของ Gemini ของ Google ต่อการใช้งานสมาร์ตโฟน
Gemini ของ Google นำความสามารถด้าน AI มาสู่ผู้ใช้สมาร์ตโฟน ช่วยให้เข้าถึงข้อมูลในเอกสารได้ง่ายและให้คำตอบที่ชัดเจนสำหรับคำถามเฉพาะ โมเดลพื้นฐานแบบ on-device ช่วยยกระดับประสบการณ์บนสมาร์ตโฟนด้วยการตอบสนองที่รวดเร็วขึ้นพร้อมให้ความสำคัญกับความเป็นส่วนตัวของผู้ใช้ โมเดล Gemini Nano ที่จะเปิดตัวเร็ว ๆ นี้จะขยายความเป็นไปได้ให้มากขึ้น โดยทำให้โทรศัพท์สามารถเข้าใจโลกผ่านข้อความ ภาพ เสียง และภาษาพูดได้
Corely สรุปประเด็นสำคัญใน YouTube ได้ใน 10 วินาที! - https://corely.ai/content/google-io-2024-everything-revealed
Gemini Flash
Google DeepMind Veo
https://killedbygoogle.com
ผมสงสัยว่าเมื่อไหร่ Gemini จะเข้าไปอยู่ในลิสต์นี้ ถ้าทำเงินไม่ได้ Google ก็มักจะเลิกแบบไม่เสียดายอยู่แล้ว เลยทำให้ผมไม่ค่อยผูกพันกับมัน
ถ้าไม่มีการประกาศเปิดตัว GPT-4o ก็น่าจะเป็นงานเปิดตัวที่ค่อนข้างดีมาก แต่นี่เลยทำให้หมดความตื่นเต้นไปเยอะทีเดียว
ในมุมของ Google เองก็คงรู้สึกไม่ชอบ OpenAI มากจริง ๆ
ก่อนหน้านี้ OpenAI ออกของที่กูเกิลเคยเดโมไว้แล้ว แต่ฝั่งกูเกิลเองก็ยังอีกไกล... รอบนี้เลยดูงานเปิดตัวไปด้วยความรู้สึกว่า ของที่เผยออกมาครั้งนี้จะได้เห็นทำจริงเมื่อไหร่กันนะ 555