- สัปดาห์ที่แล้ว Google เปิดตัว Gemini 1.0 Ultra ซึ่งเป็นโมเดลที่มีความสามารถมากที่สุด และถือเป็นก้าวสำคัญที่ทำให้ผลิตภัณฑ์ของ Google มีประโยชน์ยิ่งขึ้น
- นักพัฒนาและลูกค้าคลาวด์สามารถเริ่มสร้างด้วย 1.0 Ultra ผ่าน Gemini API บน AI Studio และ Vertex AI ได้
- ทีมที่ขับเคลื่อนแนวหน้าของโมเดลโดยยึดความปลอดภัยเป็นหัวใจสำคัญ กำลังก้าวหน้าอย่างรวดเร็ว และพร้อมที่จะแนะนำรุ่นถัดไปอย่าง Gemini 1.5
- Gemini 1.5 แสดงให้เห็นถึงการปรับปรุงอย่างชัดเจนในหลายมิติ และ 1.5 Pro สามารถบรรลุคุณภาพใกล้เคียงกับ 1.0 Ultra โดยใช้การประมวลผลน้อยกว่า
- รุ่นใหม่นี้สร้างความก้าวหน้าในการทำความเข้าใจบริบทยาวข้ามโมดาลิตี และเพิ่มปริมาณข้อมูลที่โมเดลสามารถประมวลผลได้อย่างมาก จนทำงานได้อย่างสม่ำเสมอถึง 1 ล้านโทเค็น
แนะนำ Gemini 1.5
- ความก้าวหน้าใหม่ในวงการ AI มีศักยภาพที่จะทำให้ AI มีประโยชน์ยิ่งขึ้นสำหรับผู้คนนับพันล้านในอนาคต
- นับตั้งแต่เปิดตัว Gemini 1.0 ก็มีการทดสอบ ปรับแต่ง และพัฒนาความสามารถอย่างต่อเนื่อง
- Gemini 1.5 มอบประสิทธิภาพที่ดีขึ้นอย่างชัดเจน และสะท้อนการเปลี่ยนแปลงในแนวทางที่ตั้งอยู่บนรากฐานของนวัตกรรมด้านการวิจัยและวิศวกรรม
- ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) แบบใหม่ เพื่อให้การฝึกและการให้บริการมีประสิทธิภาพมากขึ้น
- Gemini 1.5 Pro เป็นโมเดลมัลติโหมดขนาดกลางที่ได้รับการปรับแต่งให้เหมาะกับงานหลากหลายประเภท และให้ประสิทธิภาพในระดับใกล้เคียงกับ 1.0 Ultra ซึ่งเป็นโมเดลที่ใหญ่ที่สุดจนถึงตอนนี้
- Gemini 1.5 Pro มาพร้อมคอนเท็กซ์วินโดว์มาตรฐาน 128,000 โทเค็น แต่ผู้พัฒนาและลูกค้าองค์กรสามารถทดลองใช้คอนเท็กซ์วินโดว์ได้สูงสุดถึง 1 ล้านโทเค็นผ่าน AI Studio และ Vertex AI
สถาปัตยกรรมที่มีประสิทธิภาพ
- Gemini 1.5 ถูกสร้างขึ้นบนพื้นฐานงานวิจัยชั้นนำเกี่ยวกับสถาปัตยกรรม Transformer และ MoE
- Transformer แบบดั้งเดิมทำงานเป็นโครงข่ายประสาทขนาดใหญ่เพียงชุดเดียว แต่โมเดล MoE จะแบ่งออกเป็นโครงข่ายประสาท "ผู้เชี่ยวชาญ" ขนาดเล็กหลายชุด
- ตามประเภทของอินพุต โมเดล MoE จะเรียนรู้ที่จะเปิดใช้งานเฉพาะเส้นทางของผู้เชี่ยวชาญที่เกี่ยวข้องมากที่สุดในโครงข่ายประสาทแบบเลือกสรร
- ความเชี่ยวชาญเฉพาะทางนี้ช่วยเพิ่มประสิทธิภาพของโมเดลได้อย่างมาก
บริบทที่ใหญ่ขึ้น ความสามารถที่มีประโยชน์ยิ่งขึ้น
- "คอนเท็กซ์วินโดว์" ของโมเดล AI ประกอบด้วยโทเค็นที่ใช้ในการประมวลผลข้อมูล
- ยิ่งคอนเท็กซ์วินโดว์ของโมเดลใหญ่เท่าใด ก็ยิ่งประมวลผลข้อมูลได้มากขึ้นในครั้งเดียว ทำให้ผลลัพธ์มีความสอดคล้อง เกี่ยวข้อง และมีประโยชน์มากขึ้น
- ด้วยนวัตกรรมด้านแมชชีนเลิร์นนิง จึงสามารถขยายความจุคอนเท็กซ์วินโดว์ของ 1.5 Pro ให้เกินกว่า 32,000 โทเค็นเดิมของ Gemini 1.0 ได้มาก
- ตอนนี้ 1.5 Pro สามารถประมวลผลข้อมูลจำนวนมหาศาลได้ในครั้งเดียว และในการวิจัยได้ทดสอบสำเร็จถึงระดับ 10 ล้านโทเค็น
ประสิทธิภาพที่ดีขึ้น
- เมื่อทดสอบด้วยชุดประเมินแบบครอบคลุมที่รวมทั้งข้อความ โค้ด ภาพ เสียง และวิดีโอ พบว่า 1.5 Pro เหนือกว่า 1.0 Pro ใน 87% ของเบนช์มาร์กที่ใช้ในการพัฒนาโมเดลภาษาขนาดใหญ่ (LLMs)
- 1.5 Pro ยังคงรักษาระดับประสิทธิภาพสูงไว้ได้ แม้ว่าคอนเท็กซ์วินโดว์จะเพิ่มขึ้นก็ตาม
การทดสอบด้านจริยธรรมและความปลอดภัยอย่างครอบคลุม
- ตามหลักการ AI และนโยบายความปลอดภัยที่เข้มงวด มีการรับประกันว่าโมเดลจะผ่านการทดสอบด้านจริยธรรมและความปลอดภัยอย่างครอบคลุม
- หลังจากเปิดตัว 1.0 Ultra แล้ว ทีมงานได้ปรับแต่งโมเดลอย่างต่อเนื่องเพื่อให้ปลอดภัยสำหรับการเปิดตัวในวงกว้างขึ้น
- ก่อนการเปิดตัว 1.5 Pro ได้มีการประเมินอย่างครอบคลุมในด้านต่าง ๆ เช่น ความปลอดภัยของเนื้อหาและอันตรายจากการเป็นตัวแทนที่ไม่เหมาะสม และมีแผนจะขยายการทดสอบเหล่านี้ต่อไปอย่างต่อเนื่อง
สร้างและทดลองด้วยโมเดล Gemini
- ได้ตั้งเป้าหมายที่จะนำโมเดล Gemini รุ่นใหม่ไปมอบให้ผู้คนนับพันล้านทั่วโลก นักพัฒนา และองค์กรต่าง ๆ อย่างมีความรับผิดชอบ
- ตั้งแต่วันนี้เป็นต้นไป จะเปิดให้พรีวิวแบบจำกัดของ 1.5 Pro สำหรับนักพัฒนาและลูกค้าองค์กรผ่าน AI Studio และ Vertex AI
- เมื่อโมเดลพร้อมสำหรับการเปิดตัวในวงกว้างมากขึ้น ก็มีแผนจะแนะนำ 1.5 Pro พร้อมคอนเท็กซ์วินโดว์มาตรฐาน 128,000 โทเค็น
- ผู้ทดสอบกลุ่มแรกสามารถลองใช้คอนเท็กซ์วินโดว์ 1 ล้านโทเค็นได้ฟรีในช่วงทดสอบ แต่ฟีเจอร์เชิงทดลองนี้อาจทำให้เกิดความหน่วงที่สูงขึ้นได้
ความเห็นของ GN⁺
- ประเด็นสำคัญที่สุดของ Gemini 1.5 คือการเพิ่มปริมาณข้อมูลที่โมเดล AI สามารถประมวลผลได้อย่างมาก ทำให้สามารถทำงานที่ซับซ้อนและหลากหลายมากขึ้น
- โมเดลนี้จะยกระดับพัฒนาการของ AI ไปสู่อีกมิติหนึ่ง และช่วยให้นักพัฒนาและองค์กรสร้างโมเดลและแอปพลิเคชันที่มีประโยชน์มากขึ้น
- นี่เป็นตัวอย่างที่แสดงให้เห็นว่างานวิจัยและนวัตกรรมของ Google กำลังกำหนดอนาคตของเทคโนโลยี AI อย่างไร และเทคโนโลยีนี้ยังมอบมุมมองที่น่าสนใจว่า AI อาจถูกผสานเข้ากับชีวิตประจำวันของเราได้อย่างไรในอนาคต
3 ความคิดเห็น
ตอนนี้ AI ที่ใช้อยู่บ่อยที่สุดคือ GPT-4 แต่ดูเหมือนว่าเทคโนโลยี AI จะค่อย ๆ ถูกนำไปผสานเข้ากับชีวิตประจำวันมากขึ้นเรื่อย ๆ
ดูเหมือน Google จะร้อน ๆ หนาว ๆ มาก ถึงได้ปล่อยข่าวทำนองว่าดีกว่านั่นดีกว่านี่ออกมาตลอดทั้งที่ยังไม่ทันเปิดตัวจริง ส่วน Ultra ตอนนี้ก็ยังรองรับหลายภาษาได้ไม่ดีนัก ระดับยังประมาณว่าเทียบกับ OpenAI เมื่อปีก่อนที่ยังต้องพึ่ง prompt genie อยู่เลย
ความเห็นจาก Hacker News
สรุปความเห็นต่อ whitepaper:
ข้อมูลน่าสนใจจากรายงานทางเทคนิค:
ประสิทธิภาพที่น่าจับตาจากรายงานทางเทคนิค:
ความสามารถใหม่ของโมเดลภาษาขนาดใหญ่:
การขาดความเชื่อมั่นต่อ Google:
ความสงสัยต่อ Demis Hassabis:
ความพลิกเกมของ 10M โทเค็น:
ประสบการณ์เชิงลบกับ Gemini:
ความแตกต่างระหว่าง Pro และ Ultra:
นวัตกรรมของขนาดหน้าต่างคอนเท็กซ์: