โมเดลรุ่นถัดไปของ Google: Gemini 1.5

(blog.google)

9 คะแนน โดย GN⁺ 2024-02-16 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

สัปดาห์ที่แล้ว Google เปิดตัว Gemini 1.0 Ultra ซึ่งเป็นโมเดลที่มีความสามารถมากที่สุด และถือเป็นก้าวสำคัญที่ทำให้ผลิตภัณฑ์ของ Google มีประโยชน์ยิ่งขึ้น
นักพัฒนาและลูกค้าคลาวด์สามารถเริ่มสร้างด้วย 1.0 Ultra ผ่าน Gemini API บน AI Studio และ Vertex AI ได้
ทีมที่ขับเคลื่อนแนวหน้าของโมเดลโดยยึดความปลอดภัยเป็นหัวใจสำคัญ กำลังก้าวหน้าอย่างรวดเร็ว และพร้อมที่จะแนะนำรุ่นถัดไปอย่าง Gemini 1.5
Gemini 1.5 แสดงให้เห็นถึงการปรับปรุงอย่างชัดเจนในหลายมิติ และ 1.5 Pro สามารถบรรลุคุณภาพใกล้เคียงกับ 1.0 Ultra โดยใช้การประมวลผลน้อยกว่า
รุ่นใหม่นี้สร้างความก้าวหน้าในการทำความเข้าใจบริบทยาวข้ามโมดาลิตี และเพิ่มปริมาณข้อมูลที่โมเดลสามารถประมวลผลได้อย่างมาก จนทำงานได้อย่างสม่ำเสมอถึง 1 ล้านโทเค็น

แนะนำ Gemini 1.5

ความก้าวหน้าใหม่ในวงการ AI มีศักยภาพที่จะทำให้ AI มีประโยชน์ยิ่งขึ้นสำหรับผู้คนนับพันล้านในอนาคต
นับตั้งแต่เปิดตัว Gemini 1.0 ก็มีการทดสอบ ปรับแต่ง และพัฒนาความสามารถอย่างต่อเนื่อง
Gemini 1.5 มอบประสิทธิภาพที่ดีขึ้นอย่างชัดเจน และสะท้อนการเปลี่ยนแปลงในแนวทางที่ตั้งอยู่บนรากฐานของนวัตกรรมด้านการวิจัยและวิศวกรรม
ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) แบบใหม่ เพื่อให้การฝึกและการให้บริการมีประสิทธิภาพมากขึ้น
Gemini 1.5 Pro เป็นโมเดลมัลติโหมดขนาดกลางที่ได้รับการปรับแต่งให้เหมาะกับงานหลากหลายประเภท และให้ประสิทธิภาพในระดับใกล้เคียงกับ 1.0 Ultra ซึ่งเป็นโมเดลที่ใหญ่ที่สุดจนถึงตอนนี้
Gemini 1.5 Pro มาพร้อมคอนเท็กซ์วินโดว์มาตรฐาน 128,000 โทเค็น แต่ผู้พัฒนาและลูกค้าองค์กรสามารถทดลองใช้คอนเท็กซ์วินโดว์ได้สูงสุดถึง 1 ล้านโทเค็นผ่าน AI Studio และ Vertex AI

สถาปัตยกรรมที่มีประสิทธิภาพ

Gemini 1.5 ถูกสร้างขึ้นบนพื้นฐานงานวิจัยชั้นนำเกี่ยวกับสถาปัตยกรรม Transformer และ MoE
Transformer แบบดั้งเดิมทำงานเป็นโครงข่ายประสาทขนาดใหญ่เพียงชุดเดียว แต่โมเดล MoE จะแบ่งออกเป็นโครงข่ายประสาท "ผู้เชี่ยวชาญ" ขนาดเล็กหลายชุด
ตามประเภทของอินพุต โมเดล MoE จะเรียนรู้ที่จะเปิดใช้งานเฉพาะเส้นทางของผู้เชี่ยวชาญที่เกี่ยวข้องมากที่สุดในโครงข่ายประสาทแบบเลือกสรร
ความเชี่ยวชาญเฉพาะทางนี้ช่วยเพิ่มประสิทธิภาพของโมเดลได้อย่างมาก

บริบทที่ใหญ่ขึ้น ความสามารถที่มีประโยชน์ยิ่งขึ้น

"คอนเท็กซ์วินโดว์" ของโมเดล AI ประกอบด้วยโทเค็นที่ใช้ในการประมวลผลข้อมูล
ยิ่งคอนเท็กซ์วินโดว์ของโมเดลใหญ่เท่าใด ก็ยิ่งประมวลผลข้อมูลได้มากขึ้นในครั้งเดียว ทำให้ผลลัพธ์มีความสอดคล้อง เกี่ยวข้อง และมีประโยชน์มากขึ้น
ด้วยนวัตกรรมด้านแมชชีนเลิร์นนิง จึงสามารถขยายความจุคอนเท็กซ์วินโดว์ของ 1.5 Pro ให้เกินกว่า 32,000 โทเค็นเดิมของ Gemini 1.0 ได้มาก
ตอนนี้ 1.5 Pro สามารถประมวลผลข้อมูลจำนวนมหาศาลได้ในครั้งเดียว และในการวิจัยได้ทดสอบสำเร็จถึงระดับ 10 ล้านโทเค็น

ประสิทธิภาพที่ดีขึ้น

เมื่อทดสอบด้วยชุดประเมินแบบครอบคลุมที่รวมทั้งข้อความ โค้ด ภาพ เสียง และวิดีโอ พบว่า 1.5 Pro เหนือกว่า 1.0 Pro ใน 87% ของเบนช์มาร์กที่ใช้ในการพัฒนาโมเดลภาษาขนาดใหญ่ (LLMs)
1.5 Pro ยังคงรักษาระดับประสิทธิภาพสูงไว้ได้ แม้ว่าคอนเท็กซ์วินโดว์จะเพิ่มขึ้นก็ตาม

การทดสอบด้านจริยธรรมและความปลอดภัยอย่างครอบคลุม

ตามหลักการ AI และนโยบายความปลอดภัยที่เข้มงวด มีการรับประกันว่าโมเดลจะผ่านการทดสอบด้านจริยธรรมและความปลอดภัยอย่างครอบคลุม
หลังจากเปิดตัว 1.0 Ultra แล้ว ทีมงานได้ปรับแต่งโมเดลอย่างต่อเนื่องเพื่อให้ปลอดภัยสำหรับการเปิดตัวในวงกว้างขึ้น
ก่อนการเปิดตัว 1.5 Pro ได้มีการประเมินอย่างครอบคลุมในด้านต่าง ๆ เช่น ความปลอดภัยของเนื้อหาและอันตรายจากการเป็นตัวแทนที่ไม่เหมาะสม และมีแผนจะขยายการทดสอบเหล่านี้ต่อไปอย่างต่อเนื่อง

สร้างและทดลองด้วยโมเดล Gemini

ได้ตั้งเป้าหมายที่จะนำโมเดล Gemini รุ่นใหม่ไปมอบให้ผู้คนนับพันล้านทั่วโลก นักพัฒนา และองค์กรต่าง ๆ อย่างมีความรับผิดชอบ
ตั้งแต่วันนี้เป็นต้นไป จะเปิดให้พรีวิวแบบจำกัดของ 1.5 Pro สำหรับนักพัฒนาและลูกค้าองค์กรผ่าน AI Studio และ Vertex AI
เมื่อโมเดลพร้อมสำหรับการเปิดตัวในวงกว้างมากขึ้น ก็มีแผนจะแนะนำ 1.5 Pro พร้อมคอนเท็กซ์วินโดว์มาตรฐาน 128,000 โทเค็น
ผู้ทดสอบกลุ่มแรกสามารถลองใช้คอนเท็กซ์วินโดว์ 1 ล้านโทเค็นได้ฟรีในช่วงทดสอบ แต่ฟีเจอร์เชิงทดลองนี้อาจทำให้เกิดความหน่วงที่สูงขึ้นได้

ความเห็นของ GN⁺

ประเด็นสำคัญที่สุดของ Gemini 1.5 คือการเพิ่มปริมาณข้อมูลที่โมเดล AI สามารถประมวลผลได้อย่างมาก ทำให้สามารถทำงานที่ซับซ้อนและหลากหลายมากขึ้น
โมเดลนี้จะยกระดับพัฒนาการของ AI ไปสู่อีกมิติหนึ่ง และช่วยให้นักพัฒนาและองค์กรสร้างโมเดลและแอปพลิเคชันที่มีประโยชน์มากขึ้น
นี่เป็นตัวอย่างที่แสดงให้เห็นว่างานวิจัยและนวัตกรรมของ Google กำลังกำหนดอนาคตของเทคโนโลยี AI อย่างไร และเทคโนโลยีนี้ยังมอบมุมมองที่น่าสนใจว่า AI อาจถูกผสานเข้ากับชีวิตประจำวันของเราได้อย่างไรในอนาคต

3 ความคิดเห็น

yoo04233 2024-02-17

ตอนนี้ AI ที่ใช้อยู่บ่อยที่สุดคือ GPT-4 แต่ดูเหมือนว่าเทคโนโลยี AI จะค่อย ๆ ถูกนำไปผสานเข้ากับชีวิตประจำวันมากขึ้นเรื่อย ๆ

riskatcher 2024-02-16

ดูเหมือน Google จะร้อน ๆ หนาว ๆ มาก ถึงได้ปล่อยข่าวทำนองว่าดีกว่านั่นดีกว่านี่ออกมาตลอดทั้งที่ยังไม่ทันเปิดตัวจริง ส่วน Ultra ตอนนี้ก็ยังรองรับหลายภาษาได้ไม่ดีนัก ระดับยังประมาณว่าเทียบกับ OpenAI เมื่อปีก่อนที่ยังต้องพึ่ง prompt genie อยู่เลย

GN⁺ 2024-02-16

ความเห็นจาก Hacker News

สรุปความเห็นต่อ whitepaper:
- ขาดคำอธิบายว่าทำอย่างไรถึงไปถึงคอนเท็กซ์ 10M โทเค็น: whitepaper ไม่ได้กล่าวถึงวิธีการไปถึงคอนเท็กซ์ 10M โทเค็น
- ลดความซับซ้อนของสแตก RAG: ความสามารถด้านคอนเท็กซ์ 10M ทำให้ความซับซ้อนส่วนใหญ่ของสแตก RAG หายไปได้ทันที ซึ่งทำให้หลายกรณีการใช้งานง่ายขึ้นมาก
- ความเหนือกว่าของ 1.5 Pro: มีการชี้อย่างชัดเจนว่า 1.5 Pro โดยทั่วไปดีกว่า GPT-4 และน่าสนใจในฐานะผู้นำใหม่ของ LLM-as-judge
- ความสามารถสูงของ 1.5 Ultra: 1.5 Ultra ดูเหมือนจะมีความสามารถสูงมาก และ 1.5 Pro ก็มีความสามารถสูงมากอยู่แล้ว ได้คะแนนสูงในการทดสอบหลากหลายแบบ และยังชี้ว่าการทดสอบที่ได้คะแนนต่ำส่วนใหญ่ภายหลังกลายเป็น false negative
- ศักยภาพของ 1.5 Pro: 1.5 Pro ควรเป็นตัวกำหนดมาตรฐานสำหรับงานด้านเวิร์กโฟลว์ 1.0 Ultra มีความสามารถสูงมากแต่ค่อนข้างช้า โมเดลเปิดที่ใช้งานสิ่งนี้น่าจะมีคุณภาพดีขึ้นอย่างมาก
- ทบทวนการทดสอบโค้ดดิ้งอีกครั้ง: ถึงเวลาที่ควรลองทำการทดสอบโค้ดดิ้งที่ต้องเขียนโมดูลใหม่อีกครั้ง
- ความสงสัยเกี่ยวกับวิธีไปถึงคอนเท็กซ์ 10M: จากสิ่งที่การทดสอบแบบ "needle" กับเสียงและวิดีโอซึ่งแสดงการเรียกคืนที่สมบูรณ์แบบตลอด 10M โทเค็นบ่งชี้ไว้ จึงคาดว่าน่าจะมีรูปแบบบางอย่างอย่างการบีบอัด ไม่ใช่เวกเตอร์ยาวพิเศษเพียงตัวเดียว
ข้อมูลน่าสนใจจากรายงานทางเทคนิค:
- ปัญหาข้อมูลรั่วใน benchmark HumanEval: HumanEval เป็น benchmark ประเมินผลโอเพนซอร์สมาตรฐานของอุตสาหกรรม แต่ไม่ง่ายที่จะควบคุมการรั่วโดยไม่ตั้งใจจากหน้าเว็บและคลังโค้ดโอเพนซอร์ส การวิเคราะห์ข้อมูลรั่วของชุดทดสอบ Gemini 1.0 Ultra แสดงให้เห็นว่าการพรีเทรนต่อเนื่องบนชุดข้อมูลที่มี test split ของ HumanEval เพียงหนึ่ง epoch ก็ทำให้คะแนนเพิ่มขึ้นอย่างมากจาก 74.4% เป็น 89.0% การเพิ่มขึ้นนี้ยังคงอยู่แม้เมื่อตัวอย่างถูกใส่ไว้ในฟอร์แมตอื่น เช่น JSON และ HTML ผู้วิจัยจึงถูกขอให้ลดความเสี่ยงของการรั่วให้เหลือน้อยที่สุด โดยควรเก็บชุดฟังก์ชันทดสอบจริงที่กันไว้เองขนาดเล็กไว้เสมอเมื่อประเมินความสามารถด้านโค้ดดิ้งของโมเดลเหล่านี้ benchmark Natural2Code ถูกสร้างขึ้นเพื่ออุดช่องว่างนี้ โดยใช้รูปแบบเดียวกับ HumanEval แต่มีพรอมป์ต์และชุดทดสอบต่างออกไป
ประสิทธิภาพที่น่าจับตาจากรายงานทางเทคนิค:
- ความสามารถด้านคอนเท็กซ์ระยะยาวของ Gemini 1.5 Pro: ผลการศึกษาความสามารถด้านคอนเท็กซ์ระยะยาวของ Gemini 1.5 Pro พบว่ามีการปรับปรุงอย่างต่อเนื่องในการทำนายโทเค็นถัดไปและมีการค้นคืนที่เกือบสมบูรณ์แบบ (>99%) ไปจนถึงอย่างน้อย 10M โทเค็น
ความสามารถใหม่ของโมเดลภาษาขนาดใหญ่:
- การแปลภาษาคาลามัง: โมเดลที่ได้รับคู่มือไวยากรณ์ของภาษาคาลามัง ซึ่งมีผู้ใช้ทั่วโลกน้อยกว่า 200 คน สามารถเรียนรู้การแปลจากภาษาอังกฤษเป็นภาษาคาลามังได้ในระดับใกล้เคียงกับผู้เรียนที่ศึกษาเนื้อหาเดียวกัน
การขาดความเชื่อมั่นต่อ Google:
- ความสงสัยต่อประกาศของ Google: เนื่องจากก่อนหน้านี้มีวิดีโอการตลาดที่ผ่านการตัดต่อซึ่งไม่ได้แสดงผลิตภัณฑ์จริง จึงไม่เชื่อสิ่งที่ Google ปล่อยออกมาหากไม่มีแบบฟอร์มอินพุตที่ให้ทดสอบได้ทันที
ความสงสัยต่อ Demis Hassabis:
- มุมมองเชิงกังขาต่อกลยุทธ์การโปรโมตในอดีต: มีท่าทีไม่ค่อยเชื่อถือ Demis Hassabis ในเรื่องการโปรโมตมาตั้งแต่สมัยพัฒนาเกมวิดีโอในอดีต "Infinite Polygons" กลายเป็นมุกตลกในวงการ และเกม Republic ของเขาถูกมองว่าเป็นงานล้มเหลวที่ไม่น่าสนใจ
ความพลิกเกมของ 10M โทเค็น:
- ความสัมพันธ์ระหว่างขนาดพรอมป์ต์กับคุณภาพ: 10M โทเค็นเป็น game changer และหากไม่มีการลดลงอย่างเห็นได้ชัดระหว่างขนาดพรอมป์ต์กับคุณภาพ นี่จะถือว่าเป็นนวัตกรรมอย่างมาก เราอาจเริ่มมองพรอมป์ต์เองเป็นเหมือน runtime ชนิดหนึ่ง แทนที่จะเป็นเพียงอินพุตแบบคงที่
ประสบการณ์เชิงลบกับ Gemini:
- ประสิทธิภาพที่น่าผิดหวังของ Gemini: หลังจากลองใช้ Gemini แล้วพบว่าประสิทธิภาพน่าผิดหวังมาก ทำได้แย่กว่า ChatGPT หรือแม้แต่ llama ที่รันในเครื่องมาก ไม่เชื่อมั่นในกลยุทธ์ AI ของ Google และตั้งสมมติฐานว่าคนเก่งที่มีความสามารถทั้งหมดได้ย้ายไป OpenAI หรือ Anthropic แล้ว
ความแตกต่างระหว่าง Pro และ Ultra:
- ขนาดของหน้าต่างคอนเท็กซ์: ตอนนี้หน้าต่างคอนเท็กซ์ตั้งแต่ 100k โทเค็นขึ้นไปจนถึงระดับล้าน เปิดความสามารถที่น่าสนใจอย่างมาก RAG สามารถทรงพลังได้มากเมื่อมีข้อมูลในระดับนั้น
นวัตกรรมของขนาดหน้าต่างคอนเท็กซ์:
- การแก้ปัญหาโทเค็นอินพุต: หากมันทำงานได้จริงตามที่โฆษณาไว้ ก็จะมาแทนความจำเป็นของ RAG หรือการปรับจูนละเอียดสำหรับการวิเคราะห์บางประเภท อยากรู้ว่าพวกเขาแก้ปัญหาการเติมโทเค็นอินพุตได้อย่างไร