9 คะแนน โดย GN⁺ 2024-02-16 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • สัปดาห์ที่แล้ว Google เปิดตัว Gemini 1.0 Ultra ซึ่งเป็นโมเดลที่มีความสามารถมากที่สุด และถือเป็นก้าวสำคัญที่ทำให้ผลิตภัณฑ์ของ Google มีประโยชน์ยิ่งขึ้น
  • นักพัฒนาและลูกค้าคลาวด์สามารถเริ่มสร้างด้วย 1.0 Ultra ผ่าน Gemini API บน AI Studio และ Vertex AI ได้
  • ทีมที่ขับเคลื่อนแนวหน้าของโมเดลโดยยึดความปลอดภัยเป็นหัวใจสำคัญ กำลังก้าวหน้าอย่างรวดเร็ว และพร้อมที่จะแนะนำรุ่นถัดไปอย่าง Gemini 1.5
  • Gemini 1.5 แสดงให้เห็นถึงการปรับปรุงอย่างชัดเจนในหลายมิติ และ 1.5 Pro สามารถบรรลุคุณภาพใกล้เคียงกับ 1.0 Ultra โดยใช้การประมวลผลน้อยกว่า
  • รุ่นใหม่นี้สร้างความก้าวหน้าในการทำความเข้าใจบริบทยาวข้ามโมดาลิตี และเพิ่มปริมาณข้อมูลที่โมเดลสามารถประมวลผลได้อย่างมาก จนทำงานได้อย่างสม่ำเสมอถึง 1 ล้านโทเค็น

แนะนำ Gemini 1.5

  • ความก้าวหน้าใหม่ในวงการ AI มีศักยภาพที่จะทำให้ AI มีประโยชน์ยิ่งขึ้นสำหรับผู้คนนับพันล้านในอนาคต
  • นับตั้งแต่เปิดตัว Gemini 1.0 ก็มีการทดสอบ ปรับแต่ง และพัฒนาความสามารถอย่างต่อเนื่อง
  • Gemini 1.5 มอบประสิทธิภาพที่ดีขึ้นอย่างชัดเจน และสะท้อนการเปลี่ยนแปลงในแนวทางที่ตั้งอยู่บนรากฐานของนวัตกรรมด้านการวิจัยและวิศวกรรม
  • ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) แบบใหม่ เพื่อให้การฝึกและการให้บริการมีประสิทธิภาพมากขึ้น
  • Gemini 1.5 Pro เป็นโมเดลมัลติโหมดขนาดกลางที่ได้รับการปรับแต่งให้เหมาะกับงานหลากหลายประเภท และให้ประสิทธิภาพในระดับใกล้เคียงกับ 1.0 Ultra ซึ่งเป็นโมเดลที่ใหญ่ที่สุดจนถึงตอนนี้
  • Gemini 1.5 Pro มาพร้อมคอนเท็กซ์วินโดว์มาตรฐาน 128,000 โทเค็น แต่ผู้พัฒนาและลูกค้าองค์กรสามารถทดลองใช้คอนเท็กซ์วินโดว์ได้สูงสุดถึง 1 ล้านโทเค็นผ่าน AI Studio และ Vertex AI

สถาปัตยกรรมที่มีประสิทธิภาพ

  • Gemini 1.5 ถูกสร้างขึ้นบนพื้นฐานงานวิจัยชั้นนำเกี่ยวกับสถาปัตยกรรม Transformer และ MoE
  • Transformer แบบดั้งเดิมทำงานเป็นโครงข่ายประสาทขนาดใหญ่เพียงชุดเดียว แต่โมเดล MoE จะแบ่งออกเป็นโครงข่ายประสาท "ผู้เชี่ยวชาญ" ขนาดเล็กหลายชุด
  • ตามประเภทของอินพุต โมเดล MoE จะเรียนรู้ที่จะเปิดใช้งานเฉพาะเส้นทางของผู้เชี่ยวชาญที่เกี่ยวข้องมากที่สุดในโครงข่ายประสาทแบบเลือกสรร
  • ความเชี่ยวชาญเฉพาะทางนี้ช่วยเพิ่มประสิทธิภาพของโมเดลได้อย่างมาก

บริบทที่ใหญ่ขึ้น ความสามารถที่มีประโยชน์ยิ่งขึ้น

  • "คอนเท็กซ์วินโดว์" ของโมเดล AI ประกอบด้วยโทเค็นที่ใช้ในการประมวลผลข้อมูล
  • ยิ่งคอนเท็กซ์วินโดว์ของโมเดลใหญ่เท่าใด ก็ยิ่งประมวลผลข้อมูลได้มากขึ้นในครั้งเดียว ทำให้ผลลัพธ์มีความสอดคล้อง เกี่ยวข้อง และมีประโยชน์มากขึ้น
  • ด้วยนวัตกรรมด้านแมชชีนเลิร์นนิง จึงสามารถขยายความจุคอนเท็กซ์วินโดว์ของ 1.5 Pro ให้เกินกว่า 32,000 โทเค็นเดิมของ Gemini 1.0 ได้มาก
  • ตอนนี้ 1.5 Pro สามารถประมวลผลข้อมูลจำนวนมหาศาลได้ในครั้งเดียว และในการวิจัยได้ทดสอบสำเร็จถึงระดับ 10 ล้านโทเค็น

ประสิทธิภาพที่ดีขึ้น

  • เมื่อทดสอบด้วยชุดประเมินแบบครอบคลุมที่รวมทั้งข้อความ โค้ด ภาพ เสียง และวิดีโอ พบว่า 1.5 Pro เหนือกว่า 1.0 Pro ใน 87% ของเบนช์มาร์กที่ใช้ในการพัฒนาโมเดลภาษาขนาดใหญ่ (LLMs)
  • 1.5 Pro ยังคงรักษาระดับประสิทธิภาพสูงไว้ได้ แม้ว่าคอนเท็กซ์วินโดว์จะเพิ่มขึ้นก็ตาม

การทดสอบด้านจริยธรรมและความปลอดภัยอย่างครอบคลุม

  • ตามหลักการ AI และนโยบายความปลอดภัยที่เข้มงวด มีการรับประกันว่าโมเดลจะผ่านการทดสอบด้านจริยธรรมและความปลอดภัยอย่างครอบคลุม
  • หลังจากเปิดตัว 1.0 Ultra แล้ว ทีมงานได้ปรับแต่งโมเดลอย่างต่อเนื่องเพื่อให้ปลอดภัยสำหรับการเปิดตัวในวงกว้างขึ้น
  • ก่อนการเปิดตัว 1.5 Pro ได้มีการประเมินอย่างครอบคลุมในด้านต่าง ๆ เช่น ความปลอดภัยของเนื้อหาและอันตรายจากการเป็นตัวแทนที่ไม่เหมาะสม และมีแผนจะขยายการทดสอบเหล่านี้ต่อไปอย่างต่อเนื่อง

สร้างและทดลองด้วยโมเดล Gemini

  • ได้ตั้งเป้าหมายที่จะนำโมเดล Gemini รุ่นใหม่ไปมอบให้ผู้คนนับพันล้านทั่วโลก นักพัฒนา และองค์กรต่าง ๆ อย่างมีความรับผิดชอบ
  • ตั้งแต่วันนี้เป็นต้นไป จะเปิดให้พรีวิวแบบจำกัดของ 1.5 Pro สำหรับนักพัฒนาและลูกค้าองค์กรผ่าน AI Studio และ Vertex AI
  • เมื่อโมเดลพร้อมสำหรับการเปิดตัวในวงกว้างมากขึ้น ก็มีแผนจะแนะนำ 1.5 Pro พร้อมคอนเท็กซ์วินโดว์มาตรฐาน 128,000 โทเค็น
  • ผู้ทดสอบกลุ่มแรกสามารถลองใช้คอนเท็กซ์วินโดว์ 1 ล้านโทเค็นได้ฟรีในช่วงทดสอบ แต่ฟีเจอร์เชิงทดลองนี้อาจทำให้เกิดความหน่วงที่สูงขึ้นได้

ความเห็นของ GN⁺

  • ประเด็นสำคัญที่สุดของ Gemini 1.5 คือการเพิ่มปริมาณข้อมูลที่โมเดล AI สามารถประมวลผลได้อย่างมาก ทำให้สามารถทำงานที่ซับซ้อนและหลากหลายมากขึ้น
  • โมเดลนี้จะยกระดับพัฒนาการของ AI ไปสู่อีกมิติหนึ่ง และช่วยให้นักพัฒนาและองค์กรสร้างโมเดลและแอปพลิเคชันที่มีประโยชน์มากขึ้น
  • นี่เป็นตัวอย่างที่แสดงให้เห็นว่างานวิจัยและนวัตกรรมของ Google กำลังกำหนดอนาคตของเทคโนโลยี AI อย่างไร และเทคโนโลยีนี้ยังมอบมุมมองที่น่าสนใจว่า AI อาจถูกผสานเข้ากับชีวิตประจำวันของเราได้อย่างไรในอนาคต

3 ความคิดเห็น

 
yoo04233 2024-02-17

ตอนนี้ AI ที่ใช้อยู่บ่อยที่สุดคือ GPT-4 แต่ดูเหมือนว่าเทคโนโลยี AI จะค่อย ๆ ถูกนำไปผสานเข้ากับชีวิตประจำวันมากขึ้นเรื่อย ๆ

 
riskatcher 2024-02-16

ดูเหมือน Google จะร้อน ๆ หนาว ๆ มาก ถึงได้ปล่อยข่าวทำนองว่าดีกว่านั่นดีกว่านี่ออกมาตลอดทั้งที่ยังไม่ทันเปิดตัวจริง ส่วน Ultra ตอนนี้ก็ยังรองรับหลายภาษาได้ไม่ดีนัก ระดับยังประมาณว่าเทียบกับ OpenAI เมื่อปีก่อนที่ยังต้องพึ่ง prompt genie อยู่เลย

 
GN⁺ 2024-02-16
ความเห็นจาก Hacker News
  • สรุปความเห็นต่อ whitepaper:

    • ขาดคำอธิบายว่าทำอย่างไรถึงไปถึงคอนเท็กซ์ 10M โทเค็น: whitepaper ไม่ได้กล่าวถึงวิธีการไปถึงคอนเท็กซ์ 10M โทเค็น
    • ลดความซับซ้อนของสแตก RAG: ความสามารถด้านคอนเท็กซ์ 10M ทำให้ความซับซ้อนส่วนใหญ่ของสแตก RAG หายไปได้ทันที ซึ่งทำให้หลายกรณีการใช้งานง่ายขึ้นมาก
    • ความเหนือกว่าของ 1.5 Pro: มีการชี้อย่างชัดเจนว่า 1.5 Pro โดยทั่วไปดีกว่า GPT-4 และน่าสนใจในฐานะผู้นำใหม่ของ LLM-as-judge
    • ความสามารถสูงของ 1.5 Ultra: 1.5 Ultra ดูเหมือนจะมีความสามารถสูงมาก และ 1.5 Pro ก็มีความสามารถสูงมากอยู่แล้ว ได้คะแนนสูงในการทดสอบหลากหลายแบบ และยังชี้ว่าการทดสอบที่ได้คะแนนต่ำส่วนใหญ่ภายหลังกลายเป็น false negative
    • ศักยภาพของ 1.5 Pro: 1.5 Pro ควรเป็นตัวกำหนดมาตรฐานสำหรับงานด้านเวิร์กโฟลว์ 1.0 Ultra มีความสามารถสูงมากแต่ค่อนข้างช้า โมเดลเปิดที่ใช้งานสิ่งนี้น่าจะมีคุณภาพดีขึ้นอย่างมาก
    • ทบทวนการทดสอบโค้ดดิ้งอีกครั้ง: ถึงเวลาที่ควรลองทำการทดสอบโค้ดดิ้งที่ต้องเขียนโมดูลใหม่อีกครั้ง
    • ความสงสัยเกี่ยวกับวิธีไปถึงคอนเท็กซ์ 10M: จากสิ่งที่การทดสอบแบบ "needle" กับเสียงและวิดีโอซึ่งแสดงการเรียกคืนที่สมบูรณ์แบบตลอด 10M โทเค็นบ่งชี้ไว้ จึงคาดว่าน่าจะมีรูปแบบบางอย่างอย่างการบีบอัด ไม่ใช่เวกเตอร์ยาวพิเศษเพียงตัวเดียว
  • ข้อมูลน่าสนใจจากรายงานทางเทคนิค:

    • ปัญหาข้อมูลรั่วใน benchmark HumanEval: HumanEval เป็น benchmark ประเมินผลโอเพนซอร์สมาตรฐานของอุตสาหกรรม แต่ไม่ง่ายที่จะควบคุมการรั่วโดยไม่ตั้งใจจากหน้าเว็บและคลังโค้ดโอเพนซอร์ส การวิเคราะห์ข้อมูลรั่วของชุดทดสอบ Gemini 1.0 Ultra แสดงให้เห็นว่าการพรีเทรนต่อเนื่องบนชุดข้อมูลที่มี test split ของ HumanEval เพียงหนึ่ง epoch ก็ทำให้คะแนนเพิ่มขึ้นอย่างมากจาก 74.4% เป็น 89.0% การเพิ่มขึ้นนี้ยังคงอยู่แม้เมื่อตัวอย่างถูกใส่ไว้ในฟอร์แมตอื่น เช่น JSON และ HTML ผู้วิจัยจึงถูกขอให้ลดความเสี่ยงของการรั่วให้เหลือน้อยที่สุด โดยควรเก็บชุดฟังก์ชันทดสอบจริงที่กันไว้เองขนาดเล็กไว้เสมอเมื่อประเมินความสามารถด้านโค้ดดิ้งของโมเดลเหล่านี้ benchmark Natural2Code ถูกสร้างขึ้นเพื่ออุดช่องว่างนี้ โดยใช้รูปแบบเดียวกับ HumanEval แต่มีพรอมป์ต์และชุดทดสอบต่างออกไป
  • ประสิทธิภาพที่น่าจับตาจากรายงานทางเทคนิค:

    • ความสามารถด้านคอนเท็กซ์ระยะยาวของ Gemini 1.5 Pro: ผลการศึกษาความสามารถด้านคอนเท็กซ์ระยะยาวของ Gemini 1.5 Pro พบว่ามีการปรับปรุงอย่างต่อเนื่องในการทำนายโทเค็นถัดไปและมีการค้นคืนที่เกือบสมบูรณ์แบบ (>99%) ไปจนถึงอย่างน้อย 10M โทเค็น
  • ความสามารถใหม่ของโมเดลภาษาขนาดใหญ่:

    • การแปลภาษาคาลามัง: โมเดลที่ได้รับคู่มือไวยากรณ์ของภาษาคาลามัง ซึ่งมีผู้ใช้ทั่วโลกน้อยกว่า 200 คน สามารถเรียนรู้การแปลจากภาษาอังกฤษเป็นภาษาคาลามังได้ในระดับใกล้เคียงกับผู้เรียนที่ศึกษาเนื้อหาเดียวกัน
  • การขาดความเชื่อมั่นต่อ Google:

    • ความสงสัยต่อประกาศของ Google: เนื่องจากก่อนหน้านี้มีวิดีโอการตลาดที่ผ่านการตัดต่อซึ่งไม่ได้แสดงผลิตภัณฑ์จริง จึงไม่เชื่อสิ่งที่ Google ปล่อยออกมาหากไม่มีแบบฟอร์มอินพุตที่ให้ทดสอบได้ทันที
  • ความสงสัยต่อ Demis Hassabis:

    • มุมมองเชิงกังขาต่อกลยุทธ์การโปรโมตในอดีต: มีท่าทีไม่ค่อยเชื่อถือ Demis Hassabis ในเรื่องการโปรโมตมาตั้งแต่สมัยพัฒนาเกมวิดีโอในอดีต "Infinite Polygons" กลายเป็นมุกตลกในวงการ และเกม Republic ของเขาถูกมองว่าเป็นงานล้มเหลวที่ไม่น่าสนใจ
  • ความพลิกเกมของ 10M โทเค็น:

    • ความสัมพันธ์ระหว่างขนาดพรอมป์ต์กับคุณภาพ: 10M โทเค็นเป็น game changer และหากไม่มีการลดลงอย่างเห็นได้ชัดระหว่างขนาดพรอมป์ต์กับคุณภาพ นี่จะถือว่าเป็นนวัตกรรมอย่างมาก เราอาจเริ่มมองพรอมป์ต์เองเป็นเหมือน runtime ชนิดหนึ่ง แทนที่จะเป็นเพียงอินพุตแบบคงที่
  • ประสบการณ์เชิงลบกับ Gemini:

    • ประสิทธิภาพที่น่าผิดหวังของ Gemini: หลังจากลองใช้ Gemini แล้วพบว่าประสิทธิภาพน่าผิดหวังมาก ทำได้แย่กว่า ChatGPT หรือแม้แต่ llama ที่รันในเครื่องมาก ไม่เชื่อมั่นในกลยุทธ์ AI ของ Google และตั้งสมมติฐานว่าคนเก่งที่มีความสามารถทั้งหมดได้ย้ายไป OpenAI หรือ Anthropic แล้ว
  • ความแตกต่างระหว่าง Pro และ Ultra:

    • ขนาดของหน้าต่างคอนเท็กซ์: ตอนนี้หน้าต่างคอนเท็กซ์ตั้งแต่ 100k โทเค็นขึ้นไปจนถึงระดับล้าน เปิดความสามารถที่น่าสนใจอย่างมาก RAG สามารถทรงพลังได้มากเมื่อมีข้อมูลในระดับนั้น
  • นวัตกรรมของขนาดหน้าต่างคอนเท็กซ์:

    • การแก้ปัญหาโทเค็นอินพุต: หากมันทำงานได้จริงตามที่โฆษณาไว้ ก็จะมาแทนความจำเป็นของ RAG หรือการปรับจูนละเอียดสำหรับการวิเคราะห์บางประเภท อยากรู้ว่าพวกเขาแก้ปัญหาการเติมโทเค็นอินพุตได้อย่างไร