17 คะแนน โดย xguru 2024-02-22 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Google เชื่อมั่นในการสร้าง AI ที่เป็นประโยชน์สำหรับทุกคน และได้มีส่วนร่วมผลักดันนวัตกรรมให้กับชุมชนโอเพนมาอย่างต่อเนื่อง เช่น Transformers, TensorFlow, BERT, T5, JAX, AlphaFold และ AlphaCode
  • Gemma คือชุดโมเดลโอเพนน้ำหนักเบาระดับล้ำสมัยที่สร้างขึ้นบนพื้นฐานงานวิจัยและเทคโนโลยีเดียวกันกับที่ใช้สร้างโมเดล Gemini
    • พัฒนาโดย Google DeepMind และทีมอื่น ๆ โดยได้แรงบันดาลใจจากคำว่า gemma ในภาษาละตินที่แปลว่า "อัญมณี"
  • พร้อมใช้งานแล้วตั้งแต่วันนี้ทั่วโลก โดยมาพร้อมน้ำหนักโมเดล เครื่องมือที่ช่วยสนับสนุนนวัตกรรมของนักพัฒนา เครื่องมือส่งเสริมการทำงานร่วมกัน และเครื่องมือที่ช่วยแนะนำการใช้งาน Gemma อย่างมีความรับผิดชอบ
  • ด้วยการใช้เทคโนโลยีและองค์ประกอบโครงสร้างพื้นฐานร่วมกับ Gemini ทำให้ Gemma 2B และ 7B มอบประสิทธิภาพระดับสูงสุดเมื่อเทียบกับขนาดของโมเดลเมื่อเทียบกับโอเพนโมเดลอื่น ๆ
  • สามารถรันได้โดยตรงบนแล็ปท็อปหรือเดสก์ท็อปของนักพัฒนา และยังทำผลงานได้เหนือกว่าโมเดลที่มีขนาดใหญ่กว่ามากในเบนช์มาร์กสำคัญ พร้อมยึดตามมาตรฐานที่เข้มงวดเพื่อให้ได้ผลลัพธ์ที่ปลอดภัยและมีความรับผิดชอบ
  • มี toolchain สำหรับการทำ inference และ SFT (การปรับจูนแบบมีผู้กำกับ) ครอบคลุมทุกเฟรมเวิร์กหลัก เช่น JAX, PyTorch และ TensorFlow ผ่าน Native Keras 3.0
  • เริ่มต้นใช้งาน Gemma ได้ง่ายผ่านการผสานรวมกับ Colab และ Kaggle notebooks รวมถึงเครื่องมือยอดนิยมอย่าง Hugging Face, MaxText, NVIDIA NeMo และ TensorRT-LLM
  • โมเดล Gemma ที่ผ่านการ pre-train และ instruction-tune แล้ว สามารถนำไป deploy บน Vertex AI และ Google Kubernetes Engine (GKE) ได้อย่างง่ายดาย เพื่อรันบนโน้ตบุ๊ก เวิร์กสเตชัน หรือ Google Cloud
  • รับประกันประสิทธิภาพระดับแนวหน้าของอุตสาหกรรมด้วยการปรับแต่งให้เหมาะกับแพลตฟอร์มฮาร์ดแวร์ AI หลายประเภท รวมถึง NVIDIA GPU และ Google Cloud TPU
  • อนุญาตให้องค์กรทุกขนาดใช้งานเชิงพาณิชย์และเผยแพร่ได้ภายใต้ข้อกำหนดการใช้งาน

รับผิดชอบตั้งแต่การออกแบบ

  • Gemma ถูกออกแบบโดยให้หลักการ AI เป็นสิ่งสำคัญสูงสุด และใช้เทคนิคอัตโนมัติในการกรองข้อมูลส่วนบุคคลและข้อมูลอ่อนไหวอื่น ๆ ออกจากชุดฝึก
  • นอกจากนี้ยังใช้การเรียนรู้เสริมกำลังจากฟีดแบ็กของมนุษย์ (RLHF) อย่างกว้างขวาง สำหรับโมเดลที่ผ่านการ instruction-tune เพื่อให้สอดคล้องกับพฤติกรรมที่มีความรับผิดชอบ
  • มีการประเมินอย่างเข้มข้นเพื่อทำความเข้าใจและลดโปรไฟล์ความเสี่ยงของโมเดล Gemma เช่น manual red teaming, การทดสอบแบบ adversarial อัตโนมัติ และการประเมินความสามารถของโมเดลต่อกิจกรรมอันตราย
โฆษณา

ปรับแต่งให้เหมาะสมครอบคลุมเฟรมเวิร์ก เครื่องมือ และฮาร์ดแวร์

  • โมเดล Gemma สามารถ fine-tune ด้วยข้อมูลของตนเองให้เหมาะกับความต้องการของแอปพลิเคชันเฉพาะ และรองรับเครื่องมือและระบบที่หลากหลาย
  • เครื่องมือแบบ multi-framework: ใช้งานได้กับเฟรมเวิร์กที่ต้องการ เช่น Keras 3.0, native PyTorch, JAX และ Hugging Face Transformers พร้อมมี reference implementation ให้
  • ความเข้ากันได้ข้ามอุปกรณ์: รันได้บนอุปกรณ์ยอดนิยมรวมถึงแล็ปท็อป เดสก์ท็อป IoT มือถือ และคลาวด์
  • แพลตฟอร์มฮาร์ดแวร์ล้ำสมัย: ผ่านความร่วมมือกับ NVIDIA มีการปรับแต่งสำหรับ NVIDIA GPU ตั้งแต่ดาต้าเซ็นเตอร์ไปจนถึงคลาวด์และ RTX AI PC ภายในองค์กร เพื่อให้ได้ประสิทธิภาพระดับแนวหน้าของอุตสาหกรรมและการผสานรวมกับเทคโนโลยีล้ำสมัย
  • ปรับแต่งบน Google Cloud: ใช้ Vertex AI เพื่อเข้าถึงชุดเครื่องมือ MLOps ที่ครอบคลุมและตัวเลือกการปรับจูนที่หลากหลาย พร้อมการ deploy แบบคลิกเดียวด้วยการปรับแต่ง inference ที่มีมาในตัว

เครดิตฟรีสำหรับการวิจัยและพัฒนา

  • Gemma ถูกสร้างขึ้นเพื่อชุมชนนักพัฒนาและนักวิจัยที่ขับเคลื่อนนวัตกรรม AI โดยสามารถเริ่มใช้งานได้ตั้งแต่วันนี้ผ่านการเข้าถึงฟรีบน Kaggle, free tier ของ Colab notebooks และเครดิต $300 สำหรับผู้ใช้ Google Cloud ครั้งแรก
  • นักวิจัยสามารถสมัครรับ Google Cloud เครดิตมูลค่าสูงสุด $500,000 เพื่อเร่งโครงการของตนเองได้

2 ความคิดเห็น

 
dodok8 2024-02-22

ตอนนี้กลายเป็นว่ามีแค่ OpenAI ที่ปิดอยู่สินะ

 
xguru 2024-02-22

ความคิดเห็นบน Hacker News

  • ประเด็นที่น่าสังเกตในข้อกำหนดการใช้งานของ Gemma ของ Google คือมีเงื่อนไขว่าผู้ใช้ต้องใช้ความพยายามอย่างสมเหตุสมผลเพื่อใช้งาน Gemma เวอร์ชันล่าสุด ซึ่งทำให้ไม่ค่อยพอใจกับข้อกำหนดนี้เป็นพิเศษ เพราะอาจลบล้างข้อดีสำคัญของการรันโมเดลเอง นั่นคือการป้องกันความเสี่ยงที่พรอมป์ต์ซึ่งทดสอบอย่างรอบคอบแล้วจะเสียหายจากการอัปเดตโมเดล
  • ผลเบนช์มาร์กของ Gemma 7B ออกมาอยู่ในระดับใกล้เคียงกับ Mistral 7B โดยแสดงให้เห็นว่าประสิทธิภาพของ Gemma 7B สามารถแข่งขันกับ Mistral 7B ได้ในแบบทดสอบอย่าง MMLU, HellaSwag และ HumanEval
  • โมเดล Gemma มีจุดที่แปลกอยู่หลายอย่าง:
    • feedforward hidden size มีขนาดเป็น 16 เท่าของ d_model ซึ่งต่างจากโมเดลส่วนใหญ่ที่เป็น 4 เท่า
    • ขนาด vocabulary อยู่ที่ 256K มากกว่า 10 เท่าเมื่อเทียบกับ 32K ของ Mistral
    • จำนวนโทเค็นที่ใช้ฝึกอยู่ที่ 6T มากกว่า 3 เท่าเมื่อเทียบกับ 2T ของ Llama2
    • นอกจากนี้ยังใช้รูปแบบดัดแปลงของทรานส์ฟอร์เมอร์แบบคลาสสิก เช่น MQA, RoPE และ RMSNorm
    • มีคำถามว่าขนาด batch size ที่ทำให้โมเดลฝึกได้เร็วคือเท่าใด
  • ตั้งข้อสงสัยว่าสามารถรับโมเดลมาใช้งานได้โดยไม่มี "alignment" (ดูเหมือนจะหมายถึงการ fine-tune เชิงอุดมการณ์) หรือไม่ โดยชี้ว่าคำตอบจาก Gemini หลายครั้งไร้ประโยชน์เพราะการ fine-tune เชิงอุดมการณ์
  • แสดงความคิดเห็นส่วนตัวว่าไม่อาจเชื่อถือโมเดลของ Google ได้ โดยวิจารณ์ว่าตอนถามเกี่ยวกับยุคเฮอันของญี่ปุ่น โมเดลให้ข้อมูลที่ผิดเพี้ยนจนเหมือนมุกตลกหรือบทล้อเลียน และระบุว่าโมเดล Llama ทำได้ดีกว่ามาก
  • แสดงความเห็นเชิงบวกว่าเป็นเรื่องน่าชื่นชมที่ทีม Gemma เข้ามามีส่วนร่วมในคอมเมนต์และตอบคำถามต่าง ๆ
  • Gemma ให้ข้อมูลผิดเกี่ยวกับโครงสร้างเทียมที่สูงที่สุดในโลก ประเทศที่ร่ำรวยที่สุดในโลก และจำนวนเซนติเมตรต่อฟุต ทำให้เกิดข้อสงสัยต่อความแม่นยำของโมเดล
  • โมเดล Gemma-7B ถูกจัดอยู่ใน Vectara HHEM leaderboard โดยมีอัตราการตอบ 100% และอัตราหลอน 7.5% ซึ่งถือว่าทำผลงานได้ดีมากสำหรับโมเดลขนาด 7B พารามิเตอร์
  • กล่าวถึงเบนช์มาร์กที่น่าประทับใจของ Gemma และประเมินว่าแม้แต่โมเดล 2B ก็ดูดีพอสมควร พร้อมแสดงความคาดหวังว่าจะใช้เวลาสุดสัปดาห์สำรวจโมเดลนี้
  • กล่าวว่าถ้าเมื่อ 5 ปีก่อนมีคนถามว่าในบรรดา OpenAI, Meta และ Google ใครจะเปิดกว้างเรื่อง AI มากที่สุด คนส่วนใหญ่น่าจะเลือก OpenAI แต่ปัจจุบันกลับน่าขันตรงที่บริษัทระดับหลายล้านล้านดอลลาร์อย่าง Meta และ Google กำลังปล่อยโมเดลเปิดทรงพลังที่ใช้งานเชิงพาณิชย์ได้