Google เปิดตัว Gemini 2.5

(blog.google)

9 คะแนน โดย GN⁺ 2025-03-26 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

Gemini 2.5 คือ โมเดล AI ที่ขับเคลื่อนด้วยการให้เหตุผล ที่ฉลาดที่สุดซึ่งออกแบบมาสำหรับการแก้ปัญหาที่ซับซ้อน
รุ่นแรกที่เปิดตัวคือ Gemini 2.5 Pro Experimental ซึ่งทำสถิติประสิทธิภาพสูงสุดในหลากหลาย AI benchmark
โดยเฉพาะอย่างยิ่ง ครองอันดับ 1 บน LMArena แบบทิ้งห่างอย่างชัดเจน
ต่างจากโมเดลเดิม โดยถูกออกแบบให้ ผ่านกระบวนการคิดด้วยตัวเองก่อนตอบ ทำให้ความแม่นยำและประสิทธิภาพดีขึ้น

ความสามารถในการ 'คิด' ใน AI คืออะไร?

ไม่ได้หยุดอยู่แค่การจัดประเภทหรือการคาดการณ์ แต่รวมถึงความสามารถเชิงการรับรู้ระดับสูง เช่น การวิเคราะห์ข้อมูล, การสรุปเชิงตรรกะ, การเข้าใจบริบท, การตัดสินใจ
เพื่อสิ่งนี้ DeepMind ได้วิจัยความสามารถด้านการให้เหตุผลของ AI โดยใช้ การเรียนรู้แบบเสริมกำลัง และ เทคนิคพรอมป์ต์แบบ Chain-of-Thought เป็นต้น
แสดงประสิทธิภาพที่ก้าวหน้าขึ้นไปอีกขั้นจากโมเดล Gemini 2.0 Flash Thinking ที่มีอยู่เดิม

ทิศทางต่อจากนี้

ผ่าน Gemini 2.5 มีการผสานโมเดลพื้นฐานที่ได้รับการปรับปรุงเข้ากับเทคนิค post-training เพื่อ ยกระดับประสิทธิภาพไปสู่อีกขั้น
ต่อไปมีแผนจะติดตั้งความสามารถในการคิดนี้เป็นพื้นฐานในทุกโมเดล Gemini เพื่อให้สามารถแก้ปัญหาที่ซับซ้อนยิ่งขึ้นและรองรับเอเจนต์ที่ก้าวหน้ามากขึ้น

แนะนำ Gemini 2.5 Pro

Gemini 2.5 Pro Experimental แสดงประสิทธิภาพโดดเด่นในการทำงานที่ซับซ้อนที่สุดในบรรดาโมเดลที่พัฒนามาจนถึงตอนนี้
ครองอันดับ 1 บน LMArena แบบทิ้งห่างในการประเมินตามความชอบของมนุษย์
ยังแสดงผลงานยอดเยี่ยมใน benchmark ด้าน การเขียนโค้ด, คณิตศาสตร์, วิทยาศาสตร์
ขณะนี้ใช้งานได้บน Google AI Studio และ แอป Gemini และจะพร้อมให้ใช้งานบน Vertex AI ในเร็ว ๆ นี้
ในอนาคตจะมีการนำแพ็กเกจราคาเข้ามาใช้ เพื่อรองรับบริการที่ขยายได้พร้อมขีดจำกัดการเรียกใช้งานที่สูงขึ้น

ประสิทธิภาพด้านการให้เหตุผลที่ดีขึ้น

ทำคะแนน benchmark ระดับแนวหน้าในการแก้ ปัญหาตรรกะที่ซับซ้อน
รักษาประสิทธิภาพที่ยอดเยี่ยมได้แม้ไม่ใช้เทคนิคการทดสอบที่มีต้นทุนเพิ่ม (เช่น การโหวตแบบเสียงข้างมาก)
มีประสิทธิภาพชั้นนำในโจทย์คณิตศาสตร์และวิทยาศาสตร์อย่าง GPQA, AIME 2025
ในแบบทดสอบการให้เหตุผลความยากสูง 'Humanity’s Last Exam' ซึ่งออกแบบโดยผู้เชี่ยวชาญหลายร้อยคน ทำสถิติสูงสุดในอุตสาหกรรมที่ 18.8% โดยไม่ใช้เครื่องมือ

ความสามารถด้านการเขียนโค้ดขั้นสูง

ประสิทธิภาพด้านการเขียนโค้ด ดีขึ้นอย่างมากเมื่อเทียบกับ Gemini 2.0
มีความสามารถโดดเด่นใน การสร้างเว็บแอป, การเขียนโค้ดแบบเอเจนต์, การแปลงและแก้ไขโค้ด
ทำได้ 63.8% ในการประเมิน SWE-Bench Verified เมื่อใช้เอเจนต์ที่ปรับแต่งเฉพาะ
ยังมีตัวอย่างที่สามารถสร้างวิดีโอเกมที่รันได้จากพรอมป์ต์เพียงบรรทัดเดียว

สืบทอดจุดแข็งของโมเดล Gemini

Gemini 2.5 ยังคงรักษาจุดแข็งของโมเดล Gemini เดิมไว้ ทั้ง การประมวลผลแบบมัลติโหมด และ หน้าต่างคอนเท็กซ์ขนาดยาว
รองรับหน้าต่างคอนเท็กซ์ 1 ล้านโทเค็น (และจะขยายเป็น 2 ล้านในเร็ว ๆ นี้)
สามารถประมวลผลและผสานแหล่งข้อมูลหลากหลายได้อย่างครอบคลุม เช่น ข้อความ, เสียง, ภาพ, วิดีโอ, ที่เก็บโค้ดทั้งชุด
นักพัฒนาและผู้ใช้องค์กร สามารถทดลองและทดสอบได้ผ่าน Google AI Studio, Gemini Advanced, Vertex AI เป็นต้น

3 ความคิดเห็น

wowfoot 2025-03-26

แม้จะเหนือกว่า claud และ gpt4.5 แบบขาดลอย แต่ก็ยังชนะตอนที่ลอง grok3 หลายครั้งไม่ได้
grok3 สุดยอดมาก

zxshinxz 2025-03-26

พอ Gemini 2.5 Pro มาใน Google AI Studio แล้ว Gemini 2.0 Pro ที่เคยมีอยู่ก็หายไปหมดเลยครับ.. ก่อนหน้านี้ใช้ฟรีได้คุ้มพอสมควร เลยรู้สึกเสียดายนิดหน่อย ข้อจำกัดของ Gemini 2.5 Pro ที่เรียกใช้ได้แค่ 2 ครั้งต่อนาที และรวมแล้วไม่เกิน 50 ครั้งต่อวัน ดูจะค่อนข้างใหญ่พอสมควรนะครับ

GN⁺ 2025-03-26

ความเห็นจาก Hacker News

หนึ่งในปัญหาใหญ่ที่สุดเมื่อใช้ LLM เขียนงานยาวอย่างนิยาย คือถ้าให้รายละเอียดมากเกินไป โมเดลจะตอบสนองอย่างประหม่าเกินเหตุ
- ตัวอย่างเช่น หากให้โปรไฟล์ตัวละครคู่รักในนิยายแฟนตาซีแบบมหากาพย์ ตัวเอกก็มักจะได้พบกับตัวละครนั้นภายในไม่เกิน 3 หน้าแทบทุกครั้ง
- นี่เป็นพัฒนาการของเรื่องที่ไม่สมเหตุสมผล และความพยายามที่จะแก้ก็ไม่ค่อยได้ผล
- แต่โมเดลปัจจุบันยังคงดำเนินเรื่องได้เป็นธรรมชาติแม้สร้างไปแล้ว 19 หน้า พร้อมใส่รายละเอียดไว้มากมาย
- น่าประทับใจมาก
ผมใช้ปริศนาคณิตศาสตร์เป็นเบนช์มาร์กเปรียบเทียบโมเดลต่าง ๆ มาโดยตลอด
- ปริศนาข้อนี้ใช้เวลาราว 3 วันกว่าจะให้คอมพิวเตอร์แก้ได้ และผู้เรียนคณิตศาสตร์สามารถแก้ด้วยมือได้ภายใน 1 วัน
- Gemini 2.5 เป็นโมเดลแรกที่แก้ปริศนานี้ได้ ซึ่งหมายความว่า LLM เหนือกว่าคนมากกว่า 95% ของประชากรในด้านการให้เหตุผลทางคณิตศาสตร์แล้ว
- ปริศนาคือมีคนสามคนยืนเป็นวงกลม และมีจำนวนเต็มบวกอยู่เหนือศีรษะของแต่ละคน โดยผลบวกของสองจำนวนจะเท่ากับจำนวนที่สาม
- คนแรกบอกว่าไม่รู้จำนวนของตัวเอง คนที่สองก็บอกว่าไม่รู้ และคนที่สามก็บอกว่าไม่รู้เช่นกัน
- เมื่อกลับไปถามคนแรกอีกครั้ง เขาตอบว่าเป็น 65
- คำถามคือผลคูณของจำนวนทั้งสามคือเท่าไร
ทำงานได้ดีมากทั้งในงานถอดเสียงเสียงพูดและงานตีกรอบวัตถุรอบสิ่งมีชีวิตในภาพที่ซับซ้อน
- มันวาดนกกระทุงขี่จักรยานให้ด้วย
- มีบันทึกที่เกี่ยวข้องให้ดูในลิงก์
ทำคะแนนสูงสุดบนเบนช์มาร์กในแบบที่ไม่เคยเห็นมาก่อน
- ให้ผลลัพธ์ที่มีคุณภาพสูงและชัดเจน แต่ค่อนข้างช้าเล็กน้อย
- Google กลับมาสร้างผลงานใหญ่ได้อีกครั้ง
Gemini 2.5 Pro ทำสถิติ SOTA บน aider polyglot leaderboard ด้วยคะแนน 73%
- เป็นการก้าวกระโดดครั้งใหญ่จากโมเดล Gemini รุ่นก่อน
- เป็น Gemini รุ่นแรกที่ใช้รูปแบบการแก้ไขแบบ diff-like ได้อย่างมีประสิทธิภาพ
ประกาศลักษณะนี้เริ่มดูเป็นเหมือนเทมเพลตแล้ว
- โมเดลล้ำสมัยที่สุด
- การเปรียบเทียบเบนช์มาร์กกับ X, Y, Z
- การให้เหตุผลที่ "ดีกว่า"
- มันอาจเป็นโมเดลที่ยอดเยี่ยม แต่ข้อความแบบเดิมซ้ำ ๆ ทำให้ความน่าสนใจลดลง
Gemini 2.5 บรรลุระดับประสิทธิภาพใหม่ด้วยการผสานโมเดลพื้นฐานที่ดีขึ้นอย่างมากเข้ากับกระบวนการหลังการประมวลผลที่ปรับปรุงแล้ว
- ต่อไปความสามารถด้านการคิดลักษณะนี้จะถูกสร้างเข้าไปในทุกโมเดลโดยตรง เพื่อรองรับปัญหาที่ซับซ้อนขึ้นและสนับสนุนเอเจนต์ที่มีความสามารถและรับรู้บริบทได้มากขึ้น
- มันเชื่อมต่อกับอินเทอร์เน็ต และจะทำงานเป็นโมเดลให้เหตุผลเมื่อจำเป็น
- หวังว่าจะรองรับโหมด Canvas ที่เพิ่งเปิดตัวกับโมเดลนี้ได้
ผมใช้เคสทดสอบที่ให้ LLM ดูทั้งโค้ดเบสพร้อมคำอธิบายบั๊ก เพื่อหาสาเหตุของบั๊กในไลบรารี Dart
- มีโทเค็นประมาณ 360,000 โทเค็น
- เคยลองกับโมเดลหลัก ๆ เมื่อเดือนก่อน แต่มีเพียงโมเดลนี้เท่านั้นที่ระบุวิธีแก้ที่ถูกต้องได้
ถ้าคุณวางแผนจะใช้ Gemini มีข้อควรระวังดังนี้
- อย่าใส่ข้อมูลลับ หรือข้อมูลที่ผู้รีวิวอาจเห็นหรือ Google อาจนำไปใช้
- เพื่อปรับปรุงคุณภาพของ Google AI และพัฒนาผลิตภัณฑ์ ผู้รีวิวที่เป็นมนุษย์จะอ่าน ใส่คำอธิบายประกอบ และประมวลผลบทสนทนา
- ในกระบวนการนี้ บทสนทนาจะถูกแยกออกจากบัญชี Google เพื่อปกป้องความเป็นส่วนตัว
โมเดล 2.0 ก็ยังไม่ได้เก่านัก เลยสงสัยว่าทำไมชื่อถึงเพิ่ม +0.5
- สงสัยว่าเป็นเรื่องการตลาด หรือบ่งบอกถึงสถาปัตยกรรมโมเดลใหม่ ข้อมูลฝึกเพิ่มขึ้นบนฐาน 2.0 หรือโครงสร้างพื้นฐานบริการแบบใหม่
- ตอนที่รูปแบบการตั้งชื่อ *.5 ปรากฏขึ้นครั้งแรก ผมรู้สึกว่ามันค่อนข้างงี่เง่า
- ตอน OpenAI ออก 3.5 ก็เคยบอกว่ากำลังเตรียม 4 อยู่แล้ว และกำลังปรับ 3 ให้เหมาะกับ ChatGPT มากขึ้น
- คิดว่ากรณีที่แย่ที่สุดของการตั้งชื่อแบบนี้คือ Anthropic ที่เรียกโมเดลว่า Sonnet 3, 3.5, 3.5 (new), 3.7
- ผมชอบ semver, การตั้งชื่อตามวันที่ ("Gemini Pro 2025") หรือการผสมตัวอักษรกับตัวเลขที่มีความหมาย (เช่น 4o - "Omni") มากกว่า