- Gemini 2.5 คือ โมเดล AI ที่ขับเคลื่อนด้วยการให้เหตุผล ที่ฉลาดที่สุดซึ่งออกแบบมาสำหรับการแก้ปัญหาที่ซับซ้อน
- รุ่นแรกที่เปิดตัวคือ Gemini 2.5 Pro Experimental ซึ่งทำสถิติประสิทธิภาพสูงสุดในหลากหลาย AI benchmark
- โดยเฉพาะอย่างยิ่ง ครองอันดับ 1 บน LMArena แบบทิ้งห่างอย่างชัดเจน
- ต่างจากโมเดลเดิม โดยถูกออกแบบให้ ผ่านกระบวนการคิดด้วยตัวเองก่อนตอบ ทำให้ความแม่นยำและประสิทธิภาพดีขึ้น
ความสามารถในการ 'คิด' ใน AI คืออะไร?
- ไม่ได้หยุดอยู่แค่การจัดประเภทหรือการคาดการณ์ แต่รวมถึงความสามารถเชิงการรับรู้ระดับสูง เช่น การวิเคราะห์ข้อมูล, การสรุปเชิงตรรกะ, การเข้าใจบริบท, การตัดสินใจ
- เพื่อสิ่งนี้ DeepMind ได้วิจัยความสามารถด้านการให้เหตุผลของ AI โดยใช้ การเรียนรู้แบบเสริมกำลัง และ เทคนิคพรอมป์ต์แบบ Chain-of-Thought เป็นต้น
- แสดงประสิทธิภาพที่ก้าวหน้าขึ้นไปอีกขั้นจากโมเดล Gemini 2.0 Flash Thinking ที่มีอยู่เดิม
ทิศทางต่อจากนี้
- ผ่าน Gemini 2.5 มีการผสานโมเดลพื้นฐานที่ได้รับการปรับปรุงเข้ากับเทคนิค post-training เพื่อ ยกระดับประสิทธิภาพไปสู่อีกขั้น
- ต่อไปมีแผนจะติดตั้งความสามารถในการคิดนี้เป็นพื้นฐานในทุกโมเดล Gemini เพื่อให้สามารถแก้ปัญหาที่ซับซ้อนยิ่งขึ้นและรองรับเอเจนต์ที่ก้าวหน้ามากขึ้น
แนะนำ Gemini 2.5 Pro
- Gemini 2.5 Pro Experimental แสดงประสิทธิภาพโดดเด่นในการทำงานที่ซับซ้อนที่สุดในบรรดาโมเดลที่พัฒนามาจนถึงตอนนี้
- ครองอันดับ 1 บน LMArena แบบทิ้งห่างในการประเมินตามความชอบของมนุษย์
- ยังแสดงผลงานยอดเยี่ยมใน benchmark ด้าน การเขียนโค้ด, คณิตศาสตร์, วิทยาศาสตร์
- ขณะนี้ใช้งานได้บน Google AI Studio และ แอป Gemini และจะพร้อมให้ใช้งานบน Vertex AI ในเร็ว ๆ นี้
- ในอนาคตจะมีการนำแพ็กเกจราคาเข้ามาใช้ เพื่อรองรับบริการที่ขยายได้พร้อมขีดจำกัดการเรียกใช้งานที่สูงขึ้น
ประสิทธิภาพด้านการให้เหตุผลที่ดีขึ้น
- ทำคะแนน benchmark ระดับแนวหน้าในการแก้ ปัญหาตรรกะที่ซับซ้อน
- รักษาประสิทธิภาพที่ยอดเยี่ยมได้แม้ไม่ใช้เทคนิคการทดสอบที่มีต้นทุนเพิ่ม (เช่น การโหวตแบบเสียงข้างมาก)
- มีประสิทธิภาพชั้นนำในโจทย์คณิตศาสตร์และวิทยาศาสตร์อย่าง GPQA, AIME 2025
- ในแบบทดสอบการให้เหตุผลความยากสูง 'Humanity’s Last Exam' ซึ่งออกแบบโดยผู้เชี่ยวชาญหลายร้อยคน ทำสถิติสูงสุดในอุตสาหกรรมที่ 18.8% โดยไม่ใช้เครื่องมือ
ความสามารถด้านการเขียนโค้ดขั้นสูง
- ประสิทธิภาพด้านการเขียนโค้ด ดีขึ้นอย่างมากเมื่อเทียบกับ Gemini 2.0
- มีความสามารถโดดเด่นใน การสร้างเว็บแอป, การเขียนโค้ดแบบเอเจนต์, การแปลงและแก้ไขโค้ด
- ทำได้ 63.8% ในการประเมิน SWE-Bench Verified เมื่อใช้เอเจนต์ที่ปรับแต่งเฉพาะ
- ยังมีตัวอย่างที่สามารถสร้างวิดีโอเกมที่รันได้จากพรอมป์ต์เพียงบรรทัดเดียว
สืบทอดจุดแข็งของโมเดล Gemini
- Gemini 2.5 ยังคงรักษาจุดแข็งของโมเดล Gemini เดิมไว้ ทั้ง การประมวลผลแบบมัลติโหมด และ หน้าต่างคอนเท็กซ์ขนาดยาว
- รองรับหน้าต่างคอนเท็กซ์ 1 ล้านโทเค็น (และจะขยายเป็น 2 ล้านในเร็ว ๆ นี้)
- สามารถประมวลผลและผสานแหล่งข้อมูลหลากหลายได้อย่างครอบคลุม เช่น ข้อความ, เสียง, ภาพ, วิดีโอ, ที่เก็บโค้ดทั้งชุด
- นักพัฒนาและผู้ใช้องค์กร สามารถทดลองและทดสอบได้ผ่าน Google AI Studio, Gemini Advanced, Vertex AI เป็นต้น
3 ความคิดเห็น
แม้จะเหนือกว่า claud และ gpt4.5 แบบขาดลอย แต่ก็ยังชนะตอนที่ลอง grok3 หลายครั้งไม่ได้
grok3 สุดยอดมาก
พอ Gemini 2.5 Pro มาใน Google AI Studio แล้ว Gemini 2.0 Pro ที่เคยมีอยู่ก็หายไปหมดเลยครับ.. ก่อนหน้านี้ใช้ฟรีได้คุ้มพอสมควร เลยรู้สึกเสียดายนิดหน่อย ข้อจำกัดของ Gemini 2.5 Pro ที่เรียกใช้ได้แค่ 2 ครั้งต่อนาที และรวมแล้วไม่เกิน 50 ครั้งต่อวัน ดูจะค่อนข้างใหญ่พอสมควรนะครับ
ความเห็นจาก Hacker News
หนึ่งในปัญหาใหญ่ที่สุดเมื่อใช้ LLM เขียนงานยาวอย่างนิยาย คือถ้าให้รายละเอียดมากเกินไป โมเดลจะตอบสนองอย่างประหม่าเกินเหตุ
ผมใช้ปริศนาคณิตศาสตร์เป็นเบนช์มาร์กเปรียบเทียบโมเดลต่าง ๆ มาโดยตลอด
ทำงานได้ดีมากทั้งในงานถอดเสียงเสียงพูดและงานตีกรอบวัตถุรอบสิ่งมีชีวิตในภาพที่ซับซ้อน
ทำคะแนนสูงสุดบนเบนช์มาร์กในแบบที่ไม่เคยเห็นมาก่อน
Gemini 2.5 Pro ทำสถิติ SOTA บน aider polyglot leaderboard ด้วยคะแนน 73%
ประกาศลักษณะนี้เริ่มดูเป็นเหมือนเทมเพลตแล้ว
Gemini 2.5 บรรลุระดับประสิทธิภาพใหม่ด้วยการผสานโมเดลพื้นฐานที่ดีขึ้นอย่างมากเข้ากับกระบวนการหลังการประมวลผลที่ปรับปรุงแล้ว
ผมใช้เคสทดสอบที่ให้ LLM ดูทั้งโค้ดเบสพร้อมคำอธิบายบั๊ก เพื่อหาสาเหตุของบั๊กในไลบรารี Dart
ถ้าคุณวางแผนจะใช้ Gemini มีข้อควรระวังดังนี้
โมเดล 2.0 ก็ยังไม่ได้เก่านัก เลยสงสัยว่าทำไมชื่อถึงเพิ่ม +0.5