9 คะแนน โดย GN⁺ 2025-03-26 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • Gemini 2.5 คือ โมเดล AI ที่ขับเคลื่อนด้วยการให้เหตุผล ที่ฉลาดที่สุดซึ่งออกแบบมาสำหรับการแก้ปัญหาที่ซับซ้อน
  • รุ่นแรกที่เปิดตัวคือ Gemini 2.5 Pro Experimental ซึ่งทำสถิติประสิทธิภาพสูงสุดในหลากหลาย AI benchmark
  • โดยเฉพาะอย่างยิ่ง ครองอันดับ 1 บน LMArena แบบทิ้งห่างอย่างชัดเจน
  • ต่างจากโมเดลเดิม โดยถูกออกแบบให้ ผ่านกระบวนการคิดด้วยตัวเองก่อนตอบ ทำให้ความแม่นยำและประสิทธิภาพดีขึ้น

ความสามารถในการ 'คิด' ใน AI คืออะไร?

  • ไม่ได้หยุดอยู่แค่การจัดประเภทหรือการคาดการณ์ แต่รวมถึงความสามารถเชิงการรับรู้ระดับสูง เช่น การวิเคราะห์ข้อมูล, การสรุปเชิงตรรกะ, การเข้าใจบริบท, การตัดสินใจ
  • เพื่อสิ่งนี้ DeepMind ได้วิจัยความสามารถด้านการให้เหตุผลของ AI โดยใช้ การเรียนรู้แบบเสริมกำลัง และ เทคนิคพรอมป์ต์แบบ Chain-of-Thought เป็นต้น
  • แสดงประสิทธิภาพที่ก้าวหน้าขึ้นไปอีกขั้นจากโมเดล Gemini 2.0 Flash Thinking ที่มีอยู่เดิม

ทิศทางต่อจากนี้

  • ผ่าน Gemini 2.5 มีการผสานโมเดลพื้นฐานที่ได้รับการปรับปรุงเข้ากับเทคนิค post-training เพื่อ ยกระดับประสิทธิภาพไปสู่อีกขั้น
  • ต่อไปมีแผนจะติดตั้งความสามารถในการคิดนี้เป็นพื้นฐานในทุกโมเดล Gemini เพื่อให้สามารถแก้ปัญหาที่ซับซ้อนยิ่งขึ้นและรองรับเอเจนต์ที่ก้าวหน้ามากขึ้น

แนะนำ Gemini 2.5 Pro

  • Gemini 2.5 Pro Experimental แสดงประสิทธิภาพโดดเด่นในการทำงานที่ซับซ้อนที่สุดในบรรดาโมเดลที่พัฒนามาจนถึงตอนนี้
  • ครองอันดับ 1 บน LMArena แบบทิ้งห่างในการประเมินตามความชอบของมนุษย์
  • ยังแสดงผลงานยอดเยี่ยมใน benchmark ด้าน การเขียนโค้ด, คณิตศาสตร์, วิทยาศาสตร์
  • ขณะนี้ใช้งานได้บน Google AI Studio และ แอป Gemini และจะพร้อมให้ใช้งานบน Vertex AI ในเร็ว ๆ นี้
  • ในอนาคตจะมีการนำแพ็กเกจราคาเข้ามาใช้ เพื่อรองรับบริการที่ขยายได้พร้อมขีดจำกัดการเรียกใช้งานที่สูงขึ้น

ประสิทธิภาพด้านการให้เหตุผลที่ดีขึ้น

  • ทำคะแนน benchmark ระดับแนวหน้าในการแก้ ปัญหาตรรกะที่ซับซ้อน
  • รักษาประสิทธิภาพที่ยอดเยี่ยมได้แม้ไม่ใช้เทคนิคการทดสอบที่มีต้นทุนเพิ่ม (เช่น การโหวตแบบเสียงข้างมาก)
  • มีประสิทธิภาพชั้นนำในโจทย์คณิตศาสตร์และวิทยาศาสตร์อย่าง GPQA, AIME 2025
  • ในแบบทดสอบการให้เหตุผลความยากสูง 'Humanity’s Last Exam' ซึ่งออกแบบโดยผู้เชี่ยวชาญหลายร้อยคน ทำสถิติสูงสุดในอุตสาหกรรมที่ 18.8% โดยไม่ใช้เครื่องมือ

ความสามารถด้านการเขียนโค้ดขั้นสูง

  • ประสิทธิภาพด้านการเขียนโค้ด ดีขึ้นอย่างมากเมื่อเทียบกับ Gemini 2.0
  • มีความสามารถโดดเด่นใน การสร้างเว็บแอป, การเขียนโค้ดแบบเอเจนต์, การแปลงและแก้ไขโค้ด
  • ทำได้ 63.8% ในการประเมิน SWE-Bench Verified เมื่อใช้เอเจนต์ที่ปรับแต่งเฉพาะ
  • ยังมีตัวอย่างที่สามารถสร้างวิดีโอเกมที่รันได้จากพรอมป์ต์เพียงบรรทัดเดียว

สืบทอดจุดแข็งของโมเดล Gemini

  • Gemini 2.5 ยังคงรักษาจุดแข็งของโมเดล Gemini เดิมไว้ ทั้ง การประมวลผลแบบมัลติโหมด และ หน้าต่างคอนเท็กซ์ขนาดยาว
  • รองรับหน้าต่างคอนเท็กซ์ 1 ล้านโทเค็น (และจะขยายเป็น 2 ล้านในเร็ว ๆ นี้)
  • สามารถประมวลผลและผสานแหล่งข้อมูลหลากหลายได้อย่างครอบคลุม เช่น ข้อความ, เสียง, ภาพ, วิดีโอ, ที่เก็บโค้ดทั้งชุด
  • นักพัฒนาและผู้ใช้องค์กร สามารถทดลองและทดสอบได้ผ่าน Google AI Studio, Gemini Advanced, Vertex AI เป็นต้น

3 ความคิดเห็น

 
wowfoot 2025-03-26

แม้จะเหนือกว่า claud และ gpt4.5 แบบขาดลอย แต่ก็ยังชนะตอนที่ลอง grok3 หลายครั้งไม่ได้
grok3 สุดยอดมาก

 
zxshinxz 2025-03-26

พอ Gemini 2.5 Pro มาใน Google AI Studio แล้ว Gemini 2.0 Pro ที่เคยมีอยู่ก็หายไปหมดเลยครับ.. ก่อนหน้านี้ใช้ฟรีได้คุ้มพอสมควร เลยรู้สึกเสียดายนิดหน่อย ข้อจำกัดของ Gemini 2.5 Pro ที่เรียกใช้ได้แค่ 2 ครั้งต่อนาที และรวมแล้วไม่เกิน 50 ครั้งต่อวัน ดูจะค่อนข้างใหญ่พอสมควรนะครับ

 
GN⁺ 2025-03-26
ความเห็นจาก Hacker News
  • หนึ่งในปัญหาใหญ่ที่สุดเมื่อใช้ LLM เขียนงานยาวอย่างนิยาย คือถ้าให้รายละเอียดมากเกินไป โมเดลจะตอบสนองอย่างประหม่าเกินเหตุ

    • ตัวอย่างเช่น หากให้โปรไฟล์ตัวละครคู่รักในนิยายแฟนตาซีแบบมหากาพย์ ตัวเอกก็มักจะได้พบกับตัวละครนั้นภายในไม่เกิน 3 หน้าแทบทุกครั้ง
    • นี่เป็นพัฒนาการของเรื่องที่ไม่สมเหตุสมผล และความพยายามที่จะแก้ก็ไม่ค่อยได้ผล
    • แต่โมเดลปัจจุบันยังคงดำเนินเรื่องได้เป็นธรรมชาติแม้สร้างไปแล้ว 19 หน้า พร้อมใส่รายละเอียดไว้มากมาย
    • น่าประทับใจมาก
  • ผมใช้ปริศนาคณิตศาสตร์เป็นเบนช์มาร์กเปรียบเทียบโมเดลต่าง ๆ มาโดยตลอด

    • ปริศนาข้อนี้ใช้เวลาราว 3 วันกว่าจะให้คอมพิวเตอร์แก้ได้ และผู้เรียนคณิตศาสตร์สามารถแก้ด้วยมือได้ภายใน 1 วัน
    • Gemini 2.5 เป็นโมเดลแรกที่แก้ปริศนานี้ได้ ซึ่งหมายความว่า LLM เหนือกว่าคนมากกว่า 95% ของประชากรในด้านการให้เหตุผลทางคณิตศาสตร์แล้ว
    • ปริศนาคือมีคนสามคนยืนเป็นวงกลม และมีจำนวนเต็มบวกอยู่เหนือศีรษะของแต่ละคน โดยผลบวกของสองจำนวนจะเท่ากับจำนวนที่สาม
    • คนแรกบอกว่าไม่รู้จำนวนของตัวเอง คนที่สองก็บอกว่าไม่รู้ และคนที่สามก็บอกว่าไม่รู้เช่นกัน
    • เมื่อกลับไปถามคนแรกอีกครั้ง เขาตอบว่าเป็น 65
    • คำถามคือผลคูณของจำนวนทั้งสามคือเท่าไร
  • ทำงานได้ดีมากทั้งในงานถอดเสียงเสียงพูดและงานตีกรอบวัตถุรอบสิ่งมีชีวิตในภาพที่ซับซ้อน

    • มันวาดนกกระทุงขี่จักรยานให้ด้วย
    • มีบันทึกที่เกี่ยวข้องให้ดูในลิงก์
  • ทำคะแนนสูงสุดบนเบนช์มาร์กในแบบที่ไม่เคยเห็นมาก่อน

    • ให้ผลลัพธ์ที่มีคุณภาพสูงและชัดเจน แต่ค่อนข้างช้าเล็กน้อย
    • Google กลับมาสร้างผลงานใหญ่ได้อีกครั้ง
  • Gemini 2.5 Pro ทำสถิติ SOTA บน aider polyglot leaderboard ด้วยคะแนน 73%

    • เป็นการก้าวกระโดดครั้งใหญ่จากโมเดล Gemini รุ่นก่อน
    • เป็น Gemini รุ่นแรกที่ใช้รูปแบบการแก้ไขแบบ diff-like ได้อย่างมีประสิทธิภาพ
  • ประกาศลักษณะนี้เริ่มดูเป็นเหมือนเทมเพลตแล้ว

    • โมเดลล้ำสมัยที่สุด
    • การเปรียบเทียบเบนช์มาร์กกับ X, Y, Z
    • การให้เหตุผลที่ "ดีกว่า"
    • มันอาจเป็นโมเดลที่ยอดเยี่ยม แต่ข้อความแบบเดิมซ้ำ ๆ ทำให้ความน่าสนใจลดลง
  • Gemini 2.5 บรรลุระดับประสิทธิภาพใหม่ด้วยการผสานโมเดลพื้นฐานที่ดีขึ้นอย่างมากเข้ากับกระบวนการหลังการประมวลผลที่ปรับปรุงแล้ว

    • ต่อไปความสามารถด้านการคิดลักษณะนี้จะถูกสร้างเข้าไปในทุกโมเดลโดยตรง เพื่อรองรับปัญหาที่ซับซ้อนขึ้นและสนับสนุนเอเจนต์ที่มีความสามารถและรับรู้บริบทได้มากขึ้น
    • มันเชื่อมต่อกับอินเทอร์เน็ต และจะทำงานเป็นโมเดลให้เหตุผลเมื่อจำเป็น
    • หวังว่าจะรองรับโหมด Canvas ที่เพิ่งเปิดตัวกับโมเดลนี้ได้
  • ผมใช้เคสทดสอบที่ให้ LLM ดูทั้งโค้ดเบสพร้อมคำอธิบายบั๊ก เพื่อหาสาเหตุของบั๊กในไลบรารี Dart

    • มีโทเค็นประมาณ 360,000 โทเค็น
    • เคยลองกับโมเดลหลัก ๆ เมื่อเดือนก่อน แต่มีเพียงโมเดลนี้เท่านั้นที่ระบุวิธีแก้ที่ถูกต้องได้
  • ถ้าคุณวางแผนจะใช้ Gemini มีข้อควรระวังดังนี้

    • อย่าใส่ข้อมูลลับ หรือข้อมูลที่ผู้รีวิวอาจเห็นหรือ Google อาจนำไปใช้
    • เพื่อปรับปรุงคุณภาพของ Google AI และพัฒนาผลิตภัณฑ์ ผู้รีวิวที่เป็นมนุษย์จะอ่าน ใส่คำอธิบายประกอบ และประมวลผลบทสนทนา
    • ในกระบวนการนี้ บทสนทนาจะถูกแยกออกจากบัญชี Google เพื่อปกป้องความเป็นส่วนตัว
  • โมเดล 2.0 ก็ยังไม่ได้เก่านัก เลยสงสัยว่าทำไมชื่อถึงเพิ่ม +0.5

    • สงสัยว่าเป็นเรื่องการตลาด หรือบ่งบอกถึงสถาปัตยกรรมโมเดลใหม่ ข้อมูลฝึกเพิ่มขึ้นบนฐาน 2.0 หรือโครงสร้างพื้นฐานบริการแบบใหม่
    • ตอนที่รูปแบบการตั้งชื่อ *.5 ปรากฏขึ้นครั้งแรก ผมรู้สึกว่ามันค่อนข้างงี่เง่า
    • ตอน OpenAI ออก 3.5 ก็เคยบอกว่ากำลังเตรียม 4 อยู่แล้ว และกำลังปรับ 3 ให้เหมาะกับ ChatGPT มากขึ้น
    • คิดว่ากรณีที่แย่ที่สุดของการตั้งชื่อแบบนี้คือ Anthropic ที่เรียกโมเดลว่า Sonnet 3, 3.5, 3.5 (new), 3.7
    • ผมชอบ semver, การตั้งชื่อตามวันที่ ("Gemini Pro 2025") หรือการผสมตัวอักษรกับตัวเลขที่มีความหมาย (เช่น 4o - "Omni") มากกว่า