9 คะแนน โดย GN⁺ 2025-04-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Gemini 2.5 Pro ทำได้ดีกว่าในการเขียนโค้ด
  • Claude 3.7 Sonnet ก็ยอดเยี่ยมเช่นกัน แต่ตอนนี้การใช้ Gemini 2.5 Pro คุ้มค่ากว่า
  • จุดเด่นสำคัญคือ context window 1 ล้านโทเค็น และเปิดให้ใช้งานฟรี
  • ในอดีต Claude 3.7 Sonnet เป็นมาตรฐานอ้างอิงในการเปรียบเทียบมาโดยตลอด แต่ตอนนี้เปลี่ยนไปแล้ว

แนะนำ Gemini 2.5 Pro แบบย่อ

  • โมเดล reasoning เชิงทดลองที่ Google เปิดตัวเมื่อ 26 มีนาคม 2025
  • หลังเปิดตัวได้รับกระแสตอบรับอย่างมากบน Twitter(X), YouTube และแพลตฟอร์มอื่น ๆ
  • ขึ้น อันดับ 1 บน LMArena และแสดงประสิทธิภาพยอดเยี่ยมมากในด้านการเขียนโค้ด คณิตศาสตร์ วิทยาศาสตร์ และการทำความเข้าใจภาพ
  • ให้ context window 1 ล้านโทเค็น และมีการประกาศล่วงหน้าว่าในอนาคตจะขยายเป็น 2 ล้านโทเค็น
  • มีความแม่นยำ 63.8% บนเกณฑ์ SWE Bench สูงกว่า 62.3% ของ Claude 3.7 Sonnet
  • พิสูจน์ประสิทธิภาพอันยอดเยี่ยมผ่านตัวอย่างหลากหลาย เช่น เดโมเกมไดโนเสาร์ที่ Google นำเสนอ
  • โดยรวมถูกประเมินว่าเป็น โมเดลอเนกประสงค์ที่เหมาะกับงานเชิงสติปัญญาทุกประเภท ไม่ใช่แค่การเขียนโค้ด

เปรียบเทียบการทดสอบด้านการเขียนโค้ด

1. สร้าง flight simulator

  • Gemini 2.5 Pro
    • สร้างซิมูเลเตอร์ที่ทำงานได้สมบูรณ์
    • ตอบโจทย์ทุกเงื่อนไข ทั้งการบังคับเครื่องบิน การสร้างเมืองสไตล์ Minecraft และอื่น ๆ
    • ความสมบูรณ์ 10/10
  • Claude 3.7 Sonnet
    • มีปัญหาเครื่องบินบินเอียงด้านข้างและหลุดออกนอกเมือง
    • ความสมบูรณ์เชิงฟังก์ชันต่ำกว่า
  • สรุป: Gemini 2.5 Pro ชนะขาด

2. การแสดงภาพและการแก้ Rubik’s Cube

  • Gemini 2.5 Pro
    • สร้างการแสดงภาพและตัวแก้ได้อย่างถูกต้องในครั้งเดียว
    • ใช้ Three.js และทำได้สมบูรณ์ทั้งสีของลูกบาศก์ การสุ่มสลับ และแอนิเมชัน
  • Claude 3.7 Sonnet
    • แสดงสีไม่สำเร็จและแก้โจทย์ไม่สำเร็จ
    • มีข้อจำกัดคล้ายกับ LLM อื่น ๆ
  • สรุป: Gemini 2.5 Pro เหนือกว่าอย่างชัดเจนในข้อนี้เช่นกัน

3. การแสดงภาพลูกบอลเด้งภายใน tesseract 4 มิติ

  • Gemini 2.5 Pro
    • ตอบโจทย์ครบทั้งการชนตามหลักฟิสิกส์ การเน้นพื้นผิว และข้อกำหนดอื่น ๆ
    • คุณภาพโค้ดและการทำงานยอดเยี่ยมมาก
  • Claude 3.7 Sonnet
    • ฟังก์ชันทำงานได้ แต่เพิ่มสีที่ไม่จำเป็น
    • ถึงอย่างนั้นก็ยังตอบโจทย์ฟังก์ชันที่ต้องการ
  • สรุป: ทั้งสองโมเดลผ่านข้อกำหนด โดย Claude ก็ทำสำเร็จได้ในที่สุด

4. โจทย์ LeetCode: หาผลรวมสูงสุดจากการวาง rook 3 ตัว

  • Gemini 2.5 Pro
    • โค้ดค่อนข้างซับซ้อน แต่ให้คำตอบที่ถูกต้อง
    • คำนึงถึง time complexity ได้อย่างเหมาะสม
  • Claude 3.7 Sonnet
    • เขียนโค้ดได้กระชับ แต่เกิด time limit exceeded (TLE)
    • เข้าใจง่าย แต่ยังด้อยกว่าในด้านประสิทธิภาพ
  • สรุป: Gemini 2.5 Pro นำหน้าในทั้งด้านประสิทธิภาพและความแม่นยำ

บทสรุป

  • Gemini 2.5 Pro เหนือกว่าอย่างชัดเจน
    • นำหน้า Claude 3.7 Sonnet ในด้าน context window ความแม่นยำ และประสิทธิภาพในการทำงานหลายอย่างพร้อมกัน
  • Claude ยังคงเป็นโมเดลที่ยอดเยี่ยม แต่ ณ ตอนนี้ การใช้ Gemini มีประสิทธิภาพมากกว่า
  • หากขยายเป็น หน้าต่าง 2 ล้านโทเค็น ในอนาคต ประสิทธิภาพก็น่าจะยิ่งดีขึ้นอีก
  • เมื่อรวมกับโมเดลขนาดเล็ก Gemma 3 27B ที่ Google เปิดตัวล่าสุด ก็ทำให้เกิดไลน์อัป AI ที่แข็งแกร่ง

1 ความคิดเห็น

 
GN⁺ 2025-04-01
ความเห็นจาก Hacker News
  • อยากจัดการแข่งขันพร้อมเงินรางวัลสำหรับปัญหาเขียนโค้ดจริง แต่ต้องกำหนดกติกาก่อน และยังสงสัยว่า LLM จะสามารถแก้ปัญหานี้ได้หรือไม่

    • คือการทำ Solvespace เวอร์ชัน GTK 4
    • มีไฟล์ C++ เดียวสำหรับแต่ละแพลตฟอร์ม
    • เป้าหมายคือเขียนไฟล์ GTK3 ใหม่ให้เป็น GTK4
    • ถ้าต้องการพิสูจน์ประสิทธิภาพของ AI ก็แนะนำให้บันทึกทั้งเซสชันและทำเป็นวิดีโอ YouTube
    • การทดสอบสุดท้ายคือจะยอมรับ PR หรือไม่
  • Gemini เป็นโมเดลเดียวที่บอกได้ว่าควรหยุดบทสนทนาเมื่อไร

    • ChatGPT มักจะลืมบทสนทนาเมื่อบริบทเต็ม
    • Gemini ยังขาดเครื่องมือ แต่โดยพื้นฐานแล้วให้ความรู้สึกว่าเป็นโมเดลที่ดีกว่า
  • เคยใช้ Gemini 2.5 Pro และคิดว่ามันค่อนข้างดี

    • ดูเหมือนว่า Claude 3.5 จะทำตามคำสั่งได้ดีกว่า
    • รู้สึกผิดหวังกับเครื่องมือ Cursor และ Claude CLI
    • ชอบวิธีที่ Gemini แสดงหน้าต่างบริบท
    • คิดว่าตลาดไม่อาจรองรับการประเมินมูลค่าของบริษัท AI รายใหญ่ได้
    • บางครั้งโมเดลฟรีก็ดีกว่า
  • ผู้แพ้ในการแข่งขันของโมเดล AI ดูเหมือนจะเป็น Microsoft

    • ตอนที่ ChatGPT เป็นตัวเลือกเดียว Microsoft เคยถูกมองว่าเป็นผู้นำ
    • Copilot เป็นงานที่ล้มเหลว และ Bing ก็ใช้ AI ได้ไม่คุ้มค่า
    • Sundar Pichai ของ Google พูดถึงการอยากเปรียบเทียบกับโมเดลของ Microsoft
  • Gemini 2.5 Pro ทำคะแนนได้สูงบนกระดานผู้นำ aider polyglot coding

    • ถูกใช้เป็นหลักกับงานรีลีสล่าสุดของ aider
    • ตอนนี้ปัญหาใหญ่ที่สุดของ Gemini คือการจำกัดความเร็วที่เข้มงวดมาก
  • ในตัวอย่าง Rubik's Cube, Gemini 2.5 ใช้ลำดับการสครับเบิลที่จำมาล่วงหน้า

    • มันแก้ลูกบาศก์โดยกลับลำดับสครับเบิลนั้น
  • ตอนที่ใช้ Visual Basic ในยุค 90 การสร้างโปรเจ็กต์ใหม่จากเทมเพลตก็น่าสนใจดี

    • การเขียนโค้ดด้วย AI ก็คล้ายกัน แต่รู้สึกว่าถูกพูดเกินจริง
    • มีการพูดถึงว่ารู้สึกสับสนที่เครื่องบินของ Claude อยู่ด้านข้าง
  • Gemini 2.5 ไม่ค่อยดีนักกับโค้ด Cython ที่ซับซ้อน

    • Claude และ o3 ทำตามคำสั่งได้ดี
    • Gemini พยายามแก้ไขสิ่งที่ไม่เกี่ยวข้อง
  • มีคำถามว่าจำเป็นต้องมีการอภิปรายที่เป็นกลางหรือไม่

    • ลิงก์ของ OP ดูเหมือนเป็นโฆษณาเอนเอียงให้ Composio
    • มีคำอธิบายเกินจริงเกี่ยวกับ Gemini 2.5 Pro
  • งานทดสอบทั้งหมดเป็นโปรเจ็กต์แบบ greenfield

    • หากจะใช้ LLM ต้องมีการเปลี่ยนแปลงหรือแก้ไขในโปรเจ็กต์ที่มีอยู่แล้ว
    • คิดว่าการทดสอบเหล่านี้ไม่มีความหมายในการวัดความมีประโยชน์ของโมเดล