Gemini-2.5-pro-preview-06-05

(deepmind.google)

1 คะแนน โดย GN⁺ 2025-06-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เวอร์ชันพรีวิวล่าสุดของ Gemini 2.5 Pro พร้อมให้ใช้งานแล้วก่อนเปิดตัวอย่างเป็นทางการ
ทำคะแนน Elo เพิ่มขึ้น 24~35 คะแนน เมื่อเทียบกับโมเดลเดิม ในการประเมินสำคัญอย่าง LMArena, WebDevArena เป็นต้น
ทำผลงาน ระดับสูงสุดในเบนช์มาร์กสำคัญด้านการเขียนโค้ด วิทยาศาสตร์ คณิตศาสตร์ ความเข้าใจมัลติโมดัล และการประมวลผลคอนเท็กซ์ระยะยาว
มีโครงสร้างต้นทุนที่ถูกกว่าคู่แข่ง โดยมี ราคาอินพุต $1.25 และราคาเอาต์พุต $10 (ต่อหนึ่งล้านโทเคน)

เปรียบเทียบตามเบนช์มาร์กหลัก

Reasoning & Knowledge (Humanity's Last Exam): 21.6% ใกล้เคียงกับ OpenAI/Anthropic และดีกว่า DeepSeek R1(14%)
Science (GPQA diamond): 86.4% เป็นประสิทธิภาพสูงสุดของอุตสาหกรรม (ตามเกณฑ์ single attempt)
Mathematics (AIME 2025): 88.0% อยู่ในระดับใกล้เคียงกับ OpenAI o3 และ DeepSeek R1 และสูงกว่า Anthropic Claude 4/3
Code Generation/Editing: LiveCodeBench 69.0%, Aider Polyglot 82.2% มีความแม่นยำสูงทั้งการสร้างและแก้ไขโค้ด
Agentic Coding (SWE-bench Verified): 59.6% (single), 67.2% (multiple attempts) ต่ำกว่า Anthropic Claude 4 เล็กน้อย แต่ใกล้เคียงกับ OpenAI/DeepSeek
Factuality: SimpleQA 54.0%, FACTS Grounding 87.8% มีจุดแข็งในการสร้างคำตอบที่อ้างอิงข้อมูลจริง
Visual/Video/Image Understanding: MMMU 82.0%, Vibe-Eval(ภาพ) 67.2%, VideoMMMU(วิดีโอ) 83.6% ทำได้ดีทั้งข้อความ-ภาพ-วิดีโอ
Long Context (MRCR v2, 128K): 58.0% เป็นประสิทธิภาพสูงสุดเมื่อเทียบกับโมเดลคู่แข่งหลักอย่าง OpenAI, Anthropic และ xAI

ราคาและภาษาที่รองรับ

ราคาอินพุต: $1.25 / 1 ล้านโทเคน ($2.50 หากเกิน 200K)
ราคาเอาต์พุต: $10 / 1 ล้านโทเคน ($15 หากเกิน 200K)
ภาษาที่รองรับ: มากกว่า 70 ภาษาทั่วโลก (Multipolyglot 89.2%)

การใช้งานและคุณสมบัติเพิ่มเติม

ใช้งานพรีวิวได้ทันทีบน Google AI Studio, Vertex AI
เพิ่มฟีเจอร์ควบคุมต้นทุนและความหน่วงสำหรับนักพัฒนา เช่น Thinking Budget
เสริมความสามารถที่เหมาะกับการใช้งานจริง ทั้งด้าน การเขียนโค้ด ความรู้ มัลติโมดัล และการจัดการข้อความยาว

บทสรุป

Gemini 2.5 Pro โดดเด่นกว่าคู่แข่งในหลายด้าน เช่น ราคา ประสิทธิภาพ ความอเนกประสงค์ มัลติโมดัล และคอนเท็กซ์ระยะยาว
เมื่อนำ AI ไปใช้ในองค์กรและงานพัฒนา สามารถพิจารณาได้ทั้ง การเปรียบเทียบตามเบนช์มาร์กที่ชัดเจนและความคุ้มค่าด้านต้นทุน

1 ความคิดเห็น

GN⁺ 2025-06-07

ความคิดเห็นจาก Hacker News

รู้สึกทึ่งที่ Google ดันคะแนนใน lmarena ขึ้นได้อีกราว 25 ELO และยิ่งน่าสังเกตว่าก่อนหน้านี้อันดับ 1 ก็เป็น Gemini อยู่แล้ว หลังจากได้ใช้ทั้ง Gemini และ Claude Opus 4 อย่างหนักตลอดหลายสัปดาห์ที่ผ่านมา ส่วนตัวรู้สึกว่า Opus เหนือกว่าอย่างคนละชั้น ตอนจัดการปัญหา TypeScript ที่ซับซ้อน Gemini มักวนอยู่กับจุดเดิม หรือบางครั้งถึงขั้นบอกว่าทำไม่ได้เป็นครั้งแรกที่เจอ แต่ Opus กลับแก้ได้สบาย แม้ตัวอย่างนี้อาจไม่ได้สะท้อนประสิทธิภาพทั้งหมด แต่ความต่างคือ Gemini ให้ความรู้สึกเหมือนพยายามฝืนให้โค้ดรันได้ ขณะที่ Opus จับแก่นของปัญหาและเข้าหาอย่างสะอาดกว่า ยังรู้สึกด้วยว่า Opus มีจินตนาการมากกว่า หรืออาจเหมาะกับงานเชิงเอเจนต์มากกว่า สิ่งที่ประทับใจเป็นพิเศษคือ Opus เคยสร้างทางออกที่ไม่คาดคิดแบบครั้งเดียวจบ เช่น เขียนสคริปต์ playwright เพื่อ dump DOM แล้วนำมาวิเคราะห์ปัญหาการโต้ตอบ ส่วน Gemini จะพยายามอ่านตัวโค้ดอย่างดื้อดึงเพื่อไล่บั๊ก แต่รู้สึกว่าวิธีนี้มีข้อจำกัด ถึงอย่างนั้น Gemini ก็ยังเป็นโมเดลที่ยอดเยี่ยม และก่อนเวอร์ชัน 4.0 ก็เคยคิดว่ามันดีที่สุด
- สำหรับผมแล้วจริง ๆ ชอบ o3 มากกว่า Opus 4 เสียอีก เลยลองจัดอันดับของตัวเองจากการเสียเงินไปหลายร้อยดอลลาร์กับเครื่องมือสร้างโค้ด AI ตลอดเดือนที่ผ่านมา อันดับ 1 คือ o3 เด่นมากทั้งเรื่องเก็บรายละเอียด จับแก่นปัญหา และเขียนโค้ดคุณภาพสูงที่เอาไปใช้ในโปรดักชันได้จริง ข้อเสียคือหน้าต่าง cutoff ค่าใช้จ่าย และมันชอบใช้ tool มากเกินไป กับโปรเจ็กต์ Rails แทบไม่มีปัญหาแต่บางครั้งก็มีผลอยู่บ้าง อันดับ 2 คือ Opus 4 (ใช้ผ่าน Claude Code) ประสิทธิภาพดีและถูกกว่า o3 เลยใช้เป็น daily driver เป็นหลัก วิธีที่ใช้คือให้ Opus 4 วางแผนและทำร่างแรก จากนั้นให้ o3 วิจารณ์อย่างละเอียดและทำรายการ feedback เพื่อขัดงานให้สมบูรณ์ขึ้นมาก อันดับ 3 คือ Gemini 2.5 Pro ยังไม่ได้ลองรีลีสล่าสุด แต่ก่อนหน้านี้เคยให้ไว้อันดับ 2 ตอนนี้น่าจะสูสีกับ Sonnet 4 หรืออาจเหนือกว่าเล็กน้อย แล้วแต่สถานการณ์ อันดับ 4 Sonnet 4 แม้จะเขียนโค้ดได้เยอะ แต่ถ้าไม่คอยโค้ชหรือกำกับโดยตรง มันไม่ค่อยให้โค้ดที่คุณภาพสูง กระชับ และลึกจริง ๆ ผมค่อนข้างยึดติดกับคุณภาพและโครงสร้างโค้ดมาก ทั้งเรื่องชื่อ การนำกลับมาใช้ใหม่ ฯลฯ เลยตามสถิติ Cursor เดือนก่อน ผมกดรับโค้ด auto-suggest แค่ 33% ถ้าไม่ใช่เส้นทางที่ดีที่สุด ผมจะคอยแก้คำขอที่พลาดและปรับพรอมป์ใหม่เพื่อไล่หาผลลัพธ์ที่ดีกว่า
- จุดเด่นที่สุดของ Gemini คือความสามารถด้านการค้นหาที่เหนือกว่าโมเดลอื่น ตอนให้ช่วยเขียนอีเมลไปยังแหล่งที่ส่งสแปมจากโดเมนของบริษัท มันหาได้ครบทั้งอีเมล abuse ของโฮสต์ ข้อมูลโดเมน เซิร์ฟเวอร์ mx, IP, ดาต้าเซ็นเตอร์ ฯลฯ เคยให้แปลงงานวิจัยเป็นพอดแคสต์ก็ทำได้ทันที แถมฟังเพลินใช้ได้
- สัปดาห์นี้ลองให้ Claude 4 กับ Gemini 2.5 ทำโจทย์เดียวกัน Gemini ให้คำตอบถูก ส่วน Claude ทำไม่ได้ดีนัก โดยเฉพาะแม้จะไม่ใช่งานยากอย่างการเทียบ SQL query ก็ยังมีหลายครั้งที่ Gemini หาเจอปัญหาจริงได้
- เอาเข้าจริงประสบการณ์มักขึ้นกับสถานการณ์ บางปัญหา Gemini แก้ได้คล่องมาก แต่ถัดมากลับสะดุดกับบั๊กง่าย ๆ แบบน่างง o3 กับ sonnet ก็เป็นเหมือนกัน ส่วน 4.0 ยังใช้ไม่มากพอจะตัดสิน เลยรู้สึกว่าควรมีตัวช่วยประเมินหลายโมเดลแบบขนานเพื่อเลือกทางออกที่ดีที่สุด
- มีคนถามว่าได้ลองเทียบกับ o3 ด้วยไหม ในเคสการใช้งานของผม o3 น่าประทับใจกว่า Opus 4 มาก
เริ่มกังวลกับมูลค่าตลาดของ OpenAI มากขึ้นเรื่อย ๆ ตอนนี้มีคู่แข่งเก่ง ๆ เยอะขึ้น และคำบอกว่าไม่ได้เป็นผู้นำแบบทิ้งห่างอีกแล้วก็ดูน่าเชื่อถือ เลยสงสัยว่าที่มูลค่า 3 แสนล้านดอลลาร์ จะระดมทุนเพิ่มต่อจากนี้อย่างไร เมื่อรายได้ยังน้อย แต่ต้นทุนอย่างฮาร์ดแวร์และค่าไฟเพิ่มขึ้นเรื่อย ๆ ก็ยิ่งประเมินมูลค่าที่แท้จริงได้ยาก พอ LLM รุ่นถัดไปต้องการข้อมูลใหม่มากขึ้น โครงสร้างก็ดูจะเข้าทาง Facebook และ Google OpenAI ที่ไม่ได้มีธุรกิจข้อมูลขนาดใหญ่ของตัวเองน่าจะเสียเปรียบในการแข่งเรื่องข้อมูลเฉพาะทาง ตอนที่ยังเป็นผู้นำทั้งฝั่งงานวิจัยและแอปผู้ใช้ มูลค่าสูงแบบนี้ยังพอมีเหตุผล แต่ตอนนี้ฐานความเชื่อมั่นดูบางลงมาก เลยไม่แน่ใจว่านักลงทุนหน้าใหม่จะได้ประโยชน์อะไรจาก OpenAI ที่มูลค่า 3 แสนล้านดอลลาร์ ปกติจะต้องมีรายได้ระดับ 1.5 แสนล้าน หรือหากใช้ P/E สูงลิ่วที่ 100 เท่า ก็ต้องมีกำไรปีละ 3 พันล้านพร้อมสมมติฐานโตเท่าตัวต่อเนื่อง 10 ปีแบบสุดขั้ว (คล้าย Amazon ช่วงยุค 2000) ตอนนี้ยังมีประเด็นโครงสร้างไม่แสวงกำไร/แสวงกำไรด้วย ทำให้การเข้าตลาดอาจไม่ง่ายนัก ขอแสดงความยินดีกับ Google และมองว่ามีโอกาสสูงที่จะเป็นผู้ชนะรายใหญ่ที่สุดของการแข่งขัน AI
- มีความเห็นว่าตลาดเข้าใจสถานะของ OpenAI ผิดไปมาก คำว่า "chatgpt" กลายเป็นคำกริยาในชีวิตประจำวันไปแล้ว ขณะที่คนทั่วไปแทบไม่รู้จัก Claude หรือ Gemini เลย ถ้าไม่มีอะไรพลิกเกมจริง ๆ คนส่วนใหญ่ก็ไม่มีเหตุผลจะย้ายไปใช้อย่างอื่น แค่ประวัติการสนทนา memory และโครงสร้างการ export ของ ChatGPT ที่สะดวก ก็สร้างต้นทุนการย้ายได้มากพอแล้ว เมื่อมีผู้ใช้ active 500 ล้านคน สิ่งที่ OpenAI ต้องทำก็แค่รักษาคุณภาพไว้ หากพาราไดม์ปัจจุบันยังอยู่ต่อ ต่อให้ไม่ใช่ผู้นำก็ยังไล่ตามเทคโนโลยีของคนอื่นได้ คนทั่วไปไม่เปลี่ยนผลิตภัณฑ์เพียงเพราะมันดีขึ้นเล็กน้อย
- มีคนทักว่าการคำนวณมูลค่าผิด ไม่ใช่รายได้สองเท่าของ 3 แสนล้านดอลลาร์ แต่ต้องเป็นรายได้ 1.5 แสนล้านดอลลาร์ อย่างไรก็ตาม ประเด็นหลักยังใช้ได้อยู่
- ตอนนี้จุดที่ OpenAI เหนือกว่าชัดเจนคือการสร้างภาพ ทั้งงานภาพประกอบ การ์ตูน การแต่งภาพ และไอเดียโปรเจ็กต์ในบ้าน ถือว่ามีความต่างจริง
- แม้ Google จะกำลังชนะในศึก AI แต่ธุรกิจค้นหาก็ยังน่าจะถูกกินส่วนแบ่งอยู่ดี และยังไม่แน่ว่า AI จะช่วยให้ดึงผลตอบแทนทางเศรษฐกิจจากอำนาจตลาดได้หรือไม่ มองว่าจำเป็นต้องแข่ง แต่ยุคผูกขาดโฆษณาน่าจะสบายใจกว่า
- มีความเห็นว่ายังเร็วเกินไปที่จะฟันธงว่า OpenAI ไม่ใช่ผู้นำ เพราะ o3 pro กับ GPT 5 กำลังจะออก ถ้าสองโมเดลนี้ยังไม่แสดงความก้าวหน้าชัดเจน ค่อยเริ่มคิดเรื่องเสียความเป็นผู้นำ ตอนนี้อย่างน้อยก็ยังรู้สึกว่าอยู่ระดับไล่เลี่ยกับ Google เป็นต้น
แค่ปล่อยโมเดลเดียวกันในเวอร์ชันพรีวิวถึงสามตัวก็ชวนงงอยู่แล้ว พอเอาวันที่สองชุดสุดท้าย (05-06 และ 06-05) มาปนกันยิ่งสับสนหนัก ถ้าเลื่อนอีกวันก็คงชัดเจนกว่านี้ น่าเสียดาย
- ด้วยความกำกวมของวันที่ แบบนี้จริง ๆ ต้องเลื่อนไปถึงวันที่ 13 ถึงจะไม่สับสน ในแคนาดาเองก็ใช้ทั้งรูปแบบวันที่แบบอังกฤษและแบบอเมริกันปนกัน จนงงมาก เดี๋ยวนี้รูปแบบ y-m-d ได้รับการยอมรับอย่างเป็นทางการและกำลังแพร่หลายขึ้น
- ความงงระหว่าง 05-06 กับ 06-05 เองก็ให้ความรู้สึกเหมือนแซวรุ่น 4o กับ o4 ของ OpenAI แบบตรง ๆ
- สงสัยว่า Gemini 2.5 pro จะขยับเป็น 2.6 pro เมื่อไร คาดว่าใน Gemini 3 ขนาดโมเดลน่าจะใหญ่ขึ้นอีก
- มีมุกว่านักพัฒนาไม่เก่งเรื่องการตั้งชื่อจริง ๆ
มีสองปัญหาที่รู้สึกได้เฉพาะกับ Gemini
1. มันชอบ rename ชื่อตัวแปรทั้งที่ไม่ได้สั่งให้เปลี่ยนชื่อชัดเจน
2. บางครั้งก็ลืมปีกกาปิด ผมชอบตั้งชื่อตัวแปรสั้น ๆ เช่นใช้แค่ "json" เลยเข้าใจว่ามันอาจพยายามช่วย แต่พอเปลี่ยนแบบนี้เยอะขึ้นก็ทำให้ code review ยาก
- ยกตัวอย่างเคสที่ Gemini จัดการพลาดแบบชัดเจน โค้ดที่กำหนด processing_class=tokenizer ไว้ชัดเจน ต่อให้แก้หลายรอบ Gemini ก็ยังเปลี่ยนเป็น tokenizer=tokenizer ซ้ำ ๆ ถึงขั้นใส่คอมเมนต์ทั้งบรรทัดว่า DO NOT CHANGE มันก็ยังเปลี่ยนผิดอยู่ดี ยังไม่ได้ลองเวอร์ชันล่าสุด (06-05) แต่ใน 05-06 ก่อนหน้านี้ก็เป็นข้อผิดพลาดเดิม
- ขอย้ำว่า o1-pro แทบจะอยู่อันดับบนสุดของผมคู่กับ Gemini แต่ Gemini ชอบเพิ่มคอมเมนต์ที่ไม่จำเป็นและแก้โค้ดส่วนที่ไม่เกี่ยวข้องมากเกินไป จนใช้งานจริงได้ยาก เอาไว้ช่วยสำรวจไอเดียดี แต่พอจะทำโซลูชันสุดท้าย ผมใช้ o1-pro
- Gemini ชอบเติมคอมเมนต์ที่ใช้การไม่ได้แบบน่าปวดหัวมาก เช่น "# Added this function", "# Changed this to fix the issue" ของแบบนี้ควรอยู่ใน commit message หรือ PR มากกว่า ไม่จำเป็นต้องใส่ในโค้ด
- ChatGPT เองก็มีหลายครั้งที่เมินคำสั่งเฉพาะไปเลย เช่น ต่อให้ย้ำแค่ไหนว่า "อย่าใช้ em dash หรือ en dash" มันกลับยิ่งใส่มากขึ้น ลองหลายรอบแล้วก็ยังไม่เคยคุมได้จริงสักครั้ง
ตอนนี้จ่ายเงินใช้ทั้ง ChatGPT Plus และ Gemini Pro แต่ ChatGPT ติด rate limit บ่อยจนเริ่มคิดจะยกเลิก ฝั่ง Gemini/AI Studio ยังไม่เคยติด rate limit เลยสักครั้ง
- AI Studio ใช้บัญชี API ที่รันอยู่ฝั่ง backend จริง ๆ และจะสร้างโปรเจ็กต์ Google Cloud free tier ให้อัตโนมัติ ที่ด้านล่างของหน้า "get an api key" สามารถผูกบัญชีชำระเงินได้ API free tier อาจไม่ถือเป็นการใช้งานเชิงพาณิชย์ตามข้อกำหนดบริการของ Google และพรอมป์อาจถูกมนุษย์ตรวจดูหรือนำไปใช้เป็นข้อมูลฝึกได้
- เพราะ AI Studio ใช้ API จึงแทบเป็นไปไม่ได้เลยที่ผู้ใช้ทั่วไปจะชนเพดานของโมเดลพรีวิวแบบเสียเงิน
- เคยชอบ Gemini มากกว่า ChatGPT มาก แต่ช่วงหลังแพ็กเกจ Pro มีลิมิตวันละ 100 ข้อความ ส่วน AI Studio ดูเหมือนยังไม่มีลิมิต
- สงสัยว่าทำไมไม่ใช้ API ผ่านตัวกลางอย่าง openrouter
Gemini รุ่นก่อน ๆ รู้สึกว่ายังด้อยกว่า Claude 3.7 Sonnet สำหรับงานช่วยเขียนโค้ด (ส่วน 4 ยิ่งแย่กว่า) เวอร์ชันใหม่ก็ยังไม่คิดจะลองจนกว่าจะมีคนประเมินออกมาก่อน เห็นกระแสชม Gemini บนอินเทอร์เน็ตเยอะมากจนขัดกับประสบการณ์ตัวเอง เลยอดสงสัยไม่ได้ว่ามีการตลาดโจ่งแจ้งหรือกระแสปั่นปนอยู่หรือเปล่า
- มีความเห็นว่าการประเมินโมเดลขึ้นกับว่าคุณเอาไปทำอะไรจริง ๆ Claude 3.5/3.7 Sonnet สำหรับ C/C++/Make/CMake นั้นแทบไร้ประโยชน์ ทั้งข้อมูลผิด โค้ดที่เป็นไปไม่ได้ ไวยากรณ์หรือ API ที่แต่งขึ้นมั่ว ๆ และความขัดแย้งเชิงตรรกะ เป็นประสบการณ์ที่แย่มาก Gemini 2.5-pro กับ o3 กลับดีแบบทิ้งห่าง จนทั้งทีมยังบอกว่าเหนือกว่า Claude อาจเก่งกับ TypeScript หรือ Ruby ก็ได้ แต่ในงานของผมอย่างน้อย Gemini ไม่ได้ดีเพราะโฆษณาเกินจริง
- ยังไม่เคยใช้ Claude แต่ Gemini ให้คำตอบกับคำถามประจำวันดีกว่า ChatGPT หรือ Copilot ตลอด โดยเฉพาะเวลาใช้ค้นหาข้อมูล เช่น วิธีทำบน command line หรือข้อมูลสินค้า Gemini เด่นชัดมาก
- ใช้ Sonnet กับ Gemini สลับกันใน Aider แปลกตรงที่บางปัญหามีแค่โมเดลเดียวที่แก้ได้ และยังมองไม่ออกว่ามีรูปแบบล่วงหน้าอย่างไร
- มีความเห็นว่า Claude 3.7 Sonnet ดีกว่า Gemini ในฐานะ coding assistant แต่สำหรับ data science หรือ Python ETL ที่ซับซ้อน Claude กลับน่าผิดหวัง และ o3 เหนือกว่ามาก
- ใน Roo Code นั้น Claude ใช้ tool ได้เก่งกว่า แต่สไตล์โค้ดที่กระชับของ Gemini ตรงกับรสนิยมมากกว่า เลยใช้ทั้งคู่ปนกัน หรือถ้าตัวหนึ่งพลาดก็สลับไปใช้อีกตัวเพื่อแก้ปัญหา
อยากให้เลิกออกรุ่นพรีวิวแบบเติมแค่วันที่ท้ายชื่อไปเรื่อย ๆ แล้วเปลี่ยนเป็นเพิ่มหมายเลขแพตช์แทนจะดีกว่า
- ถ้าต้องการไม่ให้กระทบ ecosystem ที่สร้างอยู่บนเวอร์ชันเก่า ก็จำเป็นต้องแยกเป็นโมเดลใหม่ทุกครั้งที่มีการอัปเดตใหญ่
ใน Aider ได้สถิติ 82.2 แต่ในทางปฏิบัติก็ยังตามหลังคะแนนทางการของ o3 high อยู่ ลิงก์ Aider leaderboard
- มีคนถามว่า 82.2 นี้เทียบกับ Percent correct ของโมเดลอื่นได้ตรงกันไหม "pure" o3 (high) ได้ 79.6% ส่วน o3 (high) + gpt-4.1 สูงสุดที่ 82.7% Gemini 2.5 Pro Preview 05-06 รุ่นเก่าอยู่ราว 76.9% ถือว่าเป็นการกระโดดที่ใหญ่พอสมควร ตอนนี้ Aider benchmarks น่าจะเป็น benchmark ที่ได้รับความเชื่อถือมากที่สุด
- สิ่งที่น่าทึ่งมากอีกอย่างคือมันถูกกว่าและเร็วกว่ามาก
- มีคนชี้ว่าคะแนนที่พูดถึงนั้นเป็นของพรีวิว 05-06 รุ่นเก่า ไม่ใช่เวอร์ชันใหม่ที่เพิ่งออกวันนี้
มีการอ้างถึงทวีตที่บอกว่า 06-05 ช่วยปิดช่องว่างระหว่าง 03-25 กับ 05-06 ทวีตที่เกี่ยวข้อง
สนใจการเทียบโค้ดกับ Claude 4 Sonnet ตาม ตารางในบล็อกนี้ มันถูกระบุว่าด้อยกว่า Claude 4 Sonnet ค่อนข้างชัด
- แต่จริง ๆ benchmark ส่วนใหญ่ที่ถูกพูดถึงล้วนเกี่ยวกับงานเขียนโปรแกรม และมีแค่ SWE-Bench ที่ Claude ได้คะแนนสูงกว่า ยากจะตัดสินว่า benchmark ไหนสะท้อนงานจริงได้ดีที่สุด แต่ในชุมชน Aider Polyglot ได้รับการยอมรับสูง

Gemini-2.5-pro-preview-06-05

เปรียบเทียบตามเบนช์มาร์กหลัก

ราคาและภาษาที่รองรับ

การใช้งานและคุณสมบัติเพิ่มเติม

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News