Google เปิดตัว Gemini 2.5 Flash/Pro อย่างเป็นทางการ และเผยโมเดล `Flash-Lite`

(blog.google)

1 คะแนน โดย GN⁺ 2025-06-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

พร้อมกับการเปิดตัว Gemini 2.5 Flash และ Pro รุ่นใช้งานจริงอย่างเป็นทางการ ได้มีการเผย รุ่นพรีวิวของ Flash-Lite ซึ่งเป็นโมเดลที่ถูกและเร็วที่สุด
Flash-Lite ถูกออกแบบมาสำหรับ งานที่ไวต่อความหน่วง เช่น การแปลและการจัดประเภท และให้ เวลาแฝงต่ำกว่า 2.0 Flash/Flash-Lite พร้อม คุณภาพโดยรวมที่สูงกว่า
โมเดล 2.5 ทั้งหมดรองรับความสามารถอย่าง อินพุตแบบมัลติโหมด, ความยาวคอนเท็กซ์ 1M โทเค็น, การเชื่อมต่อเครื่องมือ (เช่น ค้นหา, รันโค้ด) และ สลับโหมด Thinking ได้
ออกแบบโดยคำนึงถึง การเพิ่มประสิทธิภาพด้านสมรรถนะต่อค่าใช้จ่าย (Pareto Frontier) ทำให้มีไลน์ผลิตภัณฑ์ที่เหมาะกับการรองรับทราฟฟิกขนาดใหญ่
Flash-Lite และ Flash ถูก ปรับแต่งเพื่อใช้งานกับการค้นหาด้วย และนักพัฒนาสามารถใช้งานรุ่นพรีวิวหรือรุ่นใช้งานจริงได้ใน Google AI Studio และ Vertex AI

จุดเด่นของ Flash-Lite

เป็น โมเดลที่ถูกและเร็วที่สุด โดยมีค่าบริการที่ $0.10 ต่ออินพุต 1 ล้านโทเค็น และ $0.40 ต่อเอาต์พุต 1 ล้านโทเค็น
คุ้มค่าด้านสมรรถนะเมื่อเทียบกับต้นทุน จึงเหมาะเป็นพิเศษกับงานอย่างการแปล การจัดประเภท และงานที่มีคำขอปริมาณมาก
คุณภาพโดยรวมดีขึ้นจาก 2.0 Flash-Lite รุ่นก่อนหน้า โดยเกณฑ์ วิทยาศาสตร์ (GPQA) ดีขึ้นจาก 64.6% → 66.7% และ คณิตศาสตร์ (AIME 2025) ดีขึ้นจาก 49.8% → 63.1%
ในด้าน การสร้างและแก้ไขโค้ด ทำได้ที่ 34.3% และ 27.1% ตามลำดับ ซึ่งยังต่ำกว่าโมเดลสมรรถนะสูง แต่เป็นทางเลือกที่คุ้มค่าต่อราคา
สมรรถนะด้าน การประมวลผลมัลติโหมด คงไว้ที่ 72.9% และ ความเข้าใจภาพ ปรับดีขึ้นจาก 51.3% เป็น 57.5%
เมื่อเปิดใช้ โหมดการให้เหตุผล (Thinking) ความแม่นยำโดยรวมจะสูงขึ้น เช่น ใน HumanEval เพิ่มจาก 5.1% → 6.9% และใน SWE-bench multi-task เพิ่มจาก 42.6% → 44.9%
ในด้าน ความเป็นข้อเท็จจริง (SimpleQA) และ ความเข้าใจบริบทยาว (MRCR) สมรรถนะในโหมด Thinking ดีขึ้นอย่างชัดเจน โดยเฉพาะความแม่นยำของบริบทยาวในระดับ 1M โทเค็น เพิ่มจาก 5.4% เป็น 16.8% หรือมากกว่า 3 เท่า
ความสามารถหลายภาษา (MMLU) ก็สูงขึ้นเช่นกัน โดยในโหมด Non-thinking อยู่ที่ 81.1% และในโหมด Thinking สูงถึง 84.5%

ดู รายละเอียดทางเทคนิค ของตระกูลโมเดล Gemini 2.5 ได้ที่ Gemini technical report

1 ความคิดเห็น

GN⁺ 2025-06-18

ความคิดเห็นจาก Hacker News

ในโพสต์ของ Google ไม่ได้พูดถึงเรื่องนี้ แต่ดูเหมือนว่าจะมีการขึ้นราคาของโมเดล Gemini 2.5 Flash รวมอยู่ด้วย
ราคาแบบ archived ของ 2.5 Flash Preview เดิมคือ อินพุตข้อความ/ภาพ/วิดีโอ $0.15 ต่อ 1 ล้านโทเคน, เสียง $1.00, เอาต์พุตแบบ non-thinking $0.60 และแบบ thinking $3.50
ในราคาใหม่ การแยกระหว่าง thinking กับ non-thinking หายไปแล้ว
อินพุตข้อความ/ภาพ/วิดีโอเพิ่มเป็น $0.30 ต่อ 1 ล้านโทเคน หรือขึ้น 2 เท่า, เสียงยังเท่าเดิมที่ $1.00, และเอาต์พุตเป็น $2.50 ต่อ 1 ล้านโทเคน ซึ่งแพงกว่า non-thinking เดิมมาก แต่ถูกกว่า thinking เดิม
ดูรายละเอียดราคาเพิ่มเติมได้ที่นี่
- มีข้อมูลเพิ่มเติมเกี่ยวกับการเปลี่ยนแปลงราคาบนบล็อกโพสต์
  ลิงก์อ้างอิงเพิ่มเติม
- เคยมีคนพูดว่าเทคโนโลยี AI จะถูกลงมากในไม่ช้า แต่ตอนนี้กลับเป็นช่วงที่ราคากำลังเพิ่มขึ้น
- ตอน Gemini เปิดตัวครั้งแรก รู้สึกว่าราคาถูกเกินไปจนถูกกว่าคู่แข่งมาก และตอนนี้เหมือนเพิ่งสะท้อนราคาที่สมจริงมากขึ้น
- ขึ้นราคา 2 เท่าแบบหน้าตาเฉย
  ถ้านึกถึงว่า Gemini 2.0 Flash เคยอยู่ที่ $0.10/$0.40 ก็ยิ่งรู้สึกถึงแรงกระแทกของการขึ้นราคา
- เห็นการเปลี่ยนแปลงนี้ได้คมมาก
  คิดว่านี่เป็นการเปลี่ยนแปลงสำคัญพอสมควรสำหรับ Gemini ที่เคยมีลุ้นเป็น GOAT ในด้าน audio-to-audio
ช่วงหนึ่งตอนที่ Gemini Pro เปิดให้ใช้ฟรีใน AI Studio คิดว่าคนใช้กันเยอะมาก
หลังจากนั้นประสิทธิภาพกลับแย่ลง และตอนนี้งานสำคัญก็กลับไปใช้ Claude
Gemini ให้ความรู้สึกเหมือนเพื่อนที่พูดเรื่องไม่จำเป็นเยอะเกินไป
ถึงอย่างนั้นก็ยังใช้บ่อยเวลา brainstorm แล้วค่อยเอา prompt ที่ Gemini สร้างไปขัดเกลาเพื่อใช้กับ Claude
- ถ้าดู Aider leaderboard, Gemini ไม่ได้เหนือกว่าตลอดตามประสบการณ์ของฉัน
  ฉันใช้แค่ Aider API โดยตรง เลยไม่มีประสบการณ์กับ AI Studio
  Claude ทำงานได้ดีแม้ prompt จะไม่ดีนัก โดยเฉพาะเวลาทิศทางยังไม่ชัด มันมีเซนส์ที่ดี
  ถ้าฉันมีทิศทางที่ต้องการชัดเจน Gemini 2.5 Pro (เปิด Thinking) จะดีกว่า และโค้ดรันได้เสถียรกว่า
  ใน o4-mini กับ o3 จะให้ความรู้สึกว่า "คิดฉลาด" กว่าเล็กน้อย แต่โค้ดไม่เสถียรนัก (Gemini เสถียรกว่า)
  ยิ่งความซับซ้อนเพิ่มขึ้น Claude ดูจะยิ่งอ่อนลง และสำหรับฉัน Gemini กับ o3 ได้คะแนนสูงกว่า
  ตั้งแต่ o3-mini ออกมาก็ไม่เคยกลับไปหา Claude อีกเลย
- ฉันก็มีประสบการณ์คล้ายกัน
  ช่วงแรกเหมือนจะแก้ปัญหาซับซ้อนได้ดี แต่กับงานง่ายกลับปรับจูนยาก
  คำตอบยืดยาวเกินไป และเพราะ UX สำคัญที่สุด ตอนนี้เลยชอบ UX ของ Claude Code มากกว่า
- ฉันก็เหมือนกัน ถึงจะทำ Gem โดยเขียน prompt แบบ elaborate ให้ตอบสั้นแล้ว ก็ยังยืดยาวอยู่ดี และยังชอบขยายขอบเขตคำถามเกินความจำเป็น ซึ่งน่าหงุดหงิด
- ไม่มีข้อมูลวงใน แต่รู้สึกเหมือนโมเดลถูก quantized
  มีพฤติกรรมอย่างการวนซ้ำตัวอักษรเดิมไม่สิ้นสุด ซึ่งเป็นแพตเทิร์นที่เคยเห็นเฉพาะในโมเดลที่ถูก quantize
- อยากให้ rollback กลับไปใช้ preview รุ่นเก่า
  รุ่น preview สมดุลกว่าและยังโต้แย้งที่มีประโยชน์ได้จริง แต่รุ่น GA กลับกลายเป็นมีน้ำเสียงเห็นด้วยเกินไป
ฉันประทับใจกับ Gemini มากจนเลิกใช้ OpenAI ไปแล้ว
บางครั้งก็ทดสอบทั้งสามโมเดลผ่าน OpenRouter แต่ตอนนี้ใช้ Gemini มากกว่า 90%
ถ้าเทียบกับปีก่อนที่ 90% เป็น ChatGPT ก็ถือว่าเปลี่ยนไปมาก
- ปกติฉันค่อนข้างวิจารณ์ Google แต่ครั้งนี้รู้สึกว่าโมเดลพวกนี้ยอดเยี่ยมจริง
  โดยเฉพาะ context window ที่กว้างมาก ถือว่าใหญ่มาก
- ฉันก็เหมือนกัน รอบนี้ยกเลิกสมาชิก Claude ไปแล้ว และคิดว่า Gemini กำลังไล่ตามได้เร็วมาก
คิดว่าประกาศครั้งนี้ทำให้ Flash Lite ถูกยกระดับจาก "ไร้ประโยชน์" เป็น "เครื่องมือที่มีประโยชน์"
Flash Lite ราคาถูก และจุดแข็งที่สุดคือ "เร็ว" โดยแทบจะตอบกลับภายใน 1 วินาทีเสมอ (ต่ำสุด 200ms, เฉลี่ย 400ms)
ในบริการของเรา Brokk(brokk.ai) ตอนนี้ก็ใช้ Flash 2.0 (Non-Lite) สำหรับ Quick Edits อยู่ และกำลังพิจารณานำ 2.5 Lite มาใช้รอบนี้
ยังสงสัยว่าระหว่างโมเดลที่ด้อยกว่า Flash 2.5 ซึ่งช้าลงเพราะ Thinking จะมีที่ทางใช้งานอย่างไร
เพราะงานที่ต้องการการตอบสนองเร็ว พอเปิด thinking แล้วความเร็วก็ช้าลงจนก้ำกึ่ง
- สำหรับฉัน ถ้ามันคิดได้เร็วพอ ก็ไม่ค่อยสนว่ามันจะใช้ thinking มากแค่ไหน
อยากรู้ว่าคนใช้ Gemini นอกสายงานโค้ดดิ้งใช้มันอย่างไร และเลือกเพราะอะไร
เวลา build แอป มีการออกแบบให้เปลี่ยน GenAI backend ได้หรือไม่ หรือมีการทำ load balancing หลายผู้ให้บริการเพราะเรื่องราคาและความน่าเชื่อถือหรือเปล่า และถ้าวันหนึ่ง LLM มี spot market จะเกิดอะไรขึ้นบ้าง
- จากประสบการณ์ของฉัน Gemini 2.5 Pro เด่นมากในงานที่ไม่ใช่โค้ด เช่น การแปล, การสรุป (ใช้ร่วมกับ Canva)
  ทำได้เพราะ context window ใหญ่มากและมี usage limit สูง
  โดยเฉพาะการสร้างรายงานวิจัย ฉันคิดว่า Gemini ดีกว่า ChatGPT
  อาจเพราะ Google เก่งเรื่องค้นหา รายงานเลยอิงหลายแหล่งและแม่นยำกว่า
  ฉันยังชอบสไตล์การเขียนมากกว่า และการ export ไป Google Docs ก็สะดวก
  แต่ UI ยังด้อยกว่าคู่แข่งมาก และการไม่มีหรือมีไม่ดีพอของฟีเจอร์หลักอย่าง Custom instruction, Projects, Temporary Chat ก็เป็นข้อเสียใหญ่
- การโยนเอกสาร NDA จำนวนมากเข้าไปทีเดียวแล้วให้มันดึงเฉพาะส่วนที่เกี่ยวข้องออกมาในไม่กี่วินาทีมีประโยชน์มาก
  ด้วย context window ขนาดใหญ่และความสามารถสูงในการดึงข้อมูลที่ต้องการได้ตรงจุด มันเลยเหมาะกับงานแบบนี้มาก
- Gemini Flash 2.0 ถูกมากและเป็นโมเดลที่แข็งแกร่งสำหรับเวิร์กโหลดระดับเอนเทอร์ไพรส์
  ถึงจะไม่ใช่ความฉลาดระดับล้ำสุด แต่ในแง่ราคาถูก ความเร็วสูง และความน่าเชื่อถือของ structured output เวลาพัฒนาระบบแล้วน่าพอใจมาก
  วางแผนจะทดสอบอัปเกรดเป็น 2.5 Lite
- ฉันใช้ lexikon.ai เยอะมาก และใช้ Gemini มากเป็นพิเศษกับงานประมวลผลภาพจำนวนมาก
  ชอบที่ราคา Google Vision API ถูกกว่าผู้ให้บริการรายใหญ่อื่น ๆ (OpenAI, Anthropic) มาก
- ใช้ Gemini 2.5 Flash (ตัวเลือก Non-thinking) เป็นคู่คิด
  มันช่วยจัดระเบียบความคิดของฉัน และยังเสนออินพุตที่ฉันนึกไม่ถึงให้เองด้วย
  ยังใช้กับการทบทวนตัวเอง โดยโยนความคิดหรือความกังวลของตัวเองเข้าไปแล้วดูคำตอบของ AI ประกอบ
อยากรู้ว่าตอนนี้มีใครเข้าถึง 2.5-pro API ไม่ได้บ้างไหม
มี error ว่า "projects/349775993245/locations/us-west4/publishers/google/models/gemini-2.5-pro oel chat-eul su eopgeona jeopgeun gwonhani eopda"
แล้วมีข้อความแนะนำให้ตรวจสอบว่าใช้เวอร์ชันโมเดลที่ถูกต้องหรือไม่
ฉันให้บริการด้านการประมวลผลข้อมูล/อนุมาน LLM ปริมาณมาก และทำ profiling ทั้งต้นทุนและประสิทธิภาพของโมเดล open-weight หลายตัวอยู่มาก
สิ่งที่ยังแปลกในระบบตั้งราคา LLM คือผู้ให้บริการยังคิดเงินแบบเส้นตรงตามจำนวนโทเคนที่ใช้ ทั้งที่ต้นทุนจริงของระบบเพิ่มขึ้นแบบกำลังสองตามความยาวซีเควนซ์
ทุกวันนี้สถาปัตยกรรมโมเดล อัลกอริทึมอนุมาน และฮาร์ดแวร์ส่วนใหญ่คล้ายกันแล้ว ดังนั้นตอนผู้ให้บริการกำหนดราคา ก็ดูเหมือนจะอ้างอิงสถิติย้อนหลังของแพตเทิร์นคำขอจากลูกค้าเยอะพอสมควร
สุดท้าย การที่มีการขึ้นราคาเมื่อได้ข้อมูลรูปแบบการใช้งานจริงมากขึ้นจึงไม่ใช่เรื่องใหม่เลย
เมื่อเทียบกับ 2.0 Flash Lite แล้ว ราคาโอดิโอของ 2.5 Flash Lite เพิ่มขึ้น 6.33 เท่า
อินพุตเสียงของ 2.5 Flash Lite คือ $0.5 ต่อ 1 ล้านโทเคน ขณะที่ 2.0 อยู่ที่ $0.075
เลยสงสัยว่าทำไมราคาโทเคนเสียงถึงขึ้นแรงขนาดนี้
ถ้าสมมติอัตราส่วนโทเคนอินพุตต่อเอาต์พุตเป็น 3:1 ราคาผสมโดยรวมเพิ่มขึ้น 3.24 เท่าจากเดิม และถ้าเทียบกับ 2.0 Flash ก็เกือบ 5 เท่า
ดังนั้น 2.0 Flash ก็น่าจะยังแข่งขันได้ในหลายกรณีใช้งานอยู่ดี (โดยเฉพาะงานนอกเหนือจากโค้ดดิ้ง)
แม้ประสิทธิภาพจะต่ำกว่านิดหน่อย แต่ถ้าแบ่ง prompt ออกเป็นหลายรอบใช้งาน ผลลัพธ์จริงอาจดีกว่าก็ได้
เลยค่อนข้างเสียดาย เพราะคิดว่ารอบนี้ 2.5 Flash จะเป็นตัวเลือกที่เหนือชั้นแบบชัดเจน
(ดูข้อมูลราคาอ้างอิงได้ที่นี่)

Google เปิดตัว Gemini 2.5 Flash/Pro อย่างเป็นทางการ และเผยโมเดล `Flash-Lite`

จุดเด่นของ Flash-Lite

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News