Gemini 3.5 Flash
(deepmind.google)- Gemini 3.5 Flash ของ Google DeepMind เป็นโมเดล Preview ที่ยังคงเวลาแฝงต่ำและความสามารถในการขยายระบบของตระกูล Flash พร้อมมอบการให้เหตุผลขั้นสูงสำหรับงานเอเจนต์และงานเขียนโค้ด
- ความสามารถหลักคือ ความเข้าใจแบบมัลติโหมด ที่รองรับทั้งเวิร์กโฟลว์งานยาว การเขียนโค้ดแบบทำซ้ำ และการจัดการข้อความ เสียง ภาพ โค้ด และวิดีโอร่วมกัน
- ตัวอย่างที่เปิดเผยครอบคลุมตั้งแต่การสร้าง UI อย่างรวดเร็ว การสร้างเกมจากงานวิจัย ไปจนถึงการออกแบบเมืองเสมือน โดยเน้นขอบเขตการใช้งานใน งานลักษณะเอเจนต์
- ในเบนช์มาร์ก โมเดลทำคะแนนสูงสุดในตารางหลายรายการ เช่น MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9%, MMMU-Pro 83.6%
- อินพุตรองรับข้อความ ภาพ วิดีโอ เสียง และ PDF ส่วนเอาต์พุตเป็นข้อความ พร้อมรองรับ โทเค็นอินพุต 1M และโทเค็นเอาต์พุต 64k รวมถึงการเรียกใช้ฟังก์ชัน เอาต์พุตแบบมีโครงสร้าง เครื่องมือค้นหา และการรันโค้ด
ตำแหน่งของ Gemini 3.5 Flash
- Gemini 3.5 Flash เป็นโมเดลที่มอบการให้เหตุผลขั้นสูงในระดับ “เวลาแฝงและความสามารถในการขยายแบบ Flash”
- ขอบเขตการใช้งานครอบคลุมเอเจนต์ การเขียนโค้ด งานประจำวัน การให้เหตุผลขั้นสูง ความเข้าใจแบบมัลติโหมด และความเข้าใจคอนเท็กซ์ระยะยาว
- สถานะของโมเดลคือ Preview
งานเป้าหมายที่ระดับเวลาแฝงแบบ Flash
- ทิศทางหลักคือการมอบทั้ง ความเร็วและความฉลาด ไปพร้อมกัน
- มีเป้าหมายเป็นโมเดลที่รักษาความเร็วและความสามารถในการขยายได้ โดยไม่ต้องแลกกับความฉลาด
- รองรับ การให้เหตุผลระยะยาว และงานเขียนโค้ดแบบทำซ้ำ
- รองรับ ความเข้าใจแบบมัลติโหมด ครอบคลุมข้อความ เสียง ภาพ โค้ด และวิดีโอ
ตัวอย่างการใช้งานแบบเอเจนต์
- มีการนำเสนอตัวอย่างงานหลายรายการเพื่อแสดงความสามารถของเอเจนต์ที่ทำงานได้รวดเร็ว
- สร้าง ตัวเลือก UI การชำระเงิน 6 แบบ ในเวลาต่ำกว่า 60 วินาที
- สร้าง การแปลงแฟรกทัล 64 แบบ ได้อย่างรวดเร็ว
- รับอินพุตเป็นงานวิจัย AlphaGo แล้วสร้างเกมอัจฉริยะขึ้นมาเอง
- ประสานเวิร์กโฟลว์หลายแบบเพื่อสร้างและปรับปรุงแบรนด์สำหรับงานระดมทุนด้วยอินพุตเพียงเล็กน้อย
- แปลงคำอธิบายข้อความให้เป็นคอมโพเนนต์ HTML แบบอินเทอร์แอกทีฟที่สมบูรณ์
- ใช้ไลบรารีดนตรี Strudel เพื่อให้เอเจนต์หลายตัวสร้างเพลง
- ประสานทีมเอเจนต์เฉพาะทางเพื่อออกแบบและสร้างเมืองเสมือน
- เปลี่ยนชื่อและจัดโครงสร้างชุดข้อมูลที่ยุ่งเหยิงโดยอัตโนมัติ
- ปล่อยเอเจนต์ให้ปรับปรุงเกมอย่างต่อเนื่องแบบเรียลไทม์
กรณีลูกค้าและการปรับปรุงประสิทธิภาพ
- Armadin ระบุว่า Flash รุ่นล่าสุดของ Gemini ทำคะแนนในเบนช์มาร์กไซเบอร์แบบหลายเทิร์นระยะยาวสูงกว่า Flash 3 อยู่ 42% และมีประสิทธิภาพด้านโทเค็นดีขึ้น 68%
- ในชุดประเมินงานระดับองค์กรของ Box นั้น Gemini 3.5 Flash ทำได้สูงกว่า Gemini 3 Flash อยู่ 19.6%
- ความแม่นยำในการดึงข้อมูลและคำนวณสำหรับลูกค้ากลุ่ม Life Sciences สูงขึ้น 96.4%
- ความแม่นยำในการสร้างรายงานการเงินจากข้อมูลแบบมีโครงสร้างสำหรับ Financial Services สูงขึ้น 46.7%
- Junie ของ JetBrains ประเมินว่า Gemini 3.5 Flash ให้คุณภาพด้านการเขียนโค้ดและการให้เหตุผลใกล้เคียง Gemini Pro ขณะเดียวกันก็ยังคงจุดเด่นด้านความเร็วและต้นทุนของ Flash ไว้
- ประสิทธิภาพการเขียนโค้ดในระดับการให้เหตุผลต่ำเมื่อเทียบกับ Flash รุ่นก่อนหน้าดีขึ้น 10–20%
ผลลัพธ์เบนช์มาร์ก
- Gemini 3.5 Flash ถูกเน้นอย่างชัดเจนว่าเป็นโมเดลสำหรับเวิร์กโฟลว์แบบเอเจนต์
- เบนช์มาร์กด้านการเขียนโค้ด
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
- เบนช์มาร์กด้านเอเจนต์และการใช้เครื่องมือ
- MCP Atlas: 83.6% ซึ่งเป็นคะแนนสูงสุดในตาราง
- Toolathlon: 56.5% ซึ่งเป็นคะแนนสูงสุดในตาราง
- การควบคุม UI และงานเฉพาะทาง
- OSWorld-Verified: 78.4%
- Finance Agent v2: 57.9% ซึ่งเป็นคะแนนสูงสุดในตาราง
- GDPval-AA Elo: 1656
- เบนช์มาร์กแบบมัลติโหมด
- CharXiv Reasoning: 84.2% ซึ่งเป็นคะแนนสูงสุดในตาราง
- MMMU-Pro: 83.6% ซึ่งเป็นคะแนนสูงสุดในตาราง
- Blueprint-Bench 2: 33.6%
- คอนเท็กซ์ระยะยาวและการให้เหตุผล
- MRCR v2 128k average: 77.3%
- MRCR v2 1M pointwise: 26.6% ซึ่งสูงกว่า Gemini 3 Flash และ Gemini 3.1 Pro ที่เปรียบเทียบได้
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
- รายละเอียดวิธีประเมินอยู่ที่ Gemini 3.5 Flash evals methodology
ข้อมูลโมเดลและสภาพแวดล้อมที่ใช้งานได้
- อินพุตรองรับ ข้อความ, ภาพ, วิดีโอ, เสียง, PDF
- เอาต์พุตเป็น ข้อความ
- คอนเท็กซ์และเกณฑ์ความรู้
- โทเค็นอินพุต: 1M
- โทเค็นเอาต์พุต: 64k
- จุดตัดความรู้: มกราคม 2025
- ความสามารถด้านการใช้เครื่องมือ
- การเรียกใช้ฟังก์ชัน
- เอาต์พุตแบบมีโครงสร้าง
- ใช้การค้นหาเป็นเครื่องมือ
- การรันโค้ด
- สภาพแวดล้อมที่ใช้งานได้ ได้แก่ Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity และ Android Studio
- เอกสารสำหรับนักพัฒนาอยู่ที่ Gemini API models documentation
- โมเดลการ์ดอยู่ที่ Gemini 3.5 Flash model card
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
pipx install llm # or brew install llmllm install llm-gemini --upgradellm keys set gemini# paste API key herellm -m gemini-1.5-flash-latest 'a short poem about otters'https://github.com/simonw/llm-gemini/releases/tag/0.1a4
เมื่อเทียบกับการสร้างเองก็ถือว่าไม่แย่ แต่ในบรรดาโมเดลแนวหน้า จุดต่างหลักของ Gemini คือมัลติโมดัลแบบเนทีฟ ตอนนี้ GPT-4o ออกมาแล้ว ผมยังไม่ค่อยเข้าใจว่าทำไมองค์กรที่ไม่ได้ถูกผูกกับ GCP ถึงจะเลือก Gemini ถ้าไม่ได้ประมวลผลหนังสือหรือภาพยนตร์ทั้งเรื่องในครั้งเดียว คอนเท็กซ์ 128k ของ GPT-4o ก็น่าจะพอแล้ว และก็สงสัยว่ามีที่ไหนทำงานในระดับใช้งานจริงที่ลดจาก 1 ล้านเหลือ 1 แสนแล้วทำไม่ได้จริง ๆ หรือเปล่า
จุดแข็งของ Gemini ไม่ใช่ความสามารถในการแก้ปริศนาตรรกะ แต่อยู่ที่ความยาวของคอนเท็กซ์ ถ้ากำลังอ่านสอบ ก็ใส่ตำราทั้งเล่มเข้าไปในแชตได้เลย หรือถ้าต้องใช้ภาษาเก่าที่ตายไปแล้วสำหรับระบบทดสอบเก่าที่ไม่มีข้อมูลบนอินเทอร์เน็ต ก็ใส่คู่มืออ้างอิง 1,300 หน้าเข้าไปแล้วถามได้
เคยพยายามเอา Gemini 1.5 Pro เข้าไปใช้ในเวิร์กโฟลว์หลายอย่าง แต่มันแย่มาก โดยเฉพาะเมื่อใส่วิดีโอหรือเสียงเข้าไป อาการหลอนเยอะจนไม่น่าเชื่อ ผมไม่รู้ว่าโมเดลมัลติโมดัลขนาดเล็กที่หลอนเยอะจะมีกรณีใช้งานจริงในองค์กรส่วนใหญ่ไหม และถ้าเชื่อถือไม่ได้มันก็เป็นแค่ของเล่น
แม้เทียบกับ GPT-4o ซึ่งเป็นโมเดลมัลติโมดัลที่ถูกที่สุดของ OpenAI แล้ว GPT-3.5-Turbo มีค่าใช้จ่าย 1/10 ของ GPT-4o อยู่ที่ $0.5 ต่ออินพุต 1 ล้านโทเค็น, $1.50 ต่อเอาต์พุต 1 ล้านโทเค็น และมีหน้าต่างคอนเท็กซ์ 16K ส่วน Gemini 1.5 Flash อยู่ที่ $0.35 ต่ออินพุต 1 ล้านโทเค็น และ $0.53 ต่อเอาต์พุต 1 ล้านโทเค็น สำหรับพรอมป์ต์ไม่เกิน 128K สำหรับงานมัลติโมดัลที่ไม่ต้องการสติปัญญาระดับ GPT-4 โดยเฉพาะงานประมวลผลเอกสาร Gemini Flash ดูเหมือนจะ ลดต้นทุนได้เกือบ 95%
คุณไม่ต้องคิดซ้ำสองตอนใส่คอนเท็กซ์ และไม่ต้องสร้างวิธีอ้อม ๆ เพื่อจัดการกรณีคอนเท็กซ์เกิน ถ้ากรณีใช้งานส่วนใหญ่เป็นการจัดการข้อความมากกว่ามัลติโมดัล ข้อดีก็ค่อนข้างชัดเจน
ลองไปห้าหกครั้งแล้วก็ยอมแพ้ หวังว่าเวอร์ชันนี้จะเร็วและเสถียรกว่าเดิม
ตามสัญชาตญาณแล้ว ยิ่งคอนเท็กซ์ยาวขึ้น ก็น่าจะยิ่งชนขีดจำกัดของการอัดความเข้าใจจำนวนมากไว้ในจุดเดียวของเวกเตอร์สเปซ และน่าจะต้องมีสถาปัตยกรรมที่ดีกว่าสำหรับเลือกส่วนที่เกี่ยวข้องจากคอนเท็กซ์
ไม่แน่ใจว่าเป็นข้อมูลสาธารณะหรือไม่ แต่ขนาดมิติของ embedding เป็นทางเลือกเชิงสถาปัตยกรรม ผมมองว่ามันเป็นปัญหาของการออกแบบและข้อจำกัดด้านทรัพยากรมากกว่าขีดจำกัดเชิงหลักการ
ถ้ามีบทความที่เกี่ยวข้องหรือแหล่งอ่านเพิ่มเติมก็อยากให้แนะนำ
จำนวน head หรือขนาด key vector ก็เพิ่มได้ทุกเมื่อ
แต่จริง ๆ มีแค่ตัวละครบางส่วน คำอธิบายประกอบก็ไม่ค่อยดี และเสียค่าใช้จ่ายประมาณ $20 ถ้าลอง 10 ครั้ง ก็อยู่ในระดับที่ดีพอจะหลอกคุณได้สักไม่กี่ครั้งเท่านั้น
แต่เราไม่ควรปล่อยให้มันกลายเป็นอนาคต
ถ้าลองไล่ดูรายการโมเดลผ่าน API ของ Google เอง ดูเหมือนว่าพวกเขามีโมเดลราว 10 ตัวผ่านเส้นทางที่ใน Google Cloud Console เรียกว่า Generative Language API แต่ในเอกสารเรียกว่า Gemini API ชื่อโมเดลมีมากกว่า 10 ชื่อ แต่บางโมเดลมี alias หลายชื่อ
ในบรรดานั้นมีแค่ 3 โมเดลที่มีข้อมูลราคาในหน้าเอกสารราคาของ Gemini API และใน 3 ตัวนั้น 2 ตัวเป็นพรีวิว ราคาจึงจะมีผลในอนาคต ใน Generative Language API บนคอนโซล มีราคาแสดงเฉพาะโมเดลเดียวที่ไม่ใช่พรีวิวและเป็นโมเดลเดียวกับ 1 ใน 3 ตัวบนหน้าเอกสาร ส่วนรายการ Cloud SKU ไม่มี Generative Language API และแม้จะมี Gemini API ก็มีแค่โมเดลเดียวกันนั้นเท่านั้น หน้า Console ลิงก์ไปยัง Cloud Price list ว่าเป็น “ราคาล่าสุด” แต่ในนั้นไม่มีทั้ง Generative Language API หรือ Gemini API เลย ไม่เข้าใจว่าทำไมถึงมีรายการที่ต่างกันเยอะขนาดนี้
ผมอยากรู้จริง ๆ ว่า LLM แบบอิงอักขระจะเทียบกันอย่างไร ถ้าคอนเท็กซ์ 2 ล้าน ความคอขวดด้านการคำนวณก็จะจางลง แต่ก็ไม่ค่อยแน่ใจว่าขนาดของคำศัพท์มีบทบาทอย่างไร เนื่องจาก embedding เก็บความรู้ส่วนใหญ่ไว้แล้ว คำศัพท์ขนาดใหญ่อาจสำคัญก็ได้ ในทางกลับกัน ถ้าใช้คำศัพท์แบบอิงอักขระ ก็น่าจะแก้ปัญหาหลายอย่างได้ เช่น glitch token, การคำนวณเลข, และฉันทลักษณ์ การทำและฝึก subword tokenizer ให้ถูกต้องก็ดูค่อนข้างซับซ้อน แต่ในระดับอักขระควรจะเรียบง่ายมาก
ในเซิร์ฟเวอร์ inference หน่วยความจำส่วนใหญ่จะถูกใช้ไปกับ KV cache และถ้าจะสะสม embedding ผ่าน attention ก็ต้องเชื่อมโยงโทเค็นจำนวนมากขึ้นมากเข้าด้วยกัน โดยที่แต่ละโทเค็นมี “ความหมาย” อ่อนกว่า เราอาจไปถึงจุดนั้นสักวันหนึ่ง ท้ายที่สุดแล้วเราคงต้องการ LLM แบบมัลติโมดัลที่เข้าใจภาพและเสียงลงไปถึงระดับพิกเซลและความถี่ และก็คงอยากให้ข้อความเป็นแบบนั้นในที่สุดด้วย
อย่างน้อยโดยทั่วไปผมมองว่าเป็นเช่นนั้น แนวทางนี้น่าจะให้คุณภาพสูงกว่าตัวอักษรโรมัน ผมสงสัยว่าจะทดสอบได้ไหมเพียงแค่เปรียบเทียบว่า LLM จัดการภาษาอังกฤษกับภาษาจีนอย่างไร
อย่างที่สอง โมเดลเหล่านี้โดยคร่าว ๆ จะเปลี่ยนโทเค็นในชั้น embedding ให้เป็น “ความหมายเฉลี่ย” แล้วชั้น attention จะรวมความหมายเข้าด้วยกัน ส่วนชั้น feedforward จะปรับชุดความหมายปัจจุบันให้เข้ากับบางอย่างอย่างต้นแบบหรือ prototype ที่เรียนรู้มา เมื่อเลื่อนจากชิ้นส่วนคำลงไปเป็นอักขระ ทั้งหมดนี้จะยิ่งสับสนขึ้น เช่น “a” มีความหมายเฉลี่ยว่าอะไรตั้งแต่แรกก็ยังคลุมเครือ ดังนั้นผมคิดว่าเรายังไม่มีเทคนิคเพียงพอในการฝึกโมเดลอิงอักขระให้ดี
เป็นการคาดเดาแบบไม่ค่อยรู้อะไรมาก แต่คงเป็นเพราะ transformer ไม่ใช่ตัวรู้จำรูปแบบทั่วไป แต่จับรูปแบบได้เฉพาะในระดับความละเอียดบางอย่างเท่านั้น
“ChatGPT” เป็นชื่อที่ค่อนข้างแข็งและซับซ้อน และ OpenAI ก็ให้ความรู้สึกเหมือนองค์กรไร้ใบหน้า แน่นอนว่าอาจเปลี่ยนได้ แต่ ณ จุดนี้ก็ดูค่อนข้างสายไปแล้ว ตอนออกสู่ตลาด พวกเขาน่าจะมีเงินพอที่จะทำให้สร้างสรรค์กว่านี้
“GPT4o” เอาจริงเหรอ? แม้แต่ “GPT4 Omni” ยังพูดคุยกันง่ายกว่า และนั่นก็เป็นความหมายของ “o” ด้วย พวกเขาประเมินต่ำเกินไปอย่างมากว่าผู้ใช้ทั่วไปมีจำนวนมากแค่ไหน
GPT-4 turbo(gpt-4-0125-preview) 31.0, GPT-4o 30.7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7, GPT-4 turbo(gpt-4-1106-preview) 28.8, Claude 3 Opus 27.3, GPT-4(0613) 26.1, Llama 3 Instruct 70B 24.0, Gemini Pro 1.5 19.9, Mistral Large 17.7, Gemini 1.5 Flash 15.3, Mistral Medium 15.0, Gemini Pro 1.0 14.2, Llama 3 Instruct 8B 12.3, Mixtral-8x22B Instruct 12.2
ตาม https://ai.google.dev/pricing ดูเหมือนจะตั้งราคาถูกกว่า gpt3.5-turbo เล็กน้อย แต่ก็ไม่รู้ว่าในทางปฏิบัติเทียบกันอย่างไร
ผมลองใช้ Gemini Pro กับ ChatGPT 4 ควบคู่กันอยู่หลายเดือนในการเขียนโค้ดจริง สถาปัตยกรรมระบบ และคำถามทั่วไปเป็นครั้งคราว แต่ ChatGPT มีประโยชน์มากกว่าอย่างน้อย 80% Gemini ตอบผิด หรืออ้อมค้อมยืดยาวกว่าจะไปถึงคำตอบที่มีประโยชน์จนไม่คุ้มใช้ สิ่งที่ผมต้องการไม่ใช่ความเร็วที่มากขึ้น บางทีตอนนี้มันอาจ “ฉลาด” ขึ้น หรือก็คือมีประโยชน์มากขึ้นแล้วก็ได้