Gemini 3.5 Flash

(deepmind.google)

2 คะแนน โดย GN⁺ 2024-05-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Gemini 3.5 Flash ของ Google DeepMind เป็นโมเดล Preview ที่ยังคงเวลาแฝงต่ำและความสามารถในการขยายระบบของตระกูล Flash พร้อมมอบการให้เหตุผลขั้นสูงสำหรับงานเอเจนต์และงานเขียนโค้ด
ความสามารถหลักคือ ความเข้าใจแบบมัลติโหมด ที่รองรับทั้งเวิร์กโฟลว์งานยาว การเขียนโค้ดแบบทำซ้ำ และการจัดการข้อความ เสียง ภาพ โค้ด และวิดีโอร่วมกัน
ตัวอย่างที่เปิดเผยครอบคลุมตั้งแต่การสร้าง UI อย่างรวดเร็ว การสร้างเกมจากงานวิจัย ไปจนถึงการออกแบบเมืองเสมือน โดยเน้นขอบเขตการใช้งานใน งานลักษณะเอเจนต์
ในเบนช์มาร์ก โมเดลทำคะแนนสูงสุดในตารางหลายรายการ เช่น MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9%, MMMU-Pro 83.6%
อินพุตรองรับข้อความ ภาพ วิดีโอ เสียง และ PDF ส่วนเอาต์พุตเป็นข้อความ พร้อมรองรับ โทเค็นอินพุต 1M และโทเค็นเอาต์พุต 64k รวมถึงการเรียกใช้ฟังก์ชัน เอาต์พุตแบบมีโครงสร้าง เครื่องมือค้นหา และการรันโค้ด

ตำแหน่งของ Gemini 3.5 Flash

Gemini 3.5 Flash เป็นโมเดลที่มอบการให้เหตุผลขั้นสูงในระดับ “เวลาแฝงและความสามารถในการขยายแบบ Flash”
ขอบเขตการใช้งานครอบคลุมเอเจนต์ การเขียนโค้ด งานประจำวัน การให้เหตุผลขั้นสูง ความเข้าใจแบบมัลติโหมด และความเข้าใจคอนเท็กซ์ระยะยาว
สถานะของโมเดลคือ Preview

งานเป้าหมายที่ระดับเวลาแฝงแบบ Flash

ทิศทางหลักคือการมอบทั้ง ความเร็วและความฉลาด ไปพร้อมกัน
- มีเป้าหมายเป็นโมเดลที่รักษาความเร็วและความสามารถในการขยายได้ โดยไม่ต้องแลกกับความฉลาด
รองรับ การให้เหตุผลระยะยาว และงานเขียนโค้ดแบบทำซ้ำ
รองรับ ความเข้าใจแบบมัลติโหมด ครอบคลุมข้อความ เสียง ภาพ โค้ด และวิดีโอ

ตัวอย่างการใช้งานแบบเอเจนต์

มีการนำเสนอตัวอย่างงานหลายรายการเพื่อแสดงความสามารถของเอเจนต์ที่ทำงานได้รวดเร็ว
- สร้าง ตัวเลือก UI การชำระเงิน 6 แบบ ในเวลาต่ำกว่า 60 วินาที
- สร้าง การแปลงแฟรกทัล 64 แบบ ได้อย่างรวดเร็ว
- รับอินพุตเป็นงานวิจัย AlphaGo แล้วสร้างเกมอัจฉริยะขึ้นมาเอง
- ประสานเวิร์กโฟลว์หลายแบบเพื่อสร้างและปรับปรุงแบรนด์สำหรับงานระดมทุนด้วยอินพุตเพียงเล็กน้อย
- แปลงคำอธิบายข้อความให้เป็นคอมโพเนนต์ HTML แบบอินเทอร์แอกทีฟที่สมบูรณ์
- ใช้ไลบรารีดนตรี Strudel เพื่อให้เอเจนต์หลายตัวสร้างเพลง
- ประสานทีมเอเจนต์เฉพาะทางเพื่อออกแบบและสร้างเมืองเสมือน
- เปลี่ยนชื่อและจัดโครงสร้างชุดข้อมูลที่ยุ่งเหยิงโดยอัตโนมัติ
- ปล่อยเอเจนต์ให้ปรับปรุงเกมอย่างต่อเนื่องแบบเรียลไทม์

กรณีลูกค้าและการปรับปรุงประสิทธิภาพ

Armadin ระบุว่า Flash รุ่นล่าสุดของ Gemini ทำคะแนนในเบนช์มาร์กไซเบอร์แบบหลายเทิร์นระยะยาวสูงกว่า Flash 3 อยู่ 42% และมีประสิทธิภาพด้านโทเค็นดีขึ้น 68%
ในชุดประเมินงานระดับองค์กรของ Box นั้น Gemini 3.5 Flash ทำได้สูงกว่า Gemini 3 Flash อยู่ 19.6%
- ความแม่นยำในการดึงข้อมูลและคำนวณสำหรับลูกค้ากลุ่ม Life Sciences สูงขึ้น 96.4%
- ความแม่นยำในการสร้างรายงานการเงินจากข้อมูลแบบมีโครงสร้างสำหรับ Financial Services สูงขึ้น 46.7%
Junie ของ JetBrains ประเมินว่า Gemini 3.5 Flash ให้คุณภาพด้านการเขียนโค้ดและการให้เหตุผลใกล้เคียง Gemini Pro ขณะเดียวกันก็ยังคงจุดเด่นด้านความเร็วและต้นทุนของ Flash ไว้
- ประสิทธิภาพการเขียนโค้ดในระดับการให้เหตุผลต่ำเมื่อเทียบกับ Flash รุ่นก่อนหน้าดีขึ้น 10–20%

ผลลัพธ์เบนช์มาร์ก

Gemini 3.5 Flash ถูกเน้นอย่างชัดเจนว่าเป็นโมเดลสำหรับเวิร์กโฟลว์แบบเอเจนต์
เบนช์มาร์กด้านการเขียนโค้ด
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
เบนช์มาร์กด้านเอเจนต์และการใช้เครื่องมือ
- MCP Atlas: 83.6% ซึ่งเป็นคะแนนสูงสุดในตาราง
- Toolathlon: 56.5% ซึ่งเป็นคะแนนสูงสุดในตาราง
การควบคุม UI และงานเฉพาะทาง
- OSWorld-Verified: 78.4%
- Finance Agent v2: 57.9% ซึ่งเป็นคะแนนสูงสุดในตาราง
- GDPval-AA Elo: 1656
เบนช์มาร์กแบบมัลติโหมด
- CharXiv Reasoning: 84.2% ซึ่งเป็นคะแนนสูงสุดในตาราง
- MMMU-Pro: 83.6% ซึ่งเป็นคะแนนสูงสุดในตาราง
- Blueprint-Bench 2: 33.6%
คอนเท็กซ์ระยะยาวและการให้เหตุผล
- MRCR v2 128k average: 77.3%
- MRCR v2 1M pointwise: 26.6% ซึ่งสูงกว่า Gemini 3 Flash และ Gemini 3.1 Pro ที่เปรียบเทียบได้
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
รายละเอียดวิธีประเมินอยู่ที่ Gemini 3.5 Flash evals methodology

ข้อมูลโมเดลและสภาพแวดล้อมที่ใช้งานได้

อินพุตรองรับ ข้อความ, ภาพ, วิดีโอ, เสียง, PDF
เอาต์พุตเป็น ข้อความ
คอนเท็กซ์และเกณฑ์ความรู้
- โทเค็นอินพุต: 1M
- โทเค็นเอาต์พุต: 64k
- จุดตัดความรู้: มกราคม 2025
ความสามารถด้านการใช้เครื่องมือ
- การเรียกใช้ฟังก์ชัน
- เอาต์พุตแบบมีโครงสร้าง
- ใช้การค้นหาเป็นเครื่องมือ
- การรันโค้ด
สภาพแวดล้อมที่ใช้งานได้ ได้แก่ Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity และ Android Studio
เอกสารสำหรับนักพัฒนาอยู่ที่ Gemini API models documentation
โมเดลการ์ดอยู่ที่ Gemini 3.5 Flash model card

1 ความคิดเห็น

GN⁺ 2024-05-15

ความคิดเห็นจาก Hacker News

ผมอัปเกรดปลั๊กอิน llm-gemini เพื่อให้รองรับ การเข้าถึง Gemini Flash ผ่าน CLI แล้ว
pipx install llm # or brew install llm
llm install llm-gemini --upgrade
llm keys set gemini
# paste API key here
llm -m gemini-1.5-flash-latest 'a short poem about otters'
https://github.com/simonw/llm-gemini/releases/tag/0.1a4
ถ้าดูจากเบนช์มาร์กอย่าง MMLU นี่ดูเหมือนจะหมายความว่าโดยพื้นฐานแล้วเป็นโมเดลที่มี คุณภาพระดับ Llama 3 70B โดยมีความหน่วงของโทเค็นแรกต่ำกว่า 1 วินาที และแม้จะยังไม่ถึงระดับ GPT-4/Opus แต่ก็มีมัลติโมดัลแบบเนทีฟและ คอนเท็กซ์ 1 ล้าน
เมื่อเทียบกับการสร้างเองก็ถือว่าไม่แย่ แต่ในบรรดาโมเดลแนวหน้า จุดต่างหลักของ Gemini คือมัลติโมดัลแบบเนทีฟ ตอนนี้ GPT-4o ออกมาแล้ว ผมยังไม่ค่อยเข้าใจว่าทำไมองค์กรที่ไม่ได้ถูกผูกกับ GCP ถึงจะเลือก Gemini ถ้าไม่ได้ประมวลผลหนังสือหรือภาพยนตร์ทั้งเรื่องในครั้งเดียว คอนเท็กซ์ 128k ของ GPT-4o ก็น่าจะพอแล้ว และก็สงสัยว่ามีที่ไหนทำงานในระดับใช้งานจริงที่ลดจาก 1 ล้านเหลือ 1 แสนแล้วทำไม่ได้จริง ๆ หรือเปล่า
- 1 ล้านโทเค็น หมายความว่าคุณใส่เอกสาร 2,000 หน้าเข้าไปในหน้าต่างคอนเท็กซ์ได้ก่อนเริ่มแชต
  จุดแข็งของ Gemini ไม่ใช่ความสามารถในการแก้ปริศนาตรรกะ แต่อยู่ที่ความยาวของคอนเท็กซ์ ถ้ากำลังอ่านสอบ ก็ใส่ตำราทั้งเล่มเข้าไปในแชตได้เลย หรือถ้าต้องใช้ภาษาเก่าที่ตายไปแล้วสำหรับระบบทดสอบเก่าที่ไม่มีข้อมูลบนอินเทอร์เน็ต ก็ใส่คู่มืออ้างอิง 1,300 หน้าเข้าไปแล้วถามได้
- ผมไม่คิดว่านี่จะเป็น คุณภาพระดับ Llama 3 70B ได้เลย
  เคยพยายามเอา Gemini 1.5 Pro เข้าไปใช้ในเวิร์กโฟลว์หลายอย่าง แต่มันแย่มาก โดยเฉพาะเมื่อใส่วิดีโอหรือเสียงเข้าไป อาการหลอนเยอะจนไม่น่าเชื่อ ผมไม่รู้ว่าโมเดลมัลติโมดัลขนาดเล็กที่หลอนเยอะจะมีกรณีใช้งานจริงในองค์กรส่วนใหญ่ไหม และถ้าเชื่อถือไม่ได้มันก็เป็นแค่ของเล่น
- เหตุผลที่องค์กรที่ไม่ได้ถูกผูกกับ GCP จะเลือก Gemini คือ ราคา โดยเฉพาะกับงานมัลติโมดัลที่ไม่ต้องการคุณภาพระดับ GPT-4
  แม้เทียบกับ GPT-4o ซึ่งเป็นโมเดลมัลติโมดัลที่ถูกที่สุดของ OpenAI แล้ว GPT-3.5-Turbo มีค่าใช้จ่าย 1/10 ของ GPT-4o อยู่ที่ $0.5 ต่ออินพุต 1 ล้านโทเค็น, $1.50 ต่อเอาต์พุต 1 ล้านโทเค็น และมีหน้าต่างคอนเท็กซ์ 16K ส่วน Gemini 1.5 Flash อยู่ที่ $0.35 ต่ออินพุต 1 ล้านโทเค็น และ $0.53 ต่อเอาต์พุต 1 ล้านโทเค็น สำหรับพรอมป์ต์ไม่เกิน 128K สำหรับงานมัลติโมดัลที่ไม่ต้องการสติปัญญาระดับ GPT-4 โดยเฉพาะงานประมวลผลเอกสาร Gemini Flash ดูเหมือนจะ ลดต้นทุนได้เกือบ 95%
- คล้ายกับการถามว่าบัญชี Yahoo ขนาด 50MB ก็ดูพอแล้ว ทำไมต้องใช้ Gmail 1GB
  คุณไม่ต้องคิดซ้ำสองตอนใส่คอนเท็กซ์ และไม่ต้องสร้างวิธีอ้อม ๆ เพื่อจัดการกรณีคอนเท็กซ์เกิน ถ้ากรณีใช้งานส่วนใหญ่เป็นการจัดการข้อความมากกว่ามัลติโมดัล ข้อดีก็ค่อนข้างชัดเจน
- เมื่อไม่กี่เดือนก่อนผมพยายามใช้ Gemini กับ 1 ล้านโทเค็น แต่มันแครช หรือไม่ก็ตอบช้ามากแล้วสุดท้ายก็แครช
  ลองไปห้าหกครั้งแล้วก็ยอมแพ้ หวังว่าเวอร์ชันนี้จะเร็วและเสถียรกว่าเดิม
ผมมองว่า คอนเท็กซ์เริ่มต้น 1 ล้านโทเค็น คือฟีเจอร์ใหญ่ตรงนี้ แต่เราต้องมีเบนช์มาร์กที่ดีกว่านี้เพื่อวัดว่ามันหมายถึงอะไรในทางปฏิบัติ
ตามสัญชาตญาณแล้ว ยิ่งคอนเท็กซ์ยาวขึ้น ก็น่าจะยิ่งชนขีดจำกัดของการอัดความเข้าใจจำนวนมากไว้ในจุดเดียวของเวกเตอร์สเปซ และน่าจะต้องมีสถาปัตยกรรมที่ดีกว่าสำหรับเลือกส่วนที่เกี่ยวข้องจากคอนเท็กซ์
- ถ้าพูดถึงการใช้งานจริงในโปรดักชัน ไม่ใช่เดโมที่ไม่ยั่งยืนทางเศรษฐกิจ มัลติโมดัลของโมเดลที่มีต้นทุนต่อโทเค็นเพียง 4~7% เมื่อเทียบกับ โมเดลมัลติโมดัลที่ถูกที่สุดของ OpenAI ถือเป็นฟีเจอร์สำคัญ
- ผมไม่เข้าใจว่าหมายถึง ขีดจำกัดของจุดเดียว ในเวกเตอร์สเปซมิติไหน
  ไม่แน่ใจว่าเป็นข้อมูลสาธารณะหรือไม่ แต่ขนาดมิติของ embedding เป็นทางเลือกเชิงสถาปัตยกรรม ผมมองว่ามันเป็นปัญหาของการออกแบบและข้อจำกัดด้านทรัพยากรมากกว่าขีดจำกัดเชิงหลักการ
- อยากรู้ว่าจะอธิบายให้คนที่พอรู้คร่าว ๆ เรื่องเวกเตอร์และฐานข้อมูลเวกเตอร์เข้าใจได้ไหมว่า การอัดความเข้าใจไว้ใน จุดเดียวของเวกเตอร์สเปซ หมายถึงอะไร
  ถ้ามีบทความที่เกี่ยวข้องหรือแหล่งอ่านเพิ่มเติมก็อยากให้แนะนำ
- เรากำลังจัดการกับ multi-head attention ดังนั้นแต่ละโทเค็นจึงมีหลายจุด
  จำนวน head หรือขนาด key vector ก็เพิ่มได้ทุกเมื่อ
- ในความเป็นจริงมันไม่ได้ดีขนาดนั้น คุณสร้างเดโมที่ดูน่าเชื่อได้ เช่น “ใส่ Harry Potter 6.5 เล่มเข้าไปแล้วมันสร้างแผนที่ SVG ที่เชื่อมโยงตัวละครพร้อมคำอธิบายประกอบ”
  แต่จริง ๆ มีแค่ตัวละครบางส่วน คำอธิบายประกอบก็ไม่ค่อยดี และเสียค่าใช้จ่ายประมาณ $20 ถ้าลอง 10 ครั้ง ก็อยู่ในระดับที่ดีพอจะหลอกคุณได้สักไม่กี่ครั้งเท่านั้น
น่าสนใจที่เป็น โมเดลเบา แต่ใช้ได้เฉพาะบนคลาวด์ บริษัทเทคโนโลยียักษ์ใหญ่พวกนี้มีเจตจำนงแรงกล้าจริง ๆ ที่จะเป็นเจ้าของแม้กระทั่งปริมาณการใช้งาน AI
แต่เราไม่ควรปล่อยให้มันกลายเป็นอนาคต
สิ่งหนึ่งที่ OpenAI ทำได้ดีกว่า Google คือการ เปิดเผยราคา API จริง ๆ และการตั้งชื่อก็ค่อนข้างสม่ำเสมอ
ถ้าลองไล่ดูรายการโมเดลผ่าน API ของ Google เอง ดูเหมือนว่าพวกเขามีโมเดลราว 10 ตัวผ่านเส้นทางที่ใน Google Cloud Console เรียกว่า Generative Language API แต่ในเอกสารเรียกว่า Gemini API ชื่อโมเดลมีมากกว่า 10 ชื่อ แต่บางโมเดลมี alias หลายชื่อ
ในบรรดานั้นมีแค่ 3 โมเดลที่มีข้อมูลราคาในหน้าเอกสารราคาของ Gemini API และใน 3 ตัวนั้น 2 ตัวเป็นพรีวิว ราคาจึงจะมีผลในอนาคต ใน Generative Language API บนคอนโซล มีราคาแสดงเฉพาะโมเดลเดียวที่ไม่ใช่พรีวิวและเป็นโมเดลเดียวกับ 1 ใน 3 ตัวบนหน้าเอกสาร ส่วนรายการ Cloud SKU ไม่มี Generative Language API และแม้จะมี Gemini API ก็มีแค่โมเดลเดียวกันนั้นเท่านั้น หน้า Console ลิงก์ไปยัง Cloud Price list ว่าเป็น “ราคาล่าสุด” แต่ในนั้นไม่มีทั้ง Generative Language API หรือ Gemini API เลย ไม่เข้าใจว่าทำไมถึงมีรายการที่ต่างกันเยอะขนาดนี้
ดูเหมือนว่าความยาวคอนเท็กซ์จะเหลือเฟือสำหรับงานส่วนใหญ่แล้ว เลยสงสัยว่าทำไมยังใช้ โทเค็นแบบซับเวิร์ด กันอยู่

ผมอยากรู้จริง ๆ ว่า LLM แบบอิงอักขระจะเทียบกันอย่างไร ถ้าคอนเท็กซ์ 2 ล้าน ความคอขวดด้านการคำนวณก็จะจางลง แต่ก็ไม่ค่อยแน่ใจว่าขนาดของคำศัพท์มีบทบาทอย่างไร เนื่องจาก embedding เก็บความรู้ส่วนใหญ่ไว้แล้ว คำศัพท์ขนาดใหญ่อาจสำคัญก็ได้ ในทางกลับกัน ถ้าใช้คำศัพท์แบบอิงอักขระ ก็น่าจะแก้ปัญหาหลายอย่างได้ เช่น glitch token, การคำนวณเลข, และฉันทลักษณ์ การทำและฝึก subword tokenizer ให้ถูกต้องก็ดูค่อนข้างซับซ้อน แต่ในระดับอักขระควรจะเรียบง่ายมาก

กลไก attention จะมีประสิทธิภาพในการเรียนรู้ดีกว่ามากเมื่อมันสามารถให้ความสนใจกับโทเค็นที่ใหญ่กว่าและมีความหมายมากกว่าได้
ในเซิร์ฟเวอร์ inference หน่วยความจำส่วนใหญ่จะถูกใช้ไปกับ KV cache และถ้าจะสะสม embedding ผ่าน attention ก็ต้องเชื่อมโยงโทเค็นจำนวนมากขึ้นมากเข้าด้วยกัน โดยที่แต่ละโทเค็นมี “ความหมาย” อ่อนกว่า เราอาจไปถึงจุดนั้นสักวันหนึ่ง ท้ายที่สุดแล้วเราคงต้องการ LLM แบบมัลติโมดัลที่เข้าใจภาพและเสียงลงไปถึงระดับพิกเซลและความถี่ และก็คงอยากให้ข้อความเป็นแบบนั้นในที่สุดด้วย
อักขระไม่ใช่องค์ประกอบที่สร้างความหมายของคำ โดยทั่วไป พยางค์ ต่างหากที่ทำหน้าที่นั้น
อย่างน้อยโดยทั่วไปผมมองว่าเป็นเช่นนั้น แนวทางนี้น่าจะให้คุณภาพสูงกว่าตัวอักษรโรมัน ผมสงสัยว่าจะทดสอบได้ไหมเพียงแค่เปรียบเทียบว่า LLM จัดการภาษาอังกฤษกับภาษาจีนอย่างไร
ผมมองว่าปัญหาใหญ่มีสองอย่าง อย่างแรกคือต้องสร้างเอาต์พุตจำนวนมากขึ้นแบบลำดับต่อเนื่อง ทำให้ latency แย่ลง
อย่างที่สอง โมเดลเหล่านี้โดยคร่าว ๆ จะเปลี่ยนโทเค็นในชั้น embedding ให้เป็น “ความหมายเฉลี่ย” แล้วชั้น attention จะรวมความหมายเข้าด้วยกัน ส่วนชั้น feedforward จะปรับชุดความหมายปัจจุบันให้เข้ากับบางอย่างอย่างต้นแบบหรือ prototype ที่เรียนรู้มา เมื่อเลื่อนจากชิ้นส่วนคำลงไปเป็นอักขระ ทั้งหมดนี้จะยิ่งสับสนขึ้น เช่น “a” มีความหมายเฉลี่ยว่าอะไรตั้งแต่แรกก็ยังคลุมเครือ ดังนั้นผมคิดว่าเรายังไม่มีเทคนิคเพียงพอในการฝึกโมเดลอิงอักขระให้ดี
ในการสร้างเพลงด้วย AI ผลลัพธ์ดีกว่ามากเมื่อใช้ ขนาดคำศัพท์ใหญ่ระดับ 10^6
เป็นการคาดเดาแบบไม่ค่อยรู้อะไรมาก แต่คงเป็นเพราะ transformer ไม่ใช่ตัวรู้จำรูปแบบทั่วไป แต่จับรูปแบบได้เฉพาะในระดับความละเอียดบางอย่างเท่านั้น
Google ดูเหมือนจะมี ทีมแบรนดิ้ง ที่ดีกว่าชัดเจน ผมชอบชื่ออย่าง Gemini, Gems
“ChatGPT” เป็นชื่อที่ค่อนข้างแข็งและซับซ้อน และ OpenAI ก็ให้ความรู้สึกเหมือนองค์กรไร้ใบหน้า แน่นอนว่าอาจเปลี่ยนได้ แต่ ณ จุดนี้ก็ดูค่อนข้างสายไปแล้ว ตอนออกสู่ตลาด พวกเขาน่าจะมีเงินพอที่จะทำให้สร้างสรรค์กว่านี้
- “ChatGPT” เป็นชื่อแบบเดียวกับ “Google” ผมไม่คิดว่า “Gemini” จะมาแทนที่มันได้
- OpenAI ต้องการ คำปรึกษาด้านการตลาด อย่างยิ่ง
  “GPT4o” เอาจริงเหรอ? แม้แต่ “GPT4 Omni” ยังพูดคุยกันง่ายกว่า และนั่นก็เป็นความหมายของ “o” ด้วย พวกเขาประเมินต่ำเกินไปอย่างมากว่าผู้ใช้ทั่วไปมีจำนวนมากแค่ไหน
ใน benchmark NYT Connections Gemini 1.5 Flash ได้ 15.3 คะแนน
GPT-4 turbo(gpt-4-0125-preview) 31.0, GPT-4o 30.7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7, GPT-4 turbo(gpt-4-1106-preview) 28.8, Claude 3 Opus 27.3, GPT-4(0613) 26.1, Llama 3 Instruct 70B 24.0, Gemini Pro 1.5 19.9, Mistral Large 17.7, Gemini 1.5 Flash 15.3, Mistral Medium 15.0, Gemini Pro 1.0 14.2, Llama 3 Instruct 8B 12.3, Mixtral-8x22B Instruct 12.2
- ในรายการนั้นมี โมเดลของ OpenAI ที่ประสิทธิภาพสูงแต่ชื่อแย่มากอยู่เยอะเกินไป
ข้อมูลมีไม่มากนัก แม้จะขายว่าเป็นตัวเลือกที่เร็วและถูก แต่ก็ไม่มี benchmark ความเร็ว inference และไม่มีการเปรียบเทียบกับโมเดลที่ไม่ใช่ Gemini
ตาม https://ai.google.dev/pricing ดูเหมือนจะตั้งราคาถูกกว่า gpt3.5-turbo เล็กน้อย แต่ก็ไม่รู้ว่าในทางปฏิบัติเทียบกันอย่างไร
ถ้า Gemini Flash เป็นแค่ Gemini ที่เร็วขึ้น คำตอบแย่ ๆ ต่อให้มาเร็วขึ้นก็ไม่ได้ดีขึ้น
ผมลองใช้ Gemini Pro กับ ChatGPT 4 ควบคู่กันอยู่หลายเดือนในการเขียนโค้ดจริง สถาปัตยกรรมระบบ และคำถามทั่วไปเป็นครั้งคราว แต่ ChatGPT มีประโยชน์มากกว่าอย่างน้อย 80% Gemini ตอบผิด หรืออ้อมค้อมยืดยาวกว่าจะไปถึงคำตอบที่มีประโยชน์จนไม่คุ้มใช้ สิ่งที่ผมต้องการไม่ใช่ความเร็วที่มากขึ้น บางทีตอนนี้มันอาจ “ฉลาด” ขึ้น หรือก็คือมีประโยชน์มากขึ้นแล้วก็ได้
- ถ้านิยามความฉลาดว่าเป็นการทำงานได้มากขึ้นด้วยทรัพยากรน้อยลง นี่ก็น่าจะถือเป็นสัญญาณว่ามีบางอย่างใน latent space ที่มีศักยภาพในการขยายต่อได้