2 คะแนน โดย GN⁺ 2024-05-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Gemini 3.5 Flash ของ Google DeepMind เป็นโมเดล Preview ที่ยังคงเวลาแฝงต่ำและความสามารถในการขยายระบบของตระกูล Flash พร้อมมอบการให้เหตุผลขั้นสูงสำหรับงานเอเจนต์และงานเขียนโค้ด
  • ความสามารถหลักคือ ความเข้าใจแบบมัลติโหมด ที่รองรับทั้งเวิร์กโฟลว์งานยาว การเขียนโค้ดแบบทำซ้ำ และการจัดการข้อความ เสียง ภาพ โค้ด และวิดีโอร่วมกัน
  • ตัวอย่างที่เปิดเผยครอบคลุมตั้งแต่การสร้าง UI อย่างรวดเร็ว การสร้างเกมจากงานวิจัย ไปจนถึงการออกแบบเมืองเสมือน โดยเน้นขอบเขตการใช้งานใน งานลักษณะเอเจนต์
  • ในเบนช์มาร์ก โมเดลทำคะแนนสูงสุดในตารางหลายรายการ เช่น MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9%, MMMU-Pro 83.6%
  • อินพุตรองรับข้อความ ภาพ วิดีโอ เสียง และ PDF ส่วนเอาต์พุตเป็นข้อความ พร้อมรองรับ โทเค็นอินพุต 1M และโทเค็นเอาต์พุต 64k รวมถึงการเรียกใช้ฟังก์ชัน เอาต์พุตแบบมีโครงสร้าง เครื่องมือค้นหา และการรันโค้ด

ตำแหน่งของ Gemini 3.5 Flash

  • Gemini 3.5 Flash เป็นโมเดลที่มอบการให้เหตุผลขั้นสูงในระดับ “เวลาแฝงและความสามารถในการขยายแบบ Flash”
  • ขอบเขตการใช้งานครอบคลุมเอเจนต์ การเขียนโค้ด งานประจำวัน การให้เหตุผลขั้นสูง ความเข้าใจแบบมัลติโหมด และความเข้าใจคอนเท็กซ์ระยะยาว
  • สถานะของโมเดลคือ Preview

งานเป้าหมายที่ระดับเวลาแฝงแบบ Flash

  • ทิศทางหลักคือการมอบทั้ง ความเร็วและความฉลาด ไปพร้อมกัน
    • มีเป้าหมายเป็นโมเดลที่รักษาความเร็วและความสามารถในการขยายได้ โดยไม่ต้องแลกกับความฉลาด
  • รองรับ การให้เหตุผลระยะยาว และงานเขียนโค้ดแบบทำซ้ำ
  • รองรับ ความเข้าใจแบบมัลติโหมด ครอบคลุมข้อความ เสียง ภาพ โค้ด และวิดีโอ

ตัวอย่างการใช้งานแบบเอเจนต์

  • มีการนำเสนอตัวอย่างงานหลายรายการเพื่อแสดงความสามารถของเอเจนต์ที่ทำงานได้รวดเร็ว
    • สร้าง ตัวเลือก UI การชำระเงิน 6 แบบ ในเวลาต่ำกว่า 60 วินาที
    • สร้าง การแปลงแฟรกทัล 64 แบบ ได้อย่างรวดเร็ว
    • รับอินพุตเป็นงานวิจัย AlphaGo แล้วสร้างเกมอัจฉริยะขึ้นมาเอง
    • ประสานเวิร์กโฟลว์หลายแบบเพื่อสร้างและปรับปรุงแบรนด์สำหรับงานระดมทุนด้วยอินพุตเพียงเล็กน้อย
    • แปลงคำอธิบายข้อความให้เป็นคอมโพเนนต์ HTML แบบอินเทอร์แอกทีฟที่สมบูรณ์
    • ใช้ไลบรารีดนตรี Strudel เพื่อให้เอเจนต์หลายตัวสร้างเพลง
    • ประสานทีมเอเจนต์เฉพาะทางเพื่อออกแบบและสร้างเมืองเสมือน
    • เปลี่ยนชื่อและจัดโครงสร้างชุดข้อมูลที่ยุ่งเหยิงโดยอัตโนมัติ
    • ปล่อยเอเจนต์ให้ปรับปรุงเกมอย่างต่อเนื่องแบบเรียลไทม์

กรณีลูกค้าและการปรับปรุงประสิทธิภาพ

  • Armadin ระบุว่า Flash รุ่นล่าสุดของ Gemini ทำคะแนนในเบนช์มาร์กไซเบอร์แบบหลายเทิร์นระยะยาวสูงกว่า Flash 3 อยู่ 42% และมีประสิทธิภาพด้านโทเค็นดีขึ้น 68%
  • ในชุดประเมินงานระดับองค์กรของ Box นั้น Gemini 3.5 Flash ทำได้สูงกว่า Gemini 3 Flash อยู่ 19.6%
    • ความแม่นยำในการดึงข้อมูลและคำนวณสำหรับลูกค้ากลุ่ม Life Sciences สูงขึ้น 96.4%
    • ความแม่นยำในการสร้างรายงานการเงินจากข้อมูลแบบมีโครงสร้างสำหรับ Financial Services สูงขึ้น 46.7%
  • Junie ของ JetBrains ประเมินว่า Gemini 3.5 Flash ให้คุณภาพด้านการเขียนโค้ดและการให้เหตุผลใกล้เคียง Gemini Pro ขณะเดียวกันก็ยังคงจุดเด่นด้านความเร็วและต้นทุนของ Flash ไว้
    • ประสิทธิภาพการเขียนโค้ดในระดับการให้เหตุผลต่ำเมื่อเทียบกับ Flash รุ่นก่อนหน้าดีขึ้น 10–20%

ผลลัพธ์เบนช์มาร์ก

  • Gemini 3.5 Flash ถูกเน้นอย่างชัดเจนว่าเป็นโมเดลสำหรับเวิร์กโฟลว์แบบเอเจนต์
  • เบนช์มาร์กด้านการเขียนโค้ด
    • Terminal-bench 2.1 Agentic terminal coding: 76.2%
    • SWE-Bench Pro Public: 55.1%
  • เบนช์มาร์กด้านเอเจนต์และการใช้เครื่องมือ
    • MCP Atlas: 83.6% ซึ่งเป็นคะแนนสูงสุดในตาราง
    • Toolathlon: 56.5% ซึ่งเป็นคะแนนสูงสุดในตาราง
  • การควบคุม UI และงานเฉพาะทาง
    • OSWorld-Verified: 78.4%
    • Finance Agent v2: 57.9% ซึ่งเป็นคะแนนสูงสุดในตาราง
    • GDPval-AA Elo: 1656
  • เบนช์มาร์กแบบมัลติโหมด
    • CharXiv Reasoning: 84.2% ซึ่งเป็นคะแนนสูงสุดในตาราง
    • MMMU-Pro: 83.6% ซึ่งเป็นคะแนนสูงสุดในตาราง
    • Blueprint-Bench 2: 33.6%
  • คอนเท็กซ์ระยะยาวและการให้เหตุผล
    • MRCR v2 128k average: 77.3%
    • MRCR v2 1M pointwise: 26.6% ซึ่งสูงกว่า Gemini 3 Flash และ Gemini 3.1 Pro ที่เปรียบเทียบได้
    • Humanity’s Last Exam: 40.2%
    • ARC-AGI-2: 72.1%
  • รายละเอียดวิธีประเมินอยู่ที่ Gemini 3.5 Flash evals methodology

ข้อมูลโมเดลและสภาพแวดล้อมที่ใช้งานได้

  • อินพุตรองรับ ข้อความ, ภาพ, วิดีโอ, เสียง, PDF
  • เอาต์พุตเป็น ข้อความ
  • คอนเท็กซ์และเกณฑ์ความรู้
    • โทเค็นอินพุต: 1M
    • โทเค็นเอาต์พุต: 64k
    • จุดตัดความรู้: มกราคม 2025
  • ความสามารถด้านการใช้เครื่องมือ
    • การเรียกใช้ฟังก์ชัน
    • เอาต์พุตแบบมีโครงสร้าง
    • ใช้การค้นหาเป็นเครื่องมือ
    • การรันโค้ด
  • สภาพแวดล้อมที่ใช้งานได้ ได้แก่ Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity และ Android Studio
  • เอกสารสำหรับนักพัฒนาอยู่ที่ Gemini API models documentation
  • โมเดลการ์ดอยู่ที่ Gemini 3.5 Flash model card

1 ความคิดเห็น

 
GN⁺ 2024-05-15
ความคิดเห็นจาก Hacker News
  • ผมอัปเกรดปลั๊กอิน llm-gemini เพื่อให้รองรับ การเข้าถึง Gemini Flash ผ่าน CLI แล้ว
    pipx install llm # or brew install llm
    llm install llm-gemini --upgrade
    llm keys set gemini
    # paste API key here
    llm -m gemini-1.5-flash-latest 'a short poem about otters'
    https://github.com/simonw/llm-gemini/releases/tag/0.1a4
  • ถ้าดูจากเบนช์มาร์กอย่าง MMLU นี่ดูเหมือนจะหมายความว่าโดยพื้นฐานแล้วเป็นโมเดลที่มี คุณภาพระดับ Llama 3 70B โดยมีความหน่วงของโทเค็นแรกต่ำกว่า 1 วินาที และแม้จะยังไม่ถึงระดับ GPT-4/Opus แต่ก็มีมัลติโมดัลแบบเนทีฟและ คอนเท็กซ์ 1 ล้าน
    เมื่อเทียบกับการสร้างเองก็ถือว่าไม่แย่ แต่ในบรรดาโมเดลแนวหน้า จุดต่างหลักของ Gemini คือมัลติโมดัลแบบเนทีฟ ตอนนี้ GPT-4o ออกมาแล้ว ผมยังไม่ค่อยเข้าใจว่าทำไมองค์กรที่ไม่ได้ถูกผูกกับ GCP ถึงจะเลือก Gemini ถ้าไม่ได้ประมวลผลหนังสือหรือภาพยนตร์ทั้งเรื่องในครั้งเดียว คอนเท็กซ์ 128k ของ GPT-4o ก็น่าจะพอแล้ว และก็สงสัยว่ามีที่ไหนทำงานในระดับใช้งานจริงที่ลดจาก 1 ล้านเหลือ 1 แสนแล้วทำไม่ได้จริง ๆ หรือเปล่า
    • 1 ล้านโทเค็น หมายความว่าคุณใส่เอกสาร 2,000 หน้าเข้าไปในหน้าต่างคอนเท็กซ์ได้ก่อนเริ่มแชต
      จุดแข็งของ Gemini ไม่ใช่ความสามารถในการแก้ปริศนาตรรกะ แต่อยู่ที่ความยาวของคอนเท็กซ์ ถ้ากำลังอ่านสอบ ก็ใส่ตำราทั้งเล่มเข้าไปในแชตได้เลย หรือถ้าต้องใช้ภาษาเก่าที่ตายไปแล้วสำหรับระบบทดสอบเก่าที่ไม่มีข้อมูลบนอินเทอร์เน็ต ก็ใส่คู่มืออ้างอิง 1,300 หน้าเข้าไปแล้วถามได้
    • ผมไม่คิดว่านี่จะเป็น คุณภาพระดับ Llama 3 70B ได้เลย
      เคยพยายามเอา Gemini 1.5 Pro เข้าไปใช้ในเวิร์กโฟลว์หลายอย่าง แต่มันแย่มาก โดยเฉพาะเมื่อใส่วิดีโอหรือเสียงเข้าไป อาการหลอนเยอะจนไม่น่าเชื่อ ผมไม่รู้ว่าโมเดลมัลติโมดัลขนาดเล็กที่หลอนเยอะจะมีกรณีใช้งานจริงในองค์กรส่วนใหญ่ไหม และถ้าเชื่อถือไม่ได้มันก็เป็นแค่ของเล่น
    • เหตุผลที่องค์กรที่ไม่ได้ถูกผูกกับ GCP จะเลือก Gemini คือ ราคา โดยเฉพาะกับงานมัลติโมดัลที่ไม่ต้องการคุณภาพระดับ GPT-4
      แม้เทียบกับ GPT-4o ซึ่งเป็นโมเดลมัลติโมดัลที่ถูกที่สุดของ OpenAI แล้ว GPT-3.5-Turbo มีค่าใช้จ่าย 1/10 ของ GPT-4o อยู่ที่ $0.5 ต่ออินพุต 1 ล้านโทเค็น, $1.50 ต่อเอาต์พุต 1 ล้านโทเค็น และมีหน้าต่างคอนเท็กซ์ 16K ส่วน Gemini 1.5 Flash อยู่ที่ $0.35 ต่ออินพุต 1 ล้านโทเค็น และ $0.53 ต่อเอาต์พุต 1 ล้านโทเค็น สำหรับพรอมป์ต์ไม่เกิน 128K สำหรับงานมัลติโมดัลที่ไม่ต้องการสติปัญญาระดับ GPT-4 โดยเฉพาะงานประมวลผลเอกสาร Gemini Flash ดูเหมือนจะ ลดต้นทุนได้เกือบ 95%
    • คล้ายกับการถามว่าบัญชี Yahoo ขนาด 50MB ก็ดูพอแล้ว ทำไมต้องใช้ Gmail 1GB
      คุณไม่ต้องคิดซ้ำสองตอนใส่คอนเท็กซ์ และไม่ต้องสร้างวิธีอ้อม ๆ เพื่อจัดการกรณีคอนเท็กซ์เกิน ถ้ากรณีใช้งานส่วนใหญ่เป็นการจัดการข้อความมากกว่ามัลติโมดัล ข้อดีก็ค่อนข้างชัดเจน
    • เมื่อไม่กี่เดือนก่อนผมพยายามใช้ Gemini กับ 1 ล้านโทเค็น แต่มันแครช หรือไม่ก็ตอบช้ามากแล้วสุดท้ายก็แครช
      ลองไปห้าหกครั้งแล้วก็ยอมแพ้ หวังว่าเวอร์ชันนี้จะเร็วและเสถียรกว่าเดิม
  • ผมมองว่า คอนเท็กซ์เริ่มต้น 1 ล้านโทเค็น คือฟีเจอร์ใหญ่ตรงนี้ แต่เราต้องมีเบนช์มาร์กที่ดีกว่านี้เพื่อวัดว่ามันหมายถึงอะไรในทางปฏิบัติ
    ตามสัญชาตญาณแล้ว ยิ่งคอนเท็กซ์ยาวขึ้น ก็น่าจะยิ่งชนขีดจำกัดของการอัดความเข้าใจจำนวนมากไว้ในจุดเดียวของเวกเตอร์สเปซ และน่าจะต้องมีสถาปัตยกรรมที่ดีกว่าสำหรับเลือกส่วนที่เกี่ยวข้องจากคอนเท็กซ์
    • ถ้าพูดถึงการใช้งานจริงในโปรดักชัน ไม่ใช่เดโมที่ไม่ยั่งยืนทางเศรษฐกิจ มัลติโมดัลของโมเดลที่มีต้นทุนต่อโทเค็นเพียง 4~7% เมื่อเทียบกับ โมเดลมัลติโมดัลที่ถูกที่สุดของ OpenAI ถือเป็นฟีเจอร์สำคัญ
    • ผมไม่เข้าใจว่าหมายถึง ขีดจำกัดของจุดเดียว ในเวกเตอร์สเปซมิติไหน
      ไม่แน่ใจว่าเป็นข้อมูลสาธารณะหรือไม่ แต่ขนาดมิติของ embedding เป็นทางเลือกเชิงสถาปัตยกรรม ผมมองว่ามันเป็นปัญหาของการออกแบบและข้อจำกัดด้านทรัพยากรมากกว่าขีดจำกัดเชิงหลักการ
    • อยากรู้ว่าจะอธิบายให้คนที่พอรู้คร่าว ๆ เรื่องเวกเตอร์และฐานข้อมูลเวกเตอร์เข้าใจได้ไหมว่า การอัดความเข้าใจไว้ใน จุดเดียวของเวกเตอร์สเปซ หมายถึงอะไร
      ถ้ามีบทความที่เกี่ยวข้องหรือแหล่งอ่านเพิ่มเติมก็อยากให้แนะนำ
    • เรากำลังจัดการกับ multi-head attention ดังนั้นแต่ละโทเค็นจึงมีหลายจุด
      จำนวน head หรือขนาด key vector ก็เพิ่มได้ทุกเมื่อ
    • ในความเป็นจริงมันไม่ได้ดีขนาดนั้น คุณสร้างเดโมที่ดูน่าเชื่อได้ เช่น “ใส่ Harry Potter 6.5 เล่มเข้าไปแล้วมันสร้างแผนที่ SVG ที่เชื่อมโยงตัวละครพร้อมคำอธิบายประกอบ”
      แต่จริง ๆ มีแค่ตัวละครบางส่วน คำอธิบายประกอบก็ไม่ค่อยดี และเสียค่าใช้จ่ายประมาณ $20 ถ้าลอง 10 ครั้ง ก็อยู่ในระดับที่ดีพอจะหลอกคุณได้สักไม่กี่ครั้งเท่านั้น
  • น่าสนใจที่เป็น โมเดลเบา แต่ใช้ได้เฉพาะบนคลาวด์ บริษัทเทคโนโลยียักษ์ใหญ่พวกนี้มีเจตจำนงแรงกล้าจริง ๆ ที่จะเป็นเจ้าของแม้กระทั่งปริมาณการใช้งาน AI
    แต่เราไม่ควรปล่อยให้มันกลายเป็นอนาคต
  • สิ่งหนึ่งที่ OpenAI ทำได้ดีกว่า Google คือการ เปิดเผยราคา API จริง ๆ และการตั้งชื่อก็ค่อนข้างสม่ำเสมอ
    ถ้าลองไล่ดูรายการโมเดลผ่าน API ของ Google เอง ดูเหมือนว่าพวกเขามีโมเดลราว 10 ตัวผ่านเส้นทางที่ใน Google Cloud Console เรียกว่า Generative Language API แต่ในเอกสารเรียกว่า Gemini API ชื่อโมเดลมีมากกว่า 10 ชื่อ แต่บางโมเดลมี alias หลายชื่อ
    ในบรรดานั้นมีแค่ 3 โมเดลที่มีข้อมูลราคาในหน้าเอกสารราคาของ Gemini API และใน 3 ตัวนั้น 2 ตัวเป็นพรีวิว ราคาจึงจะมีผลในอนาคต ใน Generative Language API บนคอนโซล มีราคาแสดงเฉพาะโมเดลเดียวที่ไม่ใช่พรีวิวและเป็นโมเดลเดียวกับ 1 ใน 3 ตัวบนหน้าเอกสาร ส่วนรายการ Cloud SKU ไม่มี Generative Language API และแม้จะมี Gemini API ก็มีแค่โมเดลเดียวกันนั้นเท่านั้น หน้า Console ลิงก์ไปยัง Cloud Price list ว่าเป็น “ราคาล่าสุด” แต่ในนั้นไม่มีทั้ง Generative Language API หรือ Gemini API เลย ไม่เข้าใจว่าทำไมถึงมีรายการที่ต่างกันเยอะขนาดนี้
  • ดูเหมือนว่าความยาวคอนเท็กซ์จะเหลือเฟือสำหรับงานส่วนใหญ่แล้ว เลยสงสัยว่าทำไมยังใช้ โทเค็นแบบซับเวิร์ด กันอยู่

ผมอยากรู้จริง ๆ ว่า LLM แบบอิงอักขระจะเทียบกันอย่างไร ถ้าคอนเท็กซ์ 2 ล้าน ความคอขวดด้านการคำนวณก็จะจางลง แต่ก็ไม่ค่อยแน่ใจว่าขนาดของคำศัพท์มีบทบาทอย่างไร เนื่องจาก embedding เก็บความรู้ส่วนใหญ่ไว้แล้ว คำศัพท์ขนาดใหญ่อาจสำคัญก็ได้ ในทางกลับกัน ถ้าใช้คำศัพท์แบบอิงอักขระ ก็น่าจะแก้ปัญหาหลายอย่างได้ เช่น glitch token, การคำนวณเลข, และฉันทลักษณ์ การทำและฝึก subword tokenizer ให้ถูกต้องก็ดูค่อนข้างซับซ้อน แต่ในระดับอักขระควรจะเรียบง่ายมาก

  • กลไก attention จะมีประสิทธิภาพในการเรียนรู้ดีกว่ามากเมื่อมันสามารถให้ความสนใจกับโทเค็นที่ใหญ่กว่าและมีความหมายมากกว่าได้
    ในเซิร์ฟเวอร์ inference หน่วยความจำส่วนใหญ่จะถูกใช้ไปกับ KV cache และถ้าจะสะสม embedding ผ่าน attention ก็ต้องเชื่อมโยงโทเค็นจำนวนมากขึ้นมากเข้าด้วยกัน โดยที่แต่ละโทเค็นมี “ความหมาย” อ่อนกว่า เราอาจไปถึงจุดนั้นสักวันหนึ่ง ท้ายที่สุดแล้วเราคงต้องการ LLM แบบมัลติโมดัลที่เข้าใจภาพและเสียงลงไปถึงระดับพิกเซลและความถี่ และก็คงอยากให้ข้อความเป็นแบบนั้นในที่สุดด้วย
  • อักขระไม่ใช่องค์ประกอบที่สร้างความหมายของคำ โดยทั่วไป พยางค์ ต่างหากที่ทำหน้าที่นั้น
    อย่างน้อยโดยทั่วไปผมมองว่าเป็นเช่นนั้น แนวทางนี้น่าจะให้คุณภาพสูงกว่าตัวอักษรโรมัน ผมสงสัยว่าจะทดสอบได้ไหมเพียงแค่เปรียบเทียบว่า LLM จัดการภาษาอังกฤษกับภาษาจีนอย่างไร
  • ผมมองว่าปัญหาใหญ่มีสองอย่าง อย่างแรกคือต้องสร้างเอาต์พุตจำนวนมากขึ้นแบบลำดับต่อเนื่อง ทำให้ latency แย่ลง
    อย่างที่สอง โมเดลเหล่านี้โดยคร่าว ๆ จะเปลี่ยนโทเค็นในชั้น embedding ให้เป็น “ความหมายเฉลี่ย” แล้วชั้น attention จะรวมความหมายเข้าด้วยกัน ส่วนชั้น feedforward จะปรับชุดความหมายปัจจุบันให้เข้ากับบางอย่างอย่างต้นแบบหรือ prototype ที่เรียนรู้มา เมื่อเลื่อนจากชิ้นส่วนคำลงไปเป็นอักขระ ทั้งหมดนี้จะยิ่งสับสนขึ้น เช่น “a” มีความหมายเฉลี่ยว่าอะไรตั้งแต่แรกก็ยังคลุมเครือ ดังนั้นผมคิดว่าเรายังไม่มีเทคนิคเพียงพอในการฝึกโมเดลอิงอักขระให้ดี
  • ในการสร้างเพลงด้วย AI ผลลัพธ์ดีกว่ามากเมื่อใช้ ขนาดคำศัพท์ใหญ่ระดับ 10^6
    เป็นการคาดเดาแบบไม่ค่อยรู้อะไรมาก แต่คงเป็นเพราะ transformer ไม่ใช่ตัวรู้จำรูปแบบทั่วไป แต่จับรูปแบบได้เฉพาะในระดับความละเอียดบางอย่างเท่านั้น
  • Google ดูเหมือนจะมี ทีมแบรนดิ้ง ที่ดีกว่าชัดเจน ผมชอบชื่ออย่าง Gemini, Gems
    “ChatGPT” เป็นชื่อที่ค่อนข้างแข็งและซับซ้อน และ OpenAI ก็ให้ความรู้สึกเหมือนองค์กรไร้ใบหน้า แน่นอนว่าอาจเปลี่ยนได้ แต่ ณ จุดนี้ก็ดูค่อนข้างสายไปแล้ว ตอนออกสู่ตลาด พวกเขาน่าจะมีเงินพอที่จะทำให้สร้างสรรค์กว่านี้
    • “ChatGPT” เป็นชื่อแบบเดียวกับ “Google” ผมไม่คิดว่า “Gemini” จะมาแทนที่มันได้
    • OpenAI ต้องการ คำปรึกษาด้านการตลาด อย่างยิ่ง
      “GPT4o” เอาจริงเหรอ? แม้แต่ “GPT4 Omni” ยังพูดคุยกันง่ายกว่า และนั่นก็เป็นความหมายของ “o” ด้วย พวกเขาประเมินต่ำเกินไปอย่างมากว่าผู้ใช้ทั่วไปมีจำนวนมากแค่ไหน
  • ใน benchmark NYT Connections Gemini 1.5 Flash ได้ 15.3 คะแนน
    GPT-4 turbo(gpt-4-0125-preview) 31.0, GPT-4o 30.7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7, GPT-4 turbo(gpt-4-1106-preview) 28.8, Claude 3 Opus 27.3, GPT-4(0613) 26.1, Llama 3 Instruct 70B 24.0, Gemini Pro 1.5 19.9, Mistral Large 17.7, Gemini 1.5 Flash 15.3, Mistral Medium 15.0, Gemini Pro 1.0 14.2, Llama 3 Instruct 8B 12.3, Mixtral-8x22B Instruct 12.2
    • ในรายการนั้นมี โมเดลของ OpenAI ที่ประสิทธิภาพสูงแต่ชื่อแย่มากอยู่เยอะเกินไป
  • ข้อมูลมีไม่มากนัก แม้จะขายว่าเป็นตัวเลือกที่เร็วและถูก แต่ก็ไม่มี benchmark ความเร็ว inference และไม่มีการเปรียบเทียบกับโมเดลที่ไม่ใช่ Gemini
    ตาม https://ai.google.dev/pricing ดูเหมือนจะตั้งราคาถูกกว่า gpt3.5-turbo เล็กน้อย แต่ก็ไม่รู้ว่าในทางปฏิบัติเทียบกันอย่างไร
  • ถ้า Gemini Flash เป็นแค่ Gemini ที่เร็วขึ้น คำตอบแย่ ๆ ต่อให้มาเร็วขึ้นก็ไม่ได้ดีขึ้น
    ผมลองใช้ Gemini Pro กับ ChatGPT 4 ควบคู่กันอยู่หลายเดือนในการเขียนโค้ดจริง สถาปัตยกรรมระบบ และคำถามทั่วไปเป็นครั้งคราว แต่ ChatGPT มีประโยชน์มากกว่าอย่างน้อย 80% Gemini ตอบผิด หรืออ้อมค้อมยืดยาวกว่าจะไปถึงคำตอบที่มีประโยชน์จนไม่คุ้มใช้ สิ่งที่ผมต้องการไม่ใช่ความเร็วที่มากขึ้น บางทีตอนนี้มันอาจ “ฉลาด” ขึ้น หรือก็คือมีประโยชน์มากขึ้นแล้วก็ได้
    • ถ้านิยามความฉลาดว่าเป็นการทำงานได้มากขึ้นด้วยทรัพยากรน้อยลง นี่ก็น่าจะถือเป็นสัญญาณว่ามีบางอย่างใน latent space ที่มีศักยภาพในการขยายต่อได้