5 คะแนน โดย GN⁺ 2025-10-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ผู้ใช้บางรายพบว่าใน Google AI Studio มีการปล่อย โมเดล Gemini 3.0 ใหม่ ในรูปแบบการทดสอบ A/B
  • Gemini 3.0 เป็นโมเดลรุ่นถัดไปที่ถูกคาดหวังว่าจะมี ประสิทธิภาพด้านการเขียนโค้ดที่ดีขึ้น โดยผู้ใช้จริงได้ตรวจสอบความต่างของคุณภาพผ่าน การทดสอบสร้างภาพ SVG
  • จากผลการทดสอบ ผลงาน SVG ของคอนโทรลเลอร์ Xbox 360 ดีขึ้นอย่างชัดเจน แสดงให้เห็นการพัฒนาอย่างมากเมื่อเทียบกับ Gemini 2.5 Pro
  • ตัวระบุโมเดลคือ ecpt50a2y6mpgkcn และมีความเป็นไปได้สูงว่าเป็นเวอร์ชัน Gemini 3.0 Pro พร้อมการเปลี่ยนแปลงด้านประสิทธิภาพ เช่น ความยาวเอาต์พุตเพิ่มขึ้น 40% และ TTFT เพิ่มขึ้น 24 วินาที
  • สิ่งนี้บ่งชี้ว่า Google ได้เริ่มปล่อยใช้งานโมเดล Gemini รุ่นถัดไปในเชิงทดลองแล้ว และหมายความว่าการเปิดตัวอย่างเป็นทางการอาจใกล้เข้ามา

การเปิดเผยอย่างไม่เป็นทางการของ Gemini 3.0 และบริบท

  • ตามข่าวลือล่าสุด พบว่าผู้ใช้บางรายสามารถเข้าถึง Gemini 3.0 ได้ผ่าน การทดสอบ A/B ใน Google AI Studio
  • ขณะนี้ Gemini 3.0 เป็นโมเดลที่ได้รับความสนใจอย่างมากในวงการ AI จากความคาดหวังเรื่อง การเรนเดอร์ภาพด้วย AI และประสิทธิภาพการเขียนโค้ดที่ดีขึ้น
  • หลังจากลองหลายครั้ง ในที่สุดก็ได้พบหน้าจอการทดสอบ A/B ด้วยตนเอง
  • พรอมป์ต์ที่ใช้: Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
  • โดยสรุป SVG คอนโทรลเลอร์ Xbox ที่ Gemini 3.0 สร้างขึ้นนั้น เหนือกว่าโมเดลเดิมอย่างชัดเจน ในด้าน รายละเอียด ความแม่นยำ และความสมบูรณ์ของเลย์เอาต์
  • ยืนยันได้ว่าโมเดลไอดีของ Gemini 3.0 คือ ecpt50a2y6mpgkcn แต่ยากที่จะทราบข้อมูลเวอร์ชันที่ชัดเจน
  • เนื่องจากโมเดลที่ถูกเลือกโดยค่าเริ่มต้นคือ Gemini 2.5 Pro จึงพอคาดได้ว่าที่จริงแล้วเป็นการเปรียบเทียบกับ Gemini 3.0 Pro
  • เมื่อเทียบกับ Gemini 2.5 Pro
    • TTFT (Time to First Token) เพิ่มขึ้นราว 24 วินาที
    • ความยาวเอาต์พุตเพิ่มขึ้นราว 40%
    • อาจมีการรวม reasoning tokens อยู่ด้วย

ภาคผนวก

  • รายการภาพเอาต์พุตจากผลการเปรียบเทียบ A/B ระหว่าง Gemini 3.0 กับ Gemini 2.5 Pro

1 ความคิดเห็น

 
GN⁺ 2025-10-17
ความคิดเห็นบน Hacker News
  • ฉันอาจเป็นคนส่วนน้อย แต่ที่บริษัทฉันใช้โมเดลระดับโปรได้ทั้งหมด และจากที่ลองมา Gemini ดีกว่า ChatGPT, Claude, Deepseek อยู่เสมอ อาจเป็นเพราะฉันทำงานเว็บดีเวลอปเมนต์ โดยเฉพาะงาน HTML/SCSS เยอะ และคิดว่าการที่ Google crawl อินเทอร์เน็ตทำให้มีข้อมูลมากกว่าก็เป็นข้อได้เปรียบ แต่ละโมเดลคงมีด้านที่ตัวเองถนัด แต่สำหรับงานพัฒนาเว็บสาย UI/UX ฉันรู้สึกว่า Gemini เด่นมาก รอเวอร์ชัน 3.0 มากจริง ๆ

    • ฉันรู้สึกว่า Gemini 2.5 Pro เด่นกว่า Claude และ GPT-5 เป็นพิเศษในสองกรณีด้านล่างนี้

      • งานเขียนเชิงสร้างสรรค์: Gemini เหนือกว่าตัวอื่นแบบขาดลอย สำหรับฉัน Gemini 2.5 Pro เป็นโมเดลเดียวที่พอจะใช้กับงานเขียนสร้างสรรค์ได้จริง ๆ (บทกวี เรื่องสั้น) มันเข้าใจนัยและน้ำเสียงได้ดีมากพอสมควร เลยเอามาใช้วิจารณ์งานเขียนของตัวเองอยู่ แน่นอนว่าด้านอย่างการเขียนบทกวีนั้น ทุกโมเดลก็ยังไปได้ไม่ถึงอยู่ดี
      • การให้เหตุผลที่ซับซ้อน (คณิตศาสตร์ระดับปริญญาตรี/บัณฑิตศึกษา): Gemini แม่นกว่าอยู่นิดหน่อยเลยคิดว่าดีที่สุด Claude Opus 4.1 กับ Sonnet 4.5 ก็สูสีเหมือนกัน แต่ Gemini 2.5 ให้คำตอบที่สม่ำเสมอและคาดเดาได้มากกว่า (ฉันใช้กับพีชคณิต, พีชคณิตสลับเปลี่ยน, category theory, algebraic geometry, topology ฯลฯ บ่อย)
      • แต่ถ้าเป็นบทบาทแบบ “เอเจนต์” เช่น ค้นทั้งโค้ดเบสขนาดใหญ่ หรือขอให้รีแฟกเตอร์จากคำถามปลายเปิด Gemini ด้อยกว่า Claude และ GPT-5 มากกว่า มันมีปัญหาเรื่อง tool calling บางส่วน เลยทำงานใน Copilot/Cursor ได้ไม่สม่ำเสมอ
      • โดยรวมฉันคิดว่า Gemini 2.5 Pro ฉลาดที่สุด แต่ก็เห็นว่าควรเลือกใช้โมเดลตามลักษณะงาน
    • เมื่อไม่กี่สัปดาห์ก่อน มีสคริปต์ของ third-party ไปรบกวน click event ของปุ่ม React ของฉัน เลยจะเพิ่ม mousedown event เพื่อแก้ ตอนนั้นเหนื่อย ๆ ก็เลยจะใช้วิธีเร็ว ๆ แบบหยาบ ๆ คือจำลองการคลิกหลัง mousedown ไปไม่กี่ ms เลยอธิบายแผนให้ Gemini ฟัง ปรากฏว่า Gemini ปฏิเสธตรง ๆ และเสนอวิธีที่สะอาดกว่าว่าให้จัดการโดยใช้ mousedown กับ mouseup ร่วมกัน ฉันประทับใจมากที่มันเข้าใจปัญหาได้ครบ และแนะนำวิธีที่ดีกว่าสิ่งที่ฉันตั้งใจจะทำ

    • บริษัทเรากำลัง benchmark โมเดล LLM หลัก ๆ กันอยู่ และ Gemini 2.5 เป็นอันดับ 1 แบบทิ้งห่าง ยกเว้นบางโดเมนที่เฉพาะมาก ๆ มันสอดคล้องกับข่าวลือที่ว่า pretraining ของ Google ดีที่สุด เพียงแต่ยังมีจุดน่าเสียดายเล็กน้อยในส่วน tuning/alignment นี่แหละที่ทำให้ฉันรอ Gemini 3 มาก แม้ 2.5 จะดีที่สุดแล้วแต่ก็ยังมีพื้นที่ให้พัฒนาอีกมาก (โดเมนเฉพาะ: “การให้เหตุผลจริง ๆ” (GPT-5) และการเขียนสคริปต์ Python (ตระกูล Claude))

    • สำหรับความแม่นยำในการค้นหาหรืองานที่อิงข้อเท็จจริง ฉันรู้สึกว่า Claude กับ Gemini ยังด้อยกว่า ChatGPT มาก Gemini พอค้นหาไม่กี่ครั้งก็เริ่มเดา ๆ เองแล้ว ในขณะที่ ChatGPT จะค้นต่อเป็นสิบหรือเป็นร้อยครั้งได้ และยังค้นต่อยอดจากผลที่เจอก่อนหน้าได้ด้วย

    • ฉันชอบ context window ที่กว้างกว่าของ Gemini มาก วิธีทำงานของฉันคือแปลงทั้งโค้ดเบสเป็นสตริงแล้ววางเข้าไปใน Gemini จากนั้นค่อยถาม คนอื่นชอบ “เอเจนต์” ที่เลือกดูแค่บางไฟล์ แต่สำหรับฉัน การโยนทั้งโค้ดเบสเข้าไปเลย แล้วคุยโต้ตอบเพื่อให้มันสร้างโค้ด แก้ไฟล์ ฯลฯ สะดวกและมีประสิทธิภาพกว่ามาก

  • ฉันไม่ค่อยเข้าใจความสนใจเกินเหตุเรื่องการให้ LLM สร้าง SVG งานนี้ทำให้สำเร็จในครั้งเดียวได้ยาก และมนุษย์เองก็ทำยาก เลยไม่ค่อยมีประโยชน์เท่าไร ถ้าโมเดลได้รับ visual feedback แล้วค่อยปรับผลลัพธ์ได้ มันน่าจะมีประโยชน์กว่า แต่พอมันกลายเป็นโจทย์ benchmark ยอดนิยม บริษัทต่าง ๆ ก็แค่เอาข้อมูลตัวอย่างเข้าไปเพิ่มในชุดฝึก สุดท้ายก็เป็นเพียงการเทียบกันว่าใครมีชุดข้อมูล “text to SVG” ที่ดีกว่า ไม่ได้เกี่ยวกับคุณภาพโดยรวมของโมเดลเลย

  • ราว ๆ หนึ่งเดือนมานี้มีข่าวเกี่ยวกับ Gemini 3 ออกมาต่อเนื่องพร้อมการคาดเดาหลายแบบ แต่จนกว่าจะมีประกาศทางการก็ควรรอดูไปก่อน ไม่มีใครรู้ว่าโมเดลนี้จะมาแทน Pro, Flash, Flash Lite หรือเป็นโมเดลใหม่ทั้งหมด หรือจะปล่อยจริงไหม ใน AIStudio เพราะเป็นการทดสอบแบบ A/B เลยได้ผลลัพธ์จากพรอมป์ต์เดียวแค่ครั้งเดียว และพอจะดูได้แค่ความเร็ว, latency, การทำตามคำสั่งเท่านั้น ฉันไม่คิดว่าการประเมินประสิทธิภาพของแต่ละโมเดลจากพรอมป์ต์เดียวจะเป็นการประเมินแบบมืออาชีพ แน่นอนว่าเรื่องการจัดการหลายไฟล์หรือการรองรับ tool calling ก็ไม่มีทางรู้ได้ อยากให้ระวังอย่าไปเพิ่มความคาดหวังกันเกินไปจนลงเอยด้วยการคาดหวังสูงเกินหรือผิดหวัง นี่ก็เป็นเหตุผลที่ฉันไม่ค่อยชอบคอนเทนต์เชิงคาดเดา เพราะมันเน้นแต่ความหวือหวาโดยไม่มีบริบทและการวิเคราะห์จริง

    • ช่วงนี้เหมือนการปั่นไฮป์กลายเป็นอาชีพไปแล้ว แต่ละลิงก์บนทวิตเตอร์เต็มไปด้วยปฏิกิริยาเวอร์ ๆ อย่าง "GAME CHANGER!!!", "ทุกคนจะต้องช็อก!" จนน่ารำคาญนิดหน่อย ตัวอย่างจริง ๆ ก็ดูน่าสนใจนะ แต่เสียดายที่เต็มไปด้วยการประเมินแบบไม่เป็นมืออาชีพอย่างที่พูดไปข้างบน
  • ภาพนกกระทุงที่ยอดเยี่ยมจริง ๆ รออยากลอง Gemini 3 มาก ตัวอย่างบนทวิตเตอร์ที่เกี่ยวข้อง

    • ในที่สุด benchmark ก็พังแล้ว

    • มันดูเหมือนงานศิลปะมากกว่าที่คาดไว้

    • อันนี้ถือว่าโอเคเหรอ? สำหรับฉันมันก็ดูไม่ค่อยดีเท่าไร

  • สิ่งหนึ่งที่ฉันรู้สึกว่าแปลกคือ Gemini 2.5 Pro นั้นยอดเยี่ยมมากสำหรับการใช้งานส่วนใหญ่ แต่ต้องเป็นคำถามแรกเท่านั้น กล่าวคือมันดีที่สุดเมื่อใส่บริบททั้งหมดไปแล้วถามครั้งเดียวและรับคำตอบครั้งเดียว ยิ่งคุยนานคุณภาพยิ่งตกลงอย่างรวดเร็ว ทั้งที่มันมี context window ยาวกว่าโมเดลอื่น ๆ ด้วยซ้ำ ซึ่งก็ดูแปลก ฉันเลยใช้วิธีใส่ทั้งโปรเจกต์ (ประมาณ 200k tokens) ลงไปในแชต จากนั้นถามคำถามที่เตรียมมาดีเพียงข้อเดียว แล้วก็ปิดหน้าต่างแชตนั้นทันที

    • อาการที่คุณภาพคำตอบแย่ลงเรื่อย ๆ เมื่อคุยนาน ๆ ฉันเจอเหมือนกันในทุก LLM ที่เคยใช้ เลยไม่ค่อยคุยเกินสองข้อความ ถ้าคำตอบแรกยังไม่ใช่ ยิ่งส่งข้อความเพิ่ม โอกาสจะได้คำตอบที่ถูกยิ่งลดลง ฉันคิดว่าควรเริ่มแชตใหม่เสมอแล้วค่อยปรับพรอมป์ต์ลองใหม่
  • มีคนบอกว่า "Gemini 3.0 เป็นหนึ่งใน AI release ที่น่าตื่นเต้นที่สุดในตอนนี้ โดยเฉพาะเพราะประสิทธิภาพด้านการเขียนโค้ดที่ดีขึ้น" แต่จากที่ฉันได้ยินจากเพื่อน ๆ ที่ใช้ภายใน Google ทุกคนบอกว่าจะผิดหวังกันหมด
    แก้ไข: ที่จริงพวกเขายังใช้ Gemini 3 ไม่ได้ ดังนั้นการที่พวกเขาบอกว่าไม่ดีจึงกลับเป็นเรื่องธรรมดา

    • Gemini 3.0 ยังไม่ได้ถูกกระจายใช้งานอย่างกว้างขวางแม้แต่ภายใน Google เอง “Gemini for Google” เป็นเวอร์ชันที่ fine-tune จาก 2.5 Pro หรือ 2.5 Flash ตัวโมเดล 3.0 เองยังไม่ได้ถูกใช้อย่างกว้างขวาง (พนักงาน Google, ทำงานในทีมที่เกี่ยวกับการชำระเงิน และนี่เป็นความเห็นส่วนตัว)

    • ขอโทษที่ต้องสาดน้ำเย็นใส่ความตื่นเต้นนี้ แต่แม้แต่ทีม Vibecoding ภายใน Google ของเราก็ยังไม่ได้ใช้ Gemini 3

    • ก็ไม่น่าแปลกใจอะไร LLM เริ่มเข้าสู่ขีดจำกัดของการเพิ่มประสิทธิภาพแล้ว (ช่วงผลตอบแทนลดลง) และเราต้องหาวิธีทำ GPU ที่ถูกกว่านี้

  • ตอนนี้มีตัวอย่าง Gemini 3 บนทวิตเตอร์ออกมาอีกเยอะมาก เห็นแล้วฉันก็ไปซื้อหุ้น Google ทันที จากผลงานที่เห็น มันให้ความรู้สึกว่าไม่ได้แค่คัดลอกแม่แบบเก่า ๆ แต่มันสร้างดีไซน์ใหม่ที่มีความคิดสร้างสรรค์จริง ๆ การได้ผลลัพธ์ที่สวยงามและสม่ำเสมอขนาดนี้ในระดับโค้ดเป็นเรื่องยากมากจนน่าตกใจ และ Gemini 3 ก็ดูเหมือนจะทำได้ แถม Google ยังเป็นบริษัทเดียวที่ทำ vertical integration ได้ถึงระดับโมเดลและฮาร์ดแวร์ ฉันเลยมองว่ามีโอกาสสำเร็จสูงมากในยุค AI

    • ฉันไม่ใช่ผู้เชี่ยวชาญด้านการเงิน แต่ขอแนะนำว่าการซื้อหุ้นเพียงเพราะโพสต์ไฮป์บนทวิตเตอร์ไม่น่าใช่วิธีลงทุนที่ปลอดภัยนัก แต่ถ้าเป็นเงินเย็นที่อยากลองสนุก ๆ ก็แล้วแต่เลย
  • ทวิตเตอร์ของ chetaslua กำลังโพสต์ผลทดลองเกี่ยวกับ Gemini 3 หลายแบบอยู่ (เว็บเดสก์ท็อป, Vampire Survivor clone, โมเดล 3D Vogel ที่เล่นได้จริง, เกมโคลนหลายแบบ, SVG ฯลฯ) โดยเฉพาะในรูปแบบ one-shot ผลลัพธ์ออกมาดีและน่าทึ่งมาก

    • ตัวอย่างนี้สดใหม่มากจริง ๆ: เดโมสดบน codepen
      ถ้ารัน Python terminal จะมีเอฟเฟกต์แบบ break the fourth wall ที่น่าสนใจนิดหน่อย
      1. ถ้าใช้คีย์เวิร์ด print ของ "Python" จะมีหน้าต่างสั่งพิมพ์ของเบราว์เซอร์เด้งขึ้นมาจริง ๆ
      2. ถ้าใช้คีย์เวิร์ด open ของ "Python" เบราว์เซอร์จะเปิดแท็บใหม่แล้วพยายามเข้าถึงไฟล์นั้นจริง ๆ
        กล่าวคือการทำงานของ print และ open ถูกเชื่อมตรงเข้ากับเบราว์เซอร์เลย
  • อยากให้ปรับปรุงอาการลูป (การวนซ้ำ) มันเป็นปัญหาร้ายแรงมาก CLI ยังมีฟีเจอร์ตรวจจับลูป แต่ฉันใช้ไปแค่นาทีเดียวก็โดนตรวจจับแล้ว ส่วน 2.5 Pro ใน Gemini app ต่อให้สั่งหลายครั้งว่าอย่าพูดซ้ำ มันก็ยังวนคำเดิมไปเรื่อย ๆ จนแทบใช้งานไม่ได้

  • สงสัยว่าโมเดลพวกนี้ประเมิน SVG แบบ “มองด้วยตา” แล้วค่อยแก้หลายรอบ หรือคาดหวังให้มันให้ผลลัพธ์ที่สมบูรณ์แบบในครั้งเดียวกันแน่

    • ใน benchmark ของฉันให้โอกาสแค่ครั้งเดียว
      ฉันก็เคยทดสอบแบบให้ visual model ดูผลที่ render แล้วปรับได้สูงสุดสามครั้งเหมือนกัน แต่แปลกที่ผลกลับไม่ได้ดีขึ้นเลย