Gemini 3.0 ถูกพบผ่านการทดสอบ A/B แบบเปิดเผยต่อสาธารณะ

(ricklamers.io)

5 คะแนน โดย GN⁺ 2025-10-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ผู้ใช้บางรายพบว่าใน Google AI Studio มีการปล่อย โมเดล Gemini 3.0 ใหม่ ในรูปแบบการทดสอบ A/B
Gemini 3.0 เป็นโมเดลรุ่นถัดไปที่ถูกคาดหวังว่าจะมี ประสิทธิภาพด้านการเขียนโค้ดที่ดีขึ้น โดยผู้ใช้จริงได้ตรวจสอบความต่างของคุณภาพผ่าน การทดสอบสร้างภาพ SVG
จากผลการทดสอบ ผลงาน SVG ของคอนโทรลเลอร์ Xbox 360 ดีขึ้นอย่างชัดเจน แสดงให้เห็นการพัฒนาอย่างมากเมื่อเทียบกับ Gemini 2.5 Pro
ตัวระบุโมเดลคือ ecpt50a2y6mpgkcn และมีความเป็นไปได้สูงว่าเป็นเวอร์ชัน Gemini 3.0 Pro พร้อมการเปลี่ยนแปลงด้านประสิทธิภาพ เช่น ความยาวเอาต์พุตเพิ่มขึ้น 40% และ TTFT เพิ่มขึ้น 24 วินาที
สิ่งนี้บ่งชี้ว่า Google ได้เริ่มปล่อยใช้งานโมเดล Gemini รุ่นถัดไปในเชิงทดลองแล้ว และหมายความว่าการเปิดตัวอย่างเป็นทางการอาจใกล้เข้ามา

การเปิดเผยอย่างไม่เป็นทางการของ Gemini 3.0 และบริบท

ตามข่าวลือล่าสุด พบว่าผู้ใช้บางรายสามารถเข้าถึง Gemini 3.0 ได้ผ่าน การทดสอบ A/B ใน Google AI Studio
ขณะนี้ Gemini 3.0 เป็นโมเดลที่ได้รับความสนใจอย่างมากในวงการ AI จากความคาดหวังเรื่อง การเรนเดอร์ภาพด้วย AI และประสิทธิภาพการเขียนโค้ดที่ดีขึ้น
หลังจากลองหลายครั้ง ในที่สุดก็ได้พบหน้าจอการทดสอบ A/B ด้วยตนเอง
พรอมป์ต์ที่ใช้: Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
โดยสรุป SVG คอนโทรลเลอร์ Xbox ที่ Gemini 3.0 สร้างขึ้นนั้น เหนือกว่าโมเดลเดิมอย่างชัดเจน ในด้าน รายละเอียด ความแม่นยำ และความสมบูรณ์ของเลย์เอาต์
ยืนยันได้ว่าโมเดลไอดีของ Gemini 3.0 คือ ecpt50a2y6mpgkcn แต่ยากที่จะทราบข้อมูลเวอร์ชันที่ชัดเจน
เนื่องจากโมเดลที่ถูกเลือกโดยค่าเริ่มต้นคือ Gemini 2.5 Pro จึงพอคาดได้ว่าที่จริงแล้วเป็นการเปรียบเทียบกับ Gemini 3.0 Pro
เมื่อเทียบกับ Gemini 2.5 Pro
- TTFT (Time to First Token) เพิ่มขึ้นราว 24 วินาที
- ความยาวเอาต์พุตเพิ่มขึ้นราว 40%
- อาจมีการรวม reasoning tokens อยู่ด้วย

ภาคผนวก

รายการภาพเอาต์พุตจากผลการเปรียบเทียบ A/B ระหว่าง Gemini 3.0 กับ Gemini 2.5 Pro

1 ความคิดเห็น

GN⁺ 2025-10-17

ความคิดเห็นบน Hacker News

ฉันอาจเป็นคนส่วนน้อย แต่ที่บริษัทฉันใช้โมเดลระดับโปรได้ทั้งหมด และจากที่ลองมา Gemini ดีกว่า ChatGPT, Claude, Deepseek อยู่เสมอ อาจเป็นเพราะฉันทำงานเว็บดีเวลอปเมนต์ โดยเฉพาะงาน HTML/SCSS เยอะ และคิดว่าการที่ Google crawl อินเทอร์เน็ตทำให้มีข้อมูลมากกว่าก็เป็นข้อได้เปรียบ แต่ละโมเดลคงมีด้านที่ตัวเองถนัด แต่สำหรับงานพัฒนาเว็บสาย UI/UX ฉันรู้สึกว่า Gemini เด่นมาก รอเวอร์ชัน 3.0 มากจริง ๆ
- ฉันรู้สึกว่า Gemini 2.5 Pro เด่นกว่า Claude และ GPT-5 เป็นพิเศษในสองกรณีด้านล่างนี้
  - งานเขียนเชิงสร้างสรรค์: Gemini เหนือกว่าตัวอื่นแบบขาดลอย สำหรับฉัน Gemini 2.5 Pro เป็นโมเดลเดียวที่พอจะใช้กับงานเขียนสร้างสรรค์ได้จริง ๆ (บทกวี เรื่องสั้น) มันเข้าใจนัยและน้ำเสียงได้ดีมากพอสมควร เลยเอามาใช้วิจารณ์งานเขียนของตัวเองอยู่ แน่นอนว่าด้านอย่างการเขียนบทกวีนั้น ทุกโมเดลก็ยังไปได้ไม่ถึงอยู่ดี
  - การให้เหตุผลที่ซับซ้อน (คณิตศาสตร์ระดับปริญญาตรี/บัณฑิตศึกษา): Gemini แม่นกว่าอยู่นิดหน่อยเลยคิดว่าดีที่สุด Claude Opus 4.1 กับ Sonnet 4.5 ก็สูสีเหมือนกัน แต่ Gemini 2.5 ให้คำตอบที่สม่ำเสมอและคาดเดาได้มากกว่า (ฉันใช้กับพีชคณิต, พีชคณิตสลับเปลี่ยน, category theory, algebraic geometry, topology ฯลฯ บ่อย)
  - แต่ถ้าเป็นบทบาทแบบ “เอเจนต์” เช่น ค้นทั้งโค้ดเบสขนาดใหญ่ หรือขอให้รีแฟกเตอร์จากคำถามปลายเปิด Gemini ด้อยกว่า Claude และ GPT-5 มากกว่า มันมีปัญหาเรื่อง tool calling บางส่วน เลยทำงานใน Copilot/Cursor ได้ไม่สม่ำเสมอ
  - โดยรวมฉันคิดว่า Gemini 2.5 Pro ฉลาดที่สุด แต่ก็เห็นว่าควรเลือกใช้โมเดลตามลักษณะงาน
- เมื่อไม่กี่สัปดาห์ก่อน มีสคริปต์ของ third-party ไปรบกวน click event ของปุ่ม React ของฉัน เลยจะเพิ่ม mousedown event เพื่อแก้ ตอนนั้นเหนื่อย ๆ ก็เลยจะใช้วิธีเร็ว ๆ แบบหยาบ ๆ คือจำลองการคลิกหลัง mousedown ไปไม่กี่ ms เลยอธิบายแผนให้ Gemini ฟัง ปรากฏว่า Gemini ปฏิเสธตรง ๆ และเสนอวิธีที่สะอาดกว่าว่าให้จัดการโดยใช้ mousedown กับ mouseup ร่วมกัน ฉันประทับใจมากที่มันเข้าใจปัญหาได้ครบ และแนะนำวิธีที่ดีกว่าสิ่งที่ฉันตั้งใจจะทำ
- บริษัทเรากำลัง benchmark โมเดล LLM หลัก ๆ กันอยู่ และ Gemini 2.5 เป็นอันดับ 1 แบบทิ้งห่าง ยกเว้นบางโดเมนที่เฉพาะมาก ๆ มันสอดคล้องกับข่าวลือที่ว่า pretraining ของ Google ดีที่สุด เพียงแต่ยังมีจุดน่าเสียดายเล็กน้อยในส่วน tuning/alignment นี่แหละที่ทำให้ฉันรอ Gemini 3 มาก แม้ 2.5 จะดีที่สุดแล้วแต่ก็ยังมีพื้นที่ให้พัฒนาอีกมาก (โดเมนเฉพาะ: “การให้เหตุผลจริง ๆ” (GPT-5) และการเขียนสคริปต์ Python (ตระกูล Claude))
- สำหรับความแม่นยำในการค้นหาหรืองานที่อิงข้อเท็จจริง ฉันรู้สึกว่า Claude กับ Gemini ยังด้อยกว่า ChatGPT มาก Gemini พอค้นหาไม่กี่ครั้งก็เริ่มเดา ๆ เองแล้ว ในขณะที่ ChatGPT จะค้นต่อเป็นสิบหรือเป็นร้อยครั้งได้ และยังค้นต่อยอดจากผลที่เจอก่อนหน้าได้ด้วย
- ฉันชอบ context window ที่กว้างกว่าของ Gemini มาก วิธีทำงานของฉันคือแปลงทั้งโค้ดเบสเป็นสตริงแล้ววางเข้าไปใน Gemini จากนั้นค่อยถาม คนอื่นชอบ “เอเจนต์” ที่เลือกดูแค่บางไฟล์ แต่สำหรับฉัน การโยนทั้งโค้ดเบสเข้าไปเลย แล้วคุยโต้ตอบเพื่อให้มันสร้างโค้ด แก้ไฟล์ ฯลฯ สะดวกและมีประสิทธิภาพกว่ามาก
ฉันไม่ค่อยเข้าใจความสนใจเกินเหตุเรื่องการให้ LLM สร้าง SVG งานนี้ทำให้สำเร็จในครั้งเดียวได้ยาก และมนุษย์เองก็ทำยาก เลยไม่ค่อยมีประโยชน์เท่าไร ถ้าโมเดลได้รับ visual feedback แล้วค่อยปรับผลลัพธ์ได้ มันน่าจะมีประโยชน์กว่า แต่พอมันกลายเป็นโจทย์ benchmark ยอดนิยม บริษัทต่าง ๆ ก็แค่เอาข้อมูลตัวอย่างเข้าไปเพิ่มในชุดฝึก สุดท้ายก็เป็นเพียงการเทียบกันว่าใครมีชุดข้อมูล “text to SVG” ที่ดีกว่า ไม่ได้เกี่ยวกับคุณภาพโดยรวมของโมเดลเลย
ราว ๆ หนึ่งเดือนมานี้มีข่าวเกี่ยวกับ Gemini 3 ออกมาต่อเนื่องพร้อมการคาดเดาหลายแบบ แต่จนกว่าจะมีประกาศทางการก็ควรรอดูไปก่อน ไม่มีใครรู้ว่าโมเดลนี้จะมาแทน Pro, Flash, Flash Lite หรือเป็นโมเดลใหม่ทั้งหมด หรือจะปล่อยจริงไหม ใน AIStudio เพราะเป็นการทดสอบแบบ A/B เลยได้ผลลัพธ์จากพรอมป์ต์เดียวแค่ครั้งเดียว และพอจะดูได้แค่ความเร็ว, latency, การทำตามคำสั่งเท่านั้น ฉันไม่คิดว่าการประเมินประสิทธิภาพของแต่ละโมเดลจากพรอมป์ต์เดียวจะเป็นการประเมินแบบมืออาชีพ แน่นอนว่าเรื่องการจัดการหลายไฟล์หรือการรองรับ tool calling ก็ไม่มีทางรู้ได้ อยากให้ระวังอย่าไปเพิ่มความคาดหวังกันเกินไปจนลงเอยด้วยการคาดหวังสูงเกินหรือผิดหวัง นี่ก็เป็นเหตุผลที่ฉันไม่ค่อยชอบคอนเทนต์เชิงคาดเดา เพราะมันเน้นแต่ความหวือหวาโดยไม่มีบริบทและการวิเคราะห์จริง
- ช่วงนี้เหมือนการปั่นไฮป์กลายเป็นอาชีพไปแล้ว แต่ละลิงก์บนทวิตเตอร์เต็มไปด้วยปฏิกิริยาเวอร์ ๆ อย่าง "GAME CHANGER!!!", "ทุกคนจะต้องช็อก!" จนน่ารำคาญนิดหน่อย ตัวอย่างจริง ๆ ก็ดูน่าสนใจนะ แต่เสียดายที่เต็มไปด้วยการประเมินแบบไม่เป็นมืออาชีพอย่างที่พูดไปข้างบน
ภาพนกกระทุงที่ยอดเยี่ยมจริง ๆ รออยากลอง Gemini 3 มาก ตัวอย่างบนทวิตเตอร์ที่เกี่ยวข้อง
- ในที่สุด benchmark ก็พังแล้ว
- มันดูเหมือนงานศิลปะมากกว่าที่คาดไว้
- อันนี้ถือว่าโอเคเหรอ? สำหรับฉันมันก็ดูไม่ค่อยดีเท่าไร
สิ่งหนึ่งที่ฉันรู้สึกว่าแปลกคือ Gemini 2.5 Pro นั้นยอดเยี่ยมมากสำหรับการใช้งานส่วนใหญ่ แต่ต้องเป็นคำถามแรกเท่านั้น กล่าวคือมันดีที่สุดเมื่อใส่บริบททั้งหมดไปแล้วถามครั้งเดียวและรับคำตอบครั้งเดียว ยิ่งคุยนานคุณภาพยิ่งตกลงอย่างรวดเร็ว ทั้งที่มันมี context window ยาวกว่าโมเดลอื่น ๆ ด้วยซ้ำ ซึ่งก็ดูแปลก ฉันเลยใช้วิธีใส่ทั้งโปรเจกต์ (ประมาณ 200k tokens) ลงไปในแชต จากนั้นถามคำถามที่เตรียมมาดีเพียงข้อเดียว แล้วก็ปิดหน้าต่างแชตนั้นทันที
- อาการที่คุณภาพคำตอบแย่ลงเรื่อย ๆ เมื่อคุยนาน ๆ ฉันเจอเหมือนกันในทุก LLM ที่เคยใช้ เลยไม่ค่อยคุยเกินสองข้อความ ถ้าคำตอบแรกยังไม่ใช่ ยิ่งส่งข้อความเพิ่ม โอกาสจะได้คำตอบที่ถูกยิ่งลดลง ฉันคิดว่าควรเริ่มแชตใหม่เสมอแล้วค่อยปรับพรอมป์ต์ลองใหม่
มีคนบอกว่า "Gemini 3.0 เป็นหนึ่งใน AI release ที่น่าตื่นเต้นที่สุดในตอนนี้ โดยเฉพาะเพราะประสิทธิภาพด้านการเขียนโค้ดที่ดีขึ้น" แต่จากที่ฉันได้ยินจากเพื่อน ๆ ที่ใช้ภายใน Google ทุกคนบอกว่าจะผิดหวังกันหมด
แก้ไข: ที่จริงพวกเขายังใช้ Gemini 3 ไม่ได้ ดังนั้นการที่พวกเขาบอกว่าไม่ดีจึงกลับเป็นเรื่องธรรมดา
- Gemini 3.0 ยังไม่ได้ถูกกระจายใช้งานอย่างกว้างขวางแม้แต่ภายใน Google เอง “Gemini for Google” เป็นเวอร์ชันที่ fine-tune จาก 2.5 Pro หรือ 2.5 Flash ตัวโมเดล 3.0 เองยังไม่ได้ถูกใช้อย่างกว้างขวาง (พนักงาน Google, ทำงานในทีมที่เกี่ยวกับการชำระเงิน และนี่เป็นความเห็นส่วนตัว)
- ขอโทษที่ต้องสาดน้ำเย็นใส่ความตื่นเต้นนี้ แต่แม้แต่ทีม Vibecoding ภายใน Google ของเราก็ยังไม่ได้ใช้ Gemini 3
- ก็ไม่น่าแปลกใจอะไร LLM เริ่มเข้าสู่ขีดจำกัดของการเพิ่มประสิทธิภาพแล้ว (ช่วงผลตอบแทนลดลง) และเราต้องหาวิธีทำ GPU ที่ถูกกว่านี้
ตอนนี้มีตัวอย่าง Gemini 3 บนทวิตเตอร์ออกมาอีกเยอะมาก เห็นแล้วฉันก็ไปซื้อหุ้น Google ทันที จากผลงานที่เห็น มันให้ความรู้สึกว่าไม่ได้แค่คัดลอกแม่แบบเก่า ๆ แต่มันสร้างดีไซน์ใหม่ที่มีความคิดสร้างสรรค์จริง ๆ การได้ผลลัพธ์ที่สวยงามและสม่ำเสมอขนาดนี้ในระดับโค้ดเป็นเรื่องยากมากจนน่าตกใจ และ Gemini 3 ก็ดูเหมือนจะทำได้ แถม Google ยังเป็นบริษัทเดียวที่ทำ vertical integration ได้ถึงระดับโมเดลและฮาร์ดแวร์ ฉันเลยมองว่ามีโอกาสสำเร็จสูงมากในยุค AI
- ฉันไม่ใช่ผู้เชี่ยวชาญด้านการเงิน แต่ขอแนะนำว่าการซื้อหุ้นเพียงเพราะโพสต์ไฮป์บนทวิตเตอร์ไม่น่าใช่วิธีลงทุนที่ปลอดภัยนัก แต่ถ้าเป็นเงินเย็นที่อยากลองสนุก ๆ ก็แล้วแต่เลย
ทวิตเตอร์ของ chetaslua กำลังโพสต์ผลทดลองเกี่ยวกับ Gemini 3 หลายแบบอยู่ (เว็บเดสก์ท็อป, Vampire Survivor clone, โมเดล 3D Vogel ที่เล่นได้จริง, เกมโคลนหลายแบบ, SVG ฯลฯ) โดยเฉพาะในรูปแบบ one-shot ผลลัพธ์ออกมาดีและน่าทึ่งมาก
- ตัวอย่างนี้สดใหม่มากจริง ๆ: เดโมสดบน codepen
  ถ้ารัน Python terminal จะมีเอฟเฟกต์แบบ break the fourth wall ที่น่าสนใจนิดหน่อย
  1. ถ้าใช้คีย์เวิร์ด print ของ "Python" จะมีหน้าต่างสั่งพิมพ์ของเบราว์เซอร์เด้งขึ้นมาจริง ๆ
  2. ถ้าใช้คีย์เวิร์ด open ของ "Python" เบราว์เซอร์จะเปิดแท็บใหม่แล้วพยายามเข้าถึงไฟล์นั้นจริง ๆ
    กล่าวคือการทำงานของ print และ open ถูกเชื่อมตรงเข้ากับเบราว์เซอร์เลย
อยากให้ปรับปรุงอาการลูป (การวนซ้ำ) มันเป็นปัญหาร้ายแรงมาก CLI ยังมีฟีเจอร์ตรวจจับลูป แต่ฉันใช้ไปแค่นาทีเดียวก็โดนตรวจจับแล้ว ส่วน 2.5 Pro ใน Gemini app ต่อให้สั่งหลายครั้งว่าอย่าพูดซ้ำ มันก็ยังวนคำเดิมไปเรื่อย ๆ จนแทบใช้งานไม่ได้
สงสัยว่าโมเดลพวกนี้ประเมิน SVG แบบ “มองด้วยตา” แล้วค่อยแก้หลายรอบ หรือคาดหวังให้มันให้ผลลัพธ์ที่สมบูรณ์แบบในครั้งเดียวกันแน่
- ใน benchmark ของฉันให้โอกาสแค่ครั้งเดียว
  ฉันก็เคยทดสอบแบบให้ visual model ดูผลที่ render แล้วปรับได้สูงสุดสามครั้งเหมือนกัน แต่แปลกที่ผลกลับไม่ได้ดีขึ้นเลย

Gemini 3.0 ถูกพบผ่านการทดสอบ A/B แบบเปิดเผยต่อสาธารณะ

การเปิดเผยอย่างไม่เป็นทางการของ Gemini 3.0 และบริบท

ภาคผนวก

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News