- ผู้ใช้บางรายพบว่าใน Google AI Studio มีการปล่อย โมเดล Gemini 3.0 ใหม่ ในรูปแบบการทดสอบ A/B
- Gemini 3.0 เป็นโมเดลรุ่นถัดไปที่ถูกคาดหวังว่าจะมี ประสิทธิภาพด้านการเขียนโค้ดที่ดีขึ้น โดยผู้ใช้จริงได้ตรวจสอบความต่างของคุณภาพผ่าน การทดสอบสร้างภาพ SVG
- จากผลการทดสอบ ผลงาน SVG ของคอนโทรลเลอร์ Xbox 360 ดีขึ้นอย่างชัดเจน แสดงให้เห็นการพัฒนาอย่างมากเมื่อเทียบกับ Gemini 2.5 Pro
- ตัวระบุโมเดลคือ
ecpt50a2y6mpgkcn และมีความเป็นไปได้สูงว่าเป็นเวอร์ชัน Gemini 3.0 Pro พร้อมการเปลี่ยนแปลงด้านประสิทธิภาพ เช่น ความยาวเอาต์พุตเพิ่มขึ้น 40% และ TTFT เพิ่มขึ้น 24 วินาที
- สิ่งนี้บ่งชี้ว่า Google ได้เริ่มปล่อยใช้งานโมเดล Gemini รุ่นถัดไปในเชิงทดลองแล้ว และหมายความว่าการเปิดตัวอย่างเป็นทางการอาจใกล้เข้ามา
การเปิดเผยอย่างไม่เป็นทางการของ Gemini 3.0 และบริบท
- ตามข่าวลือล่าสุด พบว่าผู้ใช้บางรายสามารถเข้าถึง Gemini 3.0 ได้ผ่าน การทดสอบ A/B ใน Google AI Studio
- ขณะนี้ Gemini 3.0 เป็นโมเดลที่ได้รับความสนใจอย่างมากในวงการ AI จากความคาดหวังเรื่อง การเรนเดอร์ภาพด้วย AI และประสิทธิภาพการเขียนโค้ดที่ดีขึ้น
- หลังจากลองหลายครั้ง ในที่สุดก็ได้พบหน้าจอการทดสอบ A/B ด้วยตนเอง
- พรอมป์ต์ที่ใช้:
Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
- โดยสรุป SVG คอนโทรลเลอร์ Xbox ที่ Gemini 3.0 สร้างขึ้นนั้น เหนือกว่าโมเดลเดิมอย่างชัดเจน ในด้าน รายละเอียด ความแม่นยำ และความสมบูรณ์ของเลย์เอาต์
- ยืนยันได้ว่าโมเดลไอดีของ Gemini 3.0 คือ
ecpt50a2y6mpgkcn แต่ยากที่จะทราบข้อมูลเวอร์ชันที่ชัดเจน
- เนื่องจากโมเดลที่ถูกเลือกโดยค่าเริ่มต้นคือ Gemini 2.5 Pro จึงพอคาดได้ว่าที่จริงแล้วเป็นการเปรียบเทียบกับ Gemini 3.0 Pro
- เมื่อเทียบกับ Gemini 2.5 Pro
- TTFT (Time to First Token) เพิ่มขึ้นราว 24 วินาที
- ความยาวเอาต์พุตเพิ่มขึ้นราว 40%
- อาจมีการรวม reasoning tokens อยู่ด้วย
ภาคผนวก
- รายการภาพเอาต์พุตจากผลการเปรียบเทียบ A/B ระหว่าง Gemini 3.0 กับ Gemini 2.5 Pro
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ฉันอาจเป็นคนส่วนน้อย แต่ที่บริษัทฉันใช้โมเดลระดับโปรได้ทั้งหมด และจากที่ลองมา Gemini ดีกว่า ChatGPT, Claude, Deepseek อยู่เสมอ อาจเป็นเพราะฉันทำงานเว็บดีเวลอปเมนต์ โดยเฉพาะงาน HTML/SCSS เยอะ และคิดว่าการที่ Google crawl อินเทอร์เน็ตทำให้มีข้อมูลมากกว่าก็เป็นข้อได้เปรียบ แต่ละโมเดลคงมีด้านที่ตัวเองถนัด แต่สำหรับงานพัฒนาเว็บสาย UI/UX ฉันรู้สึกว่า Gemini เด่นมาก รอเวอร์ชัน 3.0 มากจริง ๆ
ฉันรู้สึกว่า Gemini 2.5 Pro เด่นกว่า Claude และ GPT-5 เป็นพิเศษในสองกรณีด้านล่างนี้
เมื่อไม่กี่สัปดาห์ก่อน มีสคริปต์ของ third-party ไปรบกวน click event ของปุ่ม React ของฉัน เลยจะเพิ่ม mousedown event เพื่อแก้ ตอนนั้นเหนื่อย ๆ ก็เลยจะใช้วิธีเร็ว ๆ แบบหยาบ ๆ คือจำลองการคลิกหลัง mousedown ไปไม่กี่ ms เลยอธิบายแผนให้ Gemini ฟัง ปรากฏว่า Gemini ปฏิเสธตรง ๆ และเสนอวิธีที่สะอาดกว่าว่าให้จัดการโดยใช้ mousedown กับ mouseup ร่วมกัน ฉันประทับใจมากที่มันเข้าใจปัญหาได้ครบ และแนะนำวิธีที่ดีกว่าสิ่งที่ฉันตั้งใจจะทำ
บริษัทเรากำลัง benchmark โมเดล LLM หลัก ๆ กันอยู่ และ Gemini 2.5 เป็นอันดับ 1 แบบทิ้งห่าง ยกเว้นบางโดเมนที่เฉพาะมาก ๆ มันสอดคล้องกับข่าวลือที่ว่า pretraining ของ Google ดีที่สุด เพียงแต่ยังมีจุดน่าเสียดายเล็กน้อยในส่วน tuning/alignment นี่แหละที่ทำให้ฉันรอ Gemini 3 มาก แม้ 2.5 จะดีที่สุดแล้วแต่ก็ยังมีพื้นที่ให้พัฒนาอีกมาก (โดเมนเฉพาะ: “การให้เหตุผลจริง ๆ” (GPT-5) และการเขียนสคริปต์ Python (ตระกูล Claude))
สำหรับความแม่นยำในการค้นหาหรืองานที่อิงข้อเท็จจริง ฉันรู้สึกว่า Claude กับ Gemini ยังด้อยกว่า ChatGPT มาก Gemini พอค้นหาไม่กี่ครั้งก็เริ่มเดา ๆ เองแล้ว ในขณะที่ ChatGPT จะค้นต่อเป็นสิบหรือเป็นร้อยครั้งได้ และยังค้นต่อยอดจากผลที่เจอก่อนหน้าได้ด้วย
ฉันชอบ context window ที่กว้างกว่าของ Gemini มาก วิธีทำงานของฉันคือแปลงทั้งโค้ดเบสเป็นสตริงแล้ววางเข้าไปใน Gemini จากนั้นค่อยถาม คนอื่นชอบ “เอเจนต์” ที่เลือกดูแค่บางไฟล์ แต่สำหรับฉัน การโยนทั้งโค้ดเบสเข้าไปเลย แล้วคุยโต้ตอบเพื่อให้มันสร้างโค้ด แก้ไฟล์ ฯลฯ สะดวกและมีประสิทธิภาพกว่ามาก
ฉันไม่ค่อยเข้าใจความสนใจเกินเหตุเรื่องการให้ LLM สร้าง SVG งานนี้ทำให้สำเร็จในครั้งเดียวได้ยาก และมนุษย์เองก็ทำยาก เลยไม่ค่อยมีประโยชน์เท่าไร ถ้าโมเดลได้รับ visual feedback แล้วค่อยปรับผลลัพธ์ได้ มันน่าจะมีประโยชน์กว่า แต่พอมันกลายเป็นโจทย์ benchmark ยอดนิยม บริษัทต่าง ๆ ก็แค่เอาข้อมูลตัวอย่างเข้าไปเพิ่มในชุดฝึก สุดท้ายก็เป็นเพียงการเทียบกันว่าใครมีชุดข้อมูล “text to SVG” ที่ดีกว่า ไม่ได้เกี่ยวกับคุณภาพโดยรวมของโมเดลเลย
ราว ๆ หนึ่งเดือนมานี้มีข่าวเกี่ยวกับ Gemini 3 ออกมาต่อเนื่องพร้อมการคาดเดาหลายแบบ แต่จนกว่าจะมีประกาศทางการก็ควรรอดูไปก่อน ไม่มีใครรู้ว่าโมเดลนี้จะมาแทน Pro, Flash, Flash Lite หรือเป็นโมเดลใหม่ทั้งหมด หรือจะปล่อยจริงไหม ใน AIStudio เพราะเป็นการทดสอบแบบ A/B เลยได้ผลลัพธ์จากพรอมป์ต์เดียวแค่ครั้งเดียว และพอจะดูได้แค่ความเร็ว, latency, การทำตามคำสั่งเท่านั้น ฉันไม่คิดว่าการประเมินประสิทธิภาพของแต่ละโมเดลจากพรอมป์ต์เดียวจะเป็นการประเมินแบบมืออาชีพ แน่นอนว่าเรื่องการจัดการหลายไฟล์หรือการรองรับ tool calling ก็ไม่มีทางรู้ได้ อยากให้ระวังอย่าไปเพิ่มความคาดหวังกันเกินไปจนลงเอยด้วยการคาดหวังสูงเกินหรือผิดหวัง นี่ก็เป็นเหตุผลที่ฉันไม่ค่อยชอบคอนเทนต์เชิงคาดเดา เพราะมันเน้นแต่ความหวือหวาโดยไม่มีบริบทและการวิเคราะห์จริง
ภาพนกกระทุงที่ยอดเยี่ยมจริง ๆ รออยากลอง Gemini 3 มาก ตัวอย่างบนทวิตเตอร์ที่เกี่ยวข้อง
ในที่สุด benchmark ก็พังแล้ว
มันดูเหมือนงานศิลปะมากกว่าที่คาดไว้
อันนี้ถือว่าโอเคเหรอ? สำหรับฉันมันก็ดูไม่ค่อยดีเท่าไร
สิ่งหนึ่งที่ฉันรู้สึกว่าแปลกคือ Gemini 2.5 Pro นั้นยอดเยี่ยมมากสำหรับการใช้งานส่วนใหญ่ แต่ต้องเป็นคำถามแรกเท่านั้น กล่าวคือมันดีที่สุดเมื่อใส่บริบททั้งหมดไปแล้วถามครั้งเดียวและรับคำตอบครั้งเดียว ยิ่งคุยนานคุณภาพยิ่งตกลงอย่างรวดเร็ว ทั้งที่มันมี context window ยาวกว่าโมเดลอื่น ๆ ด้วยซ้ำ ซึ่งก็ดูแปลก ฉันเลยใช้วิธีใส่ทั้งโปรเจกต์ (ประมาณ 200k tokens) ลงไปในแชต จากนั้นถามคำถามที่เตรียมมาดีเพียงข้อเดียว แล้วก็ปิดหน้าต่างแชตนั้นทันที
มีคนบอกว่า "Gemini 3.0 เป็นหนึ่งใน AI release ที่น่าตื่นเต้นที่สุดในตอนนี้ โดยเฉพาะเพราะประสิทธิภาพด้านการเขียนโค้ดที่ดีขึ้น" แต่จากที่ฉันได้ยินจากเพื่อน ๆ ที่ใช้ภายใน Google ทุกคนบอกว่าจะผิดหวังกันหมด
แก้ไข: ที่จริงพวกเขายังใช้ Gemini 3 ไม่ได้ ดังนั้นการที่พวกเขาบอกว่าไม่ดีจึงกลับเป็นเรื่องธรรมดา
Gemini 3.0 ยังไม่ได้ถูกกระจายใช้งานอย่างกว้างขวางแม้แต่ภายใน Google เอง “Gemini for Google” เป็นเวอร์ชันที่ fine-tune จาก 2.5 Pro หรือ 2.5 Flash ตัวโมเดล 3.0 เองยังไม่ได้ถูกใช้อย่างกว้างขวาง (พนักงาน Google, ทำงานในทีมที่เกี่ยวกับการชำระเงิน และนี่เป็นความเห็นส่วนตัว)
ขอโทษที่ต้องสาดน้ำเย็นใส่ความตื่นเต้นนี้ แต่แม้แต่ทีม Vibecoding ภายใน Google ของเราก็ยังไม่ได้ใช้ Gemini 3
ก็ไม่น่าแปลกใจอะไร LLM เริ่มเข้าสู่ขีดจำกัดของการเพิ่มประสิทธิภาพแล้ว (ช่วงผลตอบแทนลดลง) และเราต้องหาวิธีทำ GPU ที่ถูกกว่านี้
ตอนนี้มีตัวอย่าง Gemini 3 บนทวิตเตอร์ออกมาอีกเยอะมาก เห็นแล้วฉันก็ไปซื้อหุ้น Google ทันที จากผลงานที่เห็น มันให้ความรู้สึกว่าไม่ได้แค่คัดลอกแม่แบบเก่า ๆ แต่มันสร้างดีไซน์ใหม่ที่มีความคิดสร้างสรรค์จริง ๆ การได้ผลลัพธ์ที่สวยงามและสม่ำเสมอขนาดนี้ในระดับโค้ดเป็นเรื่องยากมากจนน่าตกใจ และ Gemini 3 ก็ดูเหมือนจะทำได้ แถม Google ยังเป็นบริษัทเดียวที่ทำ vertical integration ได้ถึงระดับโมเดลและฮาร์ดแวร์ ฉันเลยมองว่ามีโอกาสสำเร็จสูงมากในยุค AI
ทวิตเตอร์ของ chetaslua กำลังโพสต์ผลทดลองเกี่ยวกับ Gemini 3 หลายแบบอยู่ (เว็บเดสก์ท็อป, Vampire Survivor clone, โมเดล 3D Vogel ที่เล่นได้จริง, เกมโคลนหลายแบบ, SVG ฯลฯ) โดยเฉพาะในรูปแบบ one-shot ผลลัพธ์ออกมาดีและน่าทึ่งมาก
ถ้ารัน Python terminal จะมีเอฟเฟกต์แบบ break the fourth wall ที่น่าสนใจนิดหน่อย
กล่าวคือการทำงานของ print และ open ถูกเชื่อมตรงเข้ากับเบราว์เซอร์เลย
อยากให้ปรับปรุงอาการลูป (การวนซ้ำ) มันเป็นปัญหาร้ายแรงมาก CLI ยังมีฟีเจอร์ตรวจจับลูป แต่ฉันใช้ไปแค่นาทีเดียวก็โดนตรวจจับแล้ว ส่วน 2.5 Pro ใน Gemini app ต่อให้สั่งหลายครั้งว่าอย่าพูดซ้ำ มันก็ยังวนคำเดิมไปเรื่อย ๆ จนแทบใช้งานไม่ได้
สงสัยว่าโมเดลพวกนี้ประเมิน SVG แบบ “มองด้วยตา” แล้วค่อยแก้หลายรอบ หรือคาดหวังให้มันให้ผลลัพธ์ที่สมบูรณ์แบบในครั้งเดียวกันแน่
ฉันก็เคยทดสอบแบบให้ visual model ดูผลที่ render แล้วปรับได้สูงสุดสามครั้งเหมือนกัน แต่แปลกที่ผลกลับไม่ได้ดีขึ้นเลย