Nano Banana 2 Lite
(deepmind.google)- Nano Banana 2 Lite ที่เพิ่มเข้ามาในตระกูล Gemini Image ของ Google DeepMind เป็นโมเดลที่มุ่งให้การสร้างและแก้ไขภาพทำงานได้เร็วขึ้นและมีต้นทุนต่ำลง โดยเน้นลดภาระค่าใช้จ่ายของงานภาพที่ต้องทำซ้ำจำนวนมาก
- แกนหลักคือ latency ต่ำ และความคุ้มค่าด้านต้นทุนในระดับสเกลใหญ่ โดยสามารถสร้างภาพได้หลายพันภาพด้วยต้นทุนต่ำกว่าโมเดล production ขนาดใหญ่
- ในด้านคุณภาพ โมเดลยังคง ความสามารถในการควบคุมและความแม่นยำ แบบตระกูล Nano Banana พร้อมรองรับความสม่ำเสมอของตัวละคร การแก้ไขอย่างละเอียด และการใช้ความรู้จากโลกจริง
- ตัวอย่างอย่าง Space Lift, Gridscape, Peek-A-Word และ Anywhere แสดงให้เห็นประสบการณ์ผู้ใช้ที่เกิดขึ้นได้เมื่อการสร้างภาพเร็วพอจนไม่ทำให้การใช้งานแอปสะดุด
- อาจเกิดข้อผิดพลาดได้ในกรณีใบหน้าขนาดเล็ก การสะกดที่แม่นยำ รายละเอียดปลีกย่อย ผลลัพธ์ที่อิงข้อมูล การแปลและการทำโลคัลไลซ์ รวมถึงการแก้ไขและคอมโพสิตที่ซับซ้อน จึงยังต้องตรวจสอบผลลัพธ์ที่สร้างขึ้น
โมเดล Gemini Image ที่ชูจุดเด่นด้านความเร็วและต้นทุนต่ำ
- Nano Banana 2 Lite คือโมเดล Gemini Image ที่ Google DeepMind เปิดตัว โดยตั้งเป้าไปที่การสร้างและแก้ไขภาพอย่างรวดเร็วพร้อมต้นทุนต่ำ
- ผู้ใช้หลักคือ ครีเอเตอร์ ธุรกิจ และนักพัฒนา และออกแบบมาให้เหมาะกับเวิร์กโฟลว์ที่ต้องสำรวจไอเดียภาพหลายแบบอย่างรวดเร็ว
- Google DeepMind ระบุว่าโมเดลนี้เป็น Gemini Image ที่เร็วและมีประสิทธิภาพที่สุดเท่าที่เคยมีมา พร้อมให้การสร้างและแก้ไขความเร็วสูงในต้นทุนที่ต่ำที่สุด
- ช่องทางการเข้าถึงมีดังนี้
- Google AI Studio
- Flash-Lite mode ในแอป Gemini
- Gemini API
- Gemini Enterprise Agent Platform
สมดุลระหว่างความเร็ว ต้นทุน และคุณภาพ
- การลด latency เป็นหัวใจสำคัญ เพื่อรองรับการสำรวจและการทำงานซ้ำอย่างรวดเร็ว
- ในการสร้างภาพจำนวนมาก สามารถสร้างภาพได้หลายพันภาพด้วยต้นทุนที่ต่ำกว่าโมเดล production ที่หนักกว่าอย่างมาก
- ด้านคุณภาพ มุ่งส่งมอบความสามารถในการควบคุมและความแม่นยำที่คาดหวังจาก Nano Banana ได้เร็วขึ้น
- รักษา ความสม่ำเสมอของตัวละคร
- การแก้ไขภาพอย่างแม่นยำ
- การใช้ความรู้จากโลกจริง
- ในการเขียนพรอมป์ ยิ่งระบุองค์ประกอบที่ต้องการอย่างละเอียด เช่น ตัวละคร ฉากหลัง และบรรยากาศโดยรวม ก็ยิ่งช่วยให้ได้ภาพใกล้เคียงความต้องการมากขึ้น
- มีคู่มือพรอมป์ให้ที่ View prompt guide และ Learn how to prompt
ตัวอย่างแอปที่ตั้งอยู่บนสมมติฐานว่าการสร้างภาพต้องเร็ว
- Space Lift เป็นแอปที่เมื่ออัปโหลดภาพห้องแล้ว จะสร้างคอนเซปต์ตกแต่งภายในได้ทันที ตั้งแต่ Mid-Century Modern ไปจนถึง Bohemian Chic
- Gridscape ให้ผู้ใช้พิมพ์คำถามลงบน infinite canvas แล้วจัดโหนดข้อมูลด้วยข้อความและภาพที่สร้างโดย Nano Banana 2 Lite และ Gemini 3.1 Flash Lite
- ผู้ใช้สามารถสำรวจแนวคิดที่เกี่ยวข้องให้ลึกขึ้นผ่านเส้นทางที่คลิกได้
- Peek-A-Word เปลี่ยนข้อความที่เลือกให้เป็นสื่อภาพที่สร้างโดย AI พร้อมให้คำนิยามแบบกระชับและภาพตามบริบทในพื้นที่เดียวกัน
- มุ่งรักษา flow การเรียนรู้โดยไม่ต้องสลับแท็บ
- Anywhere เป็นแอปโลก 3D แบบโต้ตอบที่สร้างด้วย Nano Banana 2 Lite
- เมื่อแนบภาพเข้าไป จะสร้างชุดโปสต์การ์ดแบบปรับให้เป็นส่วนตัวโดยใช้สถานที่ท่องเที่ยวทั่วโลกเป็นฉากหลัง
- ผู้ใช้สามารถหมุนโลกและคลิกภาพเพื่อดูข้อมูลของจุดหมายเสมือนได้
ตัวชี้วัดเปรียบเทียบและ model card
- Google DeepMind ระบุว่า Nano Banana 2 Lite เป็นโมเดลที่มีประสิทธิภาพที่สุดเท่าที่เคยมีมา และมีสมดุลที่ดีระหว่างคุณภาพกับความเร็ว
- ในกลุ่มที่ใช้เปรียบเทียบ มีโมเดลระดับพรีเมียร์อย่าง Nano Banana 2 รวมอยู่ด้วย
- พื้นที่ที่ใช้เปรียบเทียบครอบคลุมองค์ประกอบคุณภาพการสร้างภาพ เช่น การทำตามพรอมป์ การถ่ายทอดรายละเอียด และความสามารถในการควบคุม
- ส่วนประสิทธิภาพนำเสนอตัวชี้วัดดังนี้
- Image Editing: คะแนน Elo ด้านการแก้ไขภาพเมื่อเทียบกับโมเดลคู่แข่ง ตามเกณฑ์ของ lmarena.ai
- Image Generation: คะแนน Elo ด้านการสร้างภาพเมื่อเทียบกับโมเดลคู่แข่ง ตามเกณฑ์ของ lmarena.ai
- Latency per 1k resolution image: ค่า latency ต่อภาพความละเอียด 1k อ้างอิงข้อมูลจาก artificialanalysis.ai
- Price per 1k resolution image: ราคาต่อภาพความละเอียด 1k
- model card ดูได้ที่ View model card
มุมมองของพาร์ตเนอร์ต่อศักยภาพการใช้งาน
- Figma Weave มองว่า Nano Banana 2 Lite ช่วยให้นักออกแบบสำรวจไอเดียได้มากขึ้นและสร้างภาพที่มีเอกลักษณ์บนแคนวาสแบบ node-based
- Manus AI กำลังทดสอบการสร้างภาพแบบเรียลไทม์สำหรับสไลด์เด็คและเว็บเพจภายในเวิร์กโฟลว์อัตโนมัติ
- ประเมินว่าความเร็วเหมาะกับการทำ visual iteration อย่างรวดเร็วของ AI agent และการให้ผลลัพธ์ภายในไม่กี่วินาที
- มองว่าคุณภาพของภาพใกล้เคียงกับ Nano Banana 2 รุ่นเต็ม
- Artlist มองว่าเมื่อความเร็วในการสร้างเร็วเกินกว่าที่จินตนาการไว้ ผู้ใช้จะสามารถอยู่กับไอเดียต่อเนื่องได้โดยไม่ต้องรอเครื่องมือ
- Weekend ระบุว่าในเกมทีวีควบคุมด้วยเสียง Wit’s End นั้น instant-ramen เร็วกว่า Gemini 3.1 Flash Image ประมาณ 2.7× สำหรับการสร้างภาพ 1k
- รองรับ text-to-image การแก้ไข และการคอมโพสิตหลายภาพผ่าน drop-in API เดียว
- Latitude มองว่าความเร็วในการสร้างภาพมีความสำคัญในเอนจินที่สร้างโลกไปพร้อมกับการที่ผู้เล่นสำรวจ และ instant-ramen ทำให้การสร้างภาพเร็วพอที่จะตามประสบการณ์การเล่นได้ทัน
ข้อจำกัดที่ยังต้องตรวจสอบ
- Gemini สามารถสร้างภาพได้หลากหลาย แต่บางความสามารถยังอยู่ระหว่างการปรับปรุง และภาพที่สร้างขึ้นยังต้องมีการตรวจสอบโดยตรง
- ในด้าน ความเที่ยงตรงของภาพและข้อความ อาจมีความยากกับใบหน้าขนาดเล็ก การสะกดที่ถูกต้อง และรายละเอียดในภาพ
- ในด้าน ข้อมูลและความถูกต้องของข้อเท็จจริง แม้จะมีความรู้เกี่ยวกับโลกจริงอย่างกว้างขวาง แต่ยังไม่สมบูรณ์
- ในการสร้างอินโฟกราฟิก คำอธิบายกำกับไดอะแกรม และการแสดงข้อมูลที่ซับซ้อน อาจตีความข้อมูลผิดหรือสร้างผลลัพธ์ที่ไม่ตรงข้อเท็จจริง
- เอาต์พุตที่อิงข้อมูลจำเป็นต้องมีการตรวจสอบ
- ด้านการแปลและการทำโลคัลไลซ์ แม้จะสามารถสร้างและแปลข้อความได้หลายภาษา แต่อาจมีปัญหาเรื่องไวยากรณ์ การสะกด นัยทางวัฒนธรรม และสำนวน
- ในการแก้ไขที่ซับซ้อนและการ blend ภาพ อาจเกิดผลลัพธ์ที่ไม่เป็นธรรมชาติ visual artifacts หรือฉากที่ไม่ต่อเนื่อง ในกรณีอย่างการแก้ไขแบบ mask การเปลี่ยนแสงครั้งใหญ่เช่นทำให้กลางวันเป็นกลางคืน และการรวมหลายภาพเข้าด้วยกัน
- ความสม่ำเสมอของตัวละครเป็นจุดแข็ง แต่ยังไม่แม่นยำเสมอไป และ Google DeepMind กำลังปรับปรุงให้มีเสถียรภาพมากขึ้น
ฟีเจอร์ด้านความปลอดภัยและข้อควรระวังในการใช้งาน
- Google DeepMind ใช้การกรองอย่างกว้างขวางและการติดป้ายกำกับข้อมูล เพื่อลดเนื้อหาที่เป็นอันตรายในชุดข้อมูลและลดโอกาสเกิดเอาต์พุตที่เป็นอันตราย
- ในด้านความปลอดภัยของเนื้อหา มีการทำ red team และการประเมิน รวมถึงเรื่องความปลอดภัยของเด็กและการนำเสนอ
- ภาพที่สร้างขึ้นมีฟีเจอร์ด้านความเป็นส่วนตัวและความปลอดภัยล่าสุด โดย SynthID จะฝังลายน้ำดิจิทัลที่มองไม่เห็นลงในภาพโดยตรง เพื่อระบุว่าเป็นภาพที่สร้างโดย AI
- ข้อมูลเกี่ยวกับ SynthID ดูได้ที่ Learn more
- LLM อย่าง Gemini 3.1 Flash-Lite Image อาจให้เนื้อหาที่ไม่ถูกต้องหรือไม่เหมาะสม ซึ่งไม่ได้เป็นตัวแทนมุมมองของ Google
- ควรใช้ความระมัดระวังเมื่อเชื่อถือ เผยแพร่ หรือใช้งานเนื้อหาที่ LLM สร้างขึ้น และไม่ควรพึ่งพาในคำแนะนำเฉพาะทาง เช่น การแพทย์ กฎหมาย หรือการเงิน
1 ความคิดเห็น
ความเห็นจาก Hacker News
ตัวอย่างแรกของการสร้างภาพตกแต่งภายในบ้านนี่ไม่ชอบจนบรรยายยาก ช่วงนี้นายหน้าอสังหาฯ เอาอพาร์ตเมนต์เก่า ๆ ที่ขายไม่ออกทั้งหมดไปใส่ ฟิลเตอร์ AI หมุนกันหมด ทำให้ก่อนจะได้เห็นว่าของจริงที่แย่ขนาดไหนกำลังถูกเอามาขายในราคาสุดเว่อร์ ก็ต้องเลื่อนผ่านภาพนับสิบที่บอกว่า “ถ้าแต่งสไตล์ IKEA อาจออกมาหน้าตาแบบนี้” ก่อน
ห้องนอนจริง ๆ แทบจะใส่ได้แค่เตียงควีนไซซ์หนึ่งเตียงเท่านั้น ;(
โดยเฉพาะในกรณีที่นึกภาพเองได้ยากว่า ถ้าปูกระเบื้องบางจุดแล้วพื้นที่โดยรวมจะออกมาเป็นอย่างไร
เมื่อก่อนก็แค่ต้องจ้างคนทำงานแบบนั้น ซึ่งแพงกว่า
ภาพที่รีทัชแล้วมักแสดงผนังสว่าง ๆ กับเฟอร์นิเจอร์สีเทาสไตล์นิตยสารเหมือนกันหมด
AI แค่ทำให้มันถูกลงเท่านั้น สุดท้ายมันก็ต้องออกมาแบบนี้อยู่ดี
ภาพที่ถูกรีทัชแบบนี้จะมีลายน้ำเล็ก ๆ แจ้งไว้ว่าเป็นภาพที่ปรับแต่งแล้ว
เป็นปัญหาที่มีมาก่อน ฟิลเตอร์ AI แล้ว เลยไม่ใช่เรื่องใหม่ แต่ตอนนี้มันหนักขึ้นมากและต้นทุนก็ต่ำลง
ผมได้สิทธิ์เข้าถึงก่อนเพื่อทดสอบโมเดลนี้ ได้มาผ่านงาน ไม่ใช่ว่า Google เกิดมาชอบผมเป็นการส่วนตัวหรอกนะ lol
มันทำงานได้ตามที่โฆษณาไว้ และในส่วนอย่าง การเรนเดอร์ข้อความ ที่ดี ดูเหมือนเป็นเวอร์ชันกลั่นของ Nano Banana 2 ส่วน Nano Banana 1 อ่อนกว่านี้มากในจุดนี้
แน่นอนว่าเมื่อใช้พรอมป์ต์ละเอียด ๆ มันยังห่างไกลจาก Nano Banana 2 ตัวหลักเลย ข้อร้องเรียนใหญ่สุดคือใน NB2 สามารถบังคับอัตราส่วนภาพด้วยโปรแกรมได้ แต่ใน NB2L ทำไม่ได้
อย่างไรก็ตาม ราคา $0.034 ต่อภาพสูงกว่าที่คาดไว้ ปกติราคาจะสัมพันธ์กับเวลาสร้างภาพ แต่ตัวนี้สร้างได้ในเวลาครึ่งหนึ่งของ Nano Banana 1 ขณะที่ Nano Banana 1 อยู่ที่ $0.039 ต่อภาพ
คำกล่าวของ Google ที่ว่า pipeline ของ NB1 สามารถแทนที่ด้วย NB2L ได้ทันทีนั้นสมเหตุสมผล
เมื่อวาน Google ประกาศว่าอนุญาตให้สร้างภาพฟรีในแอป Gemini (https://blog.google/innovation-and-ai/products/gemini-app/pe...) แต่ไม่ได้ระบุว่าใช้โมเดลไหน ผมมองว่าแรงจูงใจหลักของ Nano Banana 2 Lite อยู่ตรงนี้
gemini-3.1-flash-lite-imageและสามารถใช้อัตราส่วนภาพอย่าง 16:9, 4:3 ได้[1] - https://cloud.google.com/developers/vertex-ai
ก็โอเคนะ แต่ดันอยู่บน AI Studio ของ Google ที่พัง ๆ ฟีเจอร์ครึ่งหนึ่งในนั้นใช้ไม่ได้เพราะต้องมีบัญชี Google One
ผมเป็นบัญชี Workspace เลยไม่มีสิทธิ์ และก็เปลี่ยนไม่ได้ เพราะ Google One ไม่รองรับโดเมนของตัวเอง
งั้นถ้าอยากได้ทั้งอีเมลแอดเดรสเท่ ๆ กับ Banana ต้องใช้สองบัญชีและจ่ายเงินด้วยเหรอ? เริ่มรู้สึกแล้วว่าจำนวนบัญชี Google แบบเสียเงินที่ถูกต้องตรงนี้คือ 0 บัญชี
ทางออกของผมคือ OpenRouter ในแชตสำหรับพัฒนาและทดสอบสามารถสร้างภาพด้วยโมเดลของ Google ได้ และยังลองรันพรอมป์ต์เดียวกันเทียบกับโมเดลอื่นแบบเคียงข้างกันได้ด้วย สะดวกมากสำหรับการสร้างภาพเบา ๆ
โดยทั่วไปผมใช้บัญชีส่วนตัวเป็นหลักเพราะมีบริบทมากกว่า แต่ถ้าอย่างนั้นการดึงข้อมูลจาก Workspace Drive ก็ต้องเพิ่มขั้นตอนอีกหลายอย่าง
แล้วของอย่าง Project Genie ก็ใช้บน Workspace ไม่ได้เลย ซึ่งรู้สึกแปลกพอสมควร
https://www.burlap.app/download
ความเร็วถือว่าน่าประทับใจจริง ๆ NB2 ตัวหลักใช้ประมาณ 30 วินาทีต่อภาพ แต่ตัวนี้ดูเหมือนใช้ น้อยกว่า 5 วินาที
ผมทำแอปที่สร้างเรื่องราวพร้อมภาพประกอบโดยใส่เด็ก ๆ เป็นตัวละคร อยากให้ยังคงสไตล์ภาพประกอบไว้ แต่ให้ความเหมือนของเด็ก ๆ มาก่อน
ทดสอบมาหลายโมเดลแล้ว แต่ดูเหมือนไม่มีโมเดลไหนเข้าใกล้เท่านี้ในการรักษาความเหมือนขณะทำให้เป็นสไตล์ภาพ โมเดลอื่น ๆ มักทำให้ออกมาเป็นตัวละครทั่ว ๆ ไป
ผมอยากให้ผู้ใช้รู้สึกถึงช่วง “อ๋อ เข้าใจแล้ว” ให้เร็วที่สุด เลยตั้งตารอที่จะเอาโมเดลนี้ใส่ใน onboarding ของแอป การรอนานกว่า 30 วินาทีไม่ใช่เรื่องที่เหมาะ
แต่สำหรับภาพประกอบจริง ๆ ผมยังจะใช้ NB2 ตัวหลักอยู่ดี Lite เวอร์ชันนี้ยังมีปัญหาเล็กน้อยเรื่องนัยละเอียดและความสม่ำเสมอ อย่างที่คนอื่น ๆ พูดกัน
ไม่ได้ใส่ ChatGPT ไว้ในกราฟเปรียบเทียบ แค่นั้นก็บอกอะไรได้เยอะแล้ว
แต่ปัญหาคือเวลาแฝง และการตั้งค่า High ของ ChatGPT Image 2 ช้าที่ประมาณ 2 นาทีที่ 1024x1024
ไม่ว่าจะมองทางไหน ถ้าใส่ไว้ในกราฟนี้ก็คงทำให้กราฟบิดเบือนจนใช้ประโยชน์ไม่ได้
อยากเขียนเรื่อง ChatGPT Image 2 อยู่เหมือนกัน แต่ตอนนี้ดูเหมือนผู้คนจะไม่สนใจการสร้างภาพที่ละเอียดประณีตแล้ว ทั้งที่ในการทดสอบเดิม ChatGPT Image 2 เหนือกว่าทุกอย่างก็ตาม
น่าแปลกใจนิดหน่อยที่โมเดลภาพของ Grok ชนะ Nano Banana ในแทบทุกตัวชี้วัดที่เน้นไว้ตรงนี้
อย่างที่สอง ตั้งแต่แรกนี่เป็นโมเดลต้นทุนต่ำสำหรับสร้างจำนวนมาก ไม่ใช่โมเดล frontier ระดับล้ำสุด ดังนั้น benchmark ต่ำกว่าก็เป็นเรื่องธรรมดา
ชอบ Nano Banana Pro ยังมี ทางเลือกแบบโลคัล อยู่ไหม? ได้ยินเรื่อง Qwen Image, Klein และ Krea ช่วงหลัง ๆ เลยอยากรู้ว่ามีตัวไหนแนะนำไหม
ถ้าดู GenAI Showdown ในโปรไฟล์ของผม จะมี benchmark เปรียบเทียบกับโมเดลโลคัลและโมเดลปิด
จริง ๆ แล้วมันทำคะแนนสูงกว่า Gemini 2.5 หรือ NB ตัวเดิม ซึ่งน่าประทับใจทีเดียว
ผมตามด้านการสร้างภาพไม่ค่อยทันแล้ว เลยใช้แค่บางครั้งสำหรับทำโทเคนโรลเพลย์ ของเล่น หรือ asset ชั่วคราวส่วนตัว สำหรับมาตรฐานของผม นี่มันบ้าสุด ๆ
สร้างภาพได้ในราว 2 วินาที เมื่อก่อนถ้าจะสร้างภาพคุณภาพเดียวกันด้วย ChatGPT ต้องใช้ 30 วินาทีถึง 1 นาที
ไม่เข้าใจปฏิกิริยาเชิงลบที่นี่เลย
และปฏิกิริยาเชิงลบจำนวนไม่น้อยก็มาจากคนที่เกลียดแนวคิดของ AI art เอง และอยากให้มันล้มเหลว
คนที่ทำงานที่ตัวภาพเป็นแกนหลักมักอยากจ่ายต่อภาพมากกว่า
ในทางกลับกัน ถ้าภาพเป็นแค่ส่วนหนึ่งของรายงาน เป็นผลลัพธ์ที่ทิ้งได้ หรือใส่ในเดโม วิธีที่ถูกกว่าจะดีกว่า
สงสัยว่าของอย่าง ต้นแบบแบบเรียลไทม์ ในส่วน “hands on” ของหน้านี้ต้องทำอย่างไรถึงจะได้
ใน gemini.g เพิ่ม canvas หรือใช้การสร้างภาพได้ก็จริง แต่ไม่ค่อยเข้าใจว่าต้องใส่พรอมป์ “space lift” ตรงไหนถึงจะออกมาเหมือนเดโม
ว้าว เวลาแฝงลดลงมหาศาลเลย ระดับนี้น่าจะเปิด use case ใหม่ ๆ ได้บ้าง แต่หน้าเว็บที่ลิงก์ไว้ไม่ได้อธิบายความแตกต่างระหว่างโมเดลให้เข้าใจง่ายนัก
อย่างไรก็ตาม จากประสบการณ์ส่วนตัวที่เคยใช้โมเดลภาพทั่วไป ผมว่า Google ดีที่สุดใน workflow ของผม แน่นอนว่ายังไม่เคยลองผู้ให้บริการฝั่งตะวันออกไกล
อยากรู้ว่าคนอื่นคิดอย่างไร