Nano Banana 2 Lite

(deepmind.google)

1 คะแนน โดย GN⁺ 3 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Nano Banana 2 Lite ที่เพิ่มเข้ามาในตระกูล Gemini Image ของ Google DeepMind เป็นโมเดลที่มุ่งให้การสร้างและแก้ไขภาพทำงานได้เร็วขึ้นและมีต้นทุนต่ำลง โดยเน้นลดภาระค่าใช้จ่ายของงานภาพที่ต้องทำซ้ำจำนวนมาก
แกนหลักคือ latency ต่ำ และความคุ้มค่าด้านต้นทุนในระดับสเกลใหญ่ โดยสามารถสร้างภาพได้หลายพันภาพด้วยต้นทุนต่ำกว่าโมเดล production ขนาดใหญ่
ในด้านคุณภาพ โมเดลยังคง ความสามารถในการควบคุมและความแม่นยำ แบบตระกูล Nano Banana พร้อมรองรับความสม่ำเสมอของตัวละคร การแก้ไขอย่างละเอียด และการใช้ความรู้จากโลกจริง
ตัวอย่างอย่าง Space Lift, Gridscape, Peek-A-Word และ Anywhere แสดงให้เห็นประสบการณ์ผู้ใช้ที่เกิดขึ้นได้เมื่อการสร้างภาพเร็วพอจนไม่ทำให้การใช้งานแอปสะดุด
อาจเกิดข้อผิดพลาดได้ในกรณีใบหน้าขนาดเล็ก การสะกดที่แม่นยำ รายละเอียดปลีกย่อย ผลลัพธ์ที่อิงข้อมูล การแปลและการทำโลคัลไลซ์ รวมถึงการแก้ไขและคอมโพสิตที่ซับซ้อน จึงยังต้องตรวจสอบผลลัพธ์ที่สร้างขึ้น

โมเดล Gemini Image ที่ชูจุดเด่นด้านความเร็วและต้นทุนต่ำ

Nano Banana 2 Lite คือโมเดล Gemini Image ที่ Google DeepMind เปิดตัว โดยตั้งเป้าไปที่การสร้างและแก้ไขภาพอย่างรวดเร็วพร้อมต้นทุนต่ำ
ผู้ใช้หลักคือ ครีเอเตอร์ ธุรกิจ และนักพัฒนา และออกแบบมาให้เหมาะกับเวิร์กโฟลว์ที่ต้องสำรวจไอเดียภาพหลายแบบอย่างรวดเร็ว
Google DeepMind ระบุว่าโมเดลนี้เป็น Gemini Image ที่เร็วและมีประสิทธิภาพที่สุดเท่าที่เคยมีมา พร้อมให้การสร้างและแก้ไขความเร็วสูงในต้นทุนที่ต่ำที่สุด
ช่องทางการเข้าถึงมีดังนี้
- Google AI Studio
- Flash-Lite mode ในแอป Gemini
- Gemini API
- Gemini Enterprise Agent Platform

สมดุลระหว่างความเร็ว ต้นทุน และคุณภาพ

การลด latency เป็นหัวใจสำคัญ เพื่อรองรับการสำรวจและการทำงานซ้ำอย่างรวดเร็ว
ในการสร้างภาพจำนวนมาก สามารถสร้างภาพได้หลายพันภาพด้วยต้นทุนที่ต่ำกว่าโมเดล production ที่หนักกว่าอย่างมาก
ด้านคุณภาพ มุ่งส่งมอบความสามารถในการควบคุมและความแม่นยำที่คาดหวังจาก Nano Banana ได้เร็วขึ้น
- รักษา ความสม่ำเสมอของตัวละคร
- การแก้ไขภาพอย่างแม่นยำ
- การใช้ความรู้จากโลกจริง
ในการเขียนพรอมป์ ยิ่งระบุองค์ประกอบที่ต้องการอย่างละเอียด เช่น ตัวละคร ฉากหลัง และบรรยากาศโดยรวม ก็ยิ่งช่วยให้ได้ภาพใกล้เคียงความต้องการมากขึ้น
มีคู่มือพรอมป์ให้ที่ View prompt guide และ Learn how to prompt

ตัวอย่างแอปที่ตั้งอยู่บนสมมติฐานว่าการสร้างภาพต้องเร็ว

Space Lift เป็นแอปที่เมื่ออัปโหลดภาพห้องแล้ว จะสร้างคอนเซปต์ตกแต่งภายในได้ทันที ตั้งแต่ Mid-Century Modern ไปจนถึง Bohemian Chic
Gridscape ให้ผู้ใช้พิมพ์คำถามลงบน infinite canvas แล้วจัดโหนดข้อมูลด้วยข้อความและภาพที่สร้างโดย Nano Banana 2 Lite และ Gemini 3.1 Flash Lite
- ผู้ใช้สามารถสำรวจแนวคิดที่เกี่ยวข้องให้ลึกขึ้นผ่านเส้นทางที่คลิกได้
Peek-A-Word เปลี่ยนข้อความที่เลือกให้เป็นสื่อภาพที่สร้างโดย AI พร้อมให้คำนิยามแบบกระชับและภาพตามบริบทในพื้นที่เดียวกัน
- มุ่งรักษา flow การเรียนรู้โดยไม่ต้องสลับแท็บ
Anywhere เป็นแอปโลก 3D แบบโต้ตอบที่สร้างด้วย Nano Banana 2 Lite
- เมื่อแนบภาพเข้าไป จะสร้างชุดโปสต์การ์ดแบบปรับให้เป็นส่วนตัวโดยใช้สถานที่ท่องเที่ยวทั่วโลกเป็นฉากหลัง
- ผู้ใช้สามารถหมุนโลกและคลิกภาพเพื่อดูข้อมูลของจุดหมายเสมือนได้

ตัวชี้วัดเปรียบเทียบและ model card

Google DeepMind ระบุว่า Nano Banana 2 Lite เป็นโมเดลที่มีประสิทธิภาพที่สุดเท่าที่เคยมีมา และมีสมดุลที่ดีระหว่างคุณภาพกับความเร็ว
ในกลุ่มที่ใช้เปรียบเทียบ มีโมเดลระดับพรีเมียร์อย่าง Nano Banana 2 รวมอยู่ด้วย
พื้นที่ที่ใช้เปรียบเทียบครอบคลุมองค์ประกอบคุณภาพการสร้างภาพ เช่น การทำตามพรอมป์ การถ่ายทอดรายละเอียด และความสามารถในการควบคุม
ส่วนประสิทธิภาพนำเสนอตัวชี้วัดดังนี้
- Image Editing: คะแนน Elo ด้านการแก้ไขภาพเมื่อเทียบกับโมเดลคู่แข่ง ตามเกณฑ์ของ lmarena.ai
- Image Generation: คะแนน Elo ด้านการสร้างภาพเมื่อเทียบกับโมเดลคู่แข่ง ตามเกณฑ์ของ lmarena.ai
- Latency per 1k resolution image: ค่า latency ต่อภาพความละเอียด 1k อ้างอิงข้อมูลจาก artificialanalysis.ai
- Price per 1k resolution image: ราคาต่อภาพความละเอียด 1k
model card ดูได้ที่ View model card

มุมมองของพาร์ตเนอร์ต่อศักยภาพการใช้งาน

Figma Weave มองว่า Nano Banana 2 Lite ช่วยให้นักออกแบบสำรวจไอเดียได้มากขึ้นและสร้างภาพที่มีเอกลักษณ์บนแคนวาสแบบ node-based
Manus AI กำลังทดสอบการสร้างภาพแบบเรียลไทม์สำหรับสไลด์เด็คและเว็บเพจภายในเวิร์กโฟลว์อัตโนมัติ
- ประเมินว่าความเร็วเหมาะกับการทำ visual iteration อย่างรวดเร็วของ AI agent และการให้ผลลัพธ์ภายในไม่กี่วินาที
- มองว่าคุณภาพของภาพใกล้เคียงกับ Nano Banana 2 รุ่นเต็ม
Artlist มองว่าเมื่อความเร็วในการสร้างเร็วเกินกว่าที่จินตนาการไว้ ผู้ใช้จะสามารถอยู่กับไอเดียต่อเนื่องได้โดยไม่ต้องรอเครื่องมือ
Weekend ระบุว่าในเกมทีวีควบคุมด้วยเสียง Wit’s End นั้น instant-ramen เร็วกว่า Gemini 3.1 Flash Image ประมาณ 2.7× สำหรับการสร้างภาพ 1k
- รองรับ text-to-image การแก้ไข และการคอมโพสิตหลายภาพผ่าน drop-in API เดียว
Latitude มองว่าความเร็วในการสร้างภาพมีความสำคัญในเอนจินที่สร้างโลกไปพร้อมกับการที่ผู้เล่นสำรวจ และ instant-ramen ทำให้การสร้างภาพเร็วพอที่จะตามประสบการณ์การเล่นได้ทัน

ข้อจำกัดที่ยังต้องตรวจสอบ

Gemini สามารถสร้างภาพได้หลากหลาย แต่บางความสามารถยังอยู่ระหว่างการปรับปรุง และภาพที่สร้างขึ้นยังต้องมีการตรวจสอบโดยตรง
ในด้าน ความเที่ยงตรงของภาพและข้อความ อาจมีความยากกับใบหน้าขนาดเล็ก การสะกดที่ถูกต้อง และรายละเอียดในภาพ
ในด้าน ข้อมูลและความถูกต้องของข้อเท็จจริง แม้จะมีความรู้เกี่ยวกับโลกจริงอย่างกว้างขวาง แต่ยังไม่สมบูรณ์
- ในการสร้างอินโฟกราฟิก คำอธิบายกำกับไดอะแกรม และการแสดงข้อมูลที่ซับซ้อน อาจตีความข้อมูลผิดหรือสร้างผลลัพธ์ที่ไม่ตรงข้อเท็จจริง
- เอาต์พุตที่อิงข้อมูลจำเป็นต้องมีการตรวจสอบ
ด้านการแปลและการทำโลคัลไลซ์ แม้จะสามารถสร้างและแปลข้อความได้หลายภาษา แต่อาจมีปัญหาเรื่องไวยากรณ์ การสะกด นัยทางวัฒนธรรม และสำนวน
ในการแก้ไขที่ซับซ้อนและการ blend ภาพ อาจเกิดผลลัพธ์ที่ไม่เป็นธรรมชาติ visual artifacts หรือฉากที่ไม่ต่อเนื่อง ในกรณีอย่างการแก้ไขแบบ mask การเปลี่ยนแสงครั้งใหญ่เช่นทำให้กลางวันเป็นกลางคืน และการรวมหลายภาพเข้าด้วยกัน
ความสม่ำเสมอของตัวละครเป็นจุดแข็ง แต่ยังไม่แม่นยำเสมอไป และ Google DeepMind กำลังปรับปรุงให้มีเสถียรภาพมากขึ้น

ฟีเจอร์ด้านความปลอดภัยและข้อควรระวังในการใช้งาน

Google DeepMind ใช้การกรองอย่างกว้างขวางและการติดป้ายกำกับข้อมูล เพื่อลดเนื้อหาที่เป็นอันตรายในชุดข้อมูลและลดโอกาสเกิดเอาต์พุตที่เป็นอันตราย
ในด้านความปลอดภัยของเนื้อหา มีการทำ red team และการประเมิน รวมถึงเรื่องความปลอดภัยของเด็กและการนำเสนอ
ภาพที่สร้างขึ้นมีฟีเจอร์ด้านความเป็นส่วนตัวและความปลอดภัยล่าสุด โดย SynthID จะฝังลายน้ำดิจิทัลที่มองไม่เห็นลงในภาพโดยตรง เพื่อระบุว่าเป็นภาพที่สร้างโดย AI
ข้อมูลเกี่ยวกับ SynthID ดูได้ที่ Learn more
LLM อย่าง Gemini 3.1 Flash-Lite Image อาจให้เนื้อหาที่ไม่ถูกต้องหรือไม่เหมาะสม ซึ่งไม่ได้เป็นตัวแทนมุมมองของ Google
ควรใช้ความระมัดระวังเมื่อเชื่อถือ เผยแพร่ หรือใช้งานเนื้อหาที่ LLM สร้างขึ้น และไม่ควรพึ่งพาในคำแนะนำเฉพาะทาง เช่น การแพทย์ กฎหมาย หรือการเงิน

1 ความคิดเห็น

GN⁺ 3 시간 전

ความเห็นจาก Hacker News

ตัวอย่างแรกของการสร้างภาพตกแต่งภายในบ้านนี่ไม่ชอบจนบรรยายยาก ช่วงนี้นายหน้าอสังหาฯ เอาอพาร์ตเมนต์เก่า ๆ ที่ขายไม่ออกทั้งหมดไปใส่ ฟิลเตอร์ AI หมุนกันหมด ทำให้ก่อนจะได้เห็นว่าของจริงที่แย่ขนาดไหนกำลังถูกเอามาขายในราคาสุดเว่อร์ ก็ต้องเลื่อนผ่านภาพนับสิบที่บอกว่า “ถ้าแต่งสไตล์ IKEA อาจออกมาหน้าตาแบบนี้” ก่อน
- ผมคิดว่าเรื่องแบบนี้ควรถูกมองเป็น การแสดงข้อมูลเท็จที่ผิดกฎหมาย มีพื้นที่สีเทาในการใช้ AI มากเกินไป
- มองว่าแทบจะเป็น การฉ้อโกง เลย ใน Streeteasy มีอพาร์ตเมนต์บางห้องที่ดูเหมือน ‘ใส่’ โต๊ะทำงาน ตู้ลิ้นชัก และเตียงควีนไซซ์เข้าไปได้ทั้งหมด แต่เห็นชัดว่าโมเดลภาพแค่ย่อเฟอร์นิเจอร์ให้มีสัดส่วนที่ไม่มีอยู่จริง
  ห้องนอนจริง ๆ แทบจะใส่ได้แค่เตียงควีนไซซ์หนึ่งเตียงเท่านั้น ;(
- เห็นด้วย 100% ว่าการหลอกลวงเรื่องสภาพจริงของอพาร์ตเมนต์เองไม่ควรเป็นที่ยอมรับ ทั้งทางสังคมหรือทางกฎหมาย แต่ในงานรีโนเวตห้องน้ำของผม โมเดลภาพ ช่วยเรื่องการตัดสินใจดีไซน์ได้ค่อนข้างมาก
  โดยเฉพาะในกรณีที่นึกภาพเองได้ยากว่า ถ้าปูกระเบื้องบางจุดแล้วพื้นที่โดยรวมจะออกมาเป็นอย่างไร
- ใน NYC ที่ผมอยู่ การลงภาพรีทัชแบบนั้นเป็นเรื่องปกติมานานกว่า 10 ปีแล้ว
  เมื่อก่อนก็แค่ต้องจ้างคนทำงานแบบนั้น ซึ่งแพงกว่า
  ภาพที่รีทัชแล้วมักแสดงผนังสว่าง ๆ กับเฟอร์นิเจอร์สีเทาสไตล์นิตยสารเหมือนกันหมด
  AI แค่ทำให้มันถูกลงเท่านั้น สุดท้ายมันก็ต้องออกมาแบบนี้อยู่ดี
  ภาพที่ถูกรีทัชแบบนี้จะมีลายน้ำเล็ก ๆ แจ้งไว้ว่าเป็นภาพที่ปรับแต่งแล้ว
- แค่มีช่างภาพเก่ง ๆ ก็ให้ผลมหาศาลแล้ว ตอนเพื่อนขายบ้าน ผมตกใจว่าบ้านดูดีแค่ไหนในรูปประกาศขาย และทั้งที่รู้ว่ามันไม่ได้เล็ก แต่ก็ยังดูใหญ่ขึ้นมาก
  เป็นปัญหาที่มีมาก่อน ฟิลเตอร์ AI แล้ว เลยไม่ใช่เรื่องใหม่ แต่ตอนนี้มันหนักขึ้นมากและต้นทุนก็ต่ำลง
ผมได้สิทธิ์เข้าถึงก่อนเพื่อทดสอบโมเดลนี้ ได้มาผ่านงาน ไม่ใช่ว่า Google เกิดมาชอบผมเป็นการส่วนตัวหรอกนะ lol
มันทำงานได้ตามที่โฆษณาไว้ และในส่วนอย่าง การเรนเดอร์ข้อความ ที่ดี ดูเหมือนเป็นเวอร์ชันกลั่นของ Nano Banana 2 ส่วน Nano Banana 1 อ่อนกว่านี้มากในจุดนี้
แน่นอนว่าเมื่อใช้พรอมป์ต์ละเอียด ๆ มันยังห่างไกลจาก Nano Banana 2 ตัวหลักเลย ข้อร้องเรียนใหญ่สุดคือใน NB2 สามารถบังคับอัตราส่วนภาพด้วยโปรแกรมได้ แต่ใน NB2L ทำไม่ได้
อย่างไรก็ตาม ราคา $0.034 ต่อภาพสูงกว่าที่คาดไว้ ปกติราคาจะสัมพันธ์กับเวลาสร้างภาพ แต่ตัวนี้สร้างได้ในเวลาครึ่งหนึ่งของ Nano Banana 1 ขณะที่ Nano Banana 1 อยู่ที่ $0.039 ต่อภาพ
คำกล่าวของ Google ที่ว่า pipeline ของ NB1 สามารถแทนที่ด้วย NB2L ได้ทันทีนั้นสมเหตุสมผล
เมื่อวาน Google ประกาศว่าอนุญาตให้สร้างภาพฟรีในแอป Gemini (https://blog.google/innovation-and-ai/products/gemini-app/pe...) แต่ไม่ได้ระบุว่าใช้โมเดลไหน ผมมองว่าแรงจูงใจหลักของ Nano Banana 2 Lite อยู่ตรงนี้
- ผ่าน Vertex สามารถตั้ง อัตราส่วนภาพ ด้วยโปรแกรมใน NB2 Lite ได้ด้วย [1] ผมอัปเดตโปรแกรมที่ใช้สร้างภาพสำหรับ GenAI Showdown แล้วเปลี่ยน model ID เป็น gemini-3.1-flash-lite-image และสามารถใช้อัตราส่วนภาพอย่าง 16:9, 4:3 ได้
  [1] - https://cloud.google.com/developers/vertex-ai
- อยากรู้ว่าทำงานอะไรถึงต้องทำ การสร้างภาพอัตโนมัติ ในสเกลใหญ่
ก็โอเคนะ แต่ดันอยู่บน AI Studio ของ Google ที่พัง ๆ ฟีเจอร์ครึ่งหนึ่งในนั้นใช้ไม่ได้เพราะต้องมีบัญชี Google One
ผมเป็นบัญชี Workspace เลยไม่มีสิทธิ์ และก็เปลี่ยนไม่ได้ เพราะ Google One ไม่รองรับโดเมนของตัวเอง
งั้นถ้าอยากได้ทั้งอีเมลแอดเดรสเท่ ๆ กับ Banana ต้องใช้สองบัญชีและจ่ายเงินด้วยเหรอ? เริ่มรู้สึกแล้วว่าจำนวนบัญชี Google แบบเสียเงินที่ถูกต้องตรงนี้คือ 0 บัญชี
- เคยเจอสถานการณ์คล้ายกัน Google ต้องปรับปรุง ประสบการณ์ผู้ใช้ ด้านการใช้งานโมเดลและการชำระเงินจริง ๆ
  ทางออกของผมคือ OpenRouter ในแชตสำหรับพัฒนาและทดสอบสามารถสร้างภาพด้วยโมเดลของ Google ได้ และยังลองรันพรอมป์ต์เดียวกันเทียบกับโมเดลอื่นแบบเคียงข้างกันได้ด้วย สะดวกมากสำหรับการสร้างภาพเบา ๆ
- ผมก็แทบจะอยู่ในสภาพเดียวกัน จ่ายทั้ง One และ Workspace สำหรับใช้งานส่วนตัว แต่ก็ไม่ชัดว่าควรใช้ฝั่งไหนกับฟีเจอร์พวกนี้
  โดยทั่วไปผมใช้บัญชีส่วนตัวเป็นหลักเพราะมีบริบทมากกว่า แต่ถ้าอย่างนั้นการดึงข้อมูลจาก Workspace Drive ก็ต้องเพิ่มขั้นตอนอีกหลายอย่าง
  แล้วของอย่าง Project Genie ก็ใช้บน Workspace ไม่ได้เลย ซึ่งรู้สึกแปลกพอสมควร
- อาจจะดูโปรโมตแบบค่อนข้างโจ่งแจ้ง แต่ burlap ให้คุณใส่คีย์ของ Gemini Studio หรือ OpenAI แล้วลองนู่นลองนี่ได้โดยไม่ต้องยุ่งกับเว็บอินเทอร์เฟซ นั่นแหละเหตุผลที่ผมทำมันขึ้นมา
  https://www.burlap.app/download
ความเร็วถือว่าน่าประทับใจจริง ๆ NB2 ตัวหลักใช้ประมาณ 30 วินาทีต่อภาพ แต่ตัวนี้ดูเหมือนใช้ น้อยกว่า 5 วินาที
ผมทำแอปที่สร้างเรื่องราวพร้อมภาพประกอบโดยใส่เด็ก ๆ เป็นตัวละคร อยากให้ยังคงสไตล์ภาพประกอบไว้ แต่ให้ความเหมือนของเด็ก ๆ มาก่อน
ทดสอบมาหลายโมเดลแล้ว แต่ดูเหมือนไม่มีโมเดลไหนเข้าใกล้เท่านี้ในการรักษาความเหมือนขณะทำให้เป็นสไตล์ภาพ โมเดลอื่น ๆ มักทำให้ออกมาเป็นตัวละครทั่ว ๆ ไป
ผมอยากให้ผู้ใช้รู้สึกถึงช่วง “อ๋อ เข้าใจแล้ว” ให้เร็วที่สุด เลยตั้งตารอที่จะเอาโมเดลนี้ใส่ใน onboarding ของแอป การรอนานกว่า 30 วินาทีไม่ใช่เรื่องที่เหมาะ
แต่สำหรับภาพประกอบจริง ๆ ผมยังจะใช้ NB2 ตัวหลักอยู่ดี Lite เวอร์ชันนี้ยังมีปัญหาเล็กน้อยเรื่องนัยละเอียดและความสม่ำเสมอ อย่างที่คนอื่น ๆ พูดกัน
- ผมลองทำอะไรคล้าย ๆ กัน แต่เจอ error ว่าทำสิ่งที่เกี่ยวกับ เด็ก ไม่ได้ เรื่องนั้นเปลี่ยนแล้วหรือเปล่า?
ไม่ได้ใส่ ChatGPT ไว้ในกราฟเปรียบเทียบ แค่นั้นก็บอกอะไรได้เยอะแล้ว
- เรื่องนั้นควรหยิบมาพูดจริง ๆ สำหรับคนที่ไม่รู้ ChatGPT Image 2 มี ELO สูงอย่างไม่สมเหตุสมผลที่ 1387 และสูงกว่าโมเดลอันดับ 2 ที่ 1273 มากกว่า 100 คะแนน(https://arena.ai/leaderboard/text-to-image)
  แต่ปัญหาคือเวลาแฝง และการตั้งค่า High ของ ChatGPT Image 2 ช้าที่ประมาณ 2 นาทีที่ 1024x1024
  ไม่ว่าจะมองทางไหน ถ้าใส่ไว้ในกราฟนี้ก็คงทำให้กราฟบิดเบือนจนใช้ประโยชน์ไม่ได้
  อยากเขียนเรื่อง ChatGPT Image 2 อยู่เหมือนกัน แต่ตอนนี้ดูเหมือนผู้คนจะไม่สนใจการสร้างภาพที่ละเอียดประณีตแล้ว ทั้งที่ในการทดสอบเดิม ChatGPT Image 2 เหนือกว่าทุกอย่างก็ตาม
น่าแปลกใจนิดหน่อยที่โมเดลภาพของ Grok ชนะ Nano Banana ในแทบทุกตัวชี้วัดที่เน้นไว้ตรงนี้
- จริงเหรอ? ผมพลาดอะไรไปหรือเปล่า? อย่างแรก ดูเหมือนจะไม่เป็นความจริง และเวอร์ชันที่ไม่ใช่ Lite โดยรวมก็ดูเหมือนจะชนะ Grok
  อย่างที่สอง ตั้งแต่แรกนี่เป็นโมเดลต้นทุนต่ำสำหรับสร้างจำนวนมาก ไม่ใช่โมเดล frontier ระดับล้ำสุด ดังนั้น benchmark ต่ำกว่าก็เป็นเรื่องธรรมดา
ชอบ Nano Banana Pro ยังมี ทางเลือกแบบโลคัล อยู่ไหม? ได้ยินเรื่อง Qwen Image, Klein และ Krea ช่วงหลัง ๆ เลยอยากรู้ว่ามีตัวไหนแนะนำไหม
- Krea-2 ยอดเยี่ยม ถ้ารับไลเซนส์ที่มีข้อจำกัด ความเร็วเอาต์พุต และการพรอมป์แบบ JSON ได้ Ideogram 4 ก็น่าจะใกล้เคียงโมเดลระดับล้ำสุดที่สุด
  ถ้าดู GenAI Showdown ในโปรไฟล์ของผม จะมี benchmark เปรียบเทียบกับโมเดลโลคัลและโมเดลปิด
  จริง ๆ แล้วมันทำคะแนนสูงกว่า Gemini 2.5 หรือ NB ตัวเดิม ซึ่งน่าประทับใจทีเดียว
- Krea ดี ข้อมูลเกี่ยวกับโมเดลเปิดระดับล้ำสุดดูได้ที่ r/StableDiffusion
ผมตามด้านการสร้างภาพไม่ค่อยทันแล้ว เลยใช้แค่บางครั้งสำหรับทำโทเคนโรลเพลย์ ของเล่น หรือ asset ชั่วคราวส่วนตัว สำหรับมาตรฐานของผม นี่มันบ้าสุด ๆ
สร้างภาพได้ในราว 2 วินาที เมื่อก่อนถ้าจะสร้างภาพคุณภาพเดียวกันด้วย ChatGPT ต้องใช้ 30 วินาทีถึง 1 นาที
ไม่เข้าใจปฏิกิริยาเชิงลบที่นี่เลย
- ถึงอย่างนั้น รายละเอียด ของ ChatGPT ก็ดีกว่ามาก ยังสร้างอะไรอย่างการ์ตูน 6 ช่องที่ซับซ้อน ซึ่ง Nano Banana ตามไม่ทันได้ด้วย
  และปฏิกิริยาเชิงลบจำนวนไม่น้อยก็มาจากคนที่เกลียดแนวคิดของ AI art เอง และอยากให้มันล้มเหลว
- การใช้งานต่างกัน
  คนที่ทำงานที่ตัวภาพเป็นแกนหลักมักอยากจ่ายต่อภาพมากกว่า
  ในทางกลับกัน ถ้าภาพเป็นแค่ส่วนหนึ่งของรายงาน เป็นผลลัพธ์ที่ทิ้งได้ หรือใส่ในเดโม วิธีที่ถูกกว่าจะดีกว่า
สงสัยว่าของอย่าง ต้นแบบแบบเรียลไทม์ ในส่วน “hands on” ของหน้านี้ต้องทำอย่างไรถึงจะได้
ใน gemini.g เพิ่ม canvas หรือใช้การสร้างภาพได้ก็จริง แต่ไม่ค่อยเข้าใจว่าต้องใส่พรอมป์ “space lift” ตรงไหนถึงจะออกมาเหมือนเดโม
ว้าว เวลาแฝงลดลงมหาศาลเลย ระดับนี้น่าจะเปิด use case ใหม่ ๆ ได้บ้าง แต่หน้าเว็บที่ลิงก์ไว้ไม่ได้อธิบายความแตกต่างระหว่างโมเดลให้เข้าใจง่ายนัก
อย่างไรก็ตาม จากประสบการณ์ส่วนตัวที่เคยใช้โมเดลภาพทั่วไป ผมว่า Google ดีที่สุดใน workflow ของผม แน่นอนว่ายังไม่เคยลองผู้ให้บริการฝั่งตะวันออกไกล
อยากรู้ว่าคนอื่นคิดอย่างไร

Nano Banana 2 Lite

โมเดล Gemini Image ที่ชูจุดเด่นด้านความเร็วและต้นทุนต่ำ

สมดุลระหว่างความเร็ว ต้นทุน และคุณภาพ

ตัวอย่างแอปที่ตั้งอยู่บนสมมติฐานว่าการสร้างภาพต้องเร็ว

ตัวชี้วัดเปรียบเทียบและ model card

มุมมองของพาร์ตเนอร์ต่อศักยภาพการใช้งาน

ข้อจำกัดที่ยังต้องตรวจสอบ

ฟีเจอร์ด้านความปลอดภัยและข้อควรระวังในการใช้งาน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News