1 คะแนน โดย GN⁺ 3 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Nano Banana 2 Lite ที่เพิ่มเข้ามาในตระกูล Gemini Image ของ Google DeepMind เป็นโมเดลที่มุ่งให้การสร้างและแก้ไขภาพทำงานได้เร็วขึ้นและมีต้นทุนต่ำลง โดยเน้นลดภาระค่าใช้จ่ายของงานภาพที่ต้องทำซ้ำจำนวนมาก
  • แกนหลักคือ latency ต่ำ และความคุ้มค่าด้านต้นทุนในระดับสเกลใหญ่ โดยสามารถสร้างภาพได้หลายพันภาพด้วยต้นทุนต่ำกว่าโมเดล production ขนาดใหญ่
  • ในด้านคุณภาพ โมเดลยังคง ความสามารถในการควบคุมและความแม่นยำ แบบตระกูล Nano Banana พร้อมรองรับความสม่ำเสมอของตัวละคร การแก้ไขอย่างละเอียด และการใช้ความรู้จากโลกจริง
  • ตัวอย่างอย่าง Space Lift, Gridscape, Peek-A-Word และ Anywhere แสดงให้เห็นประสบการณ์ผู้ใช้ที่เกิดขึ้นได้เมื่อการสร้างภาพเร็วพอจนไม่ทำให้การใช้งานแอปสะดุด
  • อาจเกิดข้อผิดพลาดได้ในกรณีใบหน้าขนาดเล็ก การสะกดที่แม่นยำ รายละเอียดปลีกย่อย ผลลัพธ์ที่อิงข้อมูล การแปลและการทำโลคัลไลซ์ รวมถึงการแก้ไขและคอมโพสิตที่ซับซ้อน จึงยังต้องตรวจสอบผลลัพธ์ที่สร้างขึ้น

โมเดล Gemini Image ที่ชูจุดเด่นด้านความเร็วและต้นทุนต่ำ

  • Nano Banana 2 Lite คือโมเดล Gemini Image ที่ Google DeepMind เปิดตัว โดยตั้งเป้าไปที่การสร้างและแก้ไขภาพอย่างรวดเร็วพร้อมต้นทุนต่ำ
  • ผู้ใช้หลักคือ ครีเอเตอร์ ธุรกิจ และนักพัฒนา และออกแบบมาให้เหมาะกับเวิร์กโฟลว์ที่ต้องสำรวจไอเดียภาพหลายแบบอย่างรวดเร็ว
  • Google DeepMind ระบุว่าโมเดลนี้เป็น Gemini Image ที่เร็วและมีประสิทธิภาพที่สุดเท่าที่เคยมีมา พร้อมให้การสร้างและแก้ไขความเร็วสูงในต้นทุนที่ต่ำที่สุด
  • ช่องทางการเข้าถึงมีดังนี้

สมดุลระหว่างความเร็ว ต้นทุน และคุณภาพ

  • การลด latency เป็นหัวใจสำคัญ เพื่อรองรับการสำรวจและการทำงานซ้ำอย่างรวดเร็ว
  • ในการสร้างภาพจำนวนมาก สามารถสร้างภาพได้หลายพันภาพด้วยต้นทุนที่ต่ำกว่าโมเดล production ที่หนักกว่าอย่างมาก
  • ด้านคุณภาพ มุ่งส่งมอบความสามารถในการควบคุมและความแม่นยำที่คาดหวังจาก Nano Banana ได้เร็วขึ้น
    • รักษา ความสม่ำเสมอของตัวละคร
    • การแก้ไขภาพอย่างแม่นยำ
    • การใช้ความรู้จากโลกจริง
  • ในการเขียนพรอมป์ ยิ่งระบุองค์ประกอบที่ต้องการอย่างละเอียด เช่น ตัวละคร ฉากหลัง และบรรยากาศโดยรวม ก็ยิ่งช่วยให้ได้ภาพใกล้เคียงความต้องการมากขึ้น
  • มีคู่มือพรอมป์ให้ที่ View prompt guide และ Learn how to prompt

ตัวอย่างแอปที่ตั้งอยู่บนสมมติฐานว่าการสร้างภาพต้องเร็ว

  • Space Lift เป็นแอปที่เมื่ออัปโหลดภาพห้องแล้ว จะสร้างคอนเซปต์ตกแต่งภายในได้ทันที ตั้งแต่ Mid-Century Modern ไปจนถึง Bohemian Chic
  • Gridscape ให้ผู้ใช้พิมพ์คำถามลงบน infinite canvas แล้วจัดโหนดข้อมูลด้วยข้อความและภาพที่สร้างโดย Nano Banana 2 Lite และ Gemini 3.1 Flash Lite
    • ผู้ใช้สามารถสำรวจแนวคิดที่เกี่ยวข้องให้ลึกขึ้นผ่านเส้นทางที่คลิกได้
  • Peek-A-Word เปลี่ยนข้อความที่เลือกให้เป็นสื่อภาพที่สร้างโดย AI พร้อมให้คำนิยามแบบกระชับและภาพตามบริบทในพื้นที่เดียวกัน
    • มุ่งรักษา flow การเรียนรู้โดยไม่ต้องสลับแท็บ
  • Anywhere เป็นแอปโลก 3D แบบโต้ตอบที่สร้างด้วย Nano Banana 2 Lite
    • เมื่อแนบภาพเข้าไป จะสร้างชุดโปสต์การ์ดแบบปรับให้เป็นส่วนตัวโดยใช้สถานที่ท่องเที่ยวทั่วโลกเป็นฉากหลัง
    • ผู้ใช้สามารถหมุนโลกและคลิกภาพเพื่อดูข้อมูลของจุดหมายเสมือนได้

ตัวชี้วัดเปรียบเทียบและ model card

  • Google DeepMind ระบุว่า Nano Banana 2 Lite เป็นโมเดลที่มีประสิทธิภาพที่สุดเท่าที่เคยมีมา และมีสมดุลที่ดีระหว่างคุณภาพกับความเร็ว
  • ในกลุ่มที่ใช้เปรียบเทียบ มีโมเดลระดับพรีเมียร์อย่าง Nano Banana 2 รวมอยู่ด้วย
  • พื้นที่ที่ใช้เปรียบเทียบครอบคลุมองค์ประกอบคุณภาพการสร้างภาพ เช่น การทำตามพรอมป์ การถ่ายทอดรายละเอียด และความสามารถในการควบคุม
  • ส่วนประสิทธิภาพนำเสนอตัวชี้วัดดังนี้
    • Image Editing: คะแนน Elo ด้านการแก้ไขภาพเมื่อเทียบกับโมเดลคู่แข่ง ตามเกณฑ์ของ lmarena.ai
    • Image Generation: คะแนน Elo ด้านการสร้างภาพเมื่อเทียบกับโมเดลคู่แข่ง ตามเกณฑ์ของ lmarena.ai
    • Latency per 1k resolution image: ค่า latency ต่อภาพความละเอียด 1k อ้างอิงข้อมูลจาก artificialanalysis.ai
    • Price per 1k resolution image: ราคาต่อภาพความละเอียด 1k
  • model card ดูได้ที่ View model card

มุมมองของพาร์ตเนอร์ต่อศักยภาพการใช้งาน

  • Figma Weave มองว่า Nano Banana 2 Lite ช่วยให้นักออกแบบสำรวจไอเดียได้มากขึ้นและสร้างภาพที่มีเอกลักษณ์บนแคนวาสแบบ node-based
  • Manus AI กำลังทดสอบการสร้างภาพแบบเรียลไทม์สำหรับสไลด์เด็คและเว็บเพจภายในเวิร์กโฟลว์อัตโนมัติ
    • ประเมินว่าความเร็วเหมาะกับการทำ visual iteration อย่างรวดเร็วของ AI agent และการให้ผลลัพธ์ภายในไม่กี่วินาที
    • มองว่าคุณภาพของภาพใกล้เคียงกับ Nano Banana 2 รุ่นเต็ม
  • Artlist มองว่าเมื่อความเร็วในการสร้างเร็วเกินกว่าที่จินตนาการไว้ ผู้ใช้จะสามารถอยู่กับไอเดียต่อเนื่องได้โดยไม่ต้องรอเครื่องมือ
  • Weekend ระบุว่าในเกมทีวีควบคุมด้วยเสียง Wit’s End นั้น instant-ramen เร็วกว่า Gemini 3.1 Flash Image ประมาณ 2.7× สำหรับการสร้างภาพ 1k
    • รองรับ text-to-image การแก้ไข และการคอมโพสิตหลายภาพผ่าน drop-in API เดียว
  • Latitude มองว่าความเร็วในการสร้างภาพมีความสำคัญในเอนจินที่สร้างโลกไปพร้อมกับการที่ผู้เล่นสำรวจ และ instant-ramen ทำให้การสร้างภาพเร็วพอที่จะตามประสบการณ์การเล่นได้ทัน

ข้อจำกัดที่ยังต้องตรวจสอบ

  • Gemini สามารถสร้างภาพได้หลากหลาย แต่บางความสามารถยังอยู่ระหว่างการปรับปรุง และภาพที่สร้างขึ้นยังต้องมีการตรวจสอบโดยตรง
  • ในด้าน ความเที่ยงตรงของภาพและข้อความ อาจมีความยากกับใบหน้าขนาดเล็ก การสะกดที่ถูกต้อง และรายละเอียดในภาพ
  • ในด้าน ข้อมูลและความถูกต้องของข้อเท็จจริง แม้จะมีความรู้เกี่ยวกับโลกจริงอย่างกว้างขวาง แต่ยังไม่สมบูรณ์
    • ในการสร้างอินโฟกราฟิก คำอธิบายกำกับไดอะแกรม และการแสดงข้อมูลที่ซับซ้อน อาจตีความข้อมูลผิดหรือสร้างผลลัพธ์ที่ไม่ตรงข้อเท็จจริง
    • เอาต์พุตที่อิงข้อมูลจำเป็นต้องมีการตรวจสอบ
  • ด้านการแปลและการทำโลคัลไลซ์ แม้จะสามารถสร้างและแปลข้อความได้หลายภาษา แต่อาจมีปัญหาเรื่องไวยากรณ์ การสะกด นัยทางวัฒนธรรม และสำนวน
  • ในการแก้ไขที่ซับซ้อนและการ blend ภาพ อาจเกิดผลลัพธ์ที่ไม่เป็นธรรมชาติ visual artifacts หรือฉากที่ไม่ต่อเนื่อง ในกรณีอย่างการแก้ไขแบบ mask การเปลี่ยนแสงครั้งใหญ่เช่นทำให้กลางวันเป็นกลางคืน และการรวมหลายภาพเข้าด้วยกัน
  • ความสม่ำเสมอของตัวละครเป็นจุดแข็ง แต่ยังไม่แม่นยำเสมอไป และ Google DeepMind กำลังปรับปรุงให้มีเสถียรภาพมากขึ้น

ฟีเจอร์ด้านความปลอดภัยและข้อควรระวังในการใช้งาน

  • Google DeepMind ใช้การกรองอย่างกว้างขวางและการติดป้ายกำกับข้อมูล เพื่อลดเนื้อหาที่เป็นอันตรายในชุดข้อมูลและลดโอกาสเกิดเอาต์พุตที่เป็นอันตราย
  • ในด้านความปลอดภัยของเนื้อหา มีการทำ red team และการประเมิน รวมถึงเรื่องความปลอดภัยของเด็กและการนำเสนอ
  • ภาพที่สร้างขึ้นมีฟีเจอร์ด้านความเป็นส่วนตัวและความปลอดภัยล่าสุด โดย SynthID จะฝังลายน้ำดิจิทัลที่มองไม่เห็นลงในภาพโดยตรง เพื่อระบุว่าเป็นภาพที่สร้างโดย AI
  • ข้อมูลเกี่ยวกับ SynthID ดูได้ที่ Learn more
  • LLM อย่าง Gemini 3.1 Flash-Lite Image อาจให้เนื้อหาที่ไม่ถูกต้องหรือไม่เหมาะสม ซึ่งไม่ได้เป็นตัวแทนมุมมองของ Google
  • ควรใช้ความระมัดระวังเมื่อเชื่อถือ เผยแพร่ หรือใช้งานเนื้อหาที่ LLM สร้างขึ้น และไม่ควรพึ่งพาในคำแนะนำเฉพาะทาง เช่น การแพทย์ กฎหมาย หรือการเงิน

1 ความคิดเห็น

 
GN⁺ 3 시간 전
ความเห็นจาก Hacker News
  • ตัวอย่างแรกของการสร้างภาพตกแต่งภายในบ้านนี่ไม่ชอบจนบรรยายยาก ช่วงนี้นายหน้าอสังหาฯ เอาอพาร์ตเมนต์เก่า ๆ ที่ขายไม่ออกทั้งหมดไปใส่ ฟิลเตอร์ AI หมุนกันหมด ทำให้ก่อนจะได้เห็นว่าของจริงที่แย่ขนาดไหนกำลังถูกเอามาขายในราคาสุดเว่อร์ ก็ต้องเลื่อนผ่านภาพนับสิบที่บอกว่า “ถ้าแต่งสไตล์ IKEA อาจออกมาหน้าตาแบบนี้” ก่อน

    • ผมคิดว่าเรื่องแบบนี้ควรถูกมองเป็น การแสดงข้อมูลเท็จที่ผิดกฎหมาย มีพื้นที่สีเทาในการใช้ AI มากเกินไป
    • มองว่าแทบจะเป็น การฉ้อโกง เลย ใน Streeteasy มีอพาร์ตเมนต์บางห้องที่ดูเหมือน ‘ใส่’ โต๊ะทำงาน ตู้ลิ้นชัก และเตียงควีนไซซ์เข้าไปได้ทั้งหมด แต่เห็นชัดว่าโมเดลภาพแค่ย่อเฟอร์นิเจอร์ให้มีสัดส่วนที่ไม่มีอยู่จริง
      ห้องนอนจริง ๆ แทบจะใส่ได้แค่เตียงควีนไซซ์หนึ่งเตียงเท่านั้น ;(
    • เห็นด้วย 100% ว่าการหลอกลวงเรื่องสภาพจริงของอพาร์ตเมนต์เองไม่ควรเป็นที่ยอมรับ ทั้งทางสังคมหรือทางกฎหมาย แต่ในงานรีโนเวตห้องน้ำของผม โมเดลภาพ ช่วยเรื่องการตัดสินใจดีไซน์ได้ค่อนข้างมาก
      โดยเฉพาะในกรณีที่นึกภาพเองได้ยากว่า ถ้าปูกระเบื้องบางจุดแล้วพื้นที่โดยรวมจะออกมาเป็นอย่างไร
    • ใน NYC ที่ผมอยู่ การลงภาพรีทัชแบบนั้นเป็นเรื่องปกติมานานกว่า 10 ปีแล้ว
      เมื่อก่อนก็แค่ต้องจ้างคนทำงานแบบนั้น ซึ่งแพงกว่า
      ภาพที่รีทัชแล้วมักแสดงผนังสว่าง ๆ กับเฟอร์นิเจอร์สีเทาสไตล์นิตยสารเหมือนกันหมด
      AI แค่ทำให้มันถูกลงเท่านั้น สุดท้ายมันก็ต้องออกมาแบบนี้อยู่ดี
      ภาพที่ถูกรีทัชแบบนี้จะมีลายน้ำเล็ก ๆ แจ้งไว้ว่าเป็นภาพที่ปรับแต่งแล้ว
    • แค่มีช่างภาพเก่ง ๆ ก็ให้ผลมหาศาลแล้ว ตอนเพื่อนขายบ้าน ผมตกใจว่าบ้านดูดีแค่ไหนในรูปประกาศขาย และทั้งที่รู้ว่ามันไม่ได้เล็ก แต่ก็ยังดูใหญ่ขึ้นมาก
      เป็นปัญหาที่มีมาก่อน ฟิลเตอร์ AI แล้ว เลยไม่ใช่เรื่องใหม่ แต่ตอนนี้มันหนักขึ้นมากและต้นทุนก็ต่ำลง
  • ผมได้สิทธิ์เข้าถึงก่อนเพื่อทดสอบโมเดลนี้ ได้มาผ่านงาน ไม่ใช่ว่า Google เกิดมาชอบผมเป็นการส่วนตัวหรอกนะ lol
    มันทำงานได้ตามที่โฆษณาไว้ และในส่วนอย่าง การเรนเดอร์ข้อความ ที่ดี ดูเหมือนเป็นเวอร์ชันกลั่นของ Nano Banana 2 ส่วน Nano Banana 1 อ่อนกว่านี้มากในจุดนี้
    แน่นอนว่าเมื่อใช้พรอมป์ต์ละเอียด ๆ มันยังห่างไกลจาก Nano Banana 2 ตัวหลักเลย ข้อร้องเรียนใหญ่สุดคือใน NB2 สามารถบังคับอัตราส่วนภาพด้วยโปรแกรมได้ แต่ใน NB2L ทำไม่ได้
    อย่างไรก็ตาม ราคา $0.034 ต่อภาพสูงกว่าที่คาดไว้ ปกติราคาจะสัมพันธ์กับเวลาสร้างภาพ แต่ตัวนี้สร้างได้ในเวลาครึ่งหนึ่งของ Nano Banana 1 ขณะที่ Nano Banana 1 อยู่ที่ $0.039 ต่อภาพ
    คำกล่าวของ Google ที่ว่า pipeline ของ NB1 สามารถแทนที่ด้วย NB2L ได้ทันทีนั้นสมเหตุสมผล
    เมื่อวาน Google ประกาศว่าอนุญาตให้สร้างภาพฟรีในแอป Gemini (https://blog.google/innovation-and-ai/products/gemini-app/pe...) แต่ไม่ได้ระบุว่าใช้โมเดลไหน ผมมองว่าแรงจูงใจหลักของ Nano Banana 2 Lite อยู่ตรงนี้

    • ผ่าน Vertex สามารถตั้ง อัตราส่วนภาพ ด้วยโปรแกรมใน NB2 Lite ได้ด้วย [1] ผมอัปเดตโปรแกรมที่ใช้สร้างภาพสำหรับ GenAI Showdown แล้วเปลี่ยน model ID เป็น gemini-3.1-flash-lite-image และสามารถใช้อัตราส่วนภาพอย่าง 16:9, 4:3 ได้
      [1] - https://cloud.google.com/developers/vertex-ai
    • อยากรู้ว่าทำงานอะไรถึงต้องทำ การสร้างภาพอัตโนมัติ ในสเกลใหญ่
  • ก็โอเคนะ แต่ดันอยู่บน AI Studio ของ Google ที่พัง ๆ ฟีเจอร์ครึ่งหนึ่งในนั้นใช้ไม่ได้เพราะต้องมีบัญชี Google One
    ผมเป็นบัญชี Workspace เลยไม่มีสิทธิ์ และก็เปลี่ยนไม่ได้ เพราะ Google One ไม่รองรับโดเมนของตัวเอง
    งั้นถ้าอยากได้ทั้งอีเมลแอดเดรสเท่ ๆ กับ Banana ต้องใช้สองบัญชีและจ่ายเงินด้วยเหรอ? เริ่มรู้สึกแล้วว่าจำนวนบัญชี Google แบบเสียเงินที่ถูกต้องตรงนี้คือ 0 บัญชี

    • เคยเจอสถานการณ์คล้ายกัน Google ต้องปรับปรุง ประสบการณ์ผู้ใช้ ด้านการใช้งานโมเดลและการชำระเงินจริง ๆ
      ทางออกของผมคือ OpenRouter ในแชตสำหรับพัฒนาและทดสอบสามารถสร้างภาพด้วยโมเดลของ Google ได้ และยังลองรันพรอมป์ต์เดียวกันเทียบกับโมเดลอื่นแบบเคียงข้างกันได้ด้วย สะดวกมากสำหรับการสร้างภาพเบา ๆ
    • ผมก็แทบจะอยู่ในสภาพเดียวกัน จ่ายทั้ง One และ Workspace สำหรับใช้งานส่วนตัว แต่ก็ไม่ชัดว่าควรใช้ฝั่งไหนกับฟีเจอร์พวกนี้
      โดยทั่วไปผมใช้บัญชีส่วนตัวเป็นหลักเพราะมีบริบทมากกว่า แต่ถ้าอย่างนั้นการดึงข้อมูลจาก Workspace Drive ก็ต้องเพิ่มขั้นตอนอีกหลายอย่าง
      แล้วของอย่าง Project Genie ก็ใช้บน Workspace ไม่ได้เลย ซึ่งรู้สึกแปลกพอสมควร
    • อาจจะดูโปรโมตแบบค่อนข้างโจ่งแจ้ง แต่ burlap ให้คุณใส่คีย์ของ Gemini Studio หรือ OpenAI แล้วลองนู่นลองนี่ได้โดยไม่ต้องยุ่งกับเว็บอินเทอร์เฟซ นั่นแหละเหตุผลที่ผมทำมันขึ้นมา
      https://www.burlap.app/download
  • ความเร็วถือว่าน่าประทับใจจริง ๆ NB2 ตัวหลักใช้ประมาณ 30 วินาทีต่อภาพ แต่ตัวนี้ดูเหมือนใช้ น้อยกว่า 5 วินาที
    ผมทำแอปที่สร้างเรื่องราวพร้อมภาพประกอบโดยใส่เด็ก ๆ เป็นตัวละคร อยากให้ยังคงสไตล์ภาพประกอบไว้ แต่ให้ความเหมือนของเด็ก ๆ มาก่อน
    ทดสอบมาหลายโมเดลแล้ว แต่ดูเหมือนไม่มีโมเดลไหนเข้าใกล้เท่านี้ในการรักษาความเหมือนขณะทำให้เป็นสไตล์ภาพ โมเดลอื่น ๆ มักทำให้ออกมาเป็นตัวละครทั่ว ๆ ไป
    ผมอยากให้ผู้ใช้รู้สึกถึงช่วง “อ๋อ เข้าใจแล้ว” ให้เร็วที่สุด เลยตั้งตารอที่จะเอาโมเดลนี้ใส่ใน onboarding ของแอป การรอนานกว่า 30 วินาทีไม่ใช่เรื่องที่เหมาะ
    แต่สำหรับภาพประกอบจริง ๆ ผมยังจะใช้ NB2 ตัวหลักอยู่ดี Lite เวอร์ชันนี้ยังมีปัญหาเล็กน้อยเรื่องนัยละเอียดและความสม่ำเสมอ อย่างที่คนอื่น ๆ พูดกัน

    • ผมลองทำอะไรคล้าย ๆ กัน แต่เจอ error ว่าทำสิ่งที่เกี่ยวกับ เด็ก ไม่ได้ เรื่องนั้นเปลี่ยนแล้วหรือเปล่า?
  • ไม่ได้ใส่ ChatGPT ไว้ในกราฟเปรียบเทียบ แค่นั้นก็บอกอะไรได้เยอะแล้ว

    • เรื่องนั้นควรหยิบมาพูดจริง ๆ สำหรับคนที่ไม่รู้ ChatGPT Image 2 มี ELO สูงอย่างไม่สมเหตุสมผลที่ 1387 และสูงกว่าโมเดลอันดับ 2 ที่ 1273 มากกว่า 100 คะแนน(https://arena.ai/leaderboard/text-to-image)
      แต่ปัญหาคือเวลาแฝง และการตั้งค่า High ของ ChatGPT Image 2 ช้าที่ประมาณ 2 นาทีที่ 1024x1024
      ไม่ว่าจะมองทางไหน ถ้าใส่ไว้ในกราฟนี้ก็คงทำให้กราฟบิดเบือนจนใช้ประโยชน์ไม่ได้
      อยากเขียนเรื่อง ChatGPT Image 2 อยู่เหมือนกัน แต่ตอนนี้ดูเหมือนผู้คนจะไม่สนใจการสร้างภาพที่ละเอียดประณีตแล้ว ทั้งที่ในการทดสอบเดิม ChatGPT Image 2 เหนือกว่าทุกอย่างก็ตาม
  • น่าแปลกใจนิดหน่อยที่โมเดลภาพของ Grok ชนะ Nano Banana ในแทบทุกตัวชี้วัดที่เน้นไว้ตรงนี้

    • จริงเหรอ? ผมพลาดอะไรไปหรือเปล่า? อย่างแรก ดูเหมือนจะไม่เป็นความจริง และเวอร์ชันที่ไม่ใช่ Lite โดยรวมก็ดูเหมือนจะชนะ Grok
      อย่างที่สอง ตั้งแต่แรกนี่เป็นโมเดลต้นทุนต่ำสำหรับสร้างจำนวนมาก ไม่ใช่โมเดล frontier ระดับล้ำสุด ดังนั้น benchmark ต่ำกว่าก็เป็นเรื่องธรรมดา
  • ชอบ Nano Banana Pro ยังมี ทางเลือกแบบโลคัล อยู่ไหม? ได้ยินเรื่อง Qwen Image, Klein และ Krea ช่วงหลัง ๆ เลยอยากรู้ว่ามีตัวไหนแนะนำไหม

    • Krea-2 ยอดเยี่ยม ถ้ารับไลเซนส์ที่มีข้อจำกัด ความเร็วเอาต์พุต และการพรอมป์แบบ JSON ได้ Ideogram 4 ก็น่าจะใกล้เคียงโมเดลระดับล้ำสุดที่สุด
      ถ้าดู GenAI Showdown ในโปรไฟล์ของผม จะมี benchmark เปรียบเทียบกับโมเดลโลคัลและโมเดลปิด
      จริง ๆ แล้วมันทำคะแนนสูงกว่า Gemini 2.5 หรือ NB ตัวเดิม ซึ่งน่าประทับใจทีเดียว
    • Krea ดี ข้อมูลเกี่ยวกับโมเดลเปิดระดับล้ำสุดดูได้ที่ r/StableDiffusion
  • ผมตามด้านการสร้างภาพไม่ค่อยทันแล้ว เลยใช้แค่บางครั้งสำหรับทำโทเคนโรลเพลย์ ของเล่น หรือ asset ชั่วคราวส่วนตัว สำหรับมาตรฐานของผม นี่มันบ้าสุด ๆ
    สร้างภาพได้ในราว 2 วินาที เมื่อก่อนถ้าจะสร้างภาพคุณภาพเดียวกันด้วย ChatGPT ต้องใช้ 30 วินาทีถึง 1 นาที
    ไม่เข้าใจปฏิกิริยาเชิงลบที่นี่เลย

    • ถึงอย่างนั้น รายละเอียด ของ ChatGPT ก็ดีกว่ามาก ยังสร้างอะไรอย่างการ์ตูน 6 ช่องที่ซับซ้อน ซึ่ง Nano Banana ตามไม่ทันได้ด้วย
      และปฏิกิริยาเชิงลบจำนวนไม่น้อยก็มาจากคนที่เกลียดแนวคิดของ AI art เอง และอยากให้มันล้มเหลว
    • การใช้งานต่างกัน
      คนที่ทำงานที่ตัวภาพเป็นแกนหลักมักอยากจ่ายต่อภาพมากกว่า
      ในทางกลับกัน ถ้าภาพเป็นแค่ส่วนหนึ่งของรายงาน เป็นผลลัพธ์ที่ทิ้งได้ หรือใส่ในเดโม วิธีที่ถูกกว่าจะดีกว่า
  • สงสัยว่าของอย่าง ต้นแบบแบบเรียลไทม์ ในส่วน “hands on” ของหน้านี้ต้องทำอย่างไรถึงจะได้
    ใน gemini.g เพิ่ม canvas หรือใช้การสร้างภาพได้ก็จริง แต่ไม่ค่อยเข้าใจว่าต้องใส่พรอมป์ “space lift” ตรงไหนถึงจะออกมาเหมือนเดโม

  • ว้าว เวลาแฝงลดลงมหาศาลเลย ระดับนี้น่าจะเปิด use case ใหม่ ๆ ได้บ้าง แต่หน้าเว็บที่ลิงก์ไว้ไม่ได้อธิบายความแตกต่างระหว่างโมเดลให้เข้าใจง่ายนัก
    อย่างไรก็ตาม จากประสบการณ์ส่วนตัวที่เคยใช้โมเดลภาพทั่วไป ผมว่า Google ดีที่สุดใน workflow ของผม แน่นอนว่ายังไม่เคยลองผู้ให้บริการฝั่งตะวันออกไกล
    อยากรู้ว่าคนอื่นคิดอย่างไร