10 คะแนน โดย GN⁺ 2025-08-27 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Google เปิดตัว Gemini 2.5 Flash Image ซึ่งเป็นที่รู้จักในชื่อ Nano-Banana โดยมีความสามารถด้านการสร้างและแก้ไขภาพที่ได้รับการยกระดับขึ้นอย่างมาก
  • รองรับ การคงความสม่ำเสมอของคาแรกเตอร์, การแก้ไขภาพบางส่วนด้วยภาษาธรรมชาติ, การใช้ความรู้เกี่ยวกับโลก, และ การผสานหลายภาพเข้าด้วยกัน
  • นักพัฒนาสามารถใช้งานโมเดลได้ทันทีผ่าน Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai และอื่น ๆ
  • ราคาอยู่ที่ 30 ดอลลาร์ต่อ 1 ล้าน output tokens หรือประมาณ 0.039 ดอลลาร์ต่อภาพ 1 ใบ
  • ผลลัพธ์ทั้งหมดจะถูกฝัง SynthID watermark แบบดิจิทัลที่มองไม่เห็น

แนะนำ Gemini 2.5 Flash Image

  • Google เปิดตัว Gemini 2.5 Flash Image (โค้ดเนม nano-banana) ซึ่งเป็น โมเดลสร้างและแก้ไขภาพรุ่นถัดไป
  • การอัปเดตครั้งนี้ทำให้สามารถ รวมหลายภาพเป็นภาพเดียว, รักษาความสม่ำเสมอของบุคคลหรือวัตถุเฉพาะ, ปรับแต่งอย่างละเอียดด้วยภาษาธรรมชาติ และสร้างหรือแก้ไขภาพโดยอิงจาก ความรู้เกี่ยวกับโลกของ Gemini
  • แม้ Gemini 2.0 Flash รุ่นแรกจะมีข้อดีด้าน latency ต่ำ ความคุ้มค่าด้านต้นทุน และใช้งานง่ายอยู่แล้ว แต่รอบนี้ได้เพิ่ม ภาพคุณภาพสูงขึ้นและความสามารถในการควบคุมงานสร้างสรรค์ที่ดีขึ้น โดยสะท้อนจากฟีดแบ็กของผู้ใช้
  • ขณะนี้ใช้งานได้ผ่าน Gemini API, Google AI Studio, Vertex AI และอื่น ๆ โดยคิดค่าบริการที่ $30 ต่อ 1 ล้าน output tokens (ประมาณ $0.039 ต่อภาพ 1 ใบ)
  • รูปแบบ input/output อื่น ๆ ก็ใช้ราคาตามนโยบายเดียวกับ Gemini 2.5 Flash
  • เว็บไซต์ทางการ https://deepmind.google/models/gemini/image/

ฟีเจอร์หลักและสถานการณ์การใช้งาน

  • อัปเกรด “Build Mode” ของ Google AI Studio

    • Gemini 2.5 Flash Image ช่วยให้ การพัฒนาแอปง่ายขึ้น
    • นักพัฒนาสามารถสร้าง ทดสอบ และรีมิกซ์ แอป AI แบบกำหนดเอง ได้อย่างรวดเร็ว พร้อมทั้ง deploy ตรงจาก Google AI Studio หรือบันทึกโค้ดลง GitHub ได้
    • ตัวอย่างเช่น สามารถสร้างแอปได้ง่าย ๆ ด้วยพรอมป์ต์อย่าง “สร้างแอปแก้ไขภาพที่ให้ผู้ใช้อัปโหลดรูปและใส่ฟิลเตอร์ได้”
    • ยังมีฟีเจอร์เลือก/รีมิกซ์เทมเพลตที่ให้มาโดยไม่มีค่าใช้จ่าย
  • การคงความสม่ำเสมอของคาแรกเตอร์

    • การรักษา รูปลักษณ์ของคาแรกเตอร์เดียวกัน ระหว่างกระบวนการสร้างภาพเป็นโจทย์ที่ท้าทายมาโดยตลอด
    • Gemini 2.5 Flash Image สามารถนำไปใช้ได้อย่างมีประสิทธิภาพกับ การวางบุคคลเดียวกันในหลายสภาพแวดล้อม, การแสดงสินค้าจากหลายมุมหรือหลายสถานที่, และการรักษาความสม่ำเสมอของทรัพย์สินแบรนด์
    • ผ่าน แอปเทมเพลตของ Google AI Studio ทำให้สาธิตความสม่ำเสมอของคาแรกเตอร์และปรับแต่งโค้ดได้ง่าย
    • ฟีเจอร์นี้ยังประยุกต์ใช้เพื่อรักษา ความสม่ำเสมอของดีไซน์แบบอิงเทมเพลต เช่น การ์ดอสังหาริมทรัพย์ บัตรพนักงาน หรือม็อกอัปสินค้าจำนวนมาก
  • การแก้ไขภาพด้วยพรอมป์ต์ภาษาธรรมชาติ

    • ผู้ใช้สามารถ ปรับเปลี่ยนบางส่วนของภาพได้ด้วยคำสั่งภาษาธรรมชาติเพียงอย่างเดียว
    • ตัวอย่างเช่น เบลอพื้นหลัง ลบรอยเปื้อนบนเสื้อยืด ลบบุคคล เปลี่ยนท่าทาง หรือแปลงภาพขาวดำเป็นภาพสี
    • มี แอปเทมเพลตที่รองรับการแก้ไขผ่าน UI/พรอมป์ต์ เพื่อให้ทดลองใช้งานจริงได้
  • การใช้งานแบบเนทีฟบนพื้นฐานความรู้เกี่ยวกับโลก

    • แม้โมเดลเดิมจะเด่นด้านการสร้างภาพเชิงสุนทรียะ แต่ยังอ่อนในเรื่อง ความเข้าใจเชิงความหมายเกี่ยวกับโลกจริง
    • Gemini 2.5 Flash Image สามารถใช้ ความรู้เกี่ยวกับโลก เพื่อจดจำไดอะแกรมที่วาดด้วยมือ ตอบคำถามเกี่ยวกับโลกจริง และทำคำสั่งแก้ไขที่ซับซ้อนได้
    • ตัวอย่างการใช้งานจริงคือมีแอปที่เปลี่ยนแคนวาสแบบง่าย ๆ ให้เป็น ติวเตอร์การศึกษาแบบโต้ตอบได้
  • การผสานหลายภาพ

    • โมเดลนี้สามารถ ทำความเข้าใจหลายภาพและผสานเข้าด้วยกันอย่างเป็นธรรมชาติ
    • ตัวอย่างเช่น รองรับ การวางสินค้าในฉากหลังใหม่, การเปลี่ยนโทนสีและพื้นผิวของทั้งห้อง, และการผสานภาพด้วยพรอมป์ต์เดียว
    • ใช้ แอปเทมเพลต เพื่อจัดวางสินค้าด้วยการลากแล้ววาง และสร้างภาพผสานแบบ photorealistic ได้

การเริ่มต้นใช้งานและพาร์ตเนอร์ชิป

  • เริ่มใช้งานได้ทันทีผ่าน เอกสารสำหรับนักพัฒนา โดยตอนนี้ยังอยู่ในสถานะพรีวิว แต่จะเข้าสู่สถานะเสถียรในเร็ว ๆ นี้
  • แอปเดโมทั้งหมดสามารถรีมิกซ์โค้ดและปรับแต่งได้ใน Google AI Studio
  • ร่วมมือกับ OpenRouter.ai เพื่อให้โมเดลเข้าถึงนักพัฒนา 3 ล้านคน และเป็นโมเดลแรกในบรรดาโมเดลที่ OpenRouter รองรับกว่า 480 รุ่นที่สามารถสร้างภาพได้
  • ขยายการรองรับไปยังชุมชนนักพัฒนาที่กว้างขึ้นผ่านความร่วมมือกับ fal.ai

ลายน้ำดิจิทัลและฟีดแบ็ก

  • ทุกภาพที่สร้างหรือแก้ไขด้วย Gemini 2.5 Flash Image จะถูกฝัง SynthID digital watermark ที่มองไม่เห็น เพื่อให้ตรวจจับได้ว่าเป็นผลงานที่สร้างด้วย AI
  • กำลังปรับปรุงฟีเจอร์อย่างต่อเนื่องในด้านคุณภาพข้อความ ความสม่ำเสมอของคาแรกเตอร์ และรายละเอียดของภาพ
  • รับฟีดแบ็กจากนักพัฒนาผ่าน Google Developer Forum หรือ X (เดิมคือ Twitter) อย่างต่อเนื่อง

ตัวอย่างการใช้งานแบบง่าย (โค้ด Python)

  • ใน Python สามารถใช้งาน Gemini 2.5 Flash Image ได้ผ่าน genai SDK, PIL และไลบรารี io ด้วยพรอมป์ต์และภาพตามต้องการ
  • ตัวอย่าง: สามารถใช้พรอมป์ต์อิสระอย่าง “แมวของฉันกำลังกิน nano-banana อยู่ในร้านอาหาร” ได้
  • ผลลัพธ์ที่ได้สามารถบันทึกได้ทั้งเป็นข้อความธรรมดาและไฟล์ภาพภายในโค้ด

ทิศทางการพัฒนาในอนาคต

  • กำลังพัฒนาต่อเนื่องเพื่อยกระดับ การเรนเดอร์ข้อความยาว, ความสม่ำเสมอของคาแรกเตอร์ที่เชื่อถือได้มากขึ้น, และรายละเอียดที่สมจริง
  • กระตุ้นการมีส่วนร่วมและฟีดแบ็กจากชุมชนอย่างต่อเนื่อง
  • คาดว่า Gemini 2.5 Flash Image จะช่วยขยายประสบการณ์การสร้างสรรค์และการพัฒนาได้หลากหลายยิ่งขึ้น

2 ความคิดเห็น

 
GN⁺ 2025-08-27
ความคิดเห็นจาก Hacker News
  • นี่เหมือนเป็น ช่วงเวลา GPT-4 ของโมเดลแต่งภาพเลย ดูผลงานน่าทึ่งได้บน Twitter
    • nano banana หรือก็คือ gemini 2.5 flash มีประสิทธิภาพสูงมากจนคะแนนใน lmarena กระโดดขึ้น 171 elo
    • ถ้าค้นหา nano banana บน Twitter จะเจอผลงานที่น่าทึ่งมาก
    • ช่วงนี้โดเมน "nano banana" ถูกจดหมดแล้ว แต่ละเจ้าก็ทำ UI สร้างภาพของตัวเองออกมา ให้ความรู้สึกเหมือนเป็น พ่อค้าคนกลาง ที่อาศัยชื่อโมเดลดัง
    • สงสัยว่าทำไมถึงตั้งชื่อว่า nano banana
  • นี่แหละคือโมเดล nano-banana ที่พูดถึงกัน ตอนนี้ใน LMArena เปลี่ยนชื่อเป็น gemini-2.5-flash-image-preview แล้ว
  • พอลองให้ Gemini สร้างภาพ มันตอบกลับมาครึ่งหนึ่งว่า ทำไม่ได้
    • แถมฟีเจอร์ที่ Google ประกาศก็ยังกระจัดกระจายอยู่หลายที่ จนเกิดความ สับสน ว่าต้องใช้ในผลิตภัณฑ์ไหน และต้องจ่ายเงินที่ไหนกันแน่
  • สุดท้ายแล้วโมเดลภาพก็เหมือน ตัวดูดเวลา
    • สร้างห้องหนึ่งห้องนั้นง่าย แต่จะทำให้เป็นห้องเดียวกันอย่างสม่ำเสมอจากหลายมุมแทบเป็นไปไม่ได้
    • เลยใช้งานยากกับงานที่ต้องการความสม่ำเสมอของภาพ
  • ฉันเพิ่งดิจิไทซ์รูปครอบครัว แต่หลายรูปเสียหายจนกู้คืนได้ยาก
    • โมเดลนี้ดูเหมือนจะเก่งเรื่องฟื้นฟูโดยไม่เปลี่ยนรายละเอียด เลยรู้สึกว่าในที่สุดก็น่าจะถึงจุดที่ใช้งานได้จริงแล้ว
    • จริง ๆ แล้วตำหนิแบบนี้ซ่อมอัตโนมัติได้ด้วย เครื่องสแกนฟิล์ม + ฟีเจอร์ ICE และซอฟต์แวร์อย่าง Vuescan
      • ดูไม่จำเป็นเท่าไรที่จะเอารูปเป็นร้อย ๆ ใบไปโยนให้คลาวด์ AI เชิงทดลองจัดการ
    • ไม่ทราบว่าใครพอรู้จักซอฟต์แวร์ปรับคุณภาพวิดีโอบ้างไหม
      • กำลังดิจิไทซ์เทป Video 2000 กับ VHS อยู่ และอยากปรับภาพความทรงจำเหล่านี้ให้ดีขึ้นอีกนิด
    • หวังว่ามันจะทำได้ดี แต่ตัวอย่างหนึ่งให้ความรู้สึกว่าหน้าคนถูก ทำให้เป็น AI มากเกินไป
    • จริง ๆ แล้วโมเดล Flux Kontext ไปถึงระดับนี้ได้ตั้งแต่หลายเดือนก่อนแล้ว
  • ประสิทธิภาพของโมเดลน่าประทับใจ แต่ในขณะเดียวกันก็เป็นห่วง ผลกระทบ ทางสังคม
    • แค่ดูคอมเมนต์บน Facebook ก็เริ่มกังวลแล้ว
    • ฉันทดสอบ SynthID ของ Google แล้ว รู้สึกว่าทำได้ค่อนข้างดี
      • ต่อให้บีบอัด ครอป ปรับขนาด ปรับสี หรือ overpainting ลายน้ำก็ยังอยู่
    • ช่วงหลังฉันเองก็โดน ดีปเฟกหลอกลวง ระหว่างอีเวนต์ปล่อยจรวดของ SpaceX จนเสียไป 15k BTC
      • เทคโนโลยีมันแนบเนียนมากขึ้นเรื่อย ๆ จนการโจมตีก็อันตรายขึ้นเรื่อย ๆ
    • คอมเมนต์บน Facebook ดูเหมือนจะเป็นบอตปั่นแน่ ๆ
  • ตัวอย่างโคมไฟน่าประทับใจทีเดียว
    • ทั้งการต่อไฟ แสง และเงา ดูเป็นธรรมชาติมาก
  • ฉันชอบที่มัน เร็วกว่า การสร้างภาพของ ChatGPT มาก
    • ChatGPT ช้าเกินไปจนถึงขั้นต้องรอผลผ่านการแจ้งเตือน
    • พอนึกภาพแนว “หน้าตาของนักลงทุน OpenAI หลังจากลองใช้ Gemini 2.5 Flash Image” แล้วก็ขำดี
  • มีงานอย่างหนึ่งที่อยากทำมานานแล้ว
    • คือเอาวัตถุจากภาพที่ 2 ไปแทนวัตถุเฉพาะจุดในภาพที่ 1 และอยากระบุตำแหน่งให้แม่นด้วย
    • ลองมาหลายโมเดลแล้วแต่ล้มเหลวหมด โมเดลนี้เกือบทำได้ถูก แต่สุดท้ายก็ไปแทนวัตถุอื่น
    • เลยสงสัยว่ามีโมเดลไหนที่ถนัดการแทนที่ตำแหน่งเฉพาะด้วย ภาพอ้างอิง โดยตรงไหม
    • โมเดล ACE++ ของ Alibaba รองรับความสามารถแบบนั้น
      • ใช้งานอยู่ใน phind.design แต่เป็นงานค่อนข้างเฉพาะทาง เลยไม่ค่อยพบเห็นทั่วไป