Gemini 2.5 Flash Image - เปิดตัวโมเดลสร้างและแก้ไขภาพรุ่นล่าสุด

(developers.googleblog.com)

10 คะแนน โดย GN⁺ 2025-08-27 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Google เปิดตัว Gemini 2.5 Flash Image ซึ่งเป็นที่รู้จักในชื่อ Nano-Banana โดยมีความสามารถด้านการสร้างและแก้ไขภาพที่ได้รับการยกระดับขึ้นอย่างมาก
รองรับ การคงความสม่ำเสมอของคาแรกเตอร์, การแก้ไขภาพบางส่วนด้วยภาษาธรรมชาติ, การใช้ความรู้เกี่ยวกับโลก, และ การผสานหลายภาพเข้าด้วยกัน
นักพัฒนาสามารถใช้งานโมเดลได้ทันทีผ่าน Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai และอื่น ๆ
ราคาอยู่ที่ 30 ดอลลาร์ต่อ 1 ล้าน output tokens หรือประมาณ 0.039 ดอลลาร์ต่อภาพ 1 ใบ
ผลลัพธ์ทั้งหมดจะถูกฝัง SynthID watermark แบบดิจิทัลที่มองไม่เห็น

แนะนำ Gemini 2.5 Flash Image

Google เปิดตัว Gemini 2.5 Flash Image (โค้ดเนม nano-banana) ซึ่งเป็น โมเดลสร้างและแก้ไขภาพรุ่นถัดไป
การอัปเดตครั้งนี้ทำให้สามารถ รวมหลายภาพเป็นภาพเดียว, รักษาความสม่ำเสมอของบุคคลหรือวัตถุเฉพาะ, ปรับแต่งอย่างละเอียดด้วยภาษาธรรมชาติ และสร้างหรือแก้ไขภาพโดยอิงจาก ความรู้เกี่ยวกับโลกของ Gemini
แม้ Gemini 2.0 Flash รุ่นแรกจะมีข้อดีด้าน latency ต่ำ ความคุ้มค่าด้านต้นทุน และใช้งานง่ายอยู่แล้ว แต่รอบนี้ได้เพิ่ม ภาพคุณภาพสูงขึ้นและความสามารถในการควบคุมงานสร้างสรรค์ที่ดีขึ้น โดยสะท้อนจากฟีดแบ็กของผู้ใช้
ขณะนี้ใช้งานได้ผ่าน Gemini API, Google AI Studio, Vertex AI และอื่น ๆ โดยคิดค่าบริการที่ $30 ต่อ 1 ล้าน output tokens (ประมาณ $0.039 ต่อภาพ 1 ใบ)
รูปแบบ input/output อื่น ๆ ก็ใช้ราคาตามนโยบายเดียวกับ Gemini 2.5 Flash
เว็บไซต์ทางการ https://deepmind.google/models/gemini/image/

ฟีเจอร์หลักและสถานการณ์การใช้งาน

อัปเกรด “Build Mode” ของ Google AI Studio
- Gemini 2.5 Flash Image ช่วยให้ การพัฒนาแอปง่ายขึ้น
- นักพัฒนาสามารถสร้าง ทดสอบ และรีมิกซ์ แอป AI แบบกำหนดเอง ได้อย่างรวดเร็ว พร้อมทั้ง deploy ตรงจาก Google AI Studio หรือบันทึกโค้ดลง GitHub ได้
- ตัวอย่างเช่น สามารถสร้างแอปได้ง่าย ๆ ด้วยพรอมป์ต์อย่าง “สร้างแอปแก้ไขภาพที่ให้ผู้ใช้อัปโหลดรูปและใส่ฟิลเตอร์ได้”
- ยังมีฟีเจอร์เลือก/รีมิกซ์เทมเพลตที่ให้มาโดยไม่มีค่าใช้จ่าย
การคงความสม่ำเสมอของคาแรกเตอร์
- การรักษา รูปลักษณ์ของคาแรกเตอร์เดียวกัน ระหว่างกระบวนการสร้างภาพเป็นโจทย์ที่ท้าทายมาโดยตลอด
- Gemini 2.5 Flash Image สามารถนำไปใช้ได้อย่างมีประสิทธิภาพกับ การวางบุคคลเดียวกันในหลายสภาพแวดล้อม, การแสดงสินค้าจากหลายมุมหรือหลายสถานที่, และการรักษาความสม่ำเสมอของทรัพย์สินแบรนด์
- ผ่าน แอปเทมเพลตของ Google AI Studio ทำให้สาธิตความสม่ำเสมอของคาแรกเตอร์และปรับแต่งโค้ดได้ง่าย
- ฟีเจอร์นี้ยังประยุกต์ใช้เพื่อรักษา ความสม่ำเสมอของดีไซน์แบบอิงเทมเพลต เช่น การ์ดอสังหาริมทรัพย์ บัตรพนักงาน หรือม็อกอัปสินค้าจำนวนมาก
การแก้ไขภาพด้วยพรอมป์ต์ภาษาธรรมชาติ
- ผู้ใช้สามารถ ปรับเปลี่ยนบางส่วนของภาพได้ด้วยคำสั่งภาษาธรรมชาติเพียงอย่างเดียว
- ตัวอย่างเช่น เบลอพื้นหลัง ลบรอยเปื้อนบนเสื้อยืด ลบบุคคล เปลี่ยนท่าทาง หรือแปลงภาพขาวดำเป็นภาพสี
- มี แอปเทมเพลตที่รองรับการแก้ไขผ่าน UI/พรอมป์ต์ เพื่อให้ทดลองใช้งานจริงได้
การใช้งานแบบเนทีฟบนพื้นฐานความรู้เกี่ยวกับโลก
- แม้โมเดลเดิมจะเด่นด้านการสร้างภาพเชิงสุนทรียะ แต่ยังอ่อนในเรื่อง ความเข้าใจเชิงความหมายเกี่ยวกับโลกจริง
- Gemini 2.5 Flash Image สามารถใช้ ความรู้เกี่ยวกับโลก เพื่อจดจำไดอะแกรมที่วาดด้วยมือ ตอบคำถามเกี่ยวกับโลกจริง และทำคำสั่งแก้ไขที่ซับซ้อนได้
- ตัวอย่างการใช้งานจริงคือมีแอปที่เปลี่ยนแคนวาสแบบง่าย ๆ ให้เป็น ติวเตอร์การศึกษาแบบโต้ตอบได้
การผสานหลายภาพ
- โมเดลนี้สามารถ ทำความเข้าใจหลายภาพและผสานเข้าด้วยกันอย่างเป็นธรรมชาติ
- ตัวอย่างเช่น รองรับ การวางสินค้าในฉากหลังใหม่, การเปลี่ยนโทนสีและพื้นผิวของทั้งห้อง, และการผสานภาพด้วยพรอมป์ต์เดียว
- ใช้ แอปเทมเพลต เพื่อจัดวางสินค้าด้วยการลากแล้ววาง และสร้างภาพผสานแบบ photorealistic ได้

การเริ่มต้นใช้งานและพาร์ตเนอร์ชิป

เริ่มใช้งานได้ทันทีผ่าน เอกสารสำหรับนักพัฒนา โดยตอนนี้ยังอยู่ในสถานะพรีวิว แต่จะเข้าสู่สถานะเสถียรในเร็ว ๆ นี้
แอปเดโมทั้งหมดสามารถรีมิกซ์โค้ดและปรับแต่งได้ใน Google AI Studio
ร่วมมือกับ OpenRouter.ai เพื่อให้โมเดลเข้าถึงนักพัฒนา 3 ล้านคน และเป็นโมเดลแรกในบรรดาโมเดลที่ OpenRouter รองรับกว่า 480 รุ่นที่สามารถสร้างภาพได้
ขยายการรองรับไปยังชุมชนนักพัฒนาที่กว้างขึ้นผ่านความร่วมมือกับ fal.ai

ลายน้ำดิจิทัลและฟีดแบ็ก

ทุกภาพที่สร้างหรือแก้ไขด้วย Gemini 2.5 Flash Image จะถูกฝัง SynthID digital watermark ที่มองไม่เห็น เพื่อให้ตรวจจับได้ว่าเป็นผลงานที่สร้างด้วย AI
กำลังปรับปรุงฟีเจอร์อย่างต่อเนื่องในด้านคุณภาพข้อความ ความสม่ำเสมอของคาแรกเตอร์ และรายละเอียดของภาพ
รับฟีดแบ็กจากนักพัฒนาผ่าน Google Developer Forum หรือ X (เดิมคือ Twitter) อย่างต่อเนื่อง

ตัวอย่างการใช้งานแบบง่าย (โค้ด Python)

ใน Python สามารถใช้งาน Gemini 2.5 Flash Image ได้ผ่าน genai SDK, PIL และไลบรารี io ด้วยพรอมป์ต์และภาพตามต้องการ
ตัวอย่าง: สามารถใช้พรอมป์ต์อิสระอย่าง “แมวของฉันกำลังกิน nano-banana อยู่ในร้านอาหาร” ได้
ผลลัพธ์ที่ได้สามารถบันทึกได้ทั้งเป็นข้อความธรรมดาและไฟล์ภาพภายในโค้ด

ทิศทางการพัฒนาในอนาคต

กำลังพัฒนาต่อเนื่องเพื่อยกระดับ การเรนเดอร์ข้อความยาว, ความสม่ำเสมอของคาแรกเตอร์ที่เชื่อถือได้มากขึ้น, และรายละเอียดที่สมจริง
กระตุ้นการมีส่วนร่วมและฟีดแบ็กจากชุมชนอย่างต่อเนื่อง
คาดว่า Gemini 2.5 Flash Image จะช่วยขยายประสบการณ์การสร้างสรรค์และการพัฒนาได้หลากหลายยิ่งขึ้น

2 ความคิดเห็น

xguru 2025-08-27

Google Nano Banana คืออะไร? AI สร้างภาพลับของ Google

GN⁺ 2025-08-27

ความคิดเห็นจาก Hacker News

นี่เหมือนเป็น ช่วงเวลา GPT-4 ของโมเดลแต่งภาพเลย ดูผลงานน่าทึ่งได้บน Twitter
- nano banana หรือก็คือ gemini 2.5 flash มีประสิทธิภาพสูงมากจนคะแนนใน lmarena กระโดดขึ้น 171 elo
- ถ้าค้นหา nano banana บน Twitter จะเจอผลงานที่น่าทึ่งมาก
- ช่วงนี้โดเมน "nano banana" ถูกจดหมดแล้ว แต่ละเจ้าก็ทำ UI สร้างภาพของตัวเองออกมา ให้ความรู้สึกเหมือนเป็น พ่อค้าคนกลาง ที่อาศัยชื่อโมเดลดัง
- สงสัยว่าทำไมถึงตั้งชื่อว่า nano banana
นี่แหละคือโมเดล nano-banana ที่พูดถึงกัน ตอนนี้ใน LMArena เปลี่ยนชื่อเป็น gemini-2.5-flash-image-preview แล้ว
- สำหรับคนที่ไม่รู้ว่า nano-banana คืออะไร นี่คือลิงก์ Google Nano Banana คืออะไร? AI สร้างภาพลับของ Google
- ฉันก็เข้ามาเพราะสงสัยเรื่องนั้นเหมือนกัน ขอบคุณที่ให้คำตอบ
พอลองให้ Gemini สร้างภาพ มันตอบกลับมาครึ่งหนึ่งว่า ทำไม่ได้
- แถมฟีเจอร์ที่ Google ประกาศก็ยังกระจัดกระจายอยู่หลายที่ จนเกิดความ สับสน ว่าต้องใช้ในผลิตภัณฑ์ไหน และต้องจ่ายเงินที่ไหนกันแน่
สุดท้ายแล้วโมเดลภาพก็เหมือน ตัวดูดเวลา
- สร้างห้องหนึ่งห้องนั้นง่าย แต่จะทำให้เป็นห้องเดียวกันอย่างสม่ำเสมอจากหลายมุมแทบเป็นไปไม่ได้
- เลยใช้งานยากกับงานที่ต้องการความสม่ำเสมอของภาพ
ฉันเพิ่งดิจิไทซ์รูปครอบครัว แต่หลายรูปเสียหายจนกู้คืนได้ยาก
- โมเดลนี้ดูเหมือนจะเก่งเรื่องฟื้นฟูโดยไม่เปลี่ยนรายละเอียด เลยรู้สึกว่าในที่สุดก็น่าจะถึงจุดที่ใช้งานได้จริงแล้ว
- จริง ๆ แล้วตำหนิแบบนี้ซ่อมอัตโนมัติได้ด้วย เครื่องสแกนฟิล์ม + ฟีเจอร์ ICE และซอฟต์แวร์อย่าง Vuescan
  - ดูไม่จำเป็นเท่าไรที่จะเอารูปเป็นร้อย ๆ ใบไปโยนให้คลาวด์ AI เชิงทดลองจัดการ
- ไม่ทราบว่าใครพอรู้จักซอฟต์แวร์ปรับคุณภาพวิดีโอบ้างไหม
  - กำลังดิจิไทซ์เทป Video 2000 กับ VHS อยู่ และอยากปรับภาพความทรงจำเหล่านี้ให้ดีขึ้นอีกนิด
- หวังว่ามันจะทำได้ดี แต่ตัวอย่างหนึ่งให้ความรู้สึกว่าหน้าคนถูก ทำให้เป็น AI มากเกินไป
- จริง ๆ แล้วโมเดล Flux Kontext ไปถึงระดับนี้ได้ตั้งแต่หลายเดือนก่อนแล้ว
ประสิทธิภาพของโมเดลน่าประทับใจ แต่ในขณะเดียวกันก็เป็นห่วง ผลกระทบ ทางสังคม
- แค่ดูคอมเมนต์บน Facebook ก็เริ่มกังวลแล้ว
- ฉันทดสอบ SynthID ของ Google แล้ว รู้สึกว่าทำได้ค่อนข้างดี
  - ต่อให้บีบอัด ครอป ปรับขนาด ปรับสี หรือ overpainting ลายน้ำก็ยังอยู่
- ช่วงหลังฉันเองก็โดน ดีปเฟกหลอกลวง ระหว่างอีเวนต์ปล่อยจรวดของ SpaceX จนเสียไป 15k BTC
  - เทคโนโลยีมันแนบเนียนมากขึ้นเรื่อย ๆ จนการโจมตีก็อันตรายขึ้นเรื่อย ๆ
- คอมเมนต์บน Facebook ดูเหมือนจะเป็นบอตปั่นแน่ ๆ
ตัวอย่างโคมไฟน่าประทับใจทีเดียว
- ทั้งการต่อไฟ แสง และเงา ดูเป็นธรรมชาติมาก
ฉันชอบที่มัน เร็วกว่า การสร้างภาพของ ChatGPT มาก
- ChatGPT ช้าเกินไปจนถึงขั้นต้องรอผลผ่านการแจ้งเตือน
- พอนึกภาพแนว “หน้าตาของนักลงทุน OpenAI หลังจากลองใช้ Gemini 2.5 Flash Image” แล้วก็ขำดี
มีงานอย่างหนึ่งที่อยากทำมานานแล้ว
- คือเอาวัตถุจากภาพที่ 2 ไปแทนวัตถุเฉพาะจุดในภาพที่ 1 และอยากระบุตำแหน่งให้แม่นด้วย
- ลองมาหลายโมเดลแล้วแต่ล้มเหลวหมด โมเดลนี้เกือบทำได้ถูก แต่สุดท้ายก็ไปแทนวัตถุอื่น
- เลยสงสัยว่ามีโมเดลไหนที่ถนัดการแทนที่ตำแหน่งเฉพาะด้วย ภาพอ้างอิง โดยตรงไหม
- โมเดล ACE++ ของ Alibaba รองรับความสามารถแบบนั้น
  - ใช้งานอยู่ใน phind.design แต่เป็นงานค่อนข้างเฉพาะทาง เลยไม่ค่อยพบเห็นทั่วไป

Gemini 2.5 Flash Image - เปิดตัวโมเดลสร้างและแก้ไขภาพรุ่นล่าสุด

แนะนำ Gemini 2.5 Flash Image

ฟีเจอร์หลักและสถานการณ์การใช้งาน

อัปเกรด “Build Mode” ของ Google AI Studio

การคงความสม่ำเสมอของคาแรกเตอร์

การแก้ไขภาพด้วยพรอมป์ต์ภาษาธรรมชาติ

การใช้งานแบบเนทีฟบนพื้นฐานความรู้เกี่ยวกับโลก

การผสานหลายภาพ

การเริ่มต้นใช้งานและพาร์ตเนอร์ชิป

ลายน้ำดิจิทัลและฟีดแบ็ก

ตัวอย่างการใช้งานแบบง่าย (โค้ด Python)

ทิศทางการพัฒนาในอนาคต

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News