- Google เปิดตัว Gemini 2.5 Flash Image ซึ่งเป็นที่รู้จักในชื่อ Nano-Banana โดยมีความสามารถด้านการสร้างและแก้ไขภาพที่ได้รับการยกระดับขึ้นอย่างมาก
- รองรับ การคงความสม่ำเสมอของคาแรกเตอร์, การแก้ไขภาพบางส่วนด้วยภาษาธรรมชาติ, การใช้ความรู้เกี่ยวกับโลก, และ การผสานหลายภาพเข้าด้วยกัน
- นักพัฒนาสามารถใช้งานโมเดลได้ทันทีผ่าน Gemini API, Google AI Studio, Vertex AI, OpenRouter, fal.ai และอื่น ๆ
- ราคาอยู่ที่ 30 ดอลลาร์ต่อ 1 ล้าน output tokens หรือประมาณ 0.039 ดอลลาร์ต่อภาพ 1 ใบ
- ผลลัพธ์ทั้งหมดจะถูกฝัง SynthID watermark แบบดิจิทัลที่มองไม่เห็น
แนะนำ Gemini 2.5 Flash Image
- Google เปิดตัว Gemini 2.5 Flash Image (โค้ดเนม nano-banana) ซึ่งเป็น โมเดลสร้างและแก้ไขภาพรุ่นถัดไป
- การอัปเดตครั้งนี้ทำให้สามารถ รวมหลายภาพเป็นภาพเดียว, รักษาความสม่ำเสมอของบุคคลหรือวัตถุเฉพาะ, ปรับแต่งอย่างละเอียดด้วยภาษาธรรมชาติ และสร้างหรือแก้ไขภาพโดยอิงจาก ความรู้เกี่ยวกับโลกของ Gemini
- แม้ Gemini 2.0 Flash รุ่นแรกจะมีข้อดีด้าน latency ต่ำ ความคุ้มค่าด้านต้นทุน และใช้งานง่ายอยู่แล้ว แต่รอบนี้ได้เพิ่ม ภาพคุณภาพสูงขึ้นและความสามารถในการควบคุมงานสร้างสรรค์ที่ดีขึ้น โดยสะท้อนจากฟีดแบ็กของผู้ใช้
- ขณะนี้ใช้งานได้ผ่าน Gemini API, Google AI Studio, Vertex AI และอื่น ๆ โดยคิดค่าบริการที่ $30 ต่อ 1 ล้าน output tokens (ประมาณ $0.039 ต่อภาพ 1 ใบ)
- รูปแบบ input/output อื่น ๆ ก็ใช้ราคาตามนโยบายเดียวกับ Gemini 2.5 Flash
- เว็บไซต์ทางการ https://deepmind.google/models/gemini/image/
ฟีเจอร์หลักและสถานการณ์การใช้งาน
-
อัปเกรด “Build Mode” ของ Google AI Studio
- Gemini 2.5 Flash Image ช่วยให้ การพัฒนาแอปง่ายขึ้น
- นักพัฒนาสามารถสร้าง ทดสอบ และรีมิกซ์ แอป AI แบบกำหนดเอง ได้อย่างรวดเร็ว พร้อมทั้ง deploy ตรงจาก Google AI Studio หรือบันทึกโค้ดลง GitHub ได้
- ตัวอย่างเช่น สามารถสร้างแอปได้ง่าย ๆ ด้วยพรอมป์ต์อย่าง “สร้างแอปแก้ไขภาพที่ให้ผู้ใช้อัปโหลดรูปและใส่ฟิลเตอร์ได้”
- ยังมีฟีเจอร์เลือก/รีมิกซ์เทมเพลตที่ให้มาโดยไม่มีค่าใช้จ่าย
-
การคงความสม่ำเสมอของคาแรกเตอร์
- การรักษา รูปลักษณ์ของคาแรกเตอร์เดียวกัน ระหว่างกระบวนการสร้างภาพเป็นโจทย์ที่ท้าทายมาโดยตลอด
- Gemini 2.5 Flash Image สามารถนำไปใช้ได้อย่างมีประสิทธิภาพกับ การวางบุคคลเดียวกันในหลายสภาพแวดล้อม, การแสดงสินค้าจากหลายมุมหรือหลายสถานที่, และการรักษาความสม่ำเสมอของทรัพย์สินแบรนด์
- ผ่าน แอปเทมเพลตของ Google AI Studio ทำให้สาธิตความสม่ำเสมอของคาแรกเตอร์และปรับแต่งโค้ดได้ง่าย
- ฟีเจอร์นี้ยังประยุกต์ใช้เพื่อรักษา ความสม่ำเสมอของดีไซน์แบบอิงเทมเพลต เช่น การ์ดอสังหาริมทรัพย์ บัตรพนักงาน หรือม็อกอัปสินค้าจำนวนมาก
-
การแก้ไขภาพด้วยพรอมป์ต์ภาษาธรรมชาติ
- ผู้ใช้สามารถ ปรับเปลี่ยนบางส่วนของภาพได้ด้วยคำสั่งภาษาธรรมชาติเพียงอย่างเดียว
- ตัวอย่างเช่น เบลอพื้นหลัง ลบรอยเปื้อนบนเสื้อยืด ลบบุคคล เปลี่ยนท่าทาง หรือแปลงภาพขาวดำเป็นภาพสี
- มี แอปเทมเพลตที่รองรับการแก้ไขผ่าน UI/พรอมป์ต์ เพื่อให้ทดลองใช้งานจริงได้
-
การใช้งานแบบเนทีฟบนพื้นฐานความรู้เกี่ยวกับโลก
- แม้โมเดลเดิมจะเด่นด้านการสร้างภาพเชิงสุนทรียะ แต่ยังอ่อนในเรื่อง ความเข้าใจเชิงความหมายเกี่ยวกับโลกจริง
- Gemini 2.5 Flash Image สามารถใช้ ความรู้เกี่ยวกับโลก เพื่อจดจำไดอะแกรมที่วาดด้วยมือ ตอบคำถามเกี่ยวกับโลกจริง และทำคำสั่งแก้ไขที่ซับซ้อนได้
- ตัวอย่างการใช้งานจริงคือมีแอปที่เปลี่ยนแคนวาสแบบง่าย ๆ ให้เป็น ติวเตอร์การศึกษาแบบโต้ตอบได้
-
การผสานหลายภาพ
- โมเดลนี้สามารถ ทำความเข้าใจหลายภาพและผสานเข้าด้วยกันอย่างเป็นธรรมชาติ
- ตัวอย่างเช่น รองรับ การวางสินค้าในฉากหลังใหม่, การเปลี่ยนโทนสีและพื้นผิวของทั้งห้อง, และการผสานภาพด้วยพรอมป์ต์เดียว
- ใช้ แอปเทมเพลต เพื่อจัดวางสินค้าด้วยการลากแล้ววาง และสร้างภาพผสานแบบ photorealistic ได้
การเริ่มต้นใช้งานและพาร์ตเนอร์ชิป
- เริ่มใช้งานได้ทันทีผ่าน เอกสารสำหรับนักพัฒนา โดยตอนนี้ยังอยู่ในสถานะพรีวิว แต่จะเข้าสู่สถานะเสถียรในเร็ว ๆ นี้
- แอปเดโมทั้งหมดสามารถรีมิกซ์โค้ดและปรับแต่งได้ใน Google AI Studio
- ร่วมมือกับ OpenRouter.ai เพื่อให้โมเดลเข้าถึงนักพัฒนา 3 ล้านคน และเป็นโมเดลแรกในบรรดาโมเดลที่ OpenRouter รองรับกว่า 480 รุ่นที่สามารถสร้างภาพได้
- ขยายการรองรับไปยังชุมชนนักพัฒนาที่กว้างขึ้นผ่านความร่วมมือกับ fal.ai
ลายน้ำดิจิทัลและฟีดแบ็ก
- ทุกภาพที่สร้างหรือแก้ไขด้วย Gemini 2.5 Flash Image จะถูกฝัง SynthID digital watermark ที่มองไม่เห็น เพื่อให้ตรวจจับได้ว่าเป็นผลงานที่สร้างด้วย AI
- กำลังปรับปรุงฟีเจอร์อย่างต่อเนื่องในด้านคุณภาพข้อความ ความสม่ำเสมอของคาแรกเตอร์ และรายละเอียดของภาพ
- รับฟีดแบ็กจากนักพัฒนาผ่าน Google Developer Forum หรือ X (เดิมคือ Twitter) อย่างต่อเนื่อง
ตัวอย่างการใช้งานแบบง่าย (โค้ด Python)
- ใน Python สามารถใช้งาน Gemini 2.5 Flash Image ได้ผ่าน genai SDK, PIL และไลบรารี io ด้วยพรอมป์ต์และภาพตามต้องการ
- ตัวอย่าง: สามารถใช้พรอมป์ต์อิสระอย่าง “แมวของฉันกำลังกิน nano-banana อยู่ในร้านอาหาร” ได้
- ผลลัพธ์ที่ได้สามารถบันทึกได้ทั้งเป็นข้อความธรรมดาและไฟล์ภาพภายในโค้ด
ทิศทางการพัฒนาในอนาคต
- กำลังพัฒนาต่อเนื่องเพื่อยกระดับ การเรนเดอร์ข้อความยาว, ความสม่ำเสมอของคาแรกเตอร์ที่เชื่อถือได้มากขึ้น, และรายละเอียดที่สมจริง
- กระตุ้นการมีส่วนร่วมและฟีดแบ็กจากชุมชนอย่างต่อเนื่อง
- คาดว่า Gemini 2.5 Flash Image จะช่วยขยายประสบการณ์การสร้างสรรค์และการพัฒนาได้หลากหลายยิ่งขึ้น
2 ความคิดเห็น
Google Nano Banana คืออะไร? AI สร้างภาพลับของ Google
ความคิดเห็นจาก Hacker News