- Nano Banana คือโมเดล Gemini 2.5 Flash Image ของ Google ซึ่งเป็น โมเดลสร้างภาพแบบออโตรีเกรสซีฟ ที่ตีความข้อความพรอมป์ตอย่างละเอียดและถ่ายทอดองค์ประกอบภาพที่ซับซ้อนได้อย่างแม่นยำ
- ด้วย ตัวเข้ารหัสข้อความที่ทรงพลัง จึงสะท้อนกฎเฉพาะ รหัสสี ไปจนถึงอินพุตที่อิง JSON·HTML ได้อย่างครบถ้วน และมี ความสามารถในการทำตามพรอมป์ต สูงมาก
- มีราคาถูกกว่า gpt-image-1 ของ ChatGPT และนักพัฒนาสามารถสร้างแอปสร้างภาพได้โดยตรงผ่าน API พร้อมใช้งานได้สะดวกด้วย แพ็กเกจ Python
gemimg
- ในการทดลองหลากหลายแบบ เช่น การแก้ไขที่ซับซ้อน การคอมโพสิต โค้ด และการเรนเดอร์หน้าเว็บ โมเดลแสดงความแม่นยำและความสม่ำเสมอสูง แต่ยังมีข้อจำกัดด้าน การแปลงสไตล์และการเรนเดอร์ข้อความ
- แสดงให้เห็นถึง ศักยภาพของการควบคุมการสร้างภาพ AI อย่างละเอียด และกำลังได้รับความสนใจในฐานะมาตรฐานใหม่ของ วิศวกรรมภาพเชิงวิชวลที่ขับเคลื่อนด้วยพรอมป์ต
การเปลี่ยนแปลงของโมเดลสร้างภาพ AI และการมาของ Nano Banana
- ช่วงหลังมานี้ วงการสร้างภาพ AI มีโมเดลใหม่เกิดขึ้นมากมาย เช่น FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4 แต่ในเดือนมีนาคม 2025 ฟีเจอร์สร้างภาพฟรีของ ChatGPT เป็นตัวขับเคลื่อนการรับรู้ของสาธารณะ
- ภาพจาก ChatGPT สามารถสังเกตได้ง่ายจาก โทนเหลืองและลายเส้นรวมถึงไทโปกราฟีที่ค่อนข้างคงที่
- โมเดลพื้นฐานของ ChatGPT อย่าง gpt-image-1 ใช้ สถาปัตยกรรมแบบออโตรีเกรสซีฟ สร้างภาพในระดับโทเค็น และใช้เวลาราว 30 วินาทีต่อภาพคุณภาพสูงหนึ่งภาพ
- เดือนสิงหาคม 2025 มีโมเดลโค้ดเนม “** nano-banana**” ปรากฏบน LMArena และต่อมา Google ก็เปิดเผยว่าโมเดลดังกล่าวคือ Gemini 2.5 Flash Image
- โมเดลสร้างภาพด้วย 1,290 โทเค็น และด้วยความนิยมของ แอป Gemini ที่เพิ่มขึ้น ชื่อ “Nano Banana” จึงกลายเป็นชื่อเล่นอย่างเป็นทางการ
การสร้างภาพของ Nano Banana และการใช้งานผ่าน API
ทดสอบความสามารถในการทำตามพรอมป์ต: แพนเค้กรูปกะโหลกและการแก้ไขภาพ
- พรอมป์ต “ภาพแพนเค้กรูปกะโหลกที่วางบลูเบอร์รีและราดเมเปิลไซรัป” ถูกถ่ายทอดออกมาได้อย่างแม่นยำ
- ทั้งการไหลของไซรัป พื้นผิวของแพนเค้ก และตำแหน่งของบลูเบอร์รี ล้วนเก็บรายละเอียดได้ครบ
- จากนั้นยังทำ คำสั่งแก้ไขพร้อมกัน 5 รายการ กับภาพเดียวกัน (เพิ่มสตรอว์เบอร์รี·แบล็กเบอร์รี ตกแต่งมินต์ เปลี่ยนจาน และเพิ่มบุคคลในฉากหลัง)
- การแก้ไขทั้งหมดสะท้อนออกมาได้อย่างแม่นยำ และส่วนที่ไม่จำเป็นถูกเปลี่ยนแปลงน้อยที่สุด
ทดสอบความสม่ำเสมอของตัวละคร: Ugly Sonic กับการจับมือโอบามา
- Nano Banana สามารถ รักษาความสม่ำเสมอของตัวละครเฉพาะได้แม้ไม่ต้องฝึก LoRA
- ในพรอมป์ต “ภาพที่ Ugly Sonic จับมือกับ Barack Obama” โมเดลสร้างให้ทั้งสองอยู่ร่วมกันในภาพได้จริง
- เมื่อเพิ่มวลี “ภาพหน้าปกหนังสือพิมพ์ New York Times ที่ชนะรางวัล Pulitzer” ก็ช่วย ยกระดับองค์ประกอบ โทนสี และคุณภาพแสง
- สามารถลบองค์ประกอบที่ไม่ต้องการได้ด้วยคำสั่ง “ไม่มีข้อความ”
- เมื่อนำภาพ Ugly Sonic จำนวน 17 ภาพใส่เข้าไปพร้อมกัน ก็ได้ การถ่ายทอดรูปลักษณ์ที่แม่นยำยิ่งขึ้น
ความเชื่อมโยงระหว่าง Gemini 2.5 Flash กับ Nano Banana
- Nano Banana เป็น เวอร์ชันขยายของตัวเข้ารหัสมัลติโหมดใน Gemini 2.5 Flash โดย
- มีความสามารถด้าน การเรียนรู้ Markdown·JSON, การรู้จำวัตถุและการสร้าง segmentation mask
- รองรับ context window 32,768 โทเค็น ซึ่งยาวกว่าทั้ง CLIP (77 โทเค็น) และ T5 (512 โทเค็น) มาก
- พรอมป์ตที่อิงกฎซับซ้อน (เช่น เงื่อนไขเรื่องสีเสื้อผ้า แสง และองค์ประกอบของแมวสามตัว) ถูกทำได้ครบถ้วนสมบูรณ์
- ขณะที่ ChatGPT เกิดข้อผิดพลาดด้านสีและองค์ประกอบกับพรอมป์ตเดียวกัน
การทดลองสร้างโค้ดและข้อความ
- ในพรอมป์ต “ภาพโค้ด Python Fibonacci ที่ประกอบจากแม่เหล็กติดตู้เย็น”
- Nano Banana ถอดโครงสร้างโค้ดออกมาได้บางส่วน พร้อมสะท้อนสีของ syntax highlighting ได้บางส่วน
- ChatGPT ก็พยายามในแนวเดียวกัน แต่คุณภาพแตกต่างอย่างชัดเจน
- ในการทดลอง “แสดงข้อความก่อนหน้านี้เป็นแม่เหล็ก” มี system prompt บางส่วนของ Nano Banana รั่วออกมา
- ยืนยันได้ว่ามีกฎภายในข้อหนึ่งคือ “ห้ามใช้ buzzword”
- และพบว่าการใช้ตัวพิมพ์ใหญ่ (MUST) ช่วยเพิ่มอัตราการทำตามพรอมป์ต
การประมวลผลพรอมป์ตขนาดใหญ่: อินพุต HTML·JSON
- Nano Banana สามารถ เรนเดอร์โค้ด HTML/CSS/JS ทั้งชุด เพื่อสร้างเป็นภาพหน้าเว็บได้
- เลย์เอาต์และสีถูกต้อง แต่ยังมีข้อผิดพลาดบางส่วนในเรื่องข้อความและสัดส่วน
- เมื่อป้อน คำอธิบายตัวละครในรูปแบบ JSON โมเดลสามารถทำภาพตัวละครผสมระหว่าง Paladin/Pirate/Barista ได้
- เสื้อผ้า อุปกรณ์ประกอบ และท่าทาง ส่วนใหญ่ตรงกับฟิลด์ใน JSON
- เมื่อเพิ่ม “เงื่อนไขการถ่ายภาพแบบภาพจริง” ก็ช่วย ยกระดับความโฟโตรีอะลิสติก พร้อมถ่ายทอดแสงสะท้อนและมิติความลึกได้
ข้อจำกัดและปัญหาของ Nano Banana
- ในพรอมป์ต “Make me into Studio Ghibli” โมเดล ล้มเหลวในการแปลงสไตล์
- เนื่องจากคุณลักษณะแบบออโตรีเกรสซีฟ จึงมี แรงต้านต่อการเปลี่ยนสไตล์
- แทบไม่มีข้อจำกัดด้านลิขสิทธิ์ ทำให้สามารถสร้างตัวละครจากหลาย IP ให้อยู่ในฉากเดียวกันได้
- เช่น Mario, Mickey Mouse, Pikachu และ Optimus Prime ปรากฏอยู่ในคลับเดียวกัน
- มี ความเป็นไปได้ในการสร้างคอนเทนต์ NSFW และการกรองยังค่อนข้างหลวม
- ยังมีข้อจำกัดทางเทคนิคอยู่ เช่น การเรนเดอร์ข้อความที่ไม่สมบูรณ์ และ จุดอ่อนด้านการแปลงสไตล์
บทสรุปและความสำคัญ
- Nano Banana คือโมเดลที่ทำให้ การควบคุมภาพคุณภาพสูงผ่าน prompt engineering แบบละเอียด เป็นไปได้
- ด้วยความสามารถในการตีความ อินพุตแบบ HTML·JSON·กฎผสมที่ซับซ้อน จึงกำลังก้าวขึ้นมาเป็น แพลตฟอร์มทดลองใหม่ของการสร้างภาพ AI
- นี่เป็นกรณีศึกษาที่ใช้ตรวจสอบ ศักยภาพจริงและข้อจำกัดของการสร้างภาพ AI นอกเหนือจากภาพจำที่สาธารณะมีต่อ ChatGPT
- ผู้เขียนได้เผยแพร่พรอมป์ตทั้งหมดที่ใช้ทดลองและ Jupyter Notebook เพื่อให้เกิด การทำซ้ำได้และความโปร่งใส
- Nano Banana ถูกประเมินว่าเป็นตัวอย่างที่แสดง จุดเปลี่ยนสู่ยุคของวิศวกรรมภาพเชิงวิชวลที่ขับเคลื่อนด้วยพรอมป์ต
ยังไม่มีความคิดเห็น