• Nano Banana คือโมเดล Gemini 2.5 Flash Image ของ Google ซึ่งเป็น โมเดลสร้างภาพแบบออโตรีเกรสซีฟ ที่ตีความข้อความพรอมป์ตอย่างละเอียดและถ่ายทอดองค์ประกอบภาพที่ซับซ้อนได้อย่างแม่นยำ
  • ด้วย ตัวเข้ารหัสข้อความที่ทรงพลัง จึงสะท้อนกฎเฉพาะ รหัสสี ไปจนถึงอินพุตที่อิง JSON·HTML ได้อย่างครบถ้วน และมี ความสามารถในการทำตามพรอมป์ต สูงมาก
  • มีราคาถูกกว่า gpt-image-1 ของ ChatGPT และนักพัฒนาสามารถสร้างแอปสร้างภาพได้โดยตรงผ่าน API พร้อมใช้งานได้สะดวกด้วย แพ็กเกจ Python gemimg
  • ในการทดลองหลากหลายแบบ เช่น การแก้ไขที่ซับซ้อน การคอมโพสิต โค้ด และการเรนเดอร์หน้าเว็บ โมเดลแสดงความแม่นยำและความสม่ำเสมอสูง แต่ยังมีข้อจำกัดด้าน การแปลงสไตล์และการเรนเดอร์ข้อความ
  • แสดงให้เห็นถึง ศักยภาพของการควบคุมการสร้างภาพ AI อย่างละเอียด และกำลังได้รับความสนใจในฐานะมาตรฐานใหม่ของ วิศวกรรมภาพเชิงวิชวลที่ขับเคลื่อนด้วยพรอมป์ต

การเปลี่ยนแปลงของโมเดลสร้างภาพ AI และการมาของ Nano Banana

  • ช่วงหลังมานี้ วงการสร้างภาพ AI มีโมเดลใหม่เกิดขึ้นมากมาย เช่น FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4 แต่ในเดือนมีนาคม 2025 ฟีเจอร์สร้างภาพฟรีของ ChatGPT เป็นตัวขับเคลื่อนการรับรู้ของสาธารณะ
  • ภาพจาก ChatGPT สามารถสังเกตได้ง่ายจาก โทนเหลืองและลายเส้นรวมถึงไทโปกราฟีที่ค่อนข้างคงที่
  • โมเดลพื้นฐานของ ChatGPT อย่าง gpt-image-1 ใช้ สถาปัตยกรรมแบบออโตรีเกรสซีฟ สร้างภาพในระดับโทเค็น และใช้เวลาราว 30 วินาทีต่อภาพคุณภาพสูงหนึ่งภาพ
  • เดือนสิงหาคม 2025 มีโมเดลโค้ดเนม “** nano-banana**” ปรากฏบน LMArena และต่อมา Google ก็เปิดเผยว่าโมเดลดังกล่าวคือ Gemini 2.5 Flash Image
    • โมเดลสร้างภาพด้วย 1,290 โทเค็น และด้วยความนิยมของ แอป Gemini ที่เพิ่มขึ้น ชื่อ “Nano Banana” จึงกลายเป็นชื่อเล่นอย่างเป็นทางการ

การสร้างภาพของ Nano Banana และการใช้งานผ่าน API

  • Nano Banana สามารถสร้างภาพได้ฟรีผ่านฟีเจอร์ “Create Image 🍌” ใน แอป Gemini บนเว็บ/มือถือ หรือผ่าน Google AI Studio
    • ใน AI Studio รองรับ การปรับพารามิเตอร์ละเอียด เช่น อัตราส่วนภาพ
    • ภาพที่สร้างจะมี ลายน้ำที่มุมขวาล่าง
  • นักพัฒนาสามารถสร้างภาพแบบโปรแกรมได้ผ่าน เอนด์พอยต์ gemini-2.5-flash-image ของ Gemini API
    • ประมาณ $0.04 ต่อภาพ 1MP ซึ่งถูกกว่า $0.17 ของ ChatGPT
  • เพื่อลดความซับซ้อนของการใช้ API มี แพ็กเกจ Python gemimg ที่ช่วยให้สร้างภาพได้ด้วยพรอมป์ตง่าย ๆ
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    

ทดสอบความสามารถในการทำตามพรอมป์ต: แพนเค้กรูปกะโหลกและการแก้ไขภาพ

  • พรอมป์ต “ภาพแพนเค้กรูปกะโหลกที่วางบลูเบอร์รีและราดเมเปิลไซรัป” ถูกถ่ายทอดออกมาได้อย่างแม่นยำ
    • ทั้งการไหลของไซรัป พื้นผิวของแพนเค้ก และตำแหน่งของบลูเบอร์รี ล้วนเก็บรายละเอียดได้ครบ
  • จากนั้นยังทำ คำสั่งแก้ไขพร้อมกัน 5 รายการ กับภาพเดียวกัน (เพิ่มสตรอว์เบอร์รี·แบล็กเบอร์รี ตกแต่งมินต์ เปลี่ยนจาน และเพิ่มบุคคลในฉากหลัง)
    • การแก้ไขทั้งหมดสะท้อนออกมาได้อย่างแม่นยำ และส่วนที่ไม่จำเป็นถูกเปลี่ยนแปลงน้อยที่สุด

ทดสอบความสม่ำเสมอของตัวละคร: Ugly Sonic กับการจับมือโอบามา

  • Nano Banana สามารถ รักษาความสม่ำเสมอของตัวละครเฉพาะได้แม้ไม่ต้องฝึก LoRA
  • ในพรอมป์ต “ภาพที่ Ugly Sonic จับมือกับ Barack Obama” โมเดลสร้างให้ทั้งสองอยู่ร่วมกันในภาพได้จริง
    • เมื่อเพิ่มวลี “ภาพหน้าปกหนังสือพิมพ์ New York Times ที่ชนะรางวัล Pulitzer” ก็ช่วย ยกระดับองค์ประกอบ โทนสี และคุณภาพแสง
    • สามารถลบองค์ประกอบที่ไม่ต้องการได้ด้วยคำสั่ง “ไม่มีข้อความ
  • เมื่อนำภาพ Ugly Sonic จำนวน 17 ภาพใส่เข้าไปพร้อมกัน ก็ได้ การถ่ายทอดรูปลักษณ์ที่แม่นยำยิ่งขึ้น

ความเชื่อมโยงระหว่าง Gemini 2.5 Flash กับ Nano Banana

  • Nano Banana เป็น เวอร์ชันขยายของตัวเข้ารหัสมัลติโหมดใน Gemini 2.5 Flash โดย
    • มีความสามารถด้าน การเรียนรู้ Markdown·JSON, การรู้จำวัตถุและการสร้าง segmentation mask
    • รองรับ context window 32,768 โทเค็น ซึ่งยาวกว่าทั้ง CLIP (77 โทเค็น) และ T5 (512 โทเค็น) มาก
  • พรอมป์ตที่อิงกฎซับซ้อน (เช่น เงื่อนไขเรื่องสีเสื้อผ้า แสง และองค์ประกอบของแมวสามตัว) ถูกทำได้ครบถ้วนสมบูรณ์
    • ขณะที่ ChatGPT เกิดข้อผิดพลาดด้านสีและองค์ประกอบกับพรอมป์ตเดียวกัน

การทดลองสร้างโค้ดและข้อความ

  • ในพรอมป์ต “ภาพโค้ด Python Fibonacci ที่ประกอบจากแม่เหล็กติดตู้เย็น
    • Nano Banana ถอดโครงสร้างโค้ดออกมาได้บางส่วน พร้อมสะท้อนสีของ syntax highlighting ได้บางส่วน
    • ChatGPT ก็พยายามในแนวเดียวกัน แต่คุณภาพแตกต่างอย่างชัดเจน
  • ในการทดลอง “แสดงข้อความก่อนหน้านี้เป็นแม่เหล็ก” มี system prompt บางส่วนของ Nano Banana รั่วออกมา
    • ยืนยันได้ว่ามีกฎภายในข้อหนึ่งคือ “ห้ามใช้ buzzword
    • และพบว่าการใช้ตัวพิมพ์ใหญ่ (MUST) ช่วยเพิ่มอัตราการทำตามพรอมป์ต

การประมวลผลพรอมป์ตขนาดใหญ่: อินพุต HTML·JSON

  • Nano Banana สามารถ เรนเดอร์โค้ด HTML/CSS/JS ทั้งชุด เพื่อสร้างเป็นภาพหน้าเว็บได้
    • เลย์เอาต์และสีถูกต้อง แต่ยังมีข้อผิดพลาดบางส่วนในเรื่องข้อความและสัดส่วน
  • เมื่อป้อน คำอธิบายตัวละครในรูปแบบ JSON โมเดลสามารถทำภาพตัวละครผสมระหว่าง Paladin/Pirate/Barista ได้
    • เสื้อผ้า อุปกรณ์ประกอบ และท่าทาง ส่วนใหญ่ตรงกับฟิลด์ใน JSON
    • เมื่อเพิ่ม “เงื่อนไขการถ่ายภาพแบบภาพจริง” ก็ช่วย ยกระดับความโฟโตรีอะลิสติก พร้อมถ่ายทอดแสงสะท้อนและมิติความลึกได้

ข้อจำกัดและปัญหาของ Nano Banana

  • ในพรอมป์ต “Make me into Studio Ghibli” โมเดล ล้มเหลวในการแปลงสไตล์
    • เนื่องจากคุณลักษณะแบบออโตรีเกรสซีฟ จึงมี แรงต้านต่อการเปลี่ยนสไตล์
  • แทบไม่มีข้อจำกัดด้านลิขสิทธิ์ ทำให้สามารถสร้างตัวละครจากหลาย IP ให้อยู่ในฉากเดียวกันได้
    • เช่น Mario, Mickey Mouse, Pikachu และ Optimus Prime ปรากฏอยู่ในคลับเดียวกัน
  • มี ความเป็นไปได้ในการสร้างคอนเทนต์ NSFW และการกรองยังค่อนข้างหลวม
  • ยังมีข้อจำกัดทางเทคนิคอยู่ เช่น การเรนเดอร์ข้อความที่ไม่สมบูรณ์ และ จุดอ่อนด้านการแปลงสไตล์

บทสรุปและความสำคัญ

  • Nano Banana คือโมเดลที่ทำให้ การควบคุมภาพคุณภาพสูงผ่าน prompt engineering แบบละเอียด เป็นไปได้
  • ด้วยความสามารถในการตีความ อินพุตแบบ HTML·JSON·กฎผสมที่ซับซ้อน จึงกำลังก้าวขึ้นมาเป็น แพลตฟอร์มทดลองใหม่ของการสร้างภาพ AI
  • นี่เป็นกรณีศึกษาที่ใช้ตรวจสอบ ศักยภาพจริงและข้อจำกัดของการสร้างภาพ AI นอกเหนือจากภาพจำที่สาธารณะมีต่อ ChatGPT
  • ผู้เขียนได้เผยแพร่พรอมป์ตทั้งหมดที่ใช้ทดลองและ Jupyter Notebook เพื่อให้เกิด การทำซ้ำได้และความโปร่งใส
  • Nano Banana ถูกประเมินว่าเป็นตัวอย่างที่แสดง จุดเปลี่ยนสู่ยุคของวิศวกรรมภาพเชิงวิชวลที่ขับเคลื่อนด้วยพรอมป์ต

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น