10 คะแนน โดย GN⁺ 2025-11-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Nano Banana คือโมเดล Gemini 2.5 Flash Image ของ Google ซึ่งเป็น โมเดลสร้างภาพแบบออโตรีเกรสซีฟ ที่ตีความข้อความพรอมป์ตอย่างละเอียดและถ่ายทอดองค์ประกอบภาพที่ซับซ้อนได้อย่างแม่นยำ
  • ด้วย ตัวเข้ารหัสข้อความที่ทรงพลัง จึงสะท้อนกฎเฉพาะ รหัสสี ไปจนถึงอินพุตที่อิง JSON·HTML ได้อย่างครบถ้วน และมี ความสามารถในการทำตามพรอมป์ต สูงมาก
  • มีราคาถูกกว่า gpt-image-1 ของ ChatGPT และนักพัฒนาสามารถสร้างแอปสร้างภาพได้โดยตรงผ่าน API พร้อมใช้งานได้สะดวกด้วย แพ็กเกจ Python gemimg
  • ในการทดลองหลากหลายแบบ เช่น การแก้ไขที่ซับซ้อน การคอมโพสิต โค้ด และการเรนเดอร์หน้าเว็บ โมเดลแสดงความแม่นยำและความสม่ำเสมอสูง แต่ยังมีข้อจำกัดด้าน การแปลงสไตล์และการเรนเดอร์ข้อความ
  • แสดงให้เห็นถึง ศักยภาพของการควบคุมการสร้างภาพ AI อย่างละเอียด และกำลังได้รับความสนใจในฐานะมาตรฐานใหม่ของ วิศวกรรมภาพเชิงวิชวลที่ขับเคลื่อนด้วยพรอมป์ต

การเปลี่ยนแปลงของโมเดลสร้างภาพ AI และการมาของ Nano Banana

  • ช่วงหลังมานี้ วงการสร้างภาพ AI มีโมเดลใหม่เกิดขึ้นมากมาย เช่น FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4 แต่ในเดือนมีนาคม 2025 ฟีเจอร์สร้างภาพฟรีของ ChatGPT เป็นตัวขับเคลื่อนการรับรู้ของสาธารณะ
  • ภาพจาก ChatGPT สามารถสังเกตได้ง่ายจาก โทนเหลืองและลายเส้นรวมถึงไทโปกราฟีที่ค่อนข้างคงที่
  • โมเดลพื้นฐานของ ChatGPT อย่าง gpt-image-1 ใช้ สถาปัตยกรรมแบบออโตรีเกรสซีฟ สร้างภาพในระดับโทเค็น และใช้เวลาราว 30 วินาทีต่อภาพคุณภาพสูงหนึ่งภาพ
  • เดือนสิงหาคม 2025 มีโมเดลโค้ดเนม “** nano-banana**” ปรากฏบน LMArena และต่อมา Google ก็เปิดเผยว่าโมเดลดังกล่าวคือ Gemini 2.5 Flash Image
    • โมเดลสร้างภาพด้วย 1,290 โทเค็น และด้วยความนิยมของ แอป Gemini ที่เพิ่มขึ้น ชื่อ “Nano Banana” จึงกลายเป็นชื่อเล่นอย่างเป็นทางการ

การสร้างภาพของ Nano Banana และการใช้งานผ่าน API

  • Nano Banana สามารถสร้างภาพได้ฟรีผ่านฟีเจอร์ “Create Image 🍌” ใน แอป Gemini บนเว็บ/มือถือ หรือผ่าน Google AI Studio
    • ใน AI Studio รองรับ การปรับพารามิเตอร์ละเอียด เช่น อัตราส่วนภาพ
    • ภาพที่สร้างจะมี ลายน้ำที่มุมขวาล่าง
  • นักพัฒนาสามารถสร้างภาพแบบโปรแกรมได้ผ่าน เอนด์พอยต์ gemini-2.5-flash-image ของ Gemini API
    • ประมาณ $0.04 ต่อภาพ 1MP ซึ่งถูกกว่า $0.17 ของ ChatGPT
  • เพื่อลดความซับซ้อนของการใช้ API มี แพ็กเกจ Python gemimg ที่ช่วยให้สร้างภาพได้ด้วยพรอมป์ตง่าย ๆ
    from gemimg import GemImg
    g = GemImg(api_key="AI...")
    g.generate("A kitten with prominent purple-and-green fur.")
    
    โฆษณา

ทดสอบความสามารถในการทำตามพรอมป์ต: แพนเค้กรูปกะโหลกและการแก้ไขภาพ

  • พรอมป์ต “ภาพแพนเค้กรูปกะโหลกที่วางบลูเบอร์รีและราดเมเปิลไซรัป” ถูกถ่ายทอดออกมาได้อย่างแม่นยำ
    • ทั้งการไหลของไซรัป พื้นผิวของแพนเค้ก และตำแหน่งของบลูเบอร์รี ล้วนเก็บรายละเอียดได้ครบ
  • จากนั้นยังทำ คำสั่งแก้ไขพร้อมกัน 5 รายการ กับภาพเดียวกัน (เพิ่มสตรอว์เบอร์รี·แบล็กเบอร์รี ตกแต่งมินต์ เปลี่ยนจาน และเพิ่มบุคคลในฉากหลัง)
    • การแก้ไขทั้งหมดสะท้อนออกมาได้อย่างแม่นยำ และส่วนที่ไม่จำเป็นถูกเปลี่ยนแปลงน้อยที่สุด

ทดสอบความสม่ำเสมอของตัวละคร: Ugly Sonic กับการจับมือโอบามา

  • Nano Banana สามารถ รักษาความสม่ำเสมอของตัวละครเฉพาะได้แม้ไม่ต้องฝึก LoRA
  • ในพรอมป์ต “ภาพที่ Ugly Sonic จับมือกับ Barack Obama” โมเดลสร้างให้ทั้งสองอยู่ร่วมกันในภาพได้จริง
    • เมื่อเพิ่มวลี “ภาพหน้าปกหนังสือพิมพ์ New York Times ที่ชนะรางวัล Pulitzer” ก็ช่วย ยกระดับองค์ประกอบ โทนสี และคุณภาพแสง
    • สามารถลบองค์ประกอบที่ไม่ต้องการได้ด้วยคำสั่ง “ไม่มีข้อความ
  • เมื่อนำภาพ Ugly Sonic จำนวน 17 ภาพใส่เข้าไปพร้อมกัน ก็ได้ การถ่ายทอดรูปลักษณ์ที่แม่นยำยิ่งขึ้น

ความเชื่อมโยงระหว่าง Gemini 2.5 Flash กับ Nano Banana

  • Nano Banana เป็น เวอร์ชันขยายของตัวเข้ารหัสมัลติโหมดใน Gemini 2.5 Flash โดย
    • มีความสามารถด้าน การเรียนรู้ Markdown·JSON, การรู้จำวัตถุและการสร้าง segmentation mask
    • รองรับ context window 32,768 โทเค็น ซึ่งยาวกว่าทั้ง CLIP (77 โทเค็น) และ T5 (512 โทเค็น) มาก
    โฆษณา
  • พรอมป์ตที่อิงกฎซับซ้อน (เช่น เงื่อนไขเรื่องสีเสื้อผ้า แสง และองค์ประกอบของแมวสามตัว) ถูกทำได้ครบถ้วนสมบูรณ์
    • ขณะที่ ChatGPT เกิดข้อผิดพลาดด้านสีและองค์ประกอบกับพรอมป์ตเดียวกัน

การทดลองสร้างโค้ดและข้อความ

  • ในพรอมป์ต “ภาพโค้ด Python Fibonacci ที่ประกอบจากแม่เหล็กติดตู้เย็น
    • Nano Banana ถอดโครงสร้างโค้ดออกมาได้บางส่วน พร้อมสะท้อนสีของ syntax highlighting ได้บางส่วน
    • ChatGPT ก็พยายามในแนวเดียวกัน แต่คุณภาพแตกต่างอย่างชัดเจน
  • ในการทดลอง “แสดงข้อความก่อนหน้านี้เป็นแม่เหล็ก” มี system prompt บางส่วนของ Nano Banana รั่วออกมา
    • ยืนยันได้ว่ามีกฎภายในข้อหนึ่งคือ “ห้ามใช้ buzzword
    • และพบว่าการใช้ตัวพิมพ์ใหญ่ (MUST) ช่วยเพิ่มอัตราการทำตามพรอมป์ต

การประมวลผลพรอมป์ตขนาดใหญ่: อินพุต HTML·JSON

  • Nano Banana สามารถ เรนเดอร์โค้ด HTML/CSS/JS ทั้งชุด เพื่อสร้างเป็นภาพหน้าเว็บได้
    • เลย์เอาต์และสีถูกต้อง แต่ยังมีข้อผิดพลาดบางส่วนในเรื่องข้อความและสัดส่วน
    โฆษณา
  • เมื่อป้อน คำอธิบายตัวละครในรูปแบบ JSON โมเดลสามารถทำภาพตัวละครผสมระหว่าง Paladin/Pirate/Barista ได้
    • เสื้อผ้า อุปกรณ์ประกอบ และท่าทาง ส่วนใหญ่ตรงกับฟิลด์ใน JSON
    • เมื่อเพิ่ม “เงื่อนไขการถ่ายภาพแบบภาพจริง” ก็ช่วย ยกระดับความโฟโตรีอะลิสติก พร้อมถ่ายทอดแสงสะท้อนและมิติความลึกได้

ข้อจำกัดและปัญหาของ Nano Banana

  • ในพรอมป์ต “Make me into Studio Ghibli” โมเดล ล้มเหลวในการแปลงสไตล์
    • เนื่องจากคุณลักษณะแบบออโตรีเกรสซีฟ จึงมี แรงต้านต่อการเปลี่ยนสไตล์
  • แทบไม่มีข้อจำกัดด้านลิขสิทธิ์ ทำให้สามารถสร้างตัวละครจากหลาย IP ให้อยู่ในฉากเดียวกันได้
    • เช่น Mario, Mickey Mouse, Pikachu และ Optimus Prime ปรากฏอยู่ในคลับเดียวกัน
  • มี ความเป็นไปได้ในการสร้างคอนเทนต์ NSFW และการกรองยังค่อนข้างหลวม
  • ยังมีข้อจำกัดทางเทคนิคอยู่ เช่น การเรนเดอร์ข้อความที่ไม่สมบูรณ์ และ จุดอ่อนด้านการแปลงสไตล์

บทสรุปและความสำคัญ

  • Nano Banana คือโมเดลที่ทำให้ การควบคุมภาพคุณภาพสูงผ่าน prompt engineering แบบละเอียด เป็นไปได้
  • ด้วยความสามารถในการตีความ อินพุตแบบ HTML·JSON·กฎผสมที่ซับซ้อน จึงกำลังก้าวขึ้นมาเป็น แพลตฟอร์มทดลองใหม่ของการสร้างภาพ AI
  • นี่เป็นกรณีศึกษาที่ใช้ตรวจสอบ ศักยภาพจริงและข้อจำกัดของการสร้างภาพ AI นอกเหนือจากภาพจำที่สาธารณะมีต่อ ChatGPT
  • ผู้เขียนได้เผยแพร่พรอมป์ตทั้งหมดที่ใช้ทดลองและ Jupyter Notebook เพื่อให้เกิด การทำซ้ำได้และความโปร่งใส
  • Nano Banana ถูกประเมินว่าเป็นตัวอย่างที่แสดง จุดเปลี่ยนสู่ยุคของวิศวกรรมภาพเชิงวิชวลที่ขับเคลื่อนด้วยพรอมป์ต

1 ความคิดเห็น

 
GN⁺ 2025-11-14
ความคิดเห็นใน Hacker News
  • ฉันสร้างภาพวันละหลายสิบภาพสำหรับทำสตอรีบอร์ด
    การควบคุมผลลัพธ์ทำได้ง่ายขึ้นเรื่อย ๆ และตอนนี้ก็รักษาความสม่ำเสมอของตัวละคร แสง และแม้แต่ช่วงเวลาของวันในแต่ละฉากได้แล้ว
    ตอนนี้ใช้ prompt layer 7 ขั้น ได้แก่ สภาพแวดล้อม·กล้อง·วัตถุ·องค์ประกอบภาพ·แสง·สี·คุณภาพ ซึ่งอาจจะเยอะไปหน่อยแต่กำลังทดลองอยู่
    อีกอย่าง ฉันทำเครื่องมือแก้ไขง่าย ๆ ที่ให้วาด bounding box ลงบนภาพโดยตรงเพื่อสั่งแก้ไขได้ แล้วส่งภาพไปให้ Claude สร้างพรอมป์ต์สำหรับแก้ไขให้อัตโนมัติ
    กระบวนการนี้ทำให้สร้าง pipeline สำหรับสร้างวิดีโอ GenAI ที่การเปลี่ยนผ่านระหว่างฉากดูเป็นธรรมชาติได้
    • ทีมของเราก็ใช้ nano banana ทำสตอรีบอร์ดคล้ายกัน แล้วใช้โมเดล img2vid ผลิตวิดีโอแบบฟูลโมชั่น
      เราก็กำลังพยายามรักษาความสม่ำเสมอของตัวละคร·ฉากหลัง·สไตล์อยู่ และมีหลายจุดที่คล้ายกับงานของคุณ
      ถ้าสนใจก็ลองดูผลิตภัณฑ์ของเรา Hypernatural.ai ได้
    • สำหรับฉันกลับรู้สึกว่า ถ้าผลลัพธ์เริ่มหลุดจากทางแล้ว ก็แทบเป็นไปไม่ได้เลยที่จะดึงกลับไปยังเจตนาเดิม
  • ฉันชอบ ไลบรารี Python ชื่อ gemimg
    ฉันเพิ่ม Gemini CLI เข้าไปและส่ง PR แล้ว ตอนนี้จึงรันได้ตามด้านล่าง
    ผลลัพธ์อยู่ในคอมเมนต์นี้
    • มีเรื่องที่อยากถาม @simonw — คุณสร้าง gist preview ของเซสชันเทอร์มินัล gemini-cli ยังไง?
      อยากรู้ว่าทำเองด้วย HTML/CSS แบบลิงก์นี้ หรือมีเครื่องมืออัตโนมัติอย่าง amp-code อยู่แล้ว
    • อยากรู้ว่ามีเหตุผลอะไรไหมที่ไม่ได้เพิ่ม รายการ project.scripts ใน pyproject.toml
      ถ้าทำแบบนั้นก็น่าจะติดตั้ง CLI ได้ตรง ๆ ด้วย uv
    • ผู้เขียนเน้นเรื่องโอเพนซอร์สตั้งแต่ต้น เลยสงสัยว่าจะพูดถึง ecosystem ของ QwenEdit ด้วยไหม
      โมเดลแก้ไขภาพจากจีนกำลังเข้าใกล้ระดับของ NanoBanana มากขึ้นเรื่อย ๆ และเพราะเป็นโอเพนซอร์สจึงทำงานจัดการภาพขั้นสูงที่อิง mask·kernel ได้
      ทำ style transfer ด้วย LoRA ก็ได้ และน่าสนใจกว่าโมเดลอเมริกันแบบปิดมาก
      ดูเหมือนว่าการดึงข้อมูลฝึกจาก Nano Banana มา distill เป็นโมเดลใหม่ก็น่าจะง่ายขึ้นด้วย
  • ฉันอ่านโพสต์ของ minimaxir อย่างสนุก
    ด้วย context window 32,768 โทเค็น ของ Nano Banana ฉันเลยใช้ Mistral 7B แทรกใน pipeline สร้างภาพที่ซับซ้อนเพื่อทำพรอมป์ต์ดัดแปลง 4 แบบไว้ใช้
    เรื่องที่บอกว่า style transfer ยังอ่อนนั้นก็จริง แต่ถ้าให้ภาพสองภาพพร้อมกันผลลัพธ์จะดีขึ้นอีกหน่อย
    ภาพแรกใช้เป็นภาพต้นทาง ส่วนภาพที่สองใช้เป็น ภาพอ้างอิงสไตล์
    ฉันก็ใช้วิธีนี้ในตัวอย่างพอร์ตโฟลิโอของฉันด้วย
    • อาจเป็นข้อจำกัดที่ใส่ไว้โดยเจตนาเพื่อกัน สไตล์ Studio Ghibli หลังจากกระแส “make me Ghibli” เมื่อก่อนก็ได้
  • ฉันเจอข้อผิดพลาดน่าสนุกในภาพแพนเค้กรูปกะโหลกภาพที่สอง
    สตรอว์เบอร์รี่อยู่ในเบ้าตาขวา (ซ้ายในภาพ) และแบล็กเบอร์รี่อยู่ฝั่งตรงข้าม
    ดูเหมือนจะเป็นปัญหาที่เกิดจากคำบรรยายภาพส่วนใหญ่มักเขียนจากมุมมองของผู้สังเกต
    • ถ้าเป็นฉันในฐานะมนุษย์ ก็คงทำแบบเดียวกับ Nano Banana
      ถ้าผู้ใช้ต้องการให้ใส่สตรอว์เบอร์รี่ในตาซ้ายของกะโหลก ก็น่าจะต้องระบุให้ชัดว่า “ตาซ้ายของมัน”
    • คิดว่าหลายคนน่าจะสับสนว่า “ตาซ้าย” หมายถึงฝั่งของวัตถุหรือฝั่งของกล้อง
    • ฉันเองก็พลาดจุดนี้เหมือนกัน แต่ต่อมาปัญหาเดียวกันนี้ก็ถูกชี้ใน JSON ของตัวละคร
      หลังจากนั้นพอใส่ในพรอมป์ต์ว่า “ซ้ายขวาให้ยึดตามมุมมองของตัวละคร” อัตราความสำเร็จก็สูงขึ้น
    • ฉันก็คิดเหมือนกัน
      ผู้เขียนบอกว่า Nano Banana แก้ไขทุกอย่างได้อย่างแม่นยำ แต่จุดนี้ยังถกเถียงกันได้
      ฉันคิดว่า “ตาขวา” ของกะโหลกควรถูกตีความตามมุมมองของกะโหลก
  • ส่งคำขอผ่าน Google AI Studio แล้วถ้าจะลบลายน้ำ ก็แค่บล็อกคำขอ “watermark_4” ใน developer tools ของเบราว์เซอร์
    จากนั้นภาพที่สร้างออกมาก็จะไม่มีลายน้ำแล้ว
  • ฉันแปลกใจตอนเห็นประโยคที่ว่า “Nano Banana อ่อนเรื่อง style transfer”
    ฉันกำลังทำโปรเจกต์สร้างภาพละแวกบ้านของตัวเองในแบบภูมิทัศน์ศตวรรษที่ 18
    ฉันโมเดลด้วย SketchUp และ Twinmotion แต่ทำภาพให้ดูสมจริงจริง ๆ ได้ยาก
    ฉันลองใช้ตัวสร้างภาพ AI มาหลายตัว แต่ Nano Banana เป็นตัวแรกที่ใส่สไตล์ใหม่ได้พร้อมกับรักษาความสม่ำเสมอเชิงเรขาคณิตไว้
    แค่พรอมป์ต์ง่าย ๆ อย่าง “ทำภาพนี้ให้เป็นภาพถ่าย” ก็ได้ผลลัพธ์น่าทึ่งแล้ว
    แต่ถ้าใส่คำว่าศตวรรษที่ 18 ตรง ๆ บางทีก็จะออกมาเป็นภาพวาด เลยต้องอ้อมไปใช้คำอย่าง “ภาพถ่ายของถนนประวัติศาสตร์ที่ได้รับการอนุรักษ์”
    ฉันยังทำโมเดลด้วยมือควบคู่กันอยู่ แต่ Nano Banana ทำให้แนวทางการทำโมเดลของฉันเปลี่ยนไป
    • แต่ถ้าให้ ภาพศิลปะ เป็นภาพอ้างอิงสไตล์ Nano Banana จะหลุดนอกขอบเขตการเรียนรู้และไม่สามารถ generalize ได้ดี
  • คำว่า “prompt engineered” สุดท้ายก็คือการพิมพ์สิ่งที่อยากเห็นลงไปนั่นเอง
    • แต่นั่นก็เป็นทักษะจริง ๆ
      ปัญหาหลายอย่างเกิดจากคนไม่สามารถอธิบายสิ่งที่ตัวเองต้องการได้ชัดเจน
      prompt engineering คือทักษะในการจัดการกับความซับซ้อนของการสื่อสาร และทำให้เราตระหนักถึงช่องว่างระหว่างคำพูดกับความหมาย
    • บางโมเดลก็ไม่เข้าใจพรอมป์ต์บางแบบจริง ๆ
    • ตอนนี้เราเริ่มเข้าใจการโต้ตอบกับ LLM ว่าเป็น natural language interface
      มันเป็นอินเทอร์เฟซที่กำกวมและต่างจากภาษาโปรแกรม และ prompt engineering ก็คือทักษะใหม่ในการรับมือกับมัน
    • สุดท้ายก็คือกระบวนการแก้พรอมป์ต์ซ้ำไปมาเพื่อให้ได้ผลลัพธ์ที่ต้องการ
    • เมื่อก่อนเราเรียกสิ่งนี้ว่า “Google Fu
  • ฉันลองขอฉากจากMy Neighbor Totoro ฉบับไลฟ์แอ็กชัน
    เพราะเป็นตัวละครที่ทำให้สมจริงยากแบบ Sonic เลยอยากรู้ว่าจะออกมาอย่างไร แต่ผลที่ได้มีแต่ภาพแนวดิจิทัลอาร์ต ไม่ใช่โฟโตรีอะลิสม์
    เปลี่ยนคีย์เวิร์ดก็ยังเหมือนเดิม และใน ChatGPT ก็ทดสอบไม่ได้เพราะติดฟิลเตอร์ลิขสิทธิ์
    ถึงอย่างนั้นก็ยังเป็นการลองที่น่าสนใจ
  • บางครั้ง Nano Banana ตอบสนองต่อการแก้ไขช้า
    ฉันสั่งให้เปลี่ยนภาพบุคคลเป็นสไตล์ clay animation แต่แทบไม่เปลี่ยนอะไรเลย
    แต่พอเพิ่มว่า “ทำให้ดูเด็กลง 10 ปี” จู่ ๆ ก็กลายเป็นเหมือนตุ๊กตาดินน้ำมัน
    • นั่นเป็นคำขอ style transfer เลย ซึ่งก็คงล้มเหลวแบบตัวอย่าง Ghibli นั่นแหละ
  • จากประสบการณ์ของฉัน nano banana ยังชอบ
    • ใส่การแก้ไขแบบสุ่มลงในภาพ หรือ
    • เปลี่ยนสเกล หรือ
    • ทำให้รายละเอียดโดยรวมเปลี่ยนไปแม้จะเป็นการแก้แบบละเอียด
      เช่น มันอาจเพิ่มเตาผิงหรือโรงรถเข้าไปในห้องทั้งที่ไม่ได้สั่งอะไรเลย
      เรื่องนี้เกิดแม้ตั้งอุณหภูมิเป็น 0 จึงทำให้สร้าง แอปที่เชื่อถือได้ ได้ยาก
      อยากรู้ว่ามีใครได้ประสบการณ์ที่ดีกว่านี้ไหม
    • ส่วนที่เป็น “ALL CAPS” น่าสนใจดี
      ตัวพิมพ์ใหญ่อาจถูก tokenize ต่างออกไป ทำให้กลายเป็น อินพุตที่โมเดลเข้าใจยาก ก็ได้
    • ฉันกำลังพัฒนา PixLab editor และมันทำตามคำสั่งตัวพิมพ์ใหญ่ ได้ตรงเป๊ะตามนั้น