Nano Banana สามารถสร้างภาพ AI แบบละเอียดอ่อนด้วยการทำ prompt engineering อย่างประณีต

(minimaxir.com)

10 คะแนน โดย GN⁺ 2025-11-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Nano Banana คือโมเดล Gemini 2.5 Flash Image ของ Google ซึ่งเป็น โมเดลสร้างภาพแบบออโตรีเกรสซีฟ ที่ตีความข้อความพรอมป์ตอย่างละเอียดและถ่ายทอดองค์ประกอบภาพที่ซับซ้อนได้อย่างแม่นยำ
ด้วย ตัวเข้ารหัสข้อความที่ทรงพลัง จึงสะท้อนกฎเฉพาะ รหัสสี ไปจนถึงอินพุตที่อิง JSON·HTML ได้อย่างครบถ้วน และมี ความสามารถในการทำตามพรอมป์ต สูงมาก
มีราคาถูกกว่า gpt-image-1 ของ ChatGPT และนักพัฒนาสามารถสร้างแอปสร้างภาพได้โดยตรงผ่าน API พร้อมใช้งานได้สะดวกด้วย แพ็กเกจ Python gemimg
ในการทดลองหลากหลายแบบ เช่น การแก้ไขที่ซับซ้อน การคอมโพสิต โค้ด และการเรนเดอร์หน้าเว็บ โมเดลแสดงความแม่นยำและความสม่ำเสมอสูง แต่ยังมีข้อจำกัดด้าน การแปลงสไตล์และการเรนเดอร์ข้อความ
แสดงให้เห็นถึง ศักยภาพของการควบคุมการสร้างภาพ AI อย่างละเอียด และกำลังได้รับความสนใจในฐานะมาตรฐานใหม่ของ วิศวกรรมภาพเชิงวิชวลที่ขับเคลื่อนด้วยพรอมป์ต

การเปลี่ยนแปลงของโมเดลสร้างภาพ AI และการมาของ Nano Banana

ช่วงหลังมานี้ วงการสร้างภาพ AI มีโมเดลใหม่เกิดขึ้นมากมาย เช่น FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4 แต่ในเดือนมีนาคม 2025 ฟีเจอร์สร้างภาพฟรีของ ChatGPT เป็นตัวขับเคลื่อนการรับรู้ของสาธารณะ
ภาพจาก ChatGPT สามารถสังเกตได้ง่ายจาก โทนเหลืองและลายเส้นรวมถึงไทโปกราฟีที่ค่อนข้างคงที่
โมเดลพื้นฐานของ ChatGPT อย่าง gpt-image-1 ใช้ สถาปัตยกรรมแบบออโตรีเกรสซีฟ สร้างภาพในระดับโทเค็น และใช้เวลาราว 30 วินาทีต่อภาพคุณภาพสูงหนึ่งภาพ
เดือนสิงหาคม 2025 มีโมเดลโค้ดเนม “** nano-banana**” ปรากฏบน LMArena และต่อมา Google ก็เปิดเผยว่าโมเดลดังกล่าวคือ Gemini 2.5 Flash Image
- โมเดลสร้างภาพด้วย 1,290 โทเค็น และด้วยความนิยมของ แอป Gemini ที่เพิ่มขึ้น ชื่อ “Nano Banana” จึงกลายเป็นชื่อเล่นอย่างเป็นทางการ

การสร้างภาพของ Nano Banana และการใช้งานผ่าน API

Nano Banana สามารถสร้างภาพได้ฟรีผ่านฟีเจอร์ “Create Image 🍌” ใน แอป Gemini บนเว็บ/มือถือ หรือผ่าน Google AI Studio
- ใน AI Studio รองรับ การปรับพารามิเตอร์ละเอียด เช่น อัตราส่วนภาพ
- ภาพที่สร้างจะมี ลายน้ำที่มุมขวาล่าง
นักพัฒนาสามารถสร้างภาพแบบโปรแกรมได้ผ่าน เอนด์พอยต์ gemini-2.5-flash-image ของ Gemini API
- ประมาณ $0.04 ต่อภาพ 1MP ซึ่งถูกกว่า $0.17 ของ ChatGPT
เพื่อลดความซับซ้อนของการใช้ API มี แพ็กเกจ Python gemimg ที่ช่วยให้สร้างภาพได้ด้วยพรอมป์ตง่าย ๆ
```
from gemimg import GemImg
g = GemImg(api_key="AI...")
g.generate("A kitten with prominent purple-and-green fur.")
```
โฆษณา

ทดสอบความสามารถในการทำตามพรอมป์ต: แพนเค้กรูปกะโหลกและการแก้ไขภาพ

พรอมป์ต “ภาพแพนเค้กรูปกะโหลกที่วางบลูเบอร์รีและราดเมเปิลไซรัป” ถูกถ่ายทอดออกมาได้อย่างแม่นยำ
- ทั้งการไหลของไซรัป พื้นผิวของแพนเค้ก และตำแหน่งของบลูเบอร์รี ล้วนเก็บรายละเอียดได้ครบ
จากนั้นยังทำ คำสั่งแก้ไขพร้อมกัน 5 รายการ กับภาพเดียวกัน (เพิ่มสตรอว์เบอร์รี·แบล็กเบอร์รี ตกแต่งมินต์ เปลี่ยนจาน และเพิ่มบุคคลในฉากหลัง)
- การแก้ไขทั้งหมดสะท้อนออกมาได้อย่างแม่นยำ และส่วนที่ไม่จำเป็นถูกเปลี่ยนแปลงน้อยที่สุด

ทดสอบความสม่ำเสมอของตัวละคร: Ugly Sonic กับการจับมือโอบามา

Nano Banana สามารถ รักษาความสม่ำเสมอของตัวละครเฉพาะได้แม้ไม่ต้องฝึก LoRA
ในพรอมป์ต “ภาพที่ Ugly Sonic จับมือกับ Barack Obama” โมเดลสร้างให้ทั้งสองอยู่ร่วมกันในภาพได้จริง
- เมื่อเพิ่มวลี “ภาพหน้าปกหนังสือพิมพ์ New York Times ที่ชนะรางวัล Pulitzer” ก็ช่วย ยกระดับองค์ประกอบ โทนสี และคุณภาพแสง
- สามารถลบองค์ประกอบที่ไม่ต้องการได้ด้วยคำสั่ง “ไม่มีข้อความ”
เมื่อนำภาพ Ugly Sonic จำนวน 17 ภาพใส่เข้าไปพร้อมกัน ก็ได้ การถ่ายทอดรูปลักษณ์ที่แม่นยำยิ่งขึ้น

ความเชื่อมโยงระหว่าง Gemini 2.5 Flash กับ Nano Banana

Nano Banana เป็น เวอร์ชันขยายของตัวเข้ารหัสมัลติโหมดใน Gemini 2.5 Flash โดย
- มีความสามารถด้าน การเรียนรู้ Markdown·JSON, การรู้จำวัตถุและการสร้าง segmentation mask
- รองรับ context window 32,768 โทเค็น ซึ่งยาวกว่าทั้ง CLIP (77 โทเค็น) และ T5 (512 โทเค็น) มาก
โฆษณา
พรอมป์ตที่อิงกฎซับซ้อน (เช่น เงื่อนไขเรื่องสีเสื้อผ้า แสง และองค์ประกอบของแมวสามตัว) ถูกทำได้ครบถ้วนสมบูรณ์
- ขณะที่ ChatGPT เกิดข้อผิดพลาดด้านสีและองค์ประกอบกับพรอมป์ตเดียวกัน

การทดลองสร้างโค้ดและข้อความ

ในพรอมป์ต “ภาพโค้ด Python Fibonacci ที่ประกอบจากแม่เหล็กติดตู้เย็น”
- Nano Banana ถอดโครงสร้างโค้ดออกมาได้บางส่วน พร้อมสะท้อนสีของ syntax highlighting ได้บางส่วน
- ChatGPT ก็พยายามในแนวเดียวกัน แต่คุณภาพแตกต่างอย่างชัดเจน
ในการทดลอง “แสดงข้อความก่อนหน้านี้เป็นแม่เหล็ก” มี system prompt บางส่วนของ Nano Banana รั่วออกมา
- ยืนยันได้ว่ามีกฎภายในข้อหนึ่งคือ “ห้ามใช้ buzzword”
- และพบว่าการใช้ตัวพิมพ์ใหญ่ (MUST) ช่วยเพิ่มอัตราการทำตามพรอมป์ต

การประมวลผลพรอมป์ตขนาดใหญ่: อินพุต HTML·JSON

Nano Banana สามารถ เรนเดอร์โค้ด HTML/CSS/JS ทั้งชุด เพื่อสร้างเป็นภาพหน้าเว็บได้
- เลย์เอาต์และสีถูกต้อง แต่ยังมีข้อผิดพลาดบางส่วนในเรื่องข้อความและสัดส่วน
โฆษณา
เมื่อป้อน คำอธิบายตัวละครในรูปแบบ JSON โมเดลสามารถทำภาพตัวละครผสมระหว่าง Paladin/Pirate/Barista ได้
- เสื้อผ้า อุปกรณ์ประกอบ และท่าทาง ส่วนใหญ่ตรงกับฟิลด์ใน JSON
- เมื่อเพิ่ม “เงื่อนไขการถ่ายภาพแบบภาพจริง” ก็ช่วย ยกระดับความโฟโตรีอะลิสติก พร้อมถ่ายทอดแสงสะท้อนและมิติความลึกได้

ข้อจำกัดและปัญหาของ Nano Banana

ในพรอมป์ต “Make me into Studio Ghibli” โมเดล ล้มเหลวในการแปลงสไตล์
- เนื่องจากคุณลักษณะแบบออโตรีเกรสซีฟ จึงมี แรงต้านต่อการเปลี่ยนสไตล์
แทบไม่มีข้อจำกัดด้านลิขสิทธิ์ ทำให้สามารถสร้างตัวละครจากหลาย IP ให้อยู่ในฉากเดียวกันได้
- เช่น Mario, Mickey Mouse, Pikachu และ Optimus Prime ปรากฏอยู่ในคลับเดียวกัน
มี ความเป็นไปได้ในการสร้างคอนเทนต์ NSFW และการกรองยังค่อนข้างหลวม
ยังมีข้อจำกัดทางเทคนิคอยู่ เช่น การเรนเดอร์ข้อความที่ไม่สมบูรณ์ และ จุดอ่อนด้านการแปลงสไตล์

บทสรุปและความสำคัญ

Nano Banana คือโมเดลที่ทำให้ การควบคุมภาพคุณภาพสูงผ่าน prompt engineering แบบละเอียด เป็นไปได้
ด้วยความสามารถในการตีความ อินพุตแบบ HTML·JSON·กฎผสมที่ซับซ้อน จึงกำลังก้าวขึ้นมาเป็น แพลตฟอร์มทดลองใหม่ของการสร้างภาพ AI
นี่เป็นกรณีศึกษาที่ใช้ตรวจสอบ ศักยภาพจริงและข้อจำกัดของการสร้างภาพ AI นอกเหนือจากภาพจำที่สาธารณะมีต่อ ChatGPT
ผู้เขียนได้เผยแพร่พรอมป์ตทั้งหมดที่ใช้ทดลองและ Jupyter Notebook เพื่อให้เกิด การทำซ้ำได้และความโปร่งใส
Nano Banana ถูกประเมินว่าเป็นตัวอย่างที่แสดง จุดเปลี่ยนสู่ยุคของวิศวกรรมภาพเชิงวิชวลที่ขับเคลื่อนด้วยพรอมป์ต

1 ความคิดเห็น

GN⁺ 2025-11-14

ความคิดเห็นใน Hacker News

ฉันสร้างภาพวันละหลายสิบภาพสำหรับทำสตอรีบอร์ด
การควบคุมผลลัพธ์ทำได้ง่ายขึ้นเรื่อย ๆ และตอนนี้ก็รักษาความสม่ำเสมอของตัวละคร แสง และแม้แต่ช่วงเวลาของวันในแต่ละฉากได้แล้ว
ตอนนี้ใช้ prompt layer 7 ขั้น ได้แก่ สภาพแวดล้อม·กล้อง·วัตถุ·องค์ประกอบภาพ·แสง·สี·คุณภาพ ซึ่งอาจจะเยอะไปหน่อยแต่กำลังทดลองอยู่
อีกอย่าง ฉันทำเครื่องมือแก้ไขง่าย ๆ ที่ให้วาด bounding box ลงบนภาพโดยตรงเพื่อสั่งแก้ไขได้ แล้วส่งภาพไปให้ Claude สร้างพรอมป์ต์สำหรับแก้ไขให้อัตโนมัติ
กระบวนการนี้ทำให้สร้าง pipeline สำหรับสร้างวิดีโอ GenAI ที่การเปลี่ยนผ่านระหว่างฉากดูเป็นธรรมชาติได้
- ทีมของเราก็ใช้ nano banana ทำสตอรีบอร์ดคล้ายกัน แล้วใช้โมเดล img2vid ผลิตวิดีโอแบบฟูลโมชั่น
  เราก็กำลังพยายามรักษาความสม่ำเสมอของตัวละคร·ฉากหลัง·สไตล์อยู่ และมีหลายจุดที่คล้ายกับงานของคุณ
  ถ้าสนใจก็ลองดูผลิตภัณฑ์ของเรา Hypernatural.ai ได้
- สำหรับฉันกลับรู้สึกว่า ถ้าผลลัพธ์เริ่มหลุดจากทางแล้ว ก็แทบเป็นไปไม่ได้เลยที่จะดึงกลับไปยังเจตนาเดิม
ฉันชอบ ไลบรารี Python ชื่อ gemimg
ฉันเพิ่ม Gemini CLI เข้าไปและส่ง PR แล้ว ตอนนี้จึงรันได้ตามด้านล่าง
ผลลัพธ์อยู่ในคอมเมนต์นี้
- มีเรื่องที่อยากถาม @simonw — คุณสร้าง gist preview ของเซสชันเทอร์มินัล gemini-cli ยังไง?
  อยากรู้ว่าทำเองด้วย HTML/CSS แบบลิงก์นี้ หรือมีเครื่องมืออัตโนมัติอย่าง amp-code อยู่แล้ว
- อยากรู้ว่ามีเหตุผลอะไรไหมที่ไม่ได้เพิ่ม รายการ project.scripts ใน pyproject.toml
  ถ้าทำแบบนั้นก็น่าจะติดตั้ง CLI ได้ตรง ๆ ด้วย uv
- ผู้เขียนเน้นเรื่องโอเพนซอร์สตั้งแต่ต้น เลยสงสัยว่าจะพูดถึง ecosystem ของ QwenEdit ด้วยไหม
  โมเดลแก้ไขภาพจากจีนกำลังเข้าใกล้ระดับของ NanoBanana มากขึ้นเรื่อย ๆ และเพราะเป็นโอเพนซอร์สจึงทำงานจัดการภาพขั้นสูงที่อิง mask·kernel ได้
  ทำ style transfer ด้วย LoRA ก็ได้ และน่าสนใจกว่าโมเดลอเมริกันแบบปิดมาก
  ดูเหมือนว่าการดึงข้อมูลฝึกจาก Nano Banana มา distill เป็นโมเดลใหม่ก็น่าจะง่ายขึ้นด้วย
ฉันอ่านโพสต์ของ minimaxir อย่างสนุก
ด้วย context window 32,768 โทเค็น ของ Nano Banana ฉันเลยใช้ Mistral 7B แทรกใน pipeline สร้างภาพที่ซับซ้อนเพื่อทำพรอมป์ต์ดัดแปลง 4 แบบไว้ใช้
เรื่องที่บอกว่า style transfer ยังอ่อนนั้นก็จริง แต่ถ้าให้ภาพสองภาพพร้อมกันผลลัพธ์จะดีขึ้นอีกหน่อย
ภาพแรกใช้เป็นภาพต้นทาง ส่วนภาพที่สองใช้เป็น ภาพอ้างอิงสไตล์
ฉันก็ใช้วิธีนี้ในตัวอย่างพอร์ตโฟลิโอของฉันด้วย
- อาจเป็นข้อจำกัดที่ใส่ไว้โดยเจตนาเพื่อกัน สไตล์ Studio Ghibli หลังจากกระแส “make me Ghibli” เมื่อก่อนก็ได้
ฉันเจอข้อผิดพลาดน่าสนุกในภาพแพนเค้กรูปกะโหลกภาพที่สอง
สตรอว์เบอร์รี่อยู่ในเบ้าตาขวา (ซ้ายในภาพ) และแบล็กเบอร์รี่อยู่ฝั่งตรงข้าม
ดูเหมือนจะเป็นปัญหาที่เกิดจากคำบรรยายภาพส่วนใหญ่มักเขียนจากมุมมองของผู้สังเกต
- ถ้าเป็นฉันในฐานะมนุษย์ ก็คงทำแบบเดียวกับ Nano Banana
  ถ้าผู้ใช้ต้องการให้ใส่สตรอว์เบอร์รี่ในตาซ้ายของกะโหลก ก็น่าจะต้องระบุให้ชัดว่า “ตาซ้ายของมัน”
- คิดว่าหลายคนน่าจะสับสนว่า “ตาซ้าย” หมายถึงฝั่งของวัตถุหรือฝั่งของกล้อง
- ฉันเองก็พลาดจุดนี้เหมือนกัน แต่ต่อมาปัญหาเดียวกันนี้ก็ถูกชี้ใน JSON ของตัวละคร
  หลังจากนั้นพอใส่ในพรอมป์ต์ว่า “ซ้ายขวาให้ยึดตามมุมมองของตัวละคร” อัตราความสำเร็จก็สูงขึ้น
- ฉันก็คิดเหมือนกัน
  ผู้เขียนบอกว่า Nano Banana แก้ไขทุกอย่างได้อย่างแม่นยำ แต่จุดนี้ยังถกเถียงกันได้
  ฉันคิดว่า “ตาขวา” ของกะโหลกควรถูกตีความตามมุมมองของกะโหลก
ส่งคำขอผ่าน Google AI Studio แล้วถ้าจะลบลายน้ำ ก็แค่บล็อกคำขอ “watermark_4” ใน developer tools ของเบราว์เซอร์
จากนั้นภาพที่สร้างออกมาก็จะไม่มีลายน้ำแล้ว
ฉันแปลกใจตอนเห็นประโยคที่ว่า “Nano Banana อ่อนเรื่อง style transfer”
ฉันกำลังทำโปรเจกต์สร้างภาพละแวกบ้านของตัวเองในแบบภูมิทัศน์ศตวรรษที่ 18
ฉันโมเดลด้วย SketchUp และ Twinmotion แต่ทำภาพให้ดูสมจริงจริง ๆ ได้ยาก
ฉันลองใช้ตัวสร้างภาพ AI มาหลายตัว แต่ Nano Banana เป็นตัวแรกที่ใส่สไตล์ใหม่ได้พร้อมกับรักษาความสม่ำเสมอเชิงเรขาคณิตไว้
แค่พรอมป์ต์ง่าย ๆ อย่าง “ทำภาพนี้ให้เป็นภาพถ่าย” ก็ได้ผลลัพธ์น่าทึ่งแล้ว
แต่ถ้าใส่คำว่าศตวรรษที่ 18 ตรง ๆ บางทีก็จะออกมาเป็นภาพวาด เลยต้องอ้อมไปใช้คำอย่าง “ภาพถ่ายของถนนประวัติศาสตร์ที่ได้รับการอนุรักษ์”
ฉันยังทำโมเดลด้วยมือควบคู่กันอยู่ แต่ Nano Banana ทำให้แนวทางการทำโมเดลของฉันเปลี่ยนไป
- แต่ถ้าให้ ภาพศิลปะ เป็นภาพอ้างอิงสไตล์ Nano Banana จะหลุดนอกขอบเขตการเรียนรู้และไม่สามารถ generalize ได้ดี
คำว่า “prompt engineered” สุดท้ายก็คือการพิมพ์สิ่งที่อยากเห็นลงไปนั่นเอง
- แต่นั่นก็เป็นทักษะจริง ๆ
  ปัญหาหลายอย่างเกิดจากคนไม่สามารถอธิบายสิ่งที่ตัวเองต้องการได้ชัดเจน
  prompt engineering คือทักษะในการจัดการกับความซับซ้อนของการสื่อสาร และทำให้เราตระหนักถึงช่องว่างระหว่างคำพูดกับความหมาย
- บางโมเดลก็ไม่เข้าใจพรอมป์ต์บางแบบจริง ๆ
- ตอนนี้เราเริ่มเข้าใจการโต้ตอบกับ LLM ว่าเป็น natural language interface
  มันเป็นอินเทอร์เฟซที่กำกวมและต่างจากภาษาโปรแกรม และ prompt engineering ก็คือทักษะใหม่ในการรับมือกับมัน
- สุดท้ายก็คือกระบวนการแก้พรอมป์ต์ซ้ำไปมาเพื่อให้ได้ผลลัพธ์ที่ต้องการ
- เมื่อก่อนเราเรียกสิ่งนี้ว่า “Google Fu”
ฉันลองขอฉากจากMy Neighbor Totoro ฉบับไลฟ์แอ็กชัน
เพราะเป็นตัวละครที่ทำให้สมจริงยากแบบ Sonic เลยอยากรู้ว่าจะออกมาอย่างไร แต่ผลที่ได้มีแต่ภาพแนวดิจิทัลอาร์ต ไม่ใช่โฟโตรีอะลิสม์
เปลี่ยนคีย์เวิร์ดก็ยังเหมือนเดิม และใน ChatGPT ก็ทดสอบไม่ได้เพราะติดฟิลเตอร์ลิขสิทธิ์
ถึงอย่างนั้นก็ยังเป็นการลองที่น่าสนใจ
บางครั้ง Nano Banana ตอบสนองต่อการแก้ไขช้า
ฉันสั่งให้เปลี่ยนภาพบุคคลเป็นสไตล์ clay animation แต่แทบไม่เปลี่ยนอะไรเลย
แต่พอเพิ่มว่า “ทำให้ดูเด็กลง 10 ปี” จู่ ๆ ก็กลายเป็นเหมือนตุ๊กตาดินน้ำมัน
- นั่นเป็นคำขอ style transfer เลย ซึ่งก็คงล้มเหลวแบบตัวอย่าง Ghibli นั่นแหละ
จากประสบการณ์ของฉัน nano banana ยังชอบ
- ใส่การแก้ไขแบบสุ่มลงในภาพ หรือ
- เปลี่ยนสเกล หรือ
- ทำให้รายละเอียดโดยรวมเปลี่ยนไปแม้จะเป็นการแก้แบบละเอียด
  เช่น มันอาจเพิ่มเตาผิงหรือโรงรถเข้าไปในห้องทั้งที่ไม่ได้สั่งอะไรเลย
  เรื่องนี้เกิดแม้ตั้งอุณหภูมิเป็น 0 จึงทำให้สร้าง แอปที่เชื่อถือได้ ได้ยาก
  อยากรู้ว่ามีใครได้ประสบการณ์ที่ดีกว่านี้ไหม
- ส่วนที่เป็น “ALL CAPS” น่าสนใจดี
  ตัวพิมพ์ใหญ่อาจถูก tokenize ต่างออกไป ทำให้กลายเป็น อินพุตที่โมเดลเข้าใจยาก ก็ได้
- ฉันกำลังพัฒนา PixLab editor และมันทำตามคำสั่งตัวพิมพ์ใหญ่ ได้ตรงเป๊ะตามนั้น

Nano Banana สามารถสร้างภาพ AI แบบละเอียดอ่อนด้วยการทำ prompt engineering อย่างประณีต

การเปลี่ยนแปลงของโมเดลสร้างภาพ AI และการมาของ Nano Banana

การสร้างภาพของ Nano Banana และการใช้งานผ่าน API

ทดสอบความสามารถในการทำตามพรอมป์ต: แพนเค้กรูปกะโหลกและการแก้ไขภาพ

ทดสอบความสม่ำเสมอของตัวละคร: Ugly Sonic กับการจับมือโอบามา

ความเชื่อมโยงระหว่าง Gemini 2.5 Flash กับ Nano Banana

การทดลองสร้างโค้ดและข้อความ

การประมวลผลพรอมป์ตขนาดใหญ่: อินพุต HTML·JSON

ข้อจำกัดและปัญหาของ Nano Banana

บทสรุปและความสำคัญ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นใน Hacker News