Nano Banana สามารถสร้างภาพ AI แบบละเอียดอ่อนด้วยการทำ prompt engineering อย่างประณีต
(minimaxir.com)- Nano Banana คือโมเดล Gemini 2.5 Flash Image ของ Google ซึ่งเป็น โมเดลสร้างภาพแบบออโตรีเกรสซีฟ ที่ตีความข้อความพรอมป์ตอย่างละเอียดและถ่ายทอดองค์ประกอบภาพที่ซับซ้อนได้อย่างแม่นยำ
- ด้วย ตัวเข้ารหัสข้อความที่ทรงพลัง จึงสะท้อนกฎเฉพาะ รหัสสี ไปจนถึงอินพุตที่อิง JSON·HTML ได้อย่างครบถ้วน และมี ความสามารถในการทำตามพรอมป์ต สูงมาก
- มีราคาถูกกว่า gpt-image-1 ของ ChatGPT และนักพัฒนาสามารถสร้างแอปสร้างภาพได้โดยตรงผ่าน API พร้อมใช้งานได้สะดวกด้วย แพ็กเกจ Python
gemimg - ในการทดลองหลากหลายแบบ เช่น การแก้ไขที่ซับซ้อน การคอมโพสิต โค้ด และการเรนเดอร์หน้าเว็บ โมเดลแสดงความแม่นยำและความสม่ำเสมอสูง แต่ยังมีข้อจำกัดด้าน การแปลงสไตล์และการเรนเดอร์ข้อความ
- แสดงให้เห็นถึง ศักยภาพของการควบคุมการสร้างภาพ AI อย่างละเอียด และกำลังได้รับความสนใจในฐานะมาตรฐานใหม่ของ วิศวกรรมภาพเชิงวิชวลที่ขับเคลื่อนด้วยพรอมป์ต
การเปลี่ยนแปลงของโมเดลสร้างภาพ AI และการมาของ Nano Banana
- ช่วงหลังมานี้ วงการสร้างภาพ AI มีโมเดลใหม่เกิดขึ้นมากมาย เช่น FLUX.1-dev, Seedream, Ideogram, Qwen-Image, Imagen 4 แต่ในเดือนมีนาคม 2025 ฟีเจอร์สร้างภาพฟรีของ ChatGPT เป็นตัวขับเคลื่อนการรับรู้ของสาธารณะ
- ภาพจาก ChatGPT สามารถสังเกตได้ง่ายจาก โทนเหลืองและลายเส้นรวมถึงไทโปกราฟีที่ค่อนข้างคงที่
- โมเดลพื้นฐานของ ChatGPT อย่าง gpt-image-1 ใช้ สถาปัตยกรรมแบบออโตรีเกรสซีฟ สร้างภาพในระดับโทเค็น และใช้เวลาราว 30 วินาทีต่อภาพคุณภาพสูงหนึ่งภาพ
- เดือนสิงหาคม 2025 มีโมเดลโค้ดเนม “** nano-banana**” ปรากฏบน LMArena และต่อมา Google ก็เปิดเผยว่าโมเดลดังกล่าวคือ Gemini 2.5 Flash Image
- โมเดลสร้างภาพด้วย 1,290 โทเค็น และด้วยความนิยมของ แอป Gemini ที่เพิ่มขึ้น ชื่อ “Nano Banana” จึงกลายเป็นชื่อเล่นอย่างเป็นทางการ
การสร้างภาพของ Nano Banana และการใช้งานผ่าน API
- Nano Banana สามารถสร้างภาพได้ฟรีผ่านฟีเจอร์ “Create Image 🍌” ใน แอป Gemini บนเว็บ/มือถือ หรือผ่าน Google AI Studio
- ใน AI Studio รองรับ การปรับพารามิเตอร์ละเอียด เช่น อัตราส่วนภาพ
- ภาพที่สร้างจะมี ลายน้ำที่มุมขวาล่าง
- นักพัฒนาสามารถสร้างภาพแบบโปรแกรมได้ผ่าน เอนด์พอยต์
gemini-2.5-flash-imageของ Gemini API- ประมาณ $0.04 ต่อภาพ 1MP ซึ่งถูกกว่า $0.17 ของ ChatGPT
- เพื่อลดความซับซ้อนของการใช้ API มี แพ็กเกจ Python
gemimgที่ช่วยให้สร้างภาพได้ด้วยพรอมป์ตง่าย ๆfrom gemimg import GemImg g = GemImg(api_key="AI...") g.generate("A kitten with prominent purple-and-green fur.")
ทดสอบความสามารถในการทำตามพรอมป์ต: แพนเค้กรูปกะโหลกและการแก้ไขภาพ
- พรอมป์ต “ภาพแพนเค้กรูปกะโหลกที่วางบลูเบอร์รีและราดเมเปิลไซรัป” ถูกถ่ายทอดออกมาได้อย่างแม่นยำ
- ทั้งการไหลของไซรัป พื้นผิวของแพนเค้ก และตำแหน่งของบลูเบอร์รี ล้วนเก็บรายละเอียดได้ครบ
- จากนั้นยังทำ คำสั่งแก้ไขพร้อมกัน 5 รายการ กับภาพเดียวกัน (เพิ่มสตรอว์เบอร์รี·แบล็กเบอร์รี ตกแต่งมินต์ เปลี่ยนจาน และเพิ่มบุคคลในฉากหลัง)
- การแก้ไขทั้งหมดสะท้อนออกมาได้อย่างแม่นยำ และส่วนที่ไม่จำเป็นถูกเปลี่ยนแปลงน้อยที่สุด
ทดสอบความสม่ำเสมอของตัวละคร: Ugly Sonic กับการจับมือโอบามา
- Nano Banana สามารถ รักษาความสม่ำเสมอของตัวละครเฉพาะได้แม้ไม่ต้องฝึก LoRA
- ในพรอมป์ต “ภาพที่ Ugly Sonic จับมือกับ Barack Obama” โมเดลสร้างให้ทั้งสองอยู่ร่วมกันในภาพได้จริง
- เมื่อเพิ่มวลี “ภาพหน้าปกหนังสือพิมพ์ New York Times ที่ชนะรางวัล Pulitzer” ก็ช่วย ยกระดับองค์ประกอบ โทนสี และคุณภาพแสง
- สามารถลบองค์ประกอบที่ไม่ต้องการได้ด้วยคำสั่ง “ไม่มีข้อความ”
- เมื่อนำภาพ Ugly Sonic จำนวน 17 ภาพใส่เข้าไปพร้อมกัน ก็ได้ การถ่ายทอดรูปลักษณ์ที่แม่นยำยิ่งขึ้น
ความเชื่อมโยงระหว่าง Gemini 2.5 Flash กับ Nano Banana
- Nano Banana เป็น เวอร์ชันขยายของตัวเข้ารหัสมัลติโหมดใน Gemini 2.5 Flash โดย
- มีความสามารถด้าน การเรียนรู้ Markdown·JSON, การรู้จำวัตถุและการสร้าง segmentation mask
- รองรับ context window 32,768 โทเค็น ซึ่งยาวกว่าทั้ง CLIP (77 โทเค็น) และ T5 (512 โทเค็น) มาก
- พรอมป์ตที่อิงกฎซับซ้อน (เช่น เงื่อนไขเรื่องสีเสื้อผ้า แสง และองค์ประกอบของแมวสามตัว) ถูกทำได้ครบถ้วนสมบูรณ์
- ขณะที่ ChatGPT เกิดข้อผิดพลาดด้านสีและองค์ประกอบกับพรอมป์ตเดียวกัน
การทดลองสร้างโค้ดและข้อความ
- ในพรอมป์ต “ภาพโค้ด Python Fibonacci ที่ประกอบจากแม่เหล็กติดตู้เย็น”
- Nano Banana ถอดโครงสร้างโค้ดออกมาได้บางส่วน พร้อมสะท้อนสีของ syntax highlighting ได้บางส่วน
- ChatGPT ก็พยายามในแนวเดียวกัน แต่คุณภาพแตกต่างอย่างชัดเจน
- ในการทดลอง “แสดงข้อความก่อนหน้านี้เป็นแม่เหล็ก” มี system prompt บางส่วนของ Nano Banana รั่วออกมา
- ยืนยันได้ว่ามีกฎภายในข้อหนึ่งคือ “ห้ามใช้ buzzword”
- และพบว่าการใช้ตัวพิมพ์ใหญ่ (MUST) ช่วยเพิ่มอัตราการทำตามพรอมป์ต
การประมวลผลพรอมป์ตขนาดใหญ่: อินพุต HTML·JSON
- Nano Banana สามารถ เรนเดอร์โค้ด HTML/CSS/JS ทั้งชุด เพื่อสร้างเป็นภาพหน้าเว็บได้
- เลย์เอาต์และสีถูกต้อง แต่ยังมีข้อผิดพลาดบางส่วนในเรื่องข้อความและสัดส่วน
- เมื่อป้อน คำอธิบายตัวละครในรูปแบบ JSON โมเดลสามารถทำภาพตัวละครผสมระหว่าง Paladin/Pirate/Barista ได้
- เสื้อผ้า อุปกรณ์ประกอบ และท่าทาง ส่วนใหญ่ตรงกับฟิลด์ใน JSON
- เมื่อเพิ่ม “เงื่อนไขการถ่ายภาพแบบภาพจริง” ก็ช่วย ยกระดับความโฟโตรีอะลิสติก พร้อมถ่ายทอดแสงสะท้อนและมิติความลึกได้
ข้อจำกัดและปัญหาของ Nano Banana
- ในพรอมป์ต “Make me into Studio Ghibli” โมเดล ล้มเหลวในการแปลงสไตล์
- เนื่องจากคุณลักษณะแบบออโตรีเกรสซีฟ จึงมี แรงต้านต่อการเปลี่ยนสไตล์
- แทบไม่มีข้อจำกัดด้านลิขสิทธิ์ ทำให้สามารถสร้างตัวละครจากหลาย IP ให้อยู่ในฉากเดียวกันได้
- เช่น Mario, Mickey Mouse, Pikachu และ Optimus Prime ปรากฏอยู่ในคลับเดียวกัน
- มี ความเป็นไปได้ในการสร้างคอนเทนต์ NSFW และการกรองยังค่อนข้างหลวม
- ยังมีข้อจำกัดทางเทคนิคอยู่ เช่น การเรนเดอร์ข้อความที่ไม่สมบูรณ์ และ จุดอ่อนด้านการแปลงสไตล์
บทสรุปและความสำคัญ
- Nano Banana คือโมเดลที่ทำให้ การควบคุมภาพคุณภาพสูงผ่าน prompt engineering แบบละเอียด เป็นไปได้
- ด้วยความสามารถในการตีความ อินพุตแบบ HTML·JSON·กฎผสมที่ซับซ้อน จึงกำลังก้าวขึ้นมาเป็น แพลตฟอร์มทดลองใหม่ของการสร้างภาพ AI
- นี่เป็นกรณีศึกษาที่ใช้ตรวจสอบ ศักยภาพจริงและข้อจำกัดของการสร้างภาพ AI นอกเหนือจากภาพจำที่สาธารณะมีต่อ ChatGPT
- ผู้เขียนได้เผยแพร่พรอมป์ตทั้งหมดที่ใช้ทดลองและ Jupyter Notebook เพื่อให้เกิด การทำซ้ำได้และความโปร่งใส
- Nano Banana ถูกประเมินว่าเป็นตัวอย่างที่แสดง จุดเปลี่ยนสู่ยุคของวิศวกรรมภาพเชิงวิชวลที่ขับเคลื่อนด้วยพรอมป์ต
1 ความคิดเห็น
ความคิดเห็นใน Hacker News
การควบคุมผลลัพธ์ทำได้ง่ายขึ้นเรื่อย ๆ และตอนนี้ก็รักษาความสม่ำเสมอของตัวละคร แสง และแม้แต่ช่วงเวลาของวันในแต่ละฉากได้แล้ว
ตอนนี้ใช้ prompt layer 7 ขั้น ได้แก่ สภาพแวดล้อม·กล้อง·วัตถุ·องค์ประกอบภาพ·แสง·สี·คุณภาพ ซึ่งอาจจะเยอะไปหน่อยแต่กำลังทดลองอยู่
อีกอย่าง ฉันทำเครื่องมือแก้ไขง่าย ๆ ที่ให้วาด bounding box ลงบนภาพโดยตรงเพื่อสั่งแก้ไขได้ แล้วส่งภาพไปให้ Claude สร้างพรอมป์ต์สำหรับแก้ไขให้อัตโนมัติ
กระบวนการนี้ทำให้สร้าง pipeline สำหรับสร้างวิดีโอ GenAI ที่การเปลี่ยนผ่านระหว่างฉากดูเป็นธรรมชาติได้
เราก็กำลังพยายามรักษาความสม่ำเสมอของตัวละคร·ฉากหลัง·สไตล์อยู่ และมีหลายจุดที่คล้ายกับงานของคุณ
ถ้าสนใจก็ลองดูผลิตภัณฑ์ของเรา Hypernatural.ai ได้
ฉันเพิ่ม Gemini CLI เข้าไปและส่ง PR แล้ว ตอนนี้จึงรันได้ตามด้านล่าง
ผลลัพธ์อยู่ในคอมเมนต์นี้
อยากรู้ว่าทำเองด้วย HTML/CSS แบบลิงก์นี้ หรือมีเครื่องมืออัตโนมัติอย่าง amp-code อยู่แล้ว
ถ้าทำแบบนั้นก็น่าจะติดตั้ง CLI ได้ตรง ๆ ด้วย uv
โมเดลแก้ไขภาพจากจีนกำลังเข้าใกล้ระดับของ NanoBanana มากขึ้นเรื่อย ๆ และเพราะเป็นโอเพนซอร์สจึงทำงานจัดการภาพขั้นสูงที่อิง mask·kernel ได้
ทำ style transfer ด้วย LoRA ก็ได้ และน่าสนใจกว่าโมเดลอเมริกันแบบปิดมาก
ดูเหมือนว่าการดึงข้อมูลฝึกจาก Nano Banana มา distill เป็นโมเดลใหม่ก็น่าจะง่ายขึ้นด้วย
ด้วย context window 32,768 โทเค็น ของ Nano Banana ฉันเลยใช้ Mistral 7B แทรกใน pipeline สร้างภาพที่ซับซ้อนเพื่อทำพรอมป์ต์ดัดแปลง 4 แบบไว้ใช้
เรื่องที่บอกว่า style transfer ยังอ่อนนั้นก็จริง แต่ถ้าให้ภาพสองภาพพร้อมกันผลลัพธ์จะดีขึ้นอีกหน่อย
ภาพแรกใช้เป็นภาพต้นทาง ส่วนภาพที่สองใช้เป็น ภาพอ้างอิงสไตล์
ฉันก็ใช้วิธีนี้ในตัวอย่างพอร์ตโฟลิโอของฉันด้วย
สตรอว์เบอร์รี่อยู่ในเบ้าตาขวา (ซ้ายในภาพ) และแบล็กเบอร์รี่อยู่ฝั่งตรงข้าม
ดูเหมือนจะเป็นปัญหาที่เกิดจากคำบรรยายภาพส่วนใหญ่มักเขียนจากมุมมองของผู้สังเกต
ถ้าผู้ใช้ต้องการให้ใส่สตรอว์เบอร์รี่ในตาซ้ายของกะโหลก ก็น่าจะต้องระบุให้ชัดว่า “ตาซ้ายของมัน”
หลังจากนั้นพอใส่ในพรอมป์ต์ว่า “ซ้ายขวาให้ยึดตามมุมมองของตัวละคร” อัตราความสำเร็จก็สูงขึ้น
ผู้เขียนบอกว่า Nano Banana แก้ไขทุกอย่างได้อย่างแม่นยำ แต่จุดนี้ยังถกเถียงกันได้
ฉันคิดว่า “ตาขวา” ของกะโหลกควรถูกตีความตามมุมมองของกะโหลก
จากนั้นภาพที่สร้างออกมาก็จะไม่มีลายน้ำแล้ว
ฉันกำลังทำโปรเจกต์สร้างภาพละแวกบ้านของตัวเองในแบบภูมิทัศน์ศตวรรษที่ 18
ฉันโมเดลด้วย SketchUp และ Twinmotion แต่ทำภาพให้ดูสมจริงจริง ๆ ได้ยาก
ฉันลองใช้ตัวสร้างภาพ AI มาหลายตัว แต่ Nano Banana เป็นตัวแรกที่ใส่สไตล์ใหม่ได้พร้อมกับรักษาความสม่ำเสมอเชิงเรขาคณิตไว้
แค่พรอมป์ต์ง่าย ๆ อย่าง “ทำภาพนี้ให้เป็นภาพถ่าย” ก็ได้ผลลัพธ์น่าทึ่งแล้ว
แต่ถ้าใส่คำว่าศตวรรษที่ 18 ตรง ๆ บางทีก็จะออกมาเป็นภาพวาด เลยต้องอ้อมไปใช้คำอย่าง “ภาพถ่ายของถนนประวัติศาสตร์ที่ได้รับการอนุรักษ์”
ฉันยังทำโมเดลด้วยมือควบคู่กันอยู่ แต่ Nano Banana ทำให้แนวทางการทำโมเดลของฉันเปลี่ยนไป
ปัญหาหลายอย่างเกิดจากคนไม่สามารถอธิบายสิ่งที่ตัวเองต้องการได้ชัดเจน
prompt engineering คือทักษะในการจัดการกับความซับซ้อนของการสื่อสาร และทำให้เราตระหนักถึงช่องว่างระหว่างคำพูดกับความหมาย
มันเป็นอินเทอร์เฟซที่กำกวมและต่างจากภาษาโปรแกรม และ prompt engineering ก็คือทักษะใหม่ในการรับมือกับมัน
เพราะเป็นตัวละครที่ทำให้สมจริงยากแบบ Sonic เลยอยากรู้ว่าจะออกมาอย่างไร แต่ผลที่ได้มีแต่ภาพแนวดิจิทัลอาร์ต ไม่ใช่โฟโตรีอะลิสม์
เปลี่ยนคีย์เวิร์ดก็ยังเหมือนเดิม และใน ChatGPT ก็ทดสอบไม่ได้เพราะติดฟิลเตอร์ลิขสิทธิ์
ถึงอย่างนั้นก็ยังเป็นการลองที่น่าสนใจ
ฉันสั่งให้เปลี่ยนภาพบุคคลเป็นสไตล์ clay animation แต่แทบไม่เปลี่ยนอะไรเลย
แต่พอเพิ่มว่า “ทำให้ดูเด็กลง 10 ปี” จู่ ๆ ก็กลายเป็นเหมือนตุ๊กตาดินน้ำมัน
เช่น มันอาจเพิ่มเตาผิงหรือโรงรถเข้าไปในห้องทั้งที่ไม่ได้สั่งอะไรเลย
เรื่องนี้เกิดแม้ตั้งอุณหภูมิเป็น 0 จึงทำให้สร้าง แอปที่เชื่อถือได้ ได้ยาก
อยากรู้ว่ามีใครได้ประสบการณ์ที่ดีกว่านี้ไหม
ตัวพิมพ์ใหญ่อาจถูก tokenize ต่างออกไป ทำให้กลายเป็น อินพุตที่โมเดลเข้าใจยาก ก็ได้