Nano Banana Pro: โมเดลสร้างภาพบนพื้นฐาน Gemini 3 Pro จาก Google DeepMind

(blog.google)

11 คะแนน โดย GN⁺ 2025-11-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Nano Banana Pro คือ โมเดลสร้างและแก้ไขภาพ รุ่นล่าสุดจาก Google DeepMind ที่พัฒนาบนพื้นฐาน Gemini 3 Pro โดยมอบความสามารถในการถ่ายทอดไอเดียด้านภาพได้อย่างแม่นยำ
ด้วย การเรนเดอร์ข้อความที่ดีขึ้น และ การรองรับหลายภาษา จึงสามารถแทรกข้อความที่อ่านง่ายลงในภาพได้โดยตรง สำหรับโปสเตอร์ ม็อกอัป อินโฟกราฟิก และอื่น ๆ
รองรับ การรวมภาพได้สูงสุด 14 ภาพ, รักษาความสอดคล้องของบุคคลได้ 5 คน, และ รองรับความละเอียด 2K~4K เพื่อช่วยสร้างคอนเทนต์ภาพคุณภาพสูง
ผสานการทำงานเข้ากับผลิตภัณฑ์ต่าง ๆ ของ Google เช่น Google Ads, Workspace, แอป Gemini, AI Studio ทำให้ทั้งผู้บริโภค มืออาชีพ และนักพัฒนานำไปใช้งานได้
ใช้ ลายน้ำ SynthID เพื่อรับรองความโปร่งใสของภาพที่สร้างด้วย AI และมี ฟีเจอร์ระบุคอนเทนต์ AI ให้ใช้งานได้โดยตรงในแอป Gemini

ภาพรวมของ Nano Banana Pro

Nano Banana Pro เป็นโมเดลที่ใช้ ความสามารถด้านการให้เหตุผลและองค์ความรู้ของโลกจาก Gemini 3 Pro เพื่อสร้างภาพข้อมูลเชิงภาพได้อย่างละเอียดประณีต
- เป็นรุ่นอัปเกรดที่เปิดตัวต่อจาก Nano Banana (Gemini 2.5 Flash Image) รุ่นก่อนหน้า
- รองรับงานออกแบบหลากหลาย เช่น การคิดไอเดีย การทำข้อมูลให้เป็นภาพ และการแปลงโน้ตลายมือเป็นไดอะแกรม

ความสามารถหลัก

สร้างสื่อภาพได้อย่างแม่นยำและมีบริบทครบถ้วน
- ใช้ความสามารถด้านการให้เหตุผลขั้นสูงของ Gemini 3 เพื่อสร้างคอนเทนต์ที่อิงข้อเท็จจริง เช่น อินโฟกราฟิกเพื่อการศึกษาและไดอะแกรม
- สามารถเชื่อมต่อกับข้อมูลเรียลไทม์จาก Google Search เพื่อสร้างภาพข้อมูลแบบเรียลไทม์เกี่ยวกับ สภาพอากาศ กีฬา และสูตรอาหาร
การเรนเดอร์ข้อความหลายภาษา
- แสดงข้อความในภาพได้ ถูกต้องและอ่านง่าย พร้อมทั้ง แปลและปรับให้เหมาะกับท้องถิ่น ได้ในหลายภาษา
- เหมาะกับการสร้างโปสเตอร์หรือคอนเทนต์แบรนด์ โดยใช้ ฟอนต์ พื้นผิว และสไตล์ตัวอักษร ที่หลากหลาย
การแสดงผลภาพคุณภาพสูง
- รองรับ การรวมภาพได้สูงสุด 14 ภาพ และ รักษาความสอดคล้องของบุคคลได้ 5 คน สำหรับการสร้างภาพคอมโพสิตที่ซับซ้อน
- มีตัวควบคุมการแก้ไขอย่างละเอียด เช่น การแก้ไขเฉพาะจุด การปรับมุมกล้อง การแก้สี และการเปลี่ยนแสง
- รองรับ ความละเอียด 2K และ 4K และอัตราส่วนภาพหลากหลาย ทั้งสำหรับงานพิมพ์และแพลตฟอร์มดิจิทัล

สภาพแวดล้อมการใช้งาน

สำหรับผู้บริโภคและนักเรียน
- ใช้ Nano Banana Pro ได้ในฟีเจอร์ ‘Create images’ ของแอป Gemini
- ผู้ใช้ฟรีจะได้รับโควต้าการสร้างแบบจำกัด และหลังจากนั้นจะเปลี่ยนไปใช้ Nano Banana รุ่นพื้นฐาน
- ผู้สมัครสมาชิก Google AI Plus, Pro และ Ultra จะได้รับขีดจำกัดการสร้างที่สูงกว่า
สำหรับมืออาชีพ
- ฟีเจอร์สร้างภาพของ Google Ads ได้อัปเกรดเป็น Nano Banana Pro
- ใช้งานได้ใน Slides และ Vids ของ Google Workspace เช่นกัน
สำหรับนักพัฒนาและองค์กร
- รองรับการใช้งานเพิ่มเติมใน Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise และอื่น ๆ
สำหรับครีเอเตอร์
- ผ่านเครื่องมือ Flow ผู้สร้างวิดีโอและนักการตลาดสามารถควบคุมรายละเอียดได้อย่างละเอียดในระดับฉาก

การระบุภาพที่สร้างด้วย AI และความโปร่งใส

ภาพทั้งหมดที่สร้างด้วย Nano Banana Pro จะมี ลายน้ำดิจิทัล SynthID ฝังอยู่ เพื่อให้ตรวจสอบที่มาได้
- สามารถอัปโหลดภาพในแอป Gemini เพื่อตรวจสอบได้โดยตรงว่า “สร้างโดย Google AI หรือไม่”
- ภาพของผู้ใช้ฟรีและผู้ใช้ Pro จะมี ลายน้ำที่มองเห็นได้ (Gemini sparkle) เพิ่มเติม
- สมาชิก Ultra และเครื่องมือนักพัฒนา AI Studio จะได้รับแคนวาสสะอาดที่ไม่มีลายน้ำ
ในอนาคต SynthID มีแผนจะขยายไปยัง คอนเทนต์เสียงและวิดีโอ

เอกสารที่เกี่ยวข้อง

Build with Nano Banana Pro: แนะนำโมเดล Gemini 3 Pro Image สำหรับนักพัฒนา
Prompting Tips for Nano Banana Pro: คู่มือการเขียนพรอมป์อย่างมีประสิทธิภาพ
AI Image Verification in Gemini App: คำอธิบายฟีเจอร์ตรวจสอบภาพบนพื้นฐาน SynthID

ไม่มีข้อมูลเพิ่มเติมในต้นฉบับ

1 ความคิดเห็น

GN⁺ 2025-11-21

ความเห็นจาก Hacker News

สัปดาห์นี้ Google ให้ความรู้สึกเหมือนกำลังเคลื่อนไหวแบบ Godzilla
ผมลองผูกบัตรกับ AI Studio เป็นครั้งแรก แต่ขั้นตอนจ่ายเงินซับซ้อนเกินไป
ตั้งค่าทุกอย่างเสร็จแล้วก็ยังขึ้นข้อผิดพลาด “permission denied” ตลอด
ถ้าต้องลำบากขนาดนี้เพื่อจะจ่ายเงิน ต่อให้โมเดลดีแค่ไหนก็ไม่มีความหมาย
- ขออภัยที่มอบประสบการณ์ที่ไม่สะดวก
  ทีมกำลังเร่งปรับปรุงเพื่อให้เข้าถึงได้ง่ายขึ้น
  ตอนนี้กำลังเตรียม ระบบชำระเงินแบบฝังใน AI Studio เพื่อลดความฝืดในเรื่องการจ่ายเงิน และบอกว่ามีกำหนดเปิดทั่วโลกในเดือนมกราคม
- โดยรวมแล้ว Google API มีอุปสรรคในการเริ่มต้นสูงเกินไป
  บริการอื่นใช้แค่ API key เดียวก็จบ แต่ของ Google ต้องสร้างบัญชี → สร้างแอป → เปิดใช้บริการ → สร้าง OAuth app → ดาวน์โหลด JSON
- ถ้าแค่อยากใช้ API อย่างเดียว แนะนำ Nano-Banana-Pro ของ Fal.ai
  ขั้นตอนสมัครง่ายกว่ามากและมีโมเดล AI ให้เลือกหลากหลาย
- ผมเองก็ใช้แพ็กเกจเสียเงินของ Claude กับ OpenAI อยู่ แต่ Gemini จ่ายเงินยากจนแทบเริ่มลองไม่ได้
  แค่จะทดสอบธรรมดาแต่ต้องสร้างโปรเจกต์ GCP นี่เกินความจำเป็นไปมาก
- ความยุ่งยากมีมากถึงขั้นน่าจะมีโอกาสทางธุรกิจแค่เพียงทำ developer frontend ที่ดีกว่าสำหรับผลิตภัณฑ์ AI ของ Google
ผมทดสอบพรอมป์ต์ที่เกี่ยวกับการแก้ไขทั้งหมดใหม่ด้วย Nano Banana Pro
มันผ่านการทดสอบ SHRDLU, M&M Van Halen และ Scorpio Street
ดูผลลัพธ์ได้ที่นี่
NB Pro แสดงประสิทธิภาพที่ดีขึ้นจาก NB รุ่นเดิมอย่างชัดเจน
- ในการทดสอบแก้ไขยีราฟ ผลลัพธ์ของ NB Pro ดูดีกว่า Seedream แต่การประเมินกลับให้ผลตรงกันข้าม
  ดูเหมือนตัวการทดสอบเองจะไม่ค่อยเหมาะสม
- NB Pro ควรผ่านการทดสอบยีราฟ
  ผลลัพธ์อาจไม่สมบูรณ์แบบ แต่ก็ทำตามที่ขอได้
- การทดสอบ หอเอนปิซา น่าสนใจมาก
  พรอมป์ต์ที่ต้องใช้ความรู้ชัดเจนสามารถผ่านได้ แต่การทำให้วัตถุที่เอียงอยู่กลับมาตั้งตรงยังยากเหมือนเดิม
- ถ้าแสดงภาพต้นฉบับควบคู่กันทุกครั้งในแต่ละการทดสอบก็น่าจะเทียบได้ง่ายขึ้น
  การแสดงต้นฉบับกับผลลัพธ์พร้อมกันน่าจะเข้าใจง่ายกว่าการใช้สไลเดอร์
- เว็บไซต์นี้มีประโยชน์มาก อยากรู้ว่ามีแผนจะทำ benchmark แบบ text-to-image ด้วย NB Pro หรือไม่
ผมทำ การวิเคราะห์ prompt engineering ของ Nano Banana มาหลายเดือน แล้ว Google ก็ปล่อยเวอร์ชันใหม่ออกมา
โมเดลใหม่นี้ใช้งานได้ทันทีใน แพ็กเกจ gemimg
แต่ราคาค่อนข้างแพง เลยตั้งเป็นโมเดลเริ่มต้นได้ยาก
ตามเอกสาร โมเดลจะสร้าง ภาพกลางระหว่างทาง (ขั้น Thinking) ได้สูงสุดสองภาพ
นี่อาจเป็นสาเหตุที่ทำให้ต้นทุนสูงขึ้น
- ตัวอย่างพรอมป์ต์ “ตาซ้ายเป็นสตรอว์เบอร์รี ตาขวาเป็นแบล็กเบอร์รี” น่าสนใจดี
  โมเดลตีความซ้ายขวาตามมุมมองของผู้สังเกต ทำให้วางผิดตำแหน่ง
  ข้อผิดพลาดของคำสั่งเชิงสัมพัทธ์ แบบนี้เป็นปัญหาที่พบได้บ่อยในวงการแพทย์ด้วย
  ลิงก์ตัวอย่างที่เกี่ยวข้อง
- คู่มือ Nano Banana ของ Max ยังใช้ได้อยู่
  พรอมป์ต์ส่วนใหญ่ยังทำงานได้ดีใน NB Pro เช่นกัน
  ลิงก์คู่มือ
  ผลการทดลองของผมก็แชร์ไว้ด้วย
- ค่าใช้จ่ายต่อภาพอินพุตคือ $0.0011 ไม่ใช่ $0.06
- มีการปล่อย gemimg เวอร์ชัน 0.3.2 แล้ว และข้อผิดพลาดของภาพส่วนใหญ่ใน NB Pro ถูกแก้ไขแล้ว
  “การแปลงเป็นสไตล์ Studio Ghibli” แม่นยำกว่า ChatGPT มาก
  แต่บางครั้งภาพที่สมจริงเกินไปก็หลุดไปสู่ uncanny valley ได้เหมือนกัน
- wrapper ของ gemimg ยังมีประโยชน์อยู่
  ทำให้รู้สึกอีกครั้งว่าการออกแบบเครื่องมือที่ ยืดหยุ่นและปรับตัวได้ สำคัญมากในการรับมือกับการเปลี่ยนแปลงทางเทคโนโลยี
ความสามารถในการ สร้างอินโฟกราฟิกทั้งชิ้น จากพรอมป์ต์สั้น ๆ น่าทึ่งมาก
ผมลองขอ “วิธีการทำงานของโปรเจกต์ Datasette” แล้วได้ผลลัพธ์ที่สมบูรณ์มาก
ลิงก์ผลลัพธ์
- ฟีเจอร์นี้อาจเปลี่ยนโฉมฟังก์ชัน สร้างใบปลิวงานอีเวนต์ ใน SaaS ได้แบบพลิกวงการ
  ตอนนี้ยังต้องเรนเดอร์ข้อความแยกต่างหาก แต่จากนี้อาจทำได้ในครั้งเดียว
- แต่มันยังหา Middle C บนคีย์บอร์ดเปียโนไม่เจอ
  ดู ภาพผลลัพธ์ ได้
- แม้แต่โปรเจกต์ที่แทบไม่มีข้อมูลอย่าง player.html มันก็ยังสร้างอินโฟกราฟิกได้ดี
  ลิงก์ GitHub
  และยังแปลงเป็นฟอร์แมตสี่เหลี่ยมจัตุรัสสำหรับ Instagram ให้อัตโนมัติด้วย
- อยากรู้ว่าอินโฟกราฟิกของ Datasette ตรงกับวิธีการทำงานจริงหรือเปล่า
ภาพ AI ไม่ได้สร้าง artifact แบบเห็นชัดอีกต่อไปแล้ว แต่ก็ยังดูออกว่าเป็น AI จากเรื่องสไตล์
โดยเฉพาะอินโฟกราฟิกยังแยกออกจากงานที่มนุษย์ทำได้
มันดูเหมือนผลจากการที่บางชุดข้อมูลถูกแทนมากเกินไป
- มนุษย์ไวต่อความแตกต่างทางภาพเล็กน้อยมาก
  โมเดลที่ฝึกจากค่าเฉลี่ยจะสร้าง “พื้นที่ภาพแบบค่าเฉลี่ย” ขึ้นมา
  ดู ตัวอย่างที่เกี่ยวข้อง แล้วจะเห็นว่าการปรับจูนละเอียดช่วยให้ได้ผลลัพธ์ที่สมจริงขึ้นได้
- ไม่ใช่แค่ปัญหาเรื่องข้อมูลอย่างเดียว
  บางโมเดลจงใจ ลบสไตล์ ออกจนทำให้รู้สึกประดิษฐ์
  โมเดลเปิดสามารถปรับละเอียดด้วย LoRA ได้ แต่โมเดลปิดทำได้ยาก ซึ่งนี่แหละคือปัญหา
- โมเดลส่วนใหญ่เรียนรู้จากข้อมูลทั้งเว็บ จึงให้ ผลลัพธ์เฉลี่ยที่คาดเดาได้
  ถ้าอยากได้ภาพที่แปลกใหม่จริง ๆ พรอมป์ต์เองก็ต้องสร้างสรรค์มากขึ้น
- ยังมีข้อผิดพลาดเล็ก ๆ อยู่ในเรื่องพื้นผิว สัดส่วน แสง และอื่น ๆ
  เพราะแบบนี้ ความสามารถด้านการแก้ไขภาพ จึงถูกมองว่าเป็นโจทย์ถัดไป
- โมเดลที่ปรับละเอียดด้วยฟีดแบ็กจากมนุษย์เรียนรู้ “รสนิยมเฉลี่ย” จนสูญเสียเอกลักษณ์
  โมเดลยุคแรกคุณภาพอาจต่ำกว่า แต่กลับให้ผลลัพธ์ที่น่าสนใจกว่า
SynthID เป็นก้าวแรกที่ดี แต่ก็มีข้อจำกัดตรงที่ไม่สามารถแยกคอนเทนต์ AI ที่ไม่มีวอเตอร์มาร์กได้
บริษัทขนาดใหญ่ควรนำตัวระบุแบบมาตรฐานมาใช้
- ผมคิดว่าการที่รัฐบาลบังคับวอเตอร์มาร์กเป็นเรื่องอันตราย
  ถ้า Photoshop เคยถูกกำกับแบบนั้น ความคิดสร้างสรรค์คงถูกจำกัดไปมาก
- Apple ดูมีแววว่าสักวันจะออกฟีเจอร์อย่าง “Real Photos”
  เอาไว้พิสูจน์ว่าภาพถ่ายมาจากกล้องจริง และแสดงเครื่องหมายยืนยันใน iMessage อะไรทำนองนั้น
- เหตุผลที่บริษัทต่าง ๆ ใช้วอเตอร์มาร์กก็เพื่อ จัดการการนำข้อมูลไปฝึกซ้ำ
  สุดท้ายแล้วโมเดลเชิงพาณิชย์หลัก ๆ ก็น่าจะบังคับใช้วอเตอร์มาร์กเป็นค่าเริ่มต้น
- ถ้ามีตัวระบุมาตรฐาน ก็จะมีซอฟต์แวร์สำหรับลบมันออกตามมา
  มันจะกลายเป็น เกมแมวจับหนู ที่ไม่มีวันจบ
- มี โปรเจกต์ C2PA ที่พยายามแก้ปัญหานี้อยู่
นักแอนิเมชัน 2D ยังพอวางใจได้ในตอนนี้
ผมลองสร้างสไปรต์ชีตแล้วพบว่ามันแค่ทำซ้ำเฟรมแบบง่าย ๆ แต่ยังสร้าง การเคลื่อนไหวช่วงกลางอย่างเป็นธรรมชาติ (interpolation) ไม่ได้
รวมลิงก์ข้อมูลทางการ
Developer Blog
DeepMind Page
Model Card PDF
แนะนำ SynthID
โมเดลนี้เป็นโมเดลสร้างภาพตัวแรกที่ผ่าน การทดสอบเปียโน ของผม
มันทำซ้ำแพตเทิร์นคีย์ดำในแต่ละอ็อกเทฟได้อย่างถูกต้อง
โมเดลก่อนหน้านี้มักแสดงการจัดเรียงคีย์ผิดเสมอ
- แต่ถ้าออกนอกมาตรฐาน 88 คีย์ก็ยังผิดพลาดเยอะอยู่
  แม้แต่คำขอให้ระบายสีโน้ตบางตัวก็ยังทำแบบสุ่ม
  เปียโนเป็นวัตถุมาตรฐานที่น่าจะมีข้อมูลฝึกเยอะ แต่ก็ยังเข้าใจไม่พอ
- การคงรูปแบบซ้ำ ๆ ให้ต่อเนื่องในระยะยาวเป็นเรื่องยาก
  การรักษาความสอดคล้องตลอด 88 คีย์ได้นับว่าน่าประทับใจ
ตอนนี้โมเดลสามารถ เรนเดอร์ข้อความในภาพได้อย่างเป็นธรรมชาติ แล้ว
ฟีเจอร์ที่เมื่อก่อนเป็นไปไม่ได้ ตอนนี้กลับให้ความรู้สึกเหมือนเป็นพื้นฐานไปแล้ว
- ผมก็เห็นด้วย แต่ในงานอย่าง การสร้างไอคอน ซึ่งอยู่กึ่งกลางระหว่างภาพกับโค้ด มันยังอ่อนอยู่
  งานออกแบบละเอียดอย่างเส้นโค้ง ระยะห่าง และสมดุล ยังเหมาะให้มนุษย์ทำเองมากกว่า

Nano Banana Pro: โมเดลสร้างภาพบนพื้นฐาน Gemini 3 Pro จาก Google DeepMind

ภาพรวมของ Nano Banana Pro

ความสามารถหลัก

สภาพแวดล้อมการใช้งาน

การระบุภาพที่สร้างด้วย AI และความโปร่งใส

เอกสารที่เกี่ยวข้อง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News