- Nano Banana Pro คือ โมเดลสร้างและแก้ไขภาพ รุ่นล่าสุดจาก Google DeepMind ที่พัฒนาบนพื้นฐาน Gemini 3 Pro โดยมอบความสามารถในการถ่ายทอดไอเดียด้านภาพได้อย่างแม่นยำ
- ด้วย การเรนเดอร์ข้อความที่ดีขึ้น และ การรองรับหลายภาษา จึงสามารถแทรกข้อความที่อ่านง่ายลงในภาพได้โดยตรง สำหรับโปสเตอร์ ม็อกอัป อินโฟกราฟิก และอื่น ๆ
- รองรับ การรวมภาพได้สูงสุด 14 ภาพ, รักษาความสอดคล้องของบุคคลได้ 5 คน, และ รองรับความละเอียด 2K~4K เพื่อช่วยสร้างคอนเทนต์ภาพคุณภาพสูง
- ผสานการทำงานเข้ากับผลิตภัณฑ์ต่าง ๆ ของ Google เช่น Google Ads, Workspace, แอป Gemini, AI Studio ทำให้ทั้งผู้บริโภค มืออาชีพ และนักพัฒนานำไปใช้งานได้
- ใช้ ลายน้ำ SynthID เพื่อรับรองความโปร่งใสของภาพที่สร้างด้วย AI และมี ฟีเจอร์ระบุคอนเทนต์ AI ให้ใช้งานได้โดยตรงในแอป Gemini
ภาพรวมของ Nano Banana Pro
- Nano Banana Pro เป็นโมเดลที่ใช้ ความสามารถด้านการให้เหตุผลและองค์ความรู้ของโลกจาก Gemini 3 Pro เพื่อสร้างภาพข้อมูลเชิงภาพได้อย่างละเอียดประณีต
- เป็นรุ่นอัปเกรดที่เปิดตัวต่อจาก Nano Banana (Gemini 2.5 Flash Image) รุ่นก่อนหน้า
- รองรับงานออกแบบหลากหลาย เช่น การคิดไอเดีย การทำข้อมูลให้เป็นภาพ และการแปลงโน้ตลายมือเป็นไดอะแกรม
ความสามารถหลัก
- สร้างสื่อภาพได้อย่างแม่นยำและมีบริบทครบถ้วน
- ใช้ความสามารถด้านการให้เหตุผลขั้นสูงของ Gemini 3 เพื่อสร้างคอนเทนต์ที่อิงข้อเท็จจริง เช่น อินโฟกราฟิกเพื่อการศึกษาและไดอะแกรม
- สามารถเชื่อมต่อกับข้อมูลเรียลไทม์จาก Google Search เพื่อสร้างภาพข้อมูลแบบเรียลไทม์เกี่ยวกับ สภาพอากาศ กีฬา และสูตรอาหาร
- การเรนเดอร์ข้อความหลายภาษา
- แสดงข้อความในภาพได้ ถูกต้องและอ่านง่าย พร้อมทั้ง แปลและปรับให้เหมาะกับท้องถิ่น ได้ในหลายภาษา
- เหมาะกับการสร้างโปสเตอร์หรือคอนเทนต์แบรนด์ โดยใช้ ฟอนต์ พื้นผิว และสไตล์ตัวอักษร ที่หลากหลาย
- การแสดงผลภาพคุณภาพสูง
- รองรับ การรวมภาพได้สูงสุด 14 ภาพ และ รักษาความสอดคล้องของบุคคลได้ 5 คน สำหรับการสร้างภาพคอมโพสิตที่ซับซ้อน
- มีตัวควบคุมการแก้ไขอย่างละเอียด เช่น การแก้ไขเฉพาะจุด การปรับมุมกล้อง การแก้สี และการเปลี่ยนแสง
- รองรับ ความละเอียด 2K และ 4K และอัตราส่วนภาพหลากหลาย ทั้งสำหรับงานพิมพ์และแพลตฟอร์มดิจิทัล
สภาพแวดล้อมการใช้งาน
- สำหรับผู้บริโภคและนักเรียน
- ใช้ Nano Banana Pro ได้ในฟีเจอร์ ‘Create images’ ของแอป Gemini
- ผู้ใช้ฟรีจะได้รับโควต้าการสร้างแบบจำกัด และหลังจากนั้นจะเปลี่ยนไปใช้ Nano Banana รุ่นพื้นฐาน
- ผู้สมัครสมาชิก Google AI Plus, Pro และ Ultra จะได้รับขีดจำกัดการสร้างที่สูงกว่า
- สำหรับมืออาชีพ
- ฟีเจอร์สร้างภาพของ Google Ads ได้อัปเกรดเป็น Nano Banana Pro
- ใช้งานได้ใน Slides และ Vids ของ Google Workspace เช่นกัน
- สำหรับนักพัฒนาและองค์กร
- รองรับการใช้งานเพิ่มเติมใน Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise และอื่น ๆ
- สำหรับครีเอเตอร์
- ผ่านเครื่องมือ Flow ผู้สร้างวิดีโอและนักการตลาดสามารถควบคุมรายละเอียดได้อย่างละเอียดในระดับฉาก
การระบุภาพที่สร้างด้วย AI และความโปร่งใส
- ภาพทั้งหมดที่สร้างด้วย Nano Banana Pro จะมี ลายน้ำดิจิทัล SynthID ฝังอยู่ เพื่อให้ตรวจสอบที่มาได้
- สามารถอัปโหลดภาพในแอป Gemini เพื่อตรวจสอบได้โดยตรงว่า “สร้างโดย Google AI หรือไม่”
- ภาพของผู้ใช้ฟรีและผู้ใช้ Pro จะมี ลายน้ำที่มองเห็นได้ (Gemini sparkle) เพิ่มเติม
- สมาชิก Ultra และเครื่องมือนักพัฒนา AI Studio จะได้รับแคนวาสสะอาดที่ไม่มีลายน้ำ
- ในอนาคต SynthID มีแผนจะขยายไปยัง คอนเทนต์เสียงและวิดีโอ
เอกสารที่เกี่ยวข้อง
- Build with Nano Banana Pro: แนะนำโมเดล Gemini 3 Pro Image สำหรับนักพัฒนา
- Prompting Tips for Nano Banana Pro: คู่มือการเขียนพรอมป์อย่างมีประสิทธิภาพ
- AI Image Verification in Gemini App: คำอธิบายฟีเจอร์ตรวจสอบภาพบนพื้นฐาน SynthID
ไม่มีข้อมูลเพิ่มเติมในต้นฉบับ
1 ความคิดเห็น
ความเห็นจาก Hacker News
สัปดาห์นี้ Google ให้ความรู้สึกเหมือนกำลังเคลื่อนไหวแบบ Godzilla
ผมลองผูกบัตรกับ AI Studio เป็นครั้งแรก แต่ขั้นตอนจ่ายเงินซับซ้อนเกินไป
ตั้งค่าทุกอย่างเสร็จแล้วก็ยังขึ้นข้อผิดพลาด “permission denied” ตลอด
ถ้าต้องลำบากขนาดนี้เพื่อจะจ่ายเงิน ต่อให้โมเดลดีแค่ไหนก็ไม่มีความหมาย
ทีมกำลังเร่งปรับปรุงเพื่อให้เข้าถึงได้ง่ายขึ้น
ตอนนี้กำลังเตรียม ระบบชำระเงินแบบฝังใน AI Studio เพื่อลดความฝืดในเรื่องการจ่ายเงิน และบอกว่ามีกำหนดเปิดทั่วโลกในเดือนมกราคม
บริการอื่นใช้แค่ API key เดียวก็จบ แต่ของ Google ต้องสร้างบัญชี → สร้างแอป → เปิดใช้บริการ → สร้าง OAuth app → ดาวน์โหลด JSON
ขั้นตอนสมัครง่ายกว่ามากและมีโมเดล AI ให้เลือกหลากหลาย
แค่จะทดสอบธรรมดาแต่ต้องสร้างโปรเจกต์ GCP นี่เกินความจำเป็นไปมาก
ผมทดสอบพรอมป์ต์ที่เกี่ยวกับการแก้ไขทั้งหมดใหม่ด้วย Nano Banana Pro
มันผ่านการทดสอบ SHRDLU, M&M Van Halen และ Scorpio Street
ดูผลลัพธ์ได้ที่นี่
NB Pro แสดงประสิทธิภาพที่ดีขึ้นจาก NB รุ่นเดิมอย่างชัดเจน
ดูเหมือนตัวการทดสอบเองจะไม่ค่อยเหมาะสม
ผลลัพธ์อาจไม่สมบูรณ์แบบ แต่ก็ทำตามที่ขอได้
พรอมป์ต์ที่ต้องใช้ความรู้ชัดเจนสามารถผ่านได้ แต่การทำให้วัตถุที่เอียงอยู่กลับมาตั้งตรงยังยากเหมือนเดิม
การแสดงต้นฉบับกับผลลัพธ์พร้อมกันน่าจะเข้าใจง่ายกว่าการใช้สไลเดอร์
ผมทำ การวิเคราะห์ prompt engineering ของ Nano Banana มาหลายเดือน แล้ว Google ก็ปล่อยเวอร์ชันใหม่ออกมา
โมเดลใหม่นี้ใช้งานได้ทันทีใน แพ็กเกจ gemimg
แต่ราคาค่อนข้างแพง เลยตั้งเป็นโมเดลเริ่มต้นได้ยาก
ตามเอกสาร โมเดลจะสร้าง ภาพกลางระหว่างทาง (ขั้น Thinking) ได้สูงสุดสองภาพ
นี่อาจเป็นสาเหตุที่ทำให้ต้นทุนสูงขึ้น
โมเดลตีความซ้ายขวาตามมุมมองของผู้สังเกต ทำให้วางผิดตำแหน่ง
ข้อผิดพลาดของคำสั่งเชิงสัมพัทธ์ แบบนี้เป็นปัญหาที่พบได้บ่อยในวงการแพทย์ด้วย
ลิงก์ตัวอย่างที่เกี่ยวข้อง
พรอมป์ต์ส่วนใหญ่ยังทำงานได้ดีใน NB Pro เช่นกัน
ลิงก์คู่มือ
ผลการทดลองของผมก็แชร์ไว้ด้วย
“การแปลงเป็นสไตล์ Studio Ghibli” แม่นยำกว่า ChatGPT มาก
แต่บางครั้งภาพที่สมจริงเกินไปก็หลุดไปสู่ uncanny valley ได้เหมือนกัน
ทำให้รู้สึกอีกครั้งว่าการออกแบบเครื่องมือที่ ยืดหยุ่นและปรับตัวได้ สำคัญมากในการรับมือกับการเปลี่ยนแปลงทางเทคโนโลยี
ความสามารถในการ สร้างอินโฟกราฟิกทั้งชิ้น จากพรอมป์ต์สั้น ๆ น่าทึ่งมาก
ผมลองขอ “วิธีการทำงานของโปรเจกต์ Datasette” แล้วได้ผลลัพธ์ที่สมบูรณ์มาก
ลิงก์ผลลัพธ์
ตอนนี้ยังต้องเรนเดอร์ข้อความแยกต่างหาก แต่จากนี้อาจทำได้ในครั้งเดียว
ดู ภาพผลลัพธ์ ได้
ลิงก์ GitHub
และยังแปลงเป็นฟอร์แมตสี่เหลี่ยมจัตุรัสสำหรับ Instagram ให้อัตโนมัติด้วย
ภาพ AI ไม่ได้สร้าง artifact แบบเห็นชัดอีกต่อไปแล้ว แต่ก็ยังดูออกว่าเป็น AI จากเรื่องสไตล์
โดยเฉพาะอินโฟกราฟิกยังแยกออกจากงานที่มนุษย์ทำได้
มันดูเหมือนผลจากการที่บางชุดข้อมูลถูกแทนมากเกินไป
โมเดลที่ฝึกจากค่าเฉลี่ยจะสร้าง “พื้นที่ภาพแบบค่าเฉลี่ย” ขึ้นมา
ดู ตัวอย่างที่เกี่ยวข้อง แล้วจะเห็นว่าการปรับจูนละเอียดช่วยให้ได้ผลลัพธ์ที่สมจริงขึ้นได้
บางโมเดลจงใจ ลบสไตล์ ออกจนทำให้รู้สึกประดิษฐ์
โมเดลเปิดสามารถปรับละเอียดด้วย LoRA ได้ แต่โมเดลปิดทำได้ยาก ซึ่งนี่แหละคือปัญหา
ถ้าอยากได้ภาพที่แปลกใหม่จริง ๆ พรอมป์ต์เองก็ต้องสร้างสรรค์มากขึ้น
เพราะแบบนี้ ความสามารถด้านการแก้ไขภาพ จึงถูกมองว่าเป็นโจทย์ถัดไป
โมเดลยุคแรกคุณภาพอาจต่ำกว่า แต่กลับให้ผลลัพธ์ที่น่าสนใจกว่า
SynthID เป็นก้าวแรกที่ดี แต่ก็มีข้อจำกัดตรงที่ไม่สามารถแยกคอนเทนต์ AI ที่ไม่มีวอเตอร์มาร์กได้
บริษัทขนาดใหญ่ควรนำตัวระบุแบบมาตรฐานมาใช้
ถ้า Photoshop เคยถูกกำกับแบบนั้น ความคิดสร้างสรรค์คงถูกจำกัดไปมาก
เอาไว้พิสูจน์ว่าภาพถ่ายมาจากกล้องจริง และแสดงเครื่องหมายยืนยันใน iMessage อะไรทำนองนั้น
สุดท้ายแล้วโมเดลเชิงพาณิชย์หลัก ๆ ก็น่าจะบังคับใช้วอเตอร์มาร์กเป็นค่าเริ่มต้น
มันจะกลายเป็น เกมแมวจับหนู ที่ไม่มีวันจบ
นักแอนิเมชัน 2D ยังพอวางใจได้ในตอนนี้
ผมลองสร้างสไปรต์ชีตแล้วพบว่ามันแค่ทำซ้ำเฟรมแบบง่าย ๆ แต่ยังสร้าง การเคลื่อนไหวช่วงกลางอย่างเป็นธรรมชาติ (interpolation) ไม่ได้
รวมลิงก์ข้อมูลทางการ
Developer Blog
DeepMind Page
Model Card PDF
แนะนำ SynthID
โมเดลนี้เป็นโมเดลสร้างภาพตัวแรกที่ผ่าน การทดสอบเปียโน ของผม
มันทำซ้ำแพตเทิร์นคีย์ดำในแต่ละอ็อกเทฟได้อย่างถูกต้อง
โมเดลก่อนหน้านี้มักแสดงการจัดเรียงคีย์ผิดเสมอ
แม้แต่คำขอให้ระบายสีโน้ตบางตัวก็ยังทำแบบสุ่ม
เปียโนเป็นวัตถุมาตรฐานที่น่าจะมีข้อมูลฝึกเยอะ แต่ก็ยังเข้าใจไม่พอ
การรักษาความสอดคล้องตลอด 88 คีย์ได้นับว่าน่าประทับใจ
ตอนนี้โมเดลสามารถ เรนเดอร์ข้อความในภาพได้อย่างเป็นธรรมชาติ แล้ว
ฟีเจอร์ที่เมื่อก่อนเป็นไปไม่ได้ ตอนนี้กลับให้ความรู้สึกเหมือนเป็นพื้นฐานไปแล้ว
งานออกแบบละเอียดอย่างเส้นโค้ง ระยะห่าง และสมดุล ยังเหมาะให้มนุษย์ทำเองมากกว่า