- ผสานฟีเจอร์ขั้นสูงของ Nano Banana Pro เข้ากับความเร็วของ Gemini Flash ทำให้สามารถ สร้างภาพและวนรอบการแก้ไขได้อย่างรวดเร็ว
- มอบความสามารถระดับโปรด้วยความเร็วสูง เช่น การเรนเดอร์บนฐานความรู้ของโลก, การแสดงผลและการแปลข้อความอย่างแม่นยำ, การรักษาความสอดคล้องของวัตถุหรือหัวข้อ, รองรับความละเอียด 4K
- นำไปใช้ครอบคลุมทั่วทั้งแอปของ Google: แอป Gemini, Search, AI Studio และ Gemini API, Flow, Google Ads เป็นต้น
- ผสาน SynthID กับ C2PA Content Credentials เพื่อเสริมความสามารถในการ ระบุและตรวจสอบที่มาของคอนเทนต์ที่สร้างโดย AI
- Google กำลังพัฒนา Nano Banana 2 ไปในทิศทางที่ช่วยยกระดับทั้ง ความน่าเชื่อถือ และ การนำไปใช้งานจริง ของสื่อเชิงกำเนิด
ภาพรวมของ Nano Banana 2
- Nano Banana 2 (Gemini 3.1 Flash Image) ที่ Google DeepMind เปิดตัว เป็นโมเดลที่รวมความสามารถขั้นสูงของ Nano Banana Pro เข้ากับความเร็วของ Gemini Flash
- โมเดลก่อนหน้าอย่าง Nano Banana ได้รับความสนใจจากการนิยามวิธีสร้างและแก้ไขภาพขึ้นมาใหม่ ส่วน Nano Banana Pro มอบความสามารถในการควบคุมระดับสตูดิโอ
- เวอร์ชันนี้รวมจุดเด่นของทั้งสองโมเดลเข้าด้วยกัน ทำให้ได้ทั้ง การสร้างภาพคุณภาพสูง และ ความเร็วในการประมวลผลที่รวดเร็ว พร้อมกัน
- Nano Banana 2 มีจุดเด่นด้าน ความรู้โลกขั้นสูง, การเรนเดอร์ข้อความอย่างแม่นยำ, ความสอดคล้องของวัตถุหรือหัวข้อ, และ รองรับสเปกสำหรับงานโปรดักชัน
ความฉลาดและคุณภาพภาพระดับ Flash
- Nano Banana 2 นำ ความฉลาดความเร็วสูงของ Gemini Flash มาใช้กับการสร้างภาพ เพื่อรองรับการแก้ไขและการทำงานแบบวนซ้ำได้อย่างรวดเร็ว
- ความรู้โลกขั้นสูง: ใช้ข้อมูลแบบเรียลไทม์ของ Gemini และข้อมูลจากภาพบนเว็บเพื่อถ่ายทอดหัวข้อเฉพาะได้แม่นยำยิ่งขึ้น
- ทำให้สามารถสร้าง อินโฟกราฟิก, ไดอะแกรม, การแสดงข้อมูลเป็นภาพ ได้
- ด้วยความสามารถด้าน การเรนเดอร์และการแปลข้อความอย่างแม่นยำ จึงสามารถสร้างข้อความที่คมชัดสำหรับม็อกอัปทางการตลาดหรือการทำการ์ด และแปลหรือโลคัลไลซ์ข้อความภายในภาพได้
ความสามารถในการควบคุมเชิงสร้างสรรค์ที่ดีขึ้น
- Nano Banana 2 ลดช่องว่างระหว่างความเร็วกับความสมจริงของภาพ ทำให้สร้าง ภาพคุณภาพสูงและสมจริง ได้อย่างรวดเร็ว
- ความสอดคล้องของวัตถุหรือหัวข้อ: รักษาความสม่ำเสมอของตัวละครได้สูงสุด 5 ตัวและวัตถุ 14 ชิ้นภายในเวิร์กโฟลว์เดียวกัน
- ทำตามคำสั่งได้แม่นยำ: ถ่ายทอดรายละเอียดและนัยสำคัญของคำขอที่ซับซ้อนได้อย่างครบถ้วน
- สเปกสำหรับงานโปรดักชัน: รองรับความละเอียดตั้งแต่ 512px ถึง 4K และอัตราส่วนหลากหลาย ตั้งแต่โพสต์โซเชียลไปจนถึงภาพพื้นหลังแบบกว้าง
- อัปเกรดความสมจริงของภาพ: ให้พื้นผิว แสง และรายละเอียดที่สมบูรณ์ยิ่งขึ้น
การผสานเข้ากับผลิตภัณฑ์และการเข้าถึง
- Nano Banana 2 กำลังทยอยนำไปใช้ทั่วทั้ง Google
- แอป Gemini: Nano Banana 2 ถูกรวมมาเป็นค่าเริ่มต้นในโมเดล Fast, Thinking และ Pro ขณะที่ผู้สมัครสมาชิก Pro และ Ultra ยังสามารถใช้โมเดล Pro ต่อได้
- Search: ใช้งานได้บนมือถือและเดสก์ท็อปผ่าน AI Mode และ Lens พร้อมรองรับเพิ่มอีก 141 ประเทศและ 8 ภาษา
- AI Studio และ Gemini API: เปิดให้ใช้ในเวอร์ชันพรีวิว และใช้งานได้บน Vertex AI ด้วย
- Flow: ตั้งเป็นโมเดลสร้างภาพพื้นฐานที่เปิดให้ผู้ใช้ทุกคนใช้ฟรี
- Google Ads: นำไปใช้กับฟีเจอร์แนะนำภาพระหว่างสร้างแคมเปญโฆษณา
การตรวจสอบแหล่งที่มาและการเสริมความน่าเชื่อถือ
- Google ผสาน SynthID เข้ากับ C2PA Content Credentials เพื่อเพิ่มความน่าเชื่อถือของสื่อเชิงกำเนิด
- การผสานนี้ช่วยให้ทราบไม่เพียงแค่ว่ามีการใช้ AI หรือไม่ แต่ยังให้ ข้อมูลบริบทเกี่ยวกับวิธีที่ AI ถูกนำมาใช้ ด้วย
- ฟังก์ชันตรวจสอบของ SynthID ถูกใช้งานไปแล้วมากกว่า 20 ล้านครั้งนับตั้งแต่เปิดตัว และถูกใช้ระบุภาพ วิดีโอ และเสียงที่สร้างโดย AI
- เร็ว ๆ นี้ แอป Gemini จะเพิ่มความสามารถในการตรวจสอบแบบ C2PA ด้วย
สรุป
- Nano Banana 2 คือโมเดลสร้างภาพรุ่นล่าสุดของ Google ที่มีครบทั้ง ความเร็ว ความแม่นยำ และคุณภาพ
- ด้วยการผสานเข้ากับระบบนิเวศของ Gemini อย่างทั่วถึง จึงเปิดโอกาสให้ นักพัฒนา นักออกแบบ และนักการตลาด นำไปใช้ได้ทันที
- เป็นตัวอย่างของพัฒนาการเชิงกลยุทธ์ของ Google ที่มุ่งทั้ง ความโปร่งใสของคอนเทนต์ AI และ การยกระดับผลิตภาพเชิงสร้างสรรค์ ไปพร้อมกัน
1 ความคิดเห็น
ความเห็นจาก Hacker News
ลองคาดการณ์บางอย่างเกี่ยวกับผลกระทบที่เครื่องมือสร้างภาพด้วย AI จะมีต่อศิลปะ
เมื่อเทคโนโลยีพัฒนาไป แม้แต่ “รสนิยม” ก็อาจแก้ได้ด้วยเทคนิค ตอนนี้คนยังบอกว่า AI “ไม่คูล” แต่ก็น่าจะเป็นแค่ปัญหาในช่วงพัฒนาการเท่านั้น
เหมือนกรณีของ SpaceX การใช้เป้าหมายที่ยังทำไม่สำเร็จมาเป็นเหตุผลเพื่อลดค่าภาพรวมทั้งหมดถือเป็นคำวิจารณ์ที่ผิด
ผมคิดว่าเทรนด์ถัดไปน่าจะเป็น ‘emergent design’ มากกว่า ตัวอย่างเช่น Czinger แสดงให้เห็นแนวทางการค้นหารูปทรงผ่านการเพิ่มประสิทธิภาพเชิงความน่าจะเป็น
ตัวอย่างเช่น ต่อให้ Sora สร้างวิดีโอฟุตบอลที่สมบูรณ์แบบได้ แฟน ๆ ก็ยังจะดูการแข่งขันจริงอยู่ดี เหตุผลที่เราชื่นชมศิลปะคือ ความเชื่อมโยงทางอารมณ์ ที่มันเป็นสิ่งซึ่งมนุษย์สร้างขึ้น
เพราะงั้นผมเลยอยากถามคนที่บอกว่า “AI art เท่ดี” — “แล้วศิลปะมีไว้เพื่ออะไร?”
ผมเห็นงานเจ๋ง ๆ ที่ศิลปินจริงใช้ AI ทำมาแล้วมากมาย และก็ตื่นเต้นว่าจะมีการทดลองสร้างสรรค์อะไรออกมาจากเครื่องมือนี้อีก
ตอนนี้กำลังสร้างบ้านอยู่ และโมเดลภาพของ Nano Banana เปลี่ยนเกมในกระบวนการออกแบบไปเลย
เรนเดอร์กันหลายร้อยครั้งเพื่อหาดีไซน์ที่ถูกใจ แล้วเอาไปสะท้อนในแบบของนักออกแบบภายใน
CAD แสดงเส้นโค้งหรือองค์ประกอบตกแต่งได้ยาก แต่ Nano Banana ทำ ดีไซน์แบบออร์แกนิก ได้ดีมาก
ผลลัพธ์คือบ้านออกมาสวยกว่ามาก
ดูตัวอย่างที่เกี่ยวข้องได้ในบล็อกนี้
ยกเว้นไอเดียแปลกใหม่บางอย่างที่นักออกแบบเสนอ ส่วนใหญ่แล้ว Gemini ทำได้ดีกว่า
การที่สามารถเปลี่ยนสี เฟอร์นิเจอร์ และเลย์เอาต์ได้ภายในไม่กี่วินาทีนั้นยังน่าทึ่งอยู่เสมอ
ช่วงนี้ภาพ AI สมจริง มากจนคนทั่วไปมักเข้าใจผิดว่าเป็นภาพถ่ายจริง
เช่น รูปอาหารบน Facebook หรือภาพโมเดลปลอม
แม้พลังในการแสดงออกจะดีขึ้น แต่ขณะเดียวกันก็รู้สึกถึง ด้านที่น่าขนลุก ด้วย
บางกรณีชัดเจน แต่ส่วนใหญ่แยกไม่ออก
ตอนนี้ใคร ๆ ก็สร้างภาพปลอมได้ ทำให้คนเริ่มเรียนรู้เรื่อง การตรวจสอบแหล่งที่มาและการตัดสินความน่าเชื่อถือ โดยธรรมชาติ
ในระยะยาว ภาพจะกลายเป็น สินค้าโภคภัณฑ์และสูญเสียคุณค่าทางอารมณ์
เมื่อก่อนรูปถ่ายหนึ่งใบมีค่า แต่ตอนนี้มันเป็นแค่หนึ่งในหลายพันใบ
AI art ก็เช่นกัน ถ้ามีมากเกินไป ความรู้สึกประทับใจก็จะลดลง
ผมถ่ายภาพงานแต่ง และในช่วง 2 ปีที่ผ่านมา คำขอถ่ายด้วยฟิล์มเพิ่มขึ้นอย่างมาก
ความนิยมของแผ่นเสียงไวนิลหรือกล้องดิจิทัลรุ่นเก่าก็อยู่ในบริบทเดียวกัน
ตัวอย่างของโมเดลใหม่ที่แสดงสไตล์ ‘cubism’ ค่อนข้างน่าผิดหวัง
แก่นของลัทธิเหลี่ยมจัดคือการรวมหลายมุมมอง เวลา และสไตล์ไว้ในภาพเดียว
แต่ AI แค่เลียนแบบ การแบ่งรูปทรงแบบเรขาคณิต เท่านั้น ยังให้ความรู้สึกว่าเลียนแบบแค่ ‘รูปทรง’ มากกว่า ‘ความหมาย’
ก่อนหน้านี้มันสร้างอาคารแบบสุ่ม แต่ตอนนี้ค้นหาข้อมูลจริงมาใช้อ้างอิงแล้ว
ดูตัวอย่างเพิ่มเติมได้ที่ หน้า DeepMind Gemini Image Flash
ถ้าในอดีตมี AI แบบนี้อยู่ ผลงานอย่าง Mona Lisa หรือภาพเพดานโบสถ์น้อยซิสทีน อาจไม่ถือกำเนิดขึ้นก็ได้
เพราะน่าจะสร้างด้วยพรอมป์ต์ได้ถูกกว่า
AI คือเครื่องมือที่จะยกขีดจำกัดนั้นให้สูงขึ้นอีก
ยิ่งเทคโนโลยีพัฒนา “ความหายาก” ก็ยิ่งหายไป และคุณค่าที่แท้จริงจะไปกระจุกอยู่ใน ระบบควบคุม
อดีตเหล่าปรมาจารย์ยังถูกจดจำได้เพราะมีผู้อุปถัมภ์ แต่ครีเอเตอร์ยุคนี้กลับถูกกลบเพราะปัญหาปากท้อง
อย่างที่ Terence McKenna เคยพูดไว้ อนาคตจะยิ่งมุ่งไปในทิศทางที่ ประหลาดและขัดแย้ง มากขึ้น
ดูวิดีโอที่เกี่ยวข้องได้ที่ลิงก์นี้
ตัวอย่างเช่น “ภาพพระเยซูปักธงบนดวงจันทร์” ทำได้ แต่ “ภาพ jacquesm ปักธงบนดวงจันทร์” กลับออกมาเละเทะ
มีการทดสอบผลลัพธ์ของ
gemini-3.1-flash-image-preview(NB 2) ใน GenAI Showdownการพัฒนาจาก NB → NB Pro นั้นชัดเจนมาก แต่จาก NB Pro → NB Pro 2 ไม่ได้ดีขึ้นมากนัก
โดยเฉพาะคุณภาพด้าน localization กลับแย่ลงด้วยซ้ำ
ดูการเปรียบเทียบอย่างละเอียดได้ที่ลิงก์นี้
ผมลองใช้ NB Pro 2 แป๊บหนึ่งแล้ว รู้สึกว่าใกล้เคียงกับ การปรับปรุงแบบค่อยเป็นค่อยไปมากกว่าการก้าวกระโดดด้านฟังก์ชัน
ถึงอย่างนั้นการที่มันผ่าน ‘King Louie jump rope test’ ได้ก็น่าทึ่งมาก
ดูผลการทดสอบได้ที่หน้านี้
สำหรับการแต่งภาพส่วนตัว ข้อจำกัดเรื่อง การตรวจจับคนดัง ยังเข้มเกินไป
คนแทบทุกคนถูกตรวจว่า “หน้าคล้ายคนดัง” จนแก้ไขภาพไม่ได้
ในมุมวิศวกรรม มันเป็นเทคโนโลยีที่เจ๋ง แต่ก็ยังสงสัยว่ามี เหตุผลเชิงธุรกิจที่ชอบธรรม สำหรับการใช้งานหรือไม่
ส่วนใหญ่ดูเหมือนใช้เพราะ “ไม่อยากจ่ายเงินให้ศิลปิน”
เวลาบริษัทใหญ่ปล่อยคอนเทนต์จำนวนมหาศาล ผลกระทบด้านลบอาจยิ่งรุนแรง
ประสิทธิภาพแบบนี้เอาไปใช้กับธุรกิจขนาดเล็กได้มากพออยู่แล้ว