11 คะแนน โดย GN⁺ 2025-11-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Nano Banana Pro คือ โมเดลสร้างและแก้ไขภาพ รุ่นล่าสุดจาก Google DeepMind ที่พัฒนาบนพื้นฐาน Gemini 3 Pro โดยมอบความสามารถในการถ่ายทอดไอเดียด้านภาพได้อย่างแม่นยำ
  • ด้วย การเรนเดอร์ข้อความที่ดีขึ้น และ การรองรับหลายภาษา จึงสามารถแทรกข้อความที่อ่านง่ายลงในภาพได้โดยตรง สำหรับโปสเตอร์ ม็อกอัป อินโฟกราฟิก และอื่น ๆ
  • รองรับ การรวมภาพได้สูงสุด 14 ภาพ, รักษาความสอดคล้องของบุคคลได้ 5 คน, และ รองรับความละเอียด 2K~4K เพื่อช่วยสร้างคอนเทนต์ภาพคุณภาพสูง
  • ผสานการทำงานเข้ากับผลิตภัณฑ์ต่าง ๆ ของ Google เช่น Google Ads, Workspace, แอป Gemini, AI Studio ทำให้ทั้งผู้บริโภค มืออาชีพ และนักพัฒนานำไปใช้งานได้
  • ใช้ ลายน้ำ SynthID เพื่อรับรองความโปร่งใสของภาพที่สร้างด้วย AI และมี ฟีเจอร์ระบุคอนเทนต์ AI ให้ใช้งานได้โดยตรงในแอป Gemini

ภาพรวมของ Nano Banana Pro

  • Nano Banana Pro เป็นโมเดลที่ใช้ ความสามารถด้านการให้เหตุผลและองค์ความรู้ของโลกจาก Gemini 3 Pro เพื่อสร้างภาพข้อมูลเชิงภาพได้อย่างละเอียดประณีต
    • เป็นรุ่นอัปเกรดที่เปิดตัวต่อจาก Nano Banana (Gemini 2.5 Flash Image) รุ่นก่อนหน้า
    • รองรับงานออกแบบหลากหลาย เช่น การคิดไอเดีย การทำข้อมูลให้เป็นภาพ และการแปลงโน้ตลายมือเป็นไดอะแกรม

ความสามารถหลัก

  • สร้างสื่อภาพได้อย่างแม่นยำและมีบริบทครบถ้วน
    • ใช้ความสามารถด้านการให้เหตุผลขั้นสูงของ Gemini 3 เพื่อสร้างคอนเทนต์ที่อิงข้อเท็จจริง เช่น อินโฟกราฟิกเพื่อการศึกษาและไดอะแกรม
    • สามารถเชื่อมต่อกับข้อมูลเรียลไทม์จาก Google Search เพื่อสร้างภาพข้อมูลแบบเรียลไทม์เกี่ยวกับ สภาพอากาศ กีฬา และสูตรอาหาร
  • การเรนเดอร์ข้อความหลายภาษา
    • แสดงข้อความในภาพได้ ถูกต้องและอ่านง่าย พร้อมทั้ง แปลและปรับให้เหมาะกับท้องถิ่น ได้ในหลายภาษา
    • เหมาะกับการสร้างโปสเตอร์หรือคอนเทนต์แบรนด์ โดยใช้ ฟอนต์ พื้นผิว และสไตล์ตัวอักษร ที่หลากหลาย
  • การแสดงผลภาพคุณภาพสูง
    • รองรับ การรวมภาพได้สูงสุด 14 ภาพ และ รักษาความสอดคล้องของบุคคลได้ 5 คน สำหรับการสร้างภาพคอมโพสิตที่ซับซ้อน
    • มีตัวควบคุมการแก้ไขอย่างละเอียด เช่น การแก้ไขเฉพาะจุด การปรับมุมกล้อง การแก้สี และการเปลี่ยนแสง
    • รองรับ ความละเอียด 2K และ 4K และอัตราส่วนภาพหลากหลาย ทั้งสำหรับงานพิมพ์และแพลตฟอร์มดิจิทัล

สภาพแวดล้อมการใช้งาน

  • สำหรับผู้บริโภคและนักเรียน
    • ใช้ Nano Banana Pro ได้ในฟีเจอร์ ‘Create images’ ของแอป Gemini
    • ผู้ใช้ฟรีจะได้รับโควต้าการสร้างแบบจำกัด และหลังจากนั้นจะเปลี่ยนไปใช้ Nano Banana รุ่นพื้นฐาน
    • ผู้สมัครสมาชิก Google AI Plus, Pro และ Ultra จะได้รับขีดจำกัดการสร้างที่สูงกว่า
  • สำหรับมืออาชีพ
    • ฟีเจอร์สร้างภาพของ Google Ads ได้อัปเกรดเป็น Nano Banana Pro
    • ใช้งานได้ใน Slides และ Vids ของ Google Workspace เช่นกัน
  • สำหรับนักพัฒนาและองค์กร
    • รองรับการใช้งานเพิ่มเติมใน Gemini API, Google AI Studio, Vertex AI, Antigravity, Gemini Enterprise และอื่น ๆ
  • สำหรับครีเอเตอร์
    • ผ่านเครื่องมือ Flow ผู้สร้างวิดีโอและนักการตลาดสามารถควบคุมรายละเอียดได้อย่างละเอียดในระดับฉาก

การระบุภาพที่สร้างด้วย AI และความโปร่งใส

  • ภาพทั้งหมดที่สร้างด้วย Nano Banana Pro จะมี ลายน้ำดิจิทัล SynthID ฝังอยู่ เพื่อให้ตรวจสอบที่มาได้
    • สามารถอัปโหลดภาพในแอป Gemini เพื่อตรวจสอบได้โดยตรงว่า “สร้างโดย Google AI หรือไม่”
    • ภาพของผู้ใช้ฟรีและผู้ใช้ Pro จะมี ลายน้ำที่มองเห็นได้ (Gemini sparkle) เพิ่มเติม
    • สมาชิก Ultra และเครื่องมือนักพัฒนา AI Studio จะได้รับแคนวาสสะอาดที่ไม่มีลายน้ำ
  • ในอนาคต SynthID มีแผนจะขยายไปยัง คอนเทนต์เสียงและวิดีโอ

เอกสารที่เกี่ยวข้อง

  • Build with Nano Banana Pro: แนะนำโมเดล Gemini 3 Pro Image สำหรับนักพัฒนา
  • Prompting Tips for Nano Banana Pro: คู่มือการเขียนพรอมป์อย่างมีประสิทธิภาพ
  • AI Image Verification in Gemini App: คำอธิบายฟีเจอร์ตรวจสอบภาพบนพื้นฐาน SynthID

ไม่มีข้อมูลเพิ่มเติมในต้นฉบับ

1 ความคิดเห็น

 
GN⁺ 2025-11-21
ความเห็นจาก Hacker News
  • สัปดาห์นี้ Google ให้ความรู้สึกเหมือนกำลังเคลื่อนไหวแบบ Godzilla
    ผมลองผูกบัตรกับ AI Studio เป็นครั้งแรก แต่ขั้นตอนจ่ายเงินซับซ้อนเกินไป
    ตั้งค่าทุกอย่างเสร็จแล้วก็ยังขึ้นข้อผิดพลาด “permission denied” ตลอด
    ถ้าต้องลำบากขนาดนี้เพื่อจะจ่ายเงิน ต่อให้โมเดลดีแค่ไหนก็ไม่มีความหมาย

    • ขออภัยที่มอบประสบการณ์ที่ไม่สะดวก
      ทีมกำลังเร่งปรับปรุงเพื่อให้เข้าถึงได้ง่ายขึ้น
      ตอนนี้กำลังเตรียม ระบบชำระเงินแบบฝังใน AI Studio เพื่อลดความฝืดในเรื่องการจ่ายเงิน และบอกว่ามีกำหนดเปิดทั่วโลกในเดือนมกราคม
    • โดยรวมแล้ว Google API มีอุปสรรคในการเริ่มต้นสูงเกินไป
      บริการอื่นใช้แค่ API key เดียวก็จบ แต่ของ Google ต้องสร้างบัญชี → สร้างแอป → เปิดใช้บริการ → สร้าง OAuth app → ดาวน์โหลด JSON
    • ถ้าแค่อยากใช้ API อย่างเดียว แนะนำ Nano-Banana-Pro ของ Fal.ai
      ขั้นตอนสมัครง่ายกว่ามากและมีโมเดล AI ให้เลือกหลากหลาย
    • ผมเองก็ใช้แพ็กเกจเสียเงินของ Claude กับ OpenAI อยู่ แต่ Gemini จ่ายเงินยากจนแทบเริ่มลองไม่ได้
      แค่จะทดสอบธรรมดาแต่ต้องสร้างโปรเจกต์ GCP นี่เกินความจำเป็นไปมาก
    • ความยุ่งยากมีมากถึงขั้นน่าจะมีโอกาสทางธุรกิจแค่เพียงทำ developer frontend ที่ดีกว่าสำหรับผลิตภัณฑ์ AI ของ Google
  • ผมทดสอบพรอมป์ต์ที่เกี่ยวกับการแก้ไขทั้งหมดใหม่ด้วย Nano Banana Pro
    มันผ่านการทดสอบ SHRDLU, M&M Van Halen และ Scorpio Street
    ดูผลลัพธ์ได้ที่นี่
    NB Pro แสดงประสิทธิภาพที่ดีขึ้นจาก NB รุ่นเดิมอย่างชัดเจน

    • ในการทดสอบแก้ไขยีราฟ ผลลัพธ์ของ NB Pro ดูดีกว่า Seedream แต่การประเมินกลับให้ผลตรงกันข้าม
      ดูเหมือนตัวการทดสอบเองจะไม่ค่อยเหมาะสม
    • NB Pro ควรผ่านการทดสอบยีราฟ
      ผลลัพธ์อาจไม่สมบูรณ์แบบ แต่ก็ทำตามที่ขอได้
    • การทดสอบ หอเอนปิซา น่าสนใจมาก
      พรอมป์ต์ที่ต้องใช้ความรู้ชัดเจนสามารถผ่านได้ แต่การทำให้วัตถุที่เอียงอยู่กลับมาตั้งตรงยังยากเหมือนเดิม
    • ถ้าแสดงภาพต้นฉบับควบคู่กันทุกครั้งในแต่ละการทดสอบก็น่าจะเทียบได้ง่ายขึ้น
      การแสดงต้นฉบับกับผลลัพธ์พร้อมกันน่าจะเข้าใจง่ายกว่าการใช้สไลเดอร์
    • เว็บไซต์นี้มีประโยชน์มาก อยากรู้ว่ามีแผนจะทำ benchmark แบบ text-to-image ด้วย NB Pro หรือไม่
  • ผมทำ การวิเคราะห์ prompt engineering ของ Nano Banana มาหลายเดือน แล้ว Google ก็ปล่อยเวอร์ชันใหม่ออกมา
    โมเดลใหม่นี้ใช้งานได้ทันทีใน แพ็กเกจ gemimg
    แต่ราคาค่อนข้างแพง เลยตั้งเป็นโมเดลเริ่มต้นได้ยาก
    ตามเอกสาร โมเดลจะสร้าง ภาพกลางระหว่างทาง (ขั้น Thinking) ได้สูงสุดสองภาพ
    นี่อาจเป็นสาเหตุที่ทำให้ต้นทุนสูงขึ้น

    • ตัวอย่างพรอมป์ต์ “ตาซ้ายเป็นสตรอว์เบอร์รี ตาขวาเป็นแบล็กเบอร์รี” น่าสนใจดี
      โมเดลตีความซ้ายขวาตามมุมมองของผู้สังเกต ทำให้วางผิดตำแหน่ง
      ข้อผิดพลาดของคำสั่งเชิงสัมพัทธ์ แบบนี้เป็นปัญหาที่พบได้บ่อยในวงการแพทย์ด้วย
      ลิงก์ตัวอย่างที่เกี่ยวข้อง
    • คู่มือ Nano Banana ของ Max ยังใช้ได้อยู่
      พรอมป์ต์ส่วนใหญ่ยังทำงานได้ดีใน NB Pro เช่นกัน
      ลิงก์คู่มือ
      ผลการทดลองของผมก็แชร์ไว้ด้วย
    • ค่าใช้จ่ายต่อภาพอินพุตคือ $0.0011 ไม่ใช่ $0.06
    • มีการปล่อย gemimg เวอร์ชัน 0.3.2 แล้ว และข้อผิดพลาดของภาพส่วนใหญ่ใน NB Pro ถูกแก้ไขแล้ว
      “การแปลงเป็นสไตล์ Studio Ghibli” แม่นยำกว่า ChatGPT มาก
      แต่บางครั้งภาพที่สมจริงเกินไปก็หลุดไปสู่ uncanny valley ได้เหมือนกัน
    • wrapper ของ gemimg ยังมีประโยชน์อยู่
      ทำให้รู้สึกอีกครั้งว่าการออกแบบเครื่องมือที่ ยืดหยุ่นและปรับตัวได้ สำคัญมากในการรับมือกับการเปลี่ยนแปลงทางเทคโนโลยี
  • ความสามารถในการ สร้างอินโฟกราฟิกทั้งชิ้น จากพรอมป์ต์สั้น ๆ น่าทึ่งมาก
    ผมลองขอ “วิธีการทำงานของโปรเจกต์ Datasette” แล้วได้ผลลัพธ์ที่สมบูรณ์มาก
    ลิงก์ผลลัพธ์

    • ฟีเจอร์นี้อาจเปลี่ยนโฉมฟังก์ชัน สร้างใบปลิวงานอีเวนต์ ใน SaaS ได้แบบพลิกวงการ
      ตอนนี้ยังต้องเรนเดอร์ข้อความแยกต่างหาก แต่จากนี้อาจทำได้ในครั้งเดียว
    • แต่มันยังหา Middle C บนคีย์บอร์ดเปียโนไม่เจอ
      ดู ภาพผลลัพธ์ ได้
    • แม้แต่โปรเจกต์ที่แทบไม่มีข้อมูลอย่าง player.html มันก็ยังสร้างอินโฟกราฟิกได้ดี
      ลิงก์ GitHub
      และยังแปลงเป็นฟอร์แมตสี่เหลี่ยมจัตุรัสสำหรับ Instagram ให้อัตโนมัติด้วย
    • อยากรู้ว่าอินโฟกราฟิกของ Datasette ตรงกับวิธีการทำงานจริงหรือเปล่า
  • ภาพ AI ไม่ได้สร้าง artifact แบบเห็นชัดอีกต่อไปแล้ว แต่ก็ยังดูออกว่าเป็น AI จากเรื่องสไตล์
    โดยเฉพาะอินโฟกราฟิกยังแยกออกจากงานที่มนุษย์ทำได้
    มันดูเหมือนผลจากการที่บางชุดข้อมูลถูกแทนมากเกินไป

    • มนุษย์ไวต่อความแตกต่างทางภาพเล็กน้อยมาก
      โมเดลที่ฝึกจากค่าเฉลี่ยจะสร้าง “พื้นที่ภาพแบบค่าเฉลี่ย” ขึ้นมา
      ดู ตัวอย่างที่เกี่ยวข้อง แล้วจะเห็นว่าการปรับจูนละเอียดช่วยให้ได้ผลลัพธ์ที่สมจริงขึ้นได้
    • ไม่ใช่แค่ปัญหาเรื่องข้อมูลอย่างเดียว
      บางโมเดลจงใจ ลบสไตล์ ออกจนทำให้รู้สึกประดิษฐ์
      โมเดลเปิดสามารถปรับละเอียดด้วย LoRA ได้ แต่โมเดลปิดทำได้ยาก ซึ่งนี่แหละคือปัญหา
    • โมเดลส่วนใหญ่เรียนรู้จากข้อมูลทั้งเว็บ จึงให้ ผลลัพธ์เฉลี่ยที่คาดเดาได้
      ถ้าอยากได้ภาพที่แปลกใหม่จริง ๆ พรอมป์ต์เองก็ต้องสร้างสรรค์มากขึ้น
    • ยังมีข้อผิดพลาดเล็ก ๆ อยู่ในเรื่องพื้นผิว สัดส่วน แสง และอื่น ๆ
      เพราะแบบนี้ ความสามารถด้านการแก้ไขภาพ จึงถูกมองว่าเป็นโจทย์ถัดไป
    • โมเดลที่ปรับละเอียดด้วยฟีดแบ็กจากมนุษย์เรียนรู้ “รสนิยมเฉลี่ย” จนสูญเสียเอกลักษณ์
      โมเดลยุคแรกคุณภาพอาจต่ำกว่า แต่กลับให้ผลลัพธ์ที่น่าสนใจกว่า
  • SynthID เป็นก้าวแรกที่ดี แต่ก็มีข้อจำกัดตรงที่ไม่สามารถแยกคอนเทนต์ AI ที่ไม่มีวอเตอร์มาร์กได้
    บริษัทขนาดใหญ่ควรนำตัวระบุแบบมาตรฐานมาใช้

    • ผมคิดว่าการที่รัฐบาลบังคับวอเตอร์มาร์กเป็นเรื่องอันตราย
      ถ้า Photoshop เคยถูกกำกับแบบนั้น ความคิดสร้างสรรค์คงถูกจำกัดไปมาก
    • Apple ดูมีแววว่าสักวันจะออกฟีเจอร์อย่าง “Real Photos
      เอาไว้พิสูจน์ว่าภาพถ่ายมาจากกล้องจริง และแสดงเครื่องหมายยืนยันใน iMessage อะไรทำนองนั้น
    • เหตุผลที่บริษัทต่าง ๆ ใช้วอเตอร์มาร์กก็เพื่อ จัดการการนำข้อมูลไปฝึกซ้ำ
      สุดท้ายแล้วโมเดลเชิงพาณิชย์หลัก ๆ ก็น่าจะบังคับใช้วอเตอร์มาร์กเป็นค่าเริ่มต้น
    • ถ้ามีตัวระบุมาตรฐาน ก็จะมีซอฟต์แวร์สำหรับลบมันออกตามมา
      มันจะกลายเป็น เกมแมวจับหนู ที่ไม่มีวันจบ
    • มี โปรเจกต์ C2PA ที่พยายามแก้ปัญหานี้อยู่
  • นักแอนิเมชัน 2D ยังพอวางใจได้ในตอนนี้
    ผมลองสร้างสไปรต์ชีตแล้วพบว่ามันแค่ทำซ้ำเฟรมแบบง่าย ๆ แต่ยังสร้าง การเคลื่อนไหวช่วงกลางอย่างเป็นธรรมชาติ (interpolation) ไม่ได้

  • รวมลิงก์ข้อมูลทางการ
    Developer Blog
    DeepMind Page
    Model Card PDF
    แนะนำ SynthID

  • โมเดลนี้เป็นโมเดลสร้างภาพตัวแรกที่ผ่าน การทดสอบเปียโน ของผม
    มันทำซ้ำแพตเทิร์นคีย์ดำในแต่ละอ็อกเทฟได้อย่างถูกต้อง
    โมเดลก่อนหน้านี้มักแสดงการจัดเรียงคีย์ผิดเสมอ

    • แต่ถ้าออกนอกมาตรฐาน 88 คีย์ก็ยังผิดพลาดเยอะอยู่
      แม้แต่คำขอให้ระบายสีโน้ตบางตัวก็ยังทำแบบสุ่ม
      เปียโนเป็นวัตถุมาตรฐานที่น่าจะมีข้อมูลฝึกเยอะ แต่ก็ยังเข้าใจไม่พอ
    • การคงรูปแบบซ้ำ ๆ ให้ต่อเนื่องในระยะยาวเป็นเรื่องยาก
      การรักษาความสอดคล้องตลอด 88 คีย์ได้นับว่าน่าประทับใจ
  • ตอนนี้โมเดลสามารถ เรนเดอร์ข้อความในภาพได้อย่างเป็นธรรมชาติ แล้ว
    ฟีเจอร์ที่เมื่อก่อนเป็นไปไม่ได้ ตอนนี้กลับให้ความรู้สึกเหมือนเป็นพื้นฐานไปแล้ว

    • ผมก็เห็นด้วย แต่ในงานอย่าง การสร้างไอคอน ซึ่งอยู่กึ่งกลางระหว่างภาพกับโค้ด มันยังอ่อนอยู่
      งานออกแบบละเอียดอย่างเส้นโค้ง ระยะห่าง และสมดุล ยังเหมาะให้มนุษย์ทำเองมากกว่า