Gemini 2.5 Flash Image
(developers.googleblog.com)- Google เปิดตัว Gemini 2.5 Flash Image ซึ่งเป็นโมเดลสร้างและแก้ไขภาพล้ำสมัย
- ผู้ใช้สามารถใช้งานความสามารถอย่างการรวมหลายภาพเป็นภาพเดียว, การรักษาความสม่ำเสมอของตัวละคร และการแปลงภาพเป้าหมายด้วยภาษาธรรมชาติ
- โมเดลนี้เปิดให้ใช้งานสำหรับนักพัฒนาและองค์กรผ่าน Google AI Studio, Gemini API, Vertex AI
- มีตัวอย่างการใช้งานหลากหลาย เช่น การคอมโพสิตภาพ, การสร้างแบบอิงเทมเพลต, และการแก้ไขแบบตั้งโปรแกรมได้
- ภาพที่ AI สร้างจะถูกฝังลายน้ำดิจิทัลแบบมองไม่เห็น SynthID เพื่อให้สามารถระบุได้ว่าเป็นภาพที่สร้างหรือแก้ไขโดย AI
แนะนำ Gemini 2.5 Flash Image
Google เปิดตัว Gemini 2.5 Flash Image (โค้ดเนม nano-banana) โมเดลนี้รองรับความสามารถอย่าง การสร้างและแก้ไขภาพ, การรวมหลายภาพ, การรักษาความสม่ำเสมอของตัวละคร, และการแก้ไขภาพแบบครอบคลุมด้วยคำสั่งภาษาธรรมชาติ นอกจากนี้ยังใช้ประโยชน์จาก องค์ความรู้เกี่ยวกับโลกของ Gemini เพื่อมอบคุณภาพการสร้างและแก้ไขที่ลึกซึ้งกว่าโมเดลสร้างภาพเดิม
เวอร์ชันก่อนหน้าของ Gemini 2.0 Flash มีจุดเด่นด้าน ค่าหน่วงต่ำ, ความคุ้มค่า, และการใช้งานที่ง่าย แต่จากความต้องการของชุมชนจึงมีการเสริมความสามารถด้าน คุณภาพที่สูงขึ้นและการควบคุมเชิงสร้างสรรค์
โมเดลนี้พร้อมให้ใช้งานแบบพรีวิวทันทีผ่าน Gemini API, Google AI Studio, Vertex AI โดยมีราคาอยู่ที่ $30.00 ต่อ 1 ล้านโทเค็นเอาต์พุต และคิดค่าบริการภาพละ 1290 โทเค็น ($0.039) ส่วนโมดาลิตีอื่นของอินพุตและเอาต์พุตจะใช้นโยบายราคาเดียวกับ Gemini 2.5 Flash
กรณีใช้งานจริง
Google AI Studio ได้ปรับโฉม build mode ใหม่ ทำให้สามารถทดสอบและพัฒนาความสามารถของ Gemini 2.5 Flash Image ในรูปแบบแอป AI แบบกำหนดเอง ได้ง่ายขึ้น สามารถสร้างแอปด้วยพรอมป์ต์โดยตรง หรือรีมิกซ์เทมเพลตที่มีให้ล่วงหน้าได้อย่างอิสระ แอปที่เสร็จแล้วสามารถเผยแพร่จาก AI Studio ได้ทันที หรือบันทึกโค้ดไปยัง GitHub ได้
ตัวอย่างพรอมป์ต์: “ช่วยสร้างแอปแก้ไขภาพที่ให้ผู้ใช้อัปโหลดภาพและใช้ฟิลเตอร์ได้หลากหลายแบบ”
การรักษาความสม่ำเสมอของตัวละคร
สามารถรักษาความสม่ำเสมอของรูปลักษณ์ของตัวละครหรือออบเจ็กต์ ซึ่งเป็นโจทย์สำคัญของการสร้างภาพได้อย่างมีประสิทธิภาพ เช่น การวางบุคคลเดียวกันในหลายสภาพแวดล้อมอย่างเป็นธรรมชาติ การสร้างผลิตภัณฑ์ชิ้นเดียวกันในหลายมุมและหลายการตั้งค่า หรือการสร้างแอสเซ็ตที่เกี่ยวข้องกับแบรนด์ให้มีความสอดคล้องกัน
สามารถสาธิตการรักษาความสม่ำเสมอของตัวละครได้ผ่าน แอปเทมเพลตแบบปรับแต่งได้ ของ Google AI Studio และยังสามารถนำไปปรับแต่งโค้ดต่อได้โดยตรง
นอกจากนี้ยังโดดเด่นในด้าน การสร้างภาพจากเทมเพลตภาพ เช่น การสร้างการ์ดอสังหาริมทรัพย์ บัตรพนักงาน หรือม็อกอัปสินค้าสำหรับแคตตาล็อกจากเทมเพลตดีไซน์เดียวในปริมาณมาก
การแก้ไขภาพด้วยพรอมป์ต์
รองรับการแปลงบางส่วนและการแก้ไขเฉพาะจุดอย่างแม่นยำ ด้วยคำสั่งภาษาธรรมชาติเพียงอย่างเดียว ตัวอย่างเช่น การเบลอพื้นหลัง การลบรอยเปื้อนบนเสื้อผ้า การลบบุคคลออกจากภาพ การเปลี่ยนท่าทางของวัตถุ หรือการเติมสีให้ภาพขาวดำ ทั้งหมดทำได้ด้วยพรอมป์ต์เดียว
เพื่อให้ทดลองฟีเจอร์เหล่านี้ได้โดยตรง จึงมี แอปเทมเพลตแก้ไขภาพ ที่อิงทั้ง UI และพรอมป์ต์ให้ใช้งานด้วย
องค์ความรู้เกี่ยวกับโลกแบบเนทีฟ
โมเดลสร้างภาพแบบเดิมมักมีปัญหาว่า แม้จะสร้างภาพสวยงามได้ดี แต่ขาดความเข้าใจเชิงความหมายและเชิงลึกเกี่ยวกับโลกจริง ขณะที่ Gemini 2.5 Flash Image ใช้พื้นฐานจาก องค์ความรู้เกี่ยวกับโลก จึงโดดเด่นกับการใช้งานรูปแบบใหม่
ตัวอย่างเช่น สามารถอ่านและเข้าใจไดอะแกรมที่วาดด้วยมือ, ตอบคำถามเกี่ยวกับโลกจริง, และทำคำสั่งแก้ไขที่ซับซ้อน ได้ คุณสมบัติเหล่านี้สามารถทดลองได้โดยตรงใน แอปติวเตอร์การศึกษาแบบอินเทอร์แอ็กทีฟสำหรับ AI Studio
การรวมหลายภาพ
สามารถตีความและผสานภาพอินพุตหลายภาพเพื่อสร้างภาพคอมโพสิต ได้ เช่น วางออบเจ็กต์ลงในฉากอื่น รีสไตล์ห้องด้วยสีและพื้นผิวใหม่ หรือหลอมรวมภาพหลายภาพเข้าด้วยกัน ทั้งหมดทำได้ด้วยพรอมป์ต์เดียว
สำหรับสิ่งนี้ AI Studio ยังมี แอปเทมเพลต ที่ช่วย ลากภาพสินค้าไปคอมโพสิตเข้ากับฉากใหม่ได้อย่างรวดเร็ว
เริ่มต้นพัฒนา
นักพัฒนาสามารถเริ่มต้นได้ทันทีจากเอกสารทางการ และขณะนี้เปิดให้ใช้งานในสถานะพรีวิวอยู่ แอปเดโมทั้งหมดที่กล่าวถึงในบทความนี้ถูกสร้างด้วย vibe code บน Google AI Studio จึงสามารถรีมิกซ์และปรับแต่งได้ด้วยพรอมป์ต์เท่านั้น
ด้วยความร่วมมือกับ OpenRouter.ai ทำให้นักพัฒนากว่า 3 ล้านคนทั่วโลกเข้าถึงได้ และขณะนี้ยังเป็น โมเดลแรกบน OpenRouter ที่รองรับการสร้างภาพ อีกด้วย นอกจากนี้จากความร่วมมือกับ fal.ai ยังมีแผนขยายการใช้งานไปยังชุมชนนักพัฒนาสื่อเชิงสร้างสรรค์ที่กว้างขึ้น
ภาพทั้งหมดที่สร้างหรือแก้ไขด้วย Gemini 2.5 Flash Image จะมี ลายน้ำดิจิทัล SynthID แบบมองไม่เห็น ฝังอยู่ เพื่อให้สามารถระบุได้ว่าเป็นภาพที่สร้างโดย AI
ตัวอย่างโค้ด Python
from google import genai
from PIL import Image
from io import BytesIO
client = genai.Client()
prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"
image = Image.open('/path/to/image.png')
response = client.models.generate_content(
model="gemini-2.5-flash-image-preview",
contents=[prompt, image],
)
for part in response.candidates[0].content.parts:
if part.text is not None:
print(part.text)
elif part.inline_data is not None:
image = Image.open(BytesIO(part.inline_data.data))
image.save("generated_image.png")
โค้ดข้างต้นแสดงตัวอย่างการป้อนพรอมป์ต์พร้อมภาพ เพื่อสร้างผลลัพธ์จาก Gemini 2.5 Flash Image
เสียงตอบรับจากนักพัฒนาและแผนต่อไป
Google ระบุว่าจะยังคงมุ่งเน้นที่ การเรนเดอร์ข้อความยาว, การยกระดับความสม่ำเสมอของตัวละคร, และการปรับปรุงความสมจริงกับรายละเอียด ต่อไป โดยเปิดรับฟีดแบ็กผ่านฟอรัมสำหรับนักพัฒนาและ X (เดิมคือ Twitter) และคาดหวังว่าจะได้เห็นการนำไปใช้งานอย่างหลากหลายจากนักพัฒนา
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
รู้สึกว่านี่คือช่วงเวลาแบบ GPT-4 ของวงการโมเดลแต่งภาพเลย
Gemini 2.5 Flash ที่ถูกเรียกว่า Nano banana นั้นเก่งจนน่าเหลือเชื่อ
ทำคะแนนเพิ่มขึ้นถึง 171 elo ใน lmarena
ลองค้นหา nano banana บน Twitter แล้วจะเห็นผลงานสุดโหดมากมาย
ดูตัวอย่างได้จากทวีตนี้
ลองทดสอบด้วยตัวเองมาหลายสัปดาห์แล้ว
บางครั้งได้ผลลัพธ์ที่น่าประทับใจมากจริง ๆ แต่ถ้าอยากได้ภาพตามต้องการก็ยังต้องลองวน prompt หลายรอบ
มันไม่ใช่ของวิเศษสารพัดนึก แต่ก็เป็นพัฒนาการครั้งใหญ่และอยู่ในระดับแนวหน้าที่สุดเท่าที่มีตอนนี้
ในตัวอย่างที่สาม มือดูแปลก ๆ อยู่
เหมือนโมเดลจะตัดสินใจไม่ได้ว่าจะวางไปในทิศทางไหน
แต่ปัญหานี้ไม่ได้เกิดจาก Gemini เพราะมีอยู่แล้วในภาพต้นฉบับ
ดูเหมือนว่าคำผสมทุกแบบที่เกี่ยวกับ "nano banana" ถูกเอาไปจดโดเมนพร้อม UI เฉพาะหมดแล้ว
เลยอดสงสัยไม่ได้ว่าพวกคนกลางที่อาศัยชื่อโมเดลยอดนิยมกำลังเก็งกำไรจากส่วนต่างของเครดิตหรือเปล่า
ก่อนยุค AI มีคนวิจารณ์ Google มากว่าเอาวิศวกรระดับโลกไปใช้ขายโฆษณาอย่างเดียว
แต่พอเข้าสู่ยุค AI คนเก่งพวกนั้นก็สามารถถูกนำมาใช้กับการโฆษณาแบบ product placement ได้แล้ว
รู้สึกว่าเรามาไกลมากจริง ๆ
อีกจุดที่น่าเสียดายคือเสื้อแจ็กเก็ตบุนวมสีชมพูที่ถูกแก้ไขออกมาดูต่างจากภาพอ้างอิงแบบละเอียดอ่อน
ถ้าจะใช้โมเดลนี้เพื่อโปรโมตสินค้า หรือถ้าแคร์รายละเอียดมาก ๆ ก็น่าจะหงุดหงิดได้
ฉันอัปเดตเว็บไซต์เปรียบเทียบภาพ GenAI แล้ว
เว็บไซต์นี้โฟกัสอย่างเข้มงวดกับการทำตามพรอมป์ต์แบบ text-to-image
ตอนนี้เพิ่มโมเดลใหม่ Google Gemini 2.5 Flash (nano-banana) เข้าไปแล้ว
โมเดลนี้ทำพรอมป์ต์ถูกต้อง 8 จาก 12 ข้อ และให้ผลลัพธ์ที่เกือบแตะระดับโมเดลท็อปอย่าง Imagen และ gpt-image-1
เป็นการอัปเกรดครั้งใหญ่เมื่อเทียบกับ Gemini Flash 2.0 รุ่นก่อน
gpt-image-1 ที่อยู่อันดับ 1 นำอยู่เพียงเล็กน้อยในโจทย์เขาวงกตและดาว 9 แฉกเท่านั้น
สิ่งที่น่าทึ่งที่สุดคือ gpt-image-1 ครองอันดับนำมาเกือบ 6 เดือนแล้ว (ในวงการนี้ 6 เดือนแทบจะนับว่านิรันดร์)
อย่างไรก็ตาม gpt-image-1 แทบใช้เป็น "ตัวแก้ไข" ไม่ได้เลย เพราะมันเปลี่ยนภาพทั้งภาพ ไม่ได้ทำ inpainting แบบ Kontext, Qwen, Nano-Banana ที่แก้เฉพาะบางส่วน
ลิงก์เปรียบเทียบ OpenAI_4O, Imagen_4, Gemini Flash 2, Nano-Banana ฯลฯ
รู้สึกว่าน่าจะต้องมี benchmark สำหรับการแก้ไขข้อความแยกต่างหาก
ไม่ค่อยเข้าใจว่าทำไม Hunyuan, OpenAI 4o, Gwen ถึงถูกนับว่าผ่านในการทดสอบปลาหมึก
เพราะมันไม่ได้ครอบคลุม "หนวดแต่ละเส้น" ครบทั้งหมด
ส่วน Midjourney ใส่ถุงเท้าหุ่นเชิดไป 9 ชิ้นบนแขน 8 ข้าง
น่าสนใจที่ผลลัพธ์ภาพจาก Imagen 4 และ Gemini 2.5 Flash ดูคล้ายกันมากในบางเคสทดสอบ
เป็นไปได้ว่า Gemini 2.5 Flash อาจสร้างภาพฐานด้วย Imagen (โมเดล diffusion) อยู่เบื้องหลัง แล้วฝั่ง Gemini ค่อยแก้ไขทับเพื่อให้ตรงพรอมป์ต์มากขึ้น
ชอบเว็บไซต์นี้มาก
พอจะรู้ไหมว่ามีเว็บไหนเปรียบเทียบว่าโมเดลต่าง ๆ ทำตาม style guide ได้ดีแค่ไหนบ้างไหม เช่น ภาพประกอบที่ต้องวาดด้วยสไตล์เดียวกัน
ส่วนตัวอยากให้เพิ่มฟีเจอร์แบบนี้เข้าเว็บมาก
เช่น ป้อนภาพหลายภาพในสไตล์ของศิลปินคนหนึ่ง แล้วเปรียบเทียบว่าโมเดลทำภาพประกอบใหม่ในสไตล์เดิมได้ไหม
น่าจะมีประโยชน์มากสำหรับงานอย่างภาพประกอบหนังสือที่ต้องการความสม่ำเสมอของสไตล์
Gemini 2.5 Flash Image เป็นตัวเดียวที่จัดการหลายภาพพร้อมกันได้โดยไม่ต้องใช้ลูกเล่นประหลาด ๆ
ยกตัวอย่างเช่น Flux Kontext ถ้าจะ "เอาภาพแรกไปคอมโพสิตลงในภาพที่สอง" ต้องมานั่งรวมภาพล่วงหน้าอย่างยุ่งยาก
แต่โมเดลนี้ใช้ได้เลยแบบไม่ต้องลำบาก และยังใส่ได้มากกว่าสองภาพด้วยซ้ำ (แน่นอนว่าถ้าเยอะเกินไปก็อาจเริ่มสับสน)
จากที่ลองแบบเร็ว ๆ มันดูทำตามพรอมป์ต์ยาว ๆ ได้ดี และการเขียนแบบเชิงไวยากรณ์ก็ดูได้ผลมากกว่า
ยังน่าจะมีวิธีควบคุมอีกหลายอย่างที่ยังไม่ถูกค้นพบ เลยกำลังทดลองต่ออยู่
ราคาเองก็ใกล้เคียงกับคู่แข่ง น่าจะสร้างแรงสั่นสะเทือนในตลาดได้มาก
เพื่อนบ้านข้างบ้านไปพักร้อนอยู่ เลยช่วยให้อาหารปลาให้
ผมถ่ายรูปตู้ปลาแล้วให้ Gemini สร้างภาพด้วยพรอมป์ต์ประมาณว่า "วางตู้ปลาไว้ตามแลนด์มาร์กในเมือง"
ส่งให้วันละภาพ เพื่อนบ้านชอบมาก
แกล้งเล่นเล็ก ๆ แบบนี้ช่วยเติมรอยยิ้มให้ชีวิตประจำวันของกันและกันได้ดี
น่าเสียดายที่เหมือนผลิตภัณฑ์ AI อื่น ๆ คือมีปัญหาเรื่องนโยบายความปลอดภัยที่เข้มเกินไป
พรอมป์ต์ครึ่งหนึ่งโดนปฏิเสธ
ถ้าแก้ไขมนุษย์ไม่ได้เลย ก็สงสัยว่าจะรักษาความสม่ำเสมอของตัวละครได้อย่างไร
ปกติฉันพยายามแก้ไขภาพที่มีคนอยู่เป็นส่วนใหญ่ แต่โมเดลนี้ทำไม่ได้
เข้าใจว่า Google กังวลเรื่อง deepfake แต่ยังไงก็ห้ามทิศทางนี้ไม่ได้อยู่ดี และสุดท้ายสังคมก็ต้องปรับตัว
แนวโน้มที่เครื่องมือจำกัดผู้ใช้มากขึ้นเรื่อย ๆ ทำให้อึดอัด
สุดท้ายคงต้องมีขบวนการ OSS ใหม่เพื่อทวงอิสรภาพกลับมา
ตอนเด็ก ๆ มีรูปหนึ่งที่ถ่ายกับแฟนและลูกพี่ลูกน้องของเธอ ตอนใส่ชุดคริสต์มาสด้วยกัน
ทั้งสองคนอยู่ห่างกันมานาน เลยเป็นความทรงจำที่มีค่ามากตอนนี้
ตัวรูปเองก็สภาพไม่ดี แถมคุณภาพก็ต่ำ
แต่จนถึงตอนนี้ก็ยังไม่มีโมเดล AI ตัวไหนช่วยกู้มันได้
สองวันก่อนลองใช้ Veo ฟรีเพื่อทำวิดีโอ
ลบคำธรรมดา ๆ ออกไปหมดแล้วแต่ก็ยังโดนปฏิเสธ
น่าจะเป็นเพราะพยายามสร้าง "ตัวฉันเอง" เลยยอมแพ้ไปในที่สุด
ฉันแปลงรูปครอบครัวเป็นดิจิทัลแล้ว แต่มีความเสียหายที่ซ่อมยากเยอะมาก เช่น สีเพี้ยน คราบ รอยนิ้วมือ คราบฟิล์ม ฯลฯ
คงยากที่จะมาแก้ทีละหลายร้อยภาพ เลยเฝ้ารอให้การสร้างภาพด้วย AI พัฒนาไปถึงจุดที่ซ่อมจำนวนมากได้โดยไม่เปลี่ยนรายละเอียด โดยเฉพาะใบหน้า
โมเดลนี้ดูค่อนข้างดีในการเก็บรายละเอียดไว้แล้วบูรณะเฉพาะส่วนที่หายไป ดูเหมือนถึงเวลาที่จะลองแล้ว
ความเสียหายทั้งหมดที่กล่าวมาข้างบนแก้ได้อัตโนมัติด้วยเครื่องสแกนฟิล์มที่มีฟีเจอร์ ICE และซอฟต์แวร์กู้คืนอัตโนมัติอย่าง Vuescan เป็นต้น
ไม่คิดว่าจำเป็นต้องอัปโหลดรูปหลายร้อยหรือหลายพันภาพไปให้ AI คลาวด์แบบปิดที่ยังเป็นงานทดลอง แล้วได้ผลลัพธ์ต่ำกว่ามาตรฐานพร้อมการบีบอัดแปลก ๆ และอาร์ติแฟกต์กลับมา
ไม่ค่อยเข้าใจประโยชน์ของการใช้งานแบบนี้
แค่จินตนาการถึงภาพที่ไม่เสียหายก็พอไม่ใช่หรือ
การอัปสเกลด้วย AI บนกล้องมือถือก็เหมือนกัน
ถ้าอยากเห็นอะไรไกล ๆ ก็แค่จินตนาการเอา
สุดท้ายคิดว่าเครื่องมือ AI ควรไปถึงระดับที่ช่วยทำงานอัตโนมัติในสิ่งที่ผู้เชี่ยวชาญ Photoshop สามารถทำด้วยเครื่องมือได้เอง
การสร้างรายละเอียดใหม่ขึ้นมาแบบสุ่มรู้สึกเหมือนเสียเวลา
มีใครรู้จักซอฟต์แวร์ที่ช่วยกู้คืน/ปรับปรุงไฟล์วิดีโอบ้างไหม
ตอนนี้กำลังแปลงวิดีโอและเทป VHS ของแม่จากช่วงปี 2000s เป็นดิจิทัล
เซ็ตอัปสำหรับการแปลงเรียบร้อยแล้ว แต่อยากยกระดับคุณภาพวิดีโออีกหน่อย
หวังว่าจะใช้งานได้ดี
แต่พอดูผลลัพธ์ของพรอมป์ต์ "กู้คืนภาพถ่าย" ในตัวอย่างแล้ว ใบหน้าผู้หญิงดูมีลักษณะแบบ AI ชัดมาก
แน่นอนว่าหวังว่าเวลาผ่านไปมันจะดีขึ้นอีก
ผมคิดว่า Flux Kontext(https://bfl.ai/models/flux-kontext) ไปถึงจุดนั้นได้แล้วตั้งแต่หลายเดือนก่อน
รูปทั้งหมดที่สร้าง/แก้ไขด้วย Gemini 2.5 Flash Image จะถูกฝังลายน้ำดิจิทัลแบบมองไม่เห็นชื่อ SynthID เพื่อระบุว่าเป็นภาพที่ AI สร้าง/แก้ไข
เข้าใจจุดประสงค์และเจตนาดี แต่ก็น่าเสียดายที่ตอนนี้ไม่ใช่ผู้ใหญ่ที่รับผิดชอบตัวเองอีกต่อไป กลายเป็นบริษัทยักษ์ใหญ่ที่กำหนดว่าเราทำอะไรได้หรือไม่ได้
ให้ความรู้สึกเหมือนถูกสอดส่อง
ผมอยากย้อนถามว่าเวลามนุษย์ใช้เทคโนโลยี เราเคยเป็นผู้ใหญ่ที่รับผิดชอบกันจริง ๆ หรือ
deepfake มีแนวโน้มจะทำให้ความไม่มั่นคงในการรับรู้ความจริงหนักขึ้นอีกมาก
จะมีทั้งคนจำนวนมากที่ถูกหลอกด้วยของปลอม และคนที่ไม่เชื่ออะไรอีกเลย
นักการเมืองก็จะอ้างว่าเป็น "ของปลอม" ทุกครั้งที่มีวิดีโอที่ไม่เป็นผลดีกับตัวเองโผล่มา
ตอนนี้เราก็อยู่ในยุค post-truth กันพอสมควรแล้ว แต่จากนี้มันจะยิ่งหนักขึ้น
ในทางปฏิบัติ มันแทบจะเรียกว่าเป็นภาพที่ผู้ใช้สร้างเองไม่ได้เลย
ยกตัวอย่างเช่น ถ้าศิลปินใส่ลายน้ำลงในงานที่ลูกค้าจ้าง ก็เป็นเพียงการบอกว่านี่คืองานของตน ไม่ได้ถือว่าเป็นการ "ฟ้อง" อะไร
อาจไม่ได้หมายถึงแบบนั้นก็ได้ แต่ก็เป็นมุมที่น่าลองคิดดู
ผมไม่ได้เห็นด้วยกับตรรกะแบบ "ถ้าไม่มีอะไรต้องซ่อนก็ไม่มีอะไรต้องกลัว" แต่ก็สงสัยว่าทำไมลายน้ำภาพที่ AI สร้าง/แก้ไขถึงเป็นปัญหา
สำหรับผมเองจริง ๆ แล้วคิดว่าภาพ AI ควรต้องมีลายน้ำด้วยซ้ำ
ก็ไม่ได้มีใครบังคับว่าต้องใช้โมเดลนี้อยู่แล้ว ส่วนตัวเลยไม่คิดว่าเป็นปัญหา
มันคือการแข่งขันสะสมอาวุธทางเทคโนโลยี
ดู removemysynthid.com
เหมือนเครื่องสร้างภาพส่วนใหญ่ มันยังสอบตกกับการทดสอบคีย์เปียโน (คีย์ดำผิด)
ตัวอย่างการทดสอบ
สงสัยว่าการทดสอบคีย์เปียโนคืออะไร
ลิงก์นั้นขอสิทธิ์เข้าถึง Google Drive ผ่าน AI Studio เลยรู้สึกใช้งานยาก
สงสัยว่ามีโมเดลที่รวมไอเดียไว้ในพื้นที่แนวคิดด้วยไหม เช่น การซ้ำทุก 8 โน้ต
ตอนเวลาจะแทนภาพเปียโน คำที่อยู่ใกล้กับคำว่า "เปียโน" อย่างเดียวดูอ่อนเกินไปสำหรับแนวคิดที่ตายตัวอย่างการซ้ำของอ็อกเทฟ เลยเหมือนยังขาดตรงนี้
รู้สึกว่าแค่คำอย่างเดียวไม่พอจะเชื่อมภาพกับความหมายให้สอดคล้องกันได้
จุดแข็งจริง ๆ ของโมเดลนี้ดูจะไม่ได้อยู่ที่คุณภาพการสร้างภาพล้วน ๆ แต่เป็น "ความสม่ำเสมอข้ามหลายรุ่นการสร้าง" มากกว่า
ลิงก์ตัวอย่าง
น่าสนใจ
คนที่เคยจับเปียโนจริงจะสังเกตได้ทันทีว่ามันผิด เหมือนการทดสอบเรนเดอร์ข้อความ ตรงที่ภาพดู "คล้าย" แต่จริง ๆ แล้วไม่ถูก
ถ้าเป็นพรอมป์ต์ทั่ว ๆ ไป คนส่วนใหญ่คงรับได้สบายกับแนวแบบเอาผลลัพธ์แรกจาก Google Images มาแล้วบอกว่า "นี่ไงรูปคีย์บอร์ดเปียโน"
มันสอบตกในการทดสอบข้อความแนวนอนของผมด้วย
ผมพยายามทำซ้ำตัวอย่างส้อม/สปาเก็ตตี กับแฟชั่นบับเบิลเอง แต่ผลออกมาต่างจากผลทางการมาก
อย่างไรก็ตาม เอาต์พุตก็ยังมีความสม่ำเสมอ
อาจเป็นไปได้ว่าผมคัดลอกรูปจากหน้าโฆษณามาใช้เลยทำให้ความละเอียดต่างกัน แต่พรอมป์ต์ใช้เหมือนกัน
ดูเหมือนว่าที่ใช้อยู่จะเป็นโมเดลใหม่จริง และถ้าเทียบกับก่อนหน้าก็ถือว่าก้าวหน้าแบบก้าวกระโดด
ความสม่ำเสมอของผลลัพธ์น่าสนใจมาก
ผมลองรันหลายเจเนอเรชันด้วยชุดทดสอบมาตรฐานสำหรับโมเดลภาพของตัวเอง (จนถึงตอนนี้ยังไม่เคยเห็นโมเดลไหนวาดอ็อกเทฟเปียโนได้ถูกเลยสักครั้ง) และ Gemini 2.5 Flash Image ก็ไม่ต่างกัน
พอลองหลายรอบแล้วเปรียบเทียบ ผลแทบไม่เปลี่ยนเลย
ChatGPT เวลาป้อนพรอมป์ต์แก้ไขภาพ มักมีส่วนอื่นเปลี่ยนไปด้วยนอกเหนือจากสิ่งที่อยากแก้ แต่ที่นี่ไม่มีการเปลี่ยนแปลงแบบนั้นเลย
ตัวอย่างภาพ
ผลลัพธ์จริงออกมาธรรมดาหรือคลุมเครือกว่าที่โฆษณาโชว์มาก
ในตัวอย่าง การสร้าง subject แบบ bubble ก็แค่สร้างรูปร่างคล้ายฟองแบบกำกวมไว้ในตัววัตถุ
ส่วนตัวอย่างส้อมก็แค่เพิ่มส้อมลงบนก๋วยเตี๋ยว
ทั้งสองกรณีนี้อาจพูดได้ว่าทำตามพรอมป์ต์ได้ดีกว่าในทางเทคนิค แต่พอดูจริงแล้วไม่น่าประทับใจเท่าไร
รู้สึกดีใจที่ตัวเองไม่ได้ไปเป็นผู้เชี่ยวชาญ Photoshop
ครั้งหนึ่งมันเคยดูน่าดึงดูด แต่สุดท้ายก็ดีแล้วที่ไม่ได้เลือกทางนั้น
ตอนนี้มี nano-banana ตัวเดียวก็พอแล้ว
มั่นใจว่าโมเดลอื่น ๆ จะตามมาเร็ว ๆ นี้
ชุมชน r/photoshopbattles ก็คงถึงเวลาบอกลากันแล้ว
การรีทัชเป็นศิลปะอย่างหนึ่ง
สำหรับมืออาชีพ AI แบบนี้ก็เป็นแค่อีกเครื่องมือที่ช่วยเพิ่มประสิทธิภาพ
ไม่ใช่แค่ใช้ Photoshop เป็น แต่ต้องมีวิจารณญาณที่ดีด้วย
แน่นอนว่าถ้างานไม่ได้เพิ่มขึ้น คนรีทัชจำนวนน้อยลงอาจทำงานปริมาณเดิมได้
ถ้าราคาลดลง ทุกคนจะรีทัชกันมากขึ้นไหม? อันนั้นก็ไม่แน่ใจ
มุมมองน่าสนใจดี
ผมเป็นโปรแกรมเมอร์ แต่ก็เคยเรียน Photoshop ช่วงต้นยุค 2000s และสนุกกับการแต่งภาพมาก
แม้โมเดลสร้างภาพตอนนี้จะทำออกมาได้ดีกว่าสิ่งที่ผมเคยทำในตอนนั้นมาก แต่ผมไม่คิดเลยว่าประสบการณ์และทักษะเหล่านั้นจะไร้ค่า
ที่จริง Photoshop (หรือทุกวันนี้คือ Affinity Designer/Photo) ยังมีประโยชน์มากในการเก็บรายละเอียดงานจาก AI
ไม่เคยเสียดายที่เคยเรียนมัน
ถ้าเขียนคอมเมนต์นี้เมื่อ 10 ปีก่อน ผมคงบอกว่าอย่างน้อยโปรแกรมกับทักษะก็เป็นของผม และถึง Google จะขึ้นค่าสมาชิกหรือปิดบริการ ของก็ยังเป็นของผมอยู่ดี
แต่ตอนนี้แม้แต่ PS ก็เป็นระบบสมัครสมาชิกแล้ว และเราก็ได้แต่รอวันที่จะมีโมเดลเปิดดี ๆ ออกมา
Photoshop ยังมีประโยชน์อยู่เสมอ
ภาพ AI นั้นยอดเยี่ยมก็จริง แต่ผมยังอยากจัดองค์ประกอบพื้นฐานเอง และการเก็บอาร์ติแฟกต์จากผลลัพธ์ AI หรือการคอมโพสิตหลายเลเยอร์ AI ก็ยังต้องใช้ทักษะงานมืออย่างมาก
สุดท้ายแล้วสาขาอื่นอย่างการเขียนโปรแกรมก็คงหนีไม่พ้นการถูกทำให้อัตโนมัติ
แค่ต้องใช้เวลาเพิ่มอีกหน่อยเท่านั้น (5~10 ปี?)
งานวิศวกรรมอาจใช้เวลานานกว่าเพราะมีความผิดพลาดและหนี้ทางเทคนิค
ภาพถ้าพังแล้วก็สร้างใหม่ได้ แต่โปรแกรมถ้าพังขึ้นมา มันจะกลายเป็นก้อนโค้ดที่ดูแลต่อไม่ได้ทันที
แต่ไม่ช้าก็เร็ว กระแสนี้ก็มาถึงสายงานของพวกเราแน่นอน
พอขอให้ Gemini สร้างภาพ ครึ่งหนึ่งกลับตอบว่าทำไม่ได้
รู้สึกว่าฟีเจอร์ของ Google ใช้งานจริงยากเกินไป
บางอย่างอยู่ในผลิตภัณฑ์หนึ่ง บางอย่างกระจายไปอีกผลิตภัณฑ์หนึ่ง และยังสับสนอีกว่าควรเข้าจากตรงไหน
ใช่เลย
บนเว็บไซต์มีข้อความว่า "ลองใช้ใน Gemini" แต่พอเลือก Gemini 2.5 Flash แล้วกลับไม่แน่ใจด้วยซ้ำว่าตัวเองกำลังใช้สิ่งนี้ถูกต้องหรือเปล่า
ในแอปหรือเว็บไซต์ Gemini ไม่มีโมเดลนี้อยู่เลย
ต้องไปใช้ผ่านช่องทางอื่นอย่าง AI Studio
UI/UX ของฝั่ง Google โดยรวมชวนสับสนมากจริง ๆ