Gemini 2.0 Flash Preview: เปิดตัวฟีเจอร์สร้างและแก้ไขภาพ

(developers.googleblog.com)

3 คะแนน โดย GN⁺ 2025-05-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Google เปิดตัว ฟีเจอร์สร้างภาพผ่านโมเดล Gemini 2.0 Flash ในรูปแบบพรีวิวสำหรับนักพัฒนา
สามารถใช้คำสั่งแบบข้อความเพื่อ สร้างภาพ แก้ไขภาพ และแก้ไขเฉพาะบางส่วน ได้ พร้อมทั้งปรับปรุงคุณภาพด้านภาพและการเรนเดอร์ข้อความ
แนะนำกรณีการใช้งานที่หลากหลาย เช่น การเปลี่ยนสกินสินค้า การสร้าง SKU และการแก้ไขร่วมกันแบบเรียลไทม์
สามารถทดสอบได้ทันทีผ่าน [Google AI Studio] และ [Vertex AI] พร้อมทั้ง ปรับเพิ่มขีดจำกัดการใช้งาน API

เปิดพรีวิวฟีเจอร์สร้างภาพของ Gemini 2.0 Flash

ตามฟีดแบ็กจากนักพัฒนา Google จึงเปิดให้ใช้งาน ฟีเจอร์สร้างภาพผ่านโมเดล Gemini 2.0 Flash ในเวอร์ชันพรีวิว
ผู้ใช้สามารถใช้งานได้ผ่าน Google AI Studio หรือ Vertex AI

การปรับปรุงหลัก

คุณภาพด้านภาพดีขึ้น (เมื่อเทียบกับเวอร์ชันทดลองก่อนหน้า)
ความแม่นยำของการเรนเดอร์ข้อความดีขึ้น
อัตราการถูกบล็อกโดยฟิลเตอร์ลดลง

ตัวอย่างความสามารถด้านการสร้างภาพที่นำไปใช้ได้

การเปลี่ยนพื้นหลังภาพสินค้า: สามารถ จัดองค์ประกอบภาพสินค้าเดิมใหม่ด้วยพื้นหลังและสภาพแวดล้อมที่หลากหลาย
การแก้ไขร่วมกันแบบเรียลไทม์: ใน แอป Gemini Co-Drawing รองรับ การแก้ไขภาพแบบเรียลไทม์โดยผู้ใช้หลายคน
การแก้ไขเฉพาะบางส่วนของภาพแบบโต้ตอบ: สามารถ แก้ไขเฉพาะบางพื้นที่ด้วยคำสั่งแบบโต้ตอบได้โดยไม่ต้องเปลี่ยนทั้งภาพ
การสร้าง SKU สินค้าแบบไดนามิก: ผสานภาพและข้อความเพื่อ สร้างรูปแบบสินค้ารุ่นย่อยใหม่โดยอัตโนมัติ (เช่น สี ฉลาก เป็นต้น)
การระดมไอเดียร่วมกับ Gemini: ใช้การผสานข้อความ+ภาพเพื่อ สร้างสถานการณ์ใช้งานที่หลากหลาย เช่น การทำอาหาร สินค้า และการวางแผน

ตัวอย่างการใช้งาน API (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)

แผนต่อไป

Google มีแผนจะขยายความสามารถนี้อย่างต่อเนื่องผ่าน คุณภาพที่สูงขึ้น ฟีเจอร์เพิ่มเติม ความเร็วที่ดีขึ้น และการปรับปรุงแพ็กเกจราคา
ดูรายละเอียดเพิ่มเติมได้ที่ คู่มือการสร้างภาพของ Gemini API

1 ความคิดเห็น

GN⁺ 2025-05-08

ความคิดเห็นจาก Hacker News

ได้ทดสอบเปรียบเทียบ Gemini 2.0 กับโมเดลสร้างภาพหลายตัว ยังไม่แน่ใจว่า Google รวม Imagen 3.0 เข้าไปมากแค่ไหน แต่โดยรวมแล้วคุณภาพด้านสุนทรียะดูด้อยกว่าพอสมควร
- จุดเด่นหลักคือด้านมัลติโหมดที่พยายามรักษาระดับให้ทัดเทียมกับผลิตภัณฑ์ของ OpenAI และมีความเร็วสูงกว่าการสร้างภาพของ OpenAI 4o มาก
ทุกครั้งที่ใช้เครื่องมือ มักต้องลองหลายรอบกว่าจะได้ผลลัพธ์ที่ต้องการ จึงมีข้อกังขาเกี่ยวกับการใช้อินเทอร์เฟซแบบสนทนา
ควรใช้อย่างระมัดระวัง ตัวอย่างเช่น เมื่อขอสูตรบัตเตอร์ชิกเกนแบบมังสวิรัติ ระบบส่งกลับ JSON ขนาด 41MB และภาพ base64 จำนวน 28 ภาพ คิดเป็น 4 เซนต์ต่อภาพ ทำให้คำขอครั้งเดียวมีค่าใช้จ่ายเกิน 1 ดอลลาร์
ได้ใช้ Gemini 2.0 สร้างสูตรอาหาร 100 รายการพร้อมภาพ และผลลัพธ์ออกมาค่อนข้างดี โดยใช้ข้อมูลดิบและเมทาดาทาของตารางแทน text prompt
ราคาการสร้างภาพของ Gemini 2.0 อยู่ที่ $0.039 ต่อภาพ ซึ่งแพงกว่า Imagen 3 โดย Gemini สามารถสร้างภาพผ่านบทสนทนาได้ ส่วน Imagen 3 เป็นรูปแบบ text input/image output
ได้ผลลัพธ์แบบคละกันจากเดโม co-drawing โดยสเก็ตช์ฉากไว้และคาดหวังให้โมเดลขยายต่อ แต่กลับได้สติกฟิกเกอร์ที่เรนเดอร์เป็น 3D
เอาต์พุตของโมเดลถือว่าใช้ได้ และได้อัปเดตโปรเจ็กต์ล่าสุดไปใช้โมเดลใหม่นี้แล้ว ยังมีรูปแบบความล้มเหลวอยู่มาก แต่ต้องการหนังสือทำอาหารเล่มใหญ่ที่แสดงเวิร์กโฟลว์ที่ดี
สิ่งที่ Google และบริษัท AI อื่น ๆ กำลังมุ่งไปคือโลกของวัตถุที่สร้างด้วย AI แบบไร้ขีดจำกัด ซึ่งสามารถนำไปใช้กับการช้อปปิ้งหรืออีคอมเมิร์ซได้ นี่คือความท้าทายต่อฝีมือเชิงช่างของมนุษย์อย่างแท้จริงและต่อวัตถุที่มีอยู่จริง

Gemini 2.0 Flash Preview: เปิดตัวฟีเจอร์สร้างและแก้ไขภาพ

เปิดพรีวิวฟีเจอร์สร้างภาพของ Gemini 2.0 Flash

การปรับปรุงหลัก

ตัวอย่างความสามารถด้านการสร้างภาพที่นำไปใช้ได้

ตัวอย่างการใช้งาน API (Python)

แผนต่อไป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News