3 คะแนน โดย GN⁺ 2025-05-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Google เปิดตัว ฟีเจอร์สร้างภาพผ่านโมเดล Gemini 2.0 Flash ในรูปแบบพรีวิวสำหรับนักพัฒนา
  • สามารถใช้คำสั่งแบบข้อความเพื่อ สร้างภาพ แก้ไขภาพ และแก้ไขเฉพาะบางส่วน ได้ พร้อมทั้งปรับปรุงคุณภาพด้านภาพและการเรนเดอร์ข้อความ
  • แนะนำกรณีการใช้งานที่หลากหลาย เช่น การเปลี่ยนสกินสินค้า การสร้าง SKU และการแก้ไขร่วมกันแบบเรียลไทม์
  • สามารถทดสอบได้ทันทีผ่าน [Google AI Studio] และ [Vertex AI] พร้อมทั้ง ปรับเพิ่มขีดจำกัดการใช้งาน API

เปิดพรีวิวฟีเจอร์สร้างภาพของ Gemini 2.0 Flash

  • ตามฟีดแบ็กจากนักพัฒนา Google จึงเปิดให้ใช้งาน ฟีเจอร์สร้างภาพผ่านโมเดล Gemini 2.0 Flash ในเวอร์ชันพรีวิว
  • ผู้ใช้สามารถใช้งานได้ผ่าน Google AI Studio หรือ Vertex AI

การปรับปรุงหลัก

  • คุณภาพด้านภาพดีขึ้น (เมื่อเทียบกับเวอร์ชันทดลองก่อนหน้า)
  • ความแม่นยำของการเรนเดอร์ข้อความดีขึ้น
  • อัตราการถูกบล็อกโดยฟิลเตอร์ลดลง

ตัวอย่างความสามารถด้านการสร้างภาพที่นำไปใช้ได้

  • การเปลี่ยนพื้นหลังภาพสินค้า: สามารถ จัดองค์ประกอบภาพสินค้าเดิมใหม่ด้วยพื้นหลังและสภาพแวดล้อมที่หลากหลาย
  • การแก้ไขร่วมกันแบบเรียลไทม์: ใน แอป Gemini Co-Drawing รองรับ การแก้ไขภาพแบบเรียลไทม์โดยผู้ใช้หลายคน
  • การแก้ไขเฉพาะบางส่วนของภาพแบบโต้ตอบ: สามารถ แก้ไขเฉพาะบางพื้นที่ด้วยคำสั่งแบบโต้ตอบได้โดยไม่ต้องเปลี่ยนทั้งภาพ
  • การสร้าง SKU สินค้าแบบไดนามิก: ผสานภาพและข้อความเพื่อ สร้างรูปแบบสินค้ารุ่นย่อยใหม่โดยอัตโนมัติ (เช่น สี ฉลาก เป็นต้น)
  • การระดมไอเดียร่วมกับ Gemini: ใช้การผสานข้อความ+ภาพเพื่อ สร้างสถานการณ์ใช้งานที่หลากหลาย เช่น การทำอาหาร สินค้า และการวางแผน

ตัวอย่างการใช้งาน API (Python)

from google import genai  
from google.genai import types  
  
client = genai.Client(api_key="GEMINI_API_KEY")  
response = client.models.generate_content(  
    model="gemini-2.0-flash-preview-image-generation",  
    contents=("Show me how to bake a macaron with images."),  
    config=types.GenerateContentConfig(  
        response_modalities=["TEXT", "IMAGE"]  
    ),  
)  

แผนต่อไป

  • Google มีแผนจะขยายความสามารถนี้อย่างต่อเนื่องผ่าน คุณภาพที่สูงขึ้น ฟีเจอร์เพิ่มเติม ความเร็วที่ดีขึ้น และการปรับปรุงแพ็กเกจราคา
  • ดูรายละเอียดเพิ่มเติมได้ที่ คู่มือการสร้างภาพของ Gemini API

1 ความคิดเห็น

 
GN⁺ 2025-05-08
ความคิดเห็นจาก Hacker News
  • ได้ทดสอบเปรียบเทียบ Gemini 2.0 กับโมเดลสร้างภาพหลายตัว ยังไม่แน่ใจว่า Google รวม Imagen 3.0 เข้าไปมากแค่ไหน แต่โดยรวมแล้วคุณภาพด้านสุนทรียะดูด้อยกว่าพอสมควร
    • จุดเด่นหลักคือด้านมัลติโหมดที่พยายามรักษาระดับให้ทัดเทียมกับผลิตภัณฑ์ของ OpenAI และมีความเร็วสูงกว่าการสร้างภาพของ OpenAI 4o มาก
  • ทุกครั้งที่ใช้เครื่องมือ มักต้องลองหลายรอบกว่าจะได้ผลลัพธ์ที่ต้องการ จึงมีข้อกังขาเกี่ยวกับการใช้อินเทอร์เฟซแบบสนทนา
  • ควรใช้อย่างระมัดระวัง ตัวอย่างเช่น เมื่อขอสูตรบัตเตอร์ชิกเกนแบบมังสวิรัติ ระบบส่งกลับ JSON ขนาด 41MB และภาพ base64 จำนวน 28 ภาพ คิดเป็น 4 เซนต์ต่อภาพ ทำให้คำขอครั้งเดียวมีค่าใช้จ่ายเกิน 1 ดอลลาร์
  • ได้ใช้ Gemini 2.0 สร้างสูตรอาหาร 100 รายการพร้อมภาพ และผลลัพธ์ออกมาค่อนข้างดี โดยใช้ข้อมูลดิบและเมทาดาทาของตารางแทน text prompt
  • ราคาการสร้างภาพของ Gemini 2.0 อยู่ที่ $0.039 ต่อภาพ ซึ่งแพงกว่า Imagen 3 โดย Gemini สามารถสร้างภาพผ่านบทสนทนาได้ ส่วน Imagen 3 เป็นรูปแบบ text input/image output
  • ได้ผลลัพธ์แบบคละกันจากเดโม co-drawing โดยสเก็ตช์ฉากไว้และคาดหวังให้โมเดลขยายต่อ แต่กลับได้สติกฟิกเกอร์ที่เรนเดอร์เป็น 3D
  • เอาต์พุตของโมเดลถือว่าใช้ได้ และได้อัปเดตโปรเจ็กต์ล่าสุดไปใช้โมเดลใหม่นี้แล้ว ยังมีรูปแบบความล้มเหลวอยู่มาก แต่ต้องการหนังสือทำอาหารเล่มใหญ่ที่แสดงเวิร์กโฟลว์ที่ดี
  • สิ่งที่ Google และบริษัท AI อื่น ๆ กำลังมุ่งไปคือโลกของวัตถุที่สร้างด้วย AI แบบไร้ขีดจำกัด ซึ่งสามารถนำไปใช้กับการช้อปปิ้งหรืออีคอมเมิร์ซได้ นี่คือความท้าทายต่อฝีมือเชิงช่างของมนุษย์อย่างแท้จริงและต่อวัตถุที่มีอยู่จริง