1 คะแนน โดย GN⁺ 2025-04-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ความสามารถในการสร้างภาพที่ OpenAI นำเข้าสู่ ChatGPT เมื่อเดือนที่แล้ว ทำสถิติสร้างภาพไปแล้วมากกว่า 700 ล้านภาพ ในสัปดาห์แรกที่เปิดตัว
  • ตอนนี้ได้ขยายสู่ API ด้วยการเปิดตัวโมเดล gpt-image-1 ทำให้นักพัฒนาและองค์กรสามารถนำไปผสานเข้ากับแพลตฟอร์มของตนเองได้
  • ถูกนำไปใช้งานในหลากหลายอุตสาหกรรม เช่น งานออกแบบ การสร้างโลโก้ การตลาด การตัดต่อวิดีโอ ฯลฯ
  • เสริมความแข็งแกร่งด้านความปลอดภัย และ โดยปกติจะไม่นำข้อมูลลูกค้าจากการใช้ API ไปใช้ฝึกโมเดล
  • ค่าบริการต่อภาพโดยประมาณตามระดับคุณภาพคือ $0.02 (ต่ำ), $0.07 (กลาง), $0.19 (สูง)

เปิดตัวโมเดลสร้างภาพผ่าน API

  • OpenAI ขยายความสามารถสร้างภาพที่ได้รับความนิยมใน ChatGPT มาสู่ API พร้อมเปิดตัวโมเดล gpt-image-1
  • โมเดลนี้สามารถสร้างได้หลากหลายสไตล์, เรนเดอร์ข้อความได้อย่างแม่นยำ, ยึดตามแนวทางที่ผู้ใช้กำหนดได้อย่างเคร่งครัด และ ใช้ความรู้เกี่ยวกับโลกได้
  • ปัจจุบันมีทั้งองค์กรและสตาร์ทอัพนำไปใช้ในหลายด้าน เช่น การออกแบบ อีคอมเมิร์ซ การศึกษา เกม และอีกมากมาย

กรณีการใช้งานหลัก

  • Adobe: มอบความสามารถสร้างภาพผ่าน Firefly และแอป Express เพื่อให้ทดลองสไตล์ความงามที่หลากหลาย
  • Airtable: ใช้ AI เพื่อเพิ่มผลิตภาพเชิงสร้างสรรค์ในเวิร์กโฟลว์ขนาดใหญ่
  • Figma: ผสานความสามารถสร้างและแก้ไขภาพเข้ากับแพลตฟอร์มผ่าน gpt-image-1 เพื่อให้ผู้ใช้สำรวจไอเดียในเชิงภาพได้
  • Canva กำลังผสาน gpt-image-1 เข้ากับ Canva AI และ Magic Studio เพื่อขยายความสามารถด้านการสร้างและแก้ไขงานออกแบบ
    • ตัวอย่างเช่น แปลงภาพสเก็ตช์ลวกๆ ให้เป็นองค์ประกอบกราฟิกที่ประณีต หรือทำให้สามารถแก้ไขอย่างละเอียดความแม่นยำสูงได้
  • GoDaddy กำลังทดลองใช้การสร้างภาพสำหรับการสร้างและแก้ไขโลโก้
    • สามารถทำได้ทั้งการลบพื้นหลัง, การสร้างงานตัวอักษร, และ การสร้างคอนเทนต์ที่สะท้อนอัตลักษณ์ของแบรนด์
    • ยังรองรับการสร้างคอนเทนต์โซเชียลมีเดียและทรัพย์สินทางการตลาดผ่านการเชื่อมต่อกับ GoDaddy Airo®
  • HubSpot กำลังทดลองใช้ความสามารถสร้างภาพเพื่อจัดทำสื่อการตลาดและการขาย
    • ช่วยให้มีโอกาสสร้างภาพคุณภาพสูงได้โดยไม่ต้องมีดีไซเนอร์ เพื่อนำไปใช้กับอีเมล โซเชียลมีเดีย และหน้าแลนดิ้งเพจ
  • Gamma: สร้างภาพ AI มากกว่า 5 ล้านภาพต่อวัน เพื่อช่วยงานนำเสนอและเว็บไซต์
  • HeyGen: ปรับปรุงความสามารถในการสร้างและแก้ไขอวตาร เพื่อมอบประสบการณ์ที่เป็นส่วนตัวมากขึ้นให้ผู้ใช้
  • OpusClip: สร้างภาพปกแบบดึงดูดการคลิกสำหรับครีเอเตอร์ YouTube
  • Instacart กำลังทดสอบการใช้ Image Generation API เพื่อเพิ่มภาพลงในสูตรอาหารหรือรายการช็อปปิง
  • invideo นำ gpt-image-1 มาใช้เพื่อเพิ่มความสามารถด้านการสร้างข้อความที่ดีขึ้น, การควบคุมการแก้ไขอย่างแม่นยำ, และ การให้คู่มือสไตล์

ความปลอดภัย

  • gpt-image-1 ใช้มาตรการป้องกันแบบเดียวกับการสร้างภาพของ 4o ที่ใช้ใน ChatGPT
  • ป้องกันการสร้างภาพที่เป็นอันตราย และ ใส่เมตาดาตา C2PA ลงในภาพที่สร้าง
  • สามารถปรับระดับความไวของการกรองได้ผ่านพารามิเตอร์ moderation (ค่าเริ่มต้น: auto, ความไวต่ำ: low)
  • OpenAI ไม่นำข้อมูลของลูกค้า API ไปใช้ฝึกโมเดล และ อินพุต/เอาต์พุตเป็นไปตามนโยบายการใช้งาน API

นโยบายราคา

  • โทเค็นอินพุตข้อความ: $5 ต่อ 1 ล้านโทเค็น
  • โทเค็นอินพุตภาพ: $10 ต่อ 1 ล้านโทเค็น
  • โทเค็นเอาต์พุตภาพ: $40 ต่อ 1 ล้านโทเค็น
  • ค่าบริการต่อภาพโดยประมาณตามระดับคุณภาพคือ $0.02 (ต่ำ), $0.07 (กลาง), $0.19 (สูง)

วิธีเริ่มต้น

  • gpt-image-1 พร้อมใช้งานบน Images API ทั่วโลก และจะรองรับ Responses API ในเร็วๆ นี้
  • นักพัฒนาบางรายอาจต้องผ่านกระบวนการยืนยันองค์กรก่อนใช้งาน
  • สามารถทดสอบความสามารถใน Playground และเริ่มต้นได้ผ่านเอกสารคู่มือ

1 ความคิดเห็น

 
GN⁺ 2025-04-25
ความคิดเห็นจาก Hacker News
  • เมื่อวานมีการบ่นเรื่องอัตราการปฏิเสธที่สูงมากสำหรับงานที่เกี่ยวข้องกับรัฐบาลและกองทัพ ซึ่งอาจทำให้ผู้รับจ้างหันไปใช้โมเดลโอเพนซอร์สที่พัฒนาใน CN และทำให้งานเสียหายได้

    • วันนี้พบว่าบริษัทที่ทำงานในด้านนั้นมีเลเยอร์การเข้าถึง API ที่แทบไม่มีการเซ็นเซอร์เนื้อหาเลย ไม่รู้ว่าจะขอสิทธิ์เข้าถึงเลเยอร์นี้อย่างไร แต่ได้คุยกับผู้รับจ้างด้านกลาโหม 4 รายที่ใช้งานสิ่งนี้อยู่แล้ว
  • ด้วยความอยากรู้อยากเห็น จึงสร้างพรอมป์ต์เดียวกันสำหรับแต่ละระดับคุณภาพ: 'Auto', 'low', 'medium', 'high'

    • พรอมป์ต์: "ลูกสุนัขน่ารักกำลังกอดลูกแมวน่ารัก"
    • ได้แสดงภาพ DALL:E 3 บางภาพไว้ในคอมเมนต์เพื่อใช้เปรียบเทียบ
  • สร้างภาพ 5 ภาพใน Playground ภาพหนึ่งใช้แค่พรอมป์ต์ข้อความ ส่วนอีก 4 ภาพใช้รูปจากโทรศัพท์ ใช้เงินไป $0.85 เพื่อทำภาพเหมือนสไตล์ Studio Ghibli สำหรับแชตกลุ่มครอบครัว แต่แพงเกินไปถ้าจะเอาไปใช้ในผลิตภัณฑ์สำหรับลูกค้า

  • สงสัยว่ามีแอปพลิเคชันแบบไหนที่ต้องสร้างภาพเป็นหลักร้อยหรือหลักพัน ชอบการทำรูปครอบครัวเป็นสไตล์ Ghibli แต่ไม่ได้ต้องการทำจำนวนมาก ทุกครั้งที่ใช้การสร้างภาพก็เป็นงานครั้งเดียวจบ และทำใน UI ของ ChatGPT ก็ถือว่าน่าพอใจแล้ว

  • ในแง่ราคา API นี้น่าจะยากที่จะอธิบายความคุ้มค่าได้ เว้นแต่จะได้ประโยชน์จากการใส่ภาพอ้างอิง โดยภาพ 'medium' ขนาด 1024x1024 ที่สร้างได้มีราคา $0.04 ต่อภาพ ซึ่งอยู่ในคลาสราคาเดียวกับ Imagen 3 และ Flux 1.1 Pro จากการทดสอบใน Playground ใหม่ ภาพ medium มีคุณภาพด้อยกว่าสองโมเดลคู่แข่ง และยังใช้เวลาสร้างเกิน 15 วินาที

    • การเขียนพรอมป์ต์ให้โมเดลนี้แตกต่างจากโมเดลแบบดั้งเดิมมากและยากกว่า เทคนิคพรอมป์ต์ภาพแบบเดิมแทบใช้ไม่ได้ และยากที่จะได้ผลลัพธ์ที่ใช้ได้หากไม่มีการเสริมพรอมป์ต์อย่างมาก
  • "การตัดต่อวิดีโอ: invideo ช่วยให้ผู้ใช้หลายล้านคนเปลี่ยนไอเดียเป็นวิดีโอด้วย AI ได้ ด้วยการผสานรวม gpt-image-1 ตอนนี้แพลตฟอร์มสามารถให้การสร้างข้อความที่ดีขึ้น การควบคุมการแก้ไขที่ละเอียดขึ้น และคำสั่งด้านสไตล์ขั้นสูง"

    • สงสัยว่านี่หมายความว่ามันประมวลผลวิดีโอได้ในทางใดทางหนึ่งด้วยหรือไม่
  • การใช้งาน gpt-image-1 คิดราคาตามโทเค็น โดยมีราคาคิดแยกระหว่างโทเค็นข้อความและโทเค็นภาพ

    • โทเค็นข้อความขาเข้า (ข้อความพรอมป์ต์): $5 ต่อ 1M โทเค็น
    • โทเค็นภาพขาเข้า (ภาพอินพุต): $10 ต่อ 1M โทเค็น
    • โทเค็นภาพขาออก (ภาพที่สร้าง): $40 ต่อ 1M โทเค็น
    • ในทางปฏิบัติ แปลเป็นราคาประมาณ $0.02, $0.07, $0.19 ต่อภาพสี่เหลี่ยมคุณภาพต่ำ กลาง และสูง ตามลำดับ
    • สำหรับสตาร์ตอัปถือว่าราคาค่อนข้างแพง
  • สำหรับคนที่สงสัย โมเดลนี้เป็น LLM-based ไม่ใช่ diffusion-based ซึ่งทำให้มันทำตามพรอมป์ต์ข้อความได้แม่นยำกว่ามาก

    • ตัวอย่างเช่น ผู้ใช้แอปสร้างภาพคนหนึ่ง (รวมถึงฉัน) พยายามสร้างภาพคนอยู่ในกระเป๋าหน้าท้องของจิงโจ้
    • ไม่ว่าจะใช้พรอมป์ต์แบบไหนก็ทำไม่ได้
    • แต่โมเดลใหม่นี้ทำได้ในครั้งเดียว
  • GoDaddy กำลังทดลองอย่างจริงจังในการผสานการสร้างภาพ เพื่อให้ลูกค้าสามารถสร้างโลโก้ที่แก้ไขต่อได้ง่าย

    • จำได้ว่าเมื่อ 1-2 ปีก่อนเคยเจอคนที่ทำงานเรื่องไอคอนที่ลูกค้าสร้างเองของ GoDaddy บน Discord โมเดลเฉพาะทางในสเกลนั้นอาจถูกแทนที่ด้วย gpt-image-1
  • มีใครพอมีไอเดียไหมว่า "โทเค็นภาพ" ในการคิดราคาหมายถึงอะไร?

    • สงสัยว่ามันคือบล็อกภาพขนาดคงที่หรือไม่