OpenAI เปิดตัวความสามารถสร้างภาพผ่าน API ได้แล้ว

(openai.com)

1 คะแนน โดย GN⁺ 2025-04-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ความสามารถในการสร้างภาพที่ OpenAI นำเข้าสู่ ChatGPT เมื่อเดือนที่แล้ว ทำสถิติสร้างภาพไปแล้วมากกว่า 700 ล้านภาพ ในสัปดาห์แรกที่เปิดตัว
ตอนนี้ได้ขยายสู่ API ด้วยการเปิดตัวโมเดล gpt-image-1 ทำให้นักพัฒนาและองค์กรสามารถนำไปผสานเข้ากับแพลตฟอร์มของตนเองได้
ถูกนำไปใช้งานในหลากหลายอุตสาหกรรม เช่น งานออกแบบ การสร้างโลโก้ การตลาด การตัดต่อวิดีโอ ฯลฯ
เสริมความแข็งแกร่งด้านความปลอดภัย และ โดยปกติจะไม่นำข้อมูลลูกค้าจากการใช้ API ไปใช้ฝึกโมเดล
ค่าบริการต่อภาพโดยประมาณตามระดับคุณภาพคือ $0.02 (ต่ำ), $0.07 (กลาง), $0.19 (สูง)

เปิดตัวโมเดลสร้างภาพผ่าน API

OpenAI ขยายความสามารถสร้างภาพที่ได้รับความนิยมใน ChatGPT มาสู่ API พร้อมเปิดตัวโมเดล gpt-image-1
โมเดลนี้สามารถสร้างได้หลากหลายสไตล์, เรนเดอร์ข้อความได้อย่างแม่นยำ, ยึดตามแนวทางที่ผู้ใช้กำหนดได้อย่างเคร่งครัด และ ใช้ความรู้เกี่ยวกับโลกได้
ปัจจุบันมีทั้งองค์กรและสตาร์ทอัพนำไปใช้ในหลายด้าน เช่น การออกแบบ อีคอมเมิร์ซ การศึกษา เกม และอีกมากมาย

กรณีการใช้งานหลัก

Adobe: มอบความสามารถสร้างภาพผ่าน Firefly และแอป Express เพื่อให้ทดลองสไตล์ความงามที่หลากหลาย
Airtable: ใช้ AI เพื่อเพิ่มผลิตภาพเชิงสร้างสรรค์ในเวิร์กโฟลว์ขนาดใหญ่
Figma: ผสานความสามารถสร้างและแก้ไขภาพเข้ากับแพลตฟอร์มผ่าน gpt-image-1 เพื่อให้ผู้ใช้สำรวจไอเดียในเชิงภาพได้
Canva กำลังผสาน gpt-image-1 เข้ากับ Canva AI และ Magic Studio เพื่อขยายความสามารถด้านการสร้างและแก้ไขงานออกแบบ
- ตัวอย่างเช่น แปลงภาพสเก็ตช์ลวกๆ ให้เป็นองค์ประกอบกราฟิกที่ประณีต หรือทำให้สามารถแก้ไขอย่างละเอียดความแม่นยำสูงได้
GoDaddy กำลังทดลองใช้การสร้างภาพสำหรับการสร้างและแก้ไขโลโก้
- สามารถทำได้ทั้งการลบพื้นหลัง, การสร้างงานตัวอักษร, และ การสร้างคอนเทนต์ที่สะท้อนอัตลักษณ์ของแบรนด์
- ยังรองรับการสร้างคอนเทนต์โซเชียลมีเดียและทรัพย์สินทางการตลาดผ่านการเชื่อมต่อกับ GoDaddy Airo®
HubSpot กำลังทดลองใช้ความสามารถสร้างภาพเพื่อจัดทำสื่อการตลาดและการขาย
- ช่วยให้มีโอกาสสร้างภาพคุณภาพสูงได้โดยไม่ต้องมีดีไซเนอร์ เพื่อนำไปใช้กับอีเมล โซเชียลมีเดีย และหน้าแลนดิ้งเพจ
Gamma: สร้างภาพ AI มากกว่า 5 ล้านภาพต่อวัน เพื่อช่วยงานนำเสนอและเว็บไซต์
HeyGen: ปรับปรุงความสามารถในการสร้างและแก้ไขอวตาร เพื่อมอบประสบการณ์ที่เป็นส่วนตัวมากขึ้นให้ผู้ใช้
OpusClip: สร้างภาพปกแบบดึงดูดการคลิกสำหรับครีเอเตอร์ YouTube
Instacart กำลังทดสอบการใช้ Image Generation API เพื่อเพิ่มภาพลงในสูตรอาหารหรือรายการช็อปปิง
invideo นำ gpt-image-1 มาใช้เพื่อเพิ่มความสามารถด้านการสร้างข้อความที่ดีขึ้น, การควบคุมการแก้ไขอย่างแม่นยำ, และ การให้คู่มือสไตล์

ความปลอดภัย

gpt-image-1 ใช้มาตรการป้องกันแบบเดียวกับการสร้างภาพของ 4o ที่ใช้ใน ChatGPT
ป้องกันการสร้างภาพที่เป็นอันตราย และ ใส่เมตาดาตา C2PA ลงในภาพที่สร้าง
สามารถปรับระดับความไวของการกรองได้ผ่านพารามิเตอร์ moderation (ค่าเริ่มต้น: auto, ความไวต่ำ: low)
OpenAI ไม่นำข้อมูลของลูกค้า API ไปใช้ฝึกโมเดล และ อินพุต/เอาต์พุตเป็นไปตามนโยบายการใช้งาน API

นโยบายราคา

โทเค็นอินพุตข้อความ: $5 ต่อ 1 ล้านโทเค็น
โทเค็นอินพุตภาพ: $10 ต่อ 1 ล้านโทเค็น
โทเค็นเอาต์พุตภาพ: $40 ต่อ 1 ล้านโทเค็น
ค่าบริการต่อภาพโดยประมาณตามระดับคุณภาพคือ $0.02 (ต่ำ), $0.07 (กลาง), $0.19 (สูง)

วิธีเริ่มต้น

gpt-image-1 พร้อมใช้งานบน Images API ทั่วโลก และจะรองรับ Responses API ในเร็วๆ นี้
นักพัฒนาบางรายอาจต้องผ่านกระบวนการยืนยันองค์กรก่อนใช้งาน
สามารถทดสอบความสามารถใน Playground และเริ่มต้นได้ผ่านเอกสารคู่มือ

1 ความคิดเห็น

GN⁺ 2025-04-25

ความคิดเห็นจาก Hacker News

เมื่อวานมีการบ่นเรื่องอัตราการปฏิเสธที่สูงมากสำหรับงานที่เกี่ยวข้องกับรัฐบาลและกองทัพ ซึ่งอาจทำให้ผู้รับจ้างหันไปใช้โมเดลโอเพนซอร์สที่พัฒนาใน CN และทำให้งานเสียหายได้
- วันนี้พบว่าบริษัทที่ทำงานในด้านนั้นมีเลเยอร์การเข้าถึง API ที่แทบไม่มีการเซ็นเซอร์เนื้อหาเลย ไม่รู้ว่าจะขอสิทธิ์เข้าถึงเลเยอร์นี้อย่างไร แต่ได้คุยกับผู้รับจ้างด้านกลาโหม 4 รายที่ใช้งานสิ่งนี้อยู่แล้ว
ด้วยความอยากรู้อยากเห็น จึงสร้างพรอมป์ต์เดียวกันสำหรับแต่ละระดับคุณภาพ: 'Auto', 'low', 'medium', 'high'
- พรอมป์ต์: "ลูกสุนัขน่ารักกำลังกอดลูกแมวน่ารัก"
- ได้แสดงภาพ DALL:E 3 บางภาพไว้ในคอมเมนต์เพื่อใช้เปรียบเทียบ
สร้างภาพ 5 ภาพใน Playground ภาพหนึ่งใช้แค่พรอมป์ต์ข้อความ ส่วนอีก 4 ภาพใช้รูปจากโทรศัพท์ ใช้เงินไป $0.85 เพื่อทำภาพเหมือนสไตล์ Studio Ghibli สำหรับแชตกลุ่มครอบครัว แต่แพงเกินไปถ้าจะเอาไปใช้ในผลิตภัณฑ์สำหรับลูกค้า
สงสัยว่ามีแอปพลิเคชันแบบไหนที่ต้องสร้างภาพเป็นหลักร้อยหรือหลักพัน ชอบการทำรูปครอบครัวเป็นสไตล์ Ghibli แต่ไม่ได้ต้องการทำจำนวนมาก ทุกครั้งที่ใช้การสร้างภาพก็เป็นงานครั้งเดียวจบ และทำใน UI ของ ChatGPT ก็ถือว่าน่าพอใจแล้ว
ในแง่ราคา API นี้น่าจะยากที่จะอธิบายความคุ้มค่าได้ เว้นแต่จะได้ประโยชน์จากการใส่ภาพอ้างอิง โดยภาพ 'medium' ขนาด 1024x1024 ที่สร้างได้มีราคา $0.04 ต่อภาพ ซึ่งอยู่ในคลาสราคาเดียวกับ Imagen 3 และ Flux 1.1 Pro จากการทดสอบใน Playground ใหม่ ภาพ medium มีคุณภาพด้อยกว่าสองโมเดลคู่แข่ง และยังใช้เวลาสร้างเกิน 15 วินาที
- การเขียนพรอมป์ต์ให้โมเดลนี้แตกต่างจากโมเดลแบบดั้งเดิมมากและยากกว่า เทคนิคพรอมป์ต์ภาพแบบเดิมแทบใช้ไม่ได้ และยากที่จะได้ผลลัพธ์ที่ใช้ได้หากไม่มีการเสริมพรอมป์ต์อย่างมาก
"การตัดต่อวิดีโอ: invideo ช่วยให้ผู้ใช้หลายล้านคนเปลี่ยนไอเดียเป็นวิดีโอด้วย AI ได้ ด้วยการผสานรวม gpt-image-1 ตอนนี้แพลตฟอร์มสามารถให้การสร้างข้อความที่ดีขึ้น การควบคุมการแก้ไขที่ละเอียดขึ้น และคำสั่งด้านสไตล์ขั้นสูง"
- สงสัยว่านี่หมายความว่ามันประมวลผลวิดีโอได้ในทางใดทางหนึ่งด้วยหรือไม่
การใช้งาน gpt-image-1 คิดราคาตามโทเค็น โดยมีราคาคิดแยกระหว่างโทเค็นข้อความและโทเค็นภาพ
- โทเค็นข้อความขาเข้า (ข้อความพรอมป์ต์): $5 ต่อ 1M โทเค็น
- โทเค็นภาพขาเข้า (ภาพอินพุต): $10 ต่อ 1M โทเค็น
- โทเค็นภาพขาออก (ภาพที่สร้าง): $40 ต่อ 1M โทเค็น
- ในทางปฏิบัติ แปลเป็นราคาประมาณ $0.02, $0.07, $0.19 ต่อภาพสี่เหลี่ยมคุณภาพต่ำ กลาง และสูง ตามลำดับ
- สำหรับสตาร์ตอัปถือว่าราคาค่อนข้างแพง
สำหรับคนที่สงสัย โมเดลนี้เป็น LLM-based ไม่ใช่ diffusion-based ซึ่งทำให้มันทำตามพรอมป์ต์ข้อความได้แม่นยำกว่ามาก
- ตัวอย่างเช่น ผู้ใช้แอปสร้างภาพคนหนึ่ง (รวมถึงฉัน) พยายามสร้างภาพคนอยู่ในกระเป๋าหน้าท้องของจิงโจ้
- ไม่ว่าจะใช้พรอมป์ต์แบบไหนก็ทำไม่ได้
- แต่โมเดลใหม่นี้ทำได้ในครั้งเดียว
GoDaddy กำลังทดลองอย่างจริงจังในการผสานการสร้างภาพ เพื่อให้ลูกค้าสามารถสร้างโลโก้ที่แก้ไขต่อได้ง่าย
- จำได้ว่าเมื่อ 1-2 ปีก่อนเคยเจอคนที่ทำงานเรื่องไอคอนที่ลูกค้าสร้างเองของ GoDaddy บน Discord โมเดลเฉพาะทางในสเกลนั้นอาจถูกแทนที่ด้วย gpt-image-1
มีใครพอมีไอเดียไหมว่า "โทเค็นภาพ" ในการคิดราคาหมายถึงอะไร?
- สงสัยว่ามันคือบล็อกภาพขนาดคงที่หรือไม่

OpenAI เปิดตัวความสามารถสร้างภาพผ่าน API ได้แล้ว

เปิดตัวโมเดลสร้างภาพผ่าน API

กรณีการใช้งานหลัก

ความปลอดภัย

นโยบายราคา

วิธีเริ่มต้น

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News