- ความสามารถในการสร้างภาพที่ OpenAI นำเข้าสู่ ChatGPT เมื่อเดือนที่แล้ว ทำสถิติสร้างภาพไปแล้วมากกว่า 700 ล้านภาพ ในสัปดาห์แรกที่เปิดตัว
- ตอนนี้ได้ขยายสู่ API ด้วยการเปิดตัวโมเดล gpt-image-1 ทำให้นักพัฒนาและองค์กรสามารถนำไปผสานเข้ากับแพลตฟอร์มของตนเองได้
- ถูกนำไปใช้งานในหลากหลายอุตสาหกรรม เช่น งานออกแบบ การสร้างโลโก้ การตลาด การตัดต่อวิดีโอ ฯลฯ
- เสริมความแข็งแกร่งด้านความปลอดภัย และ โดยปกติจะไม่นำข้อมูลลูกค้าจากการใช้ API ไปใช้ฝึกโมเดล
- ค่าบริการต่อภาพโดยประมาณตามระดับคุณภาพคือ $0.02 (ต่ำ), $0.07 (กลาง), $0.19 (สูง)
เปิดตัวโมเดลสร้างภาพผ่าน API
- OpenAI ขยายความสามารถสร้างภาพที่ได้รับความนิยมใน ChatGPT มาสู่ API พร้อมเปิดตัวโมเดล gpt-image-1
- โมเดลนี้สามารถสร้างได้หลากหลายสไตล์, เรนเดอร์ข้อความได้อย่างแม่นยำ, ยึดตามแนวทางที่ผู้ใช้กำหนดได้อย่างเคร่งครัด และ ใช้ความรู้เกี่ยวกับโลกได้
- ปัจจุบันมีทั้งองค์กรและสตาร์ทอัพนำไปใช้ในหลายด้าน เช่น การออกแบบ อีคอมเมิร์ซ การศึกษา เกม และอีกมากมาย
กรณีการใช้งานหลัก
- Adobe: มอบความสามารถสร้างภาพผ่าน Firefly และแอป Express เพื่อให้ทดลองสไตล์ความงามที่หลากหลาย
- Airtable: ใช้ AI เพื่อเพิ่มผลิตภาพเชิงสร้างสรรค์ในเวิร์กโฟลว์ขนาดใหญ่
- Figma: ผสานความสามารถสร้างและแก้ไขภาพเข้ากับแพลตฟอร์มผ่าน
gpt-image-1 เพื่อให้ผู้ใช้สำรวจไอเดียในเชิงภาพได้
- Canva กำลังผสาน gpt-image-1 เข้ากับ Canva AI และ Magic Studio เพื่อขยายความสามารถด้านการสร้างและแก้ไขงานออกแบบ
- ตัวอย่างเช่น แปลงภาพสเก็ตช์ลวกๆ ให้เป็นองค์ประกอบกราฟิกที่ประณีต หรือทำให้สามารถแก้ไขอย่างละเอียดความแม่นยำสูงได้
- GoDaddy กำลังทดลองใช้การสร้างภาพสำหรับการสร้างและแก้ไขโลโก้
- สามารถทำได้ทั้งการลบพื้นหลัง, การสร้างงานตัวอักษร, และ การสร้างคอนเทนต์ที่สะท้อนอัตลักษณ์ของแบรนด์
- ยังรองรับการสร้างคอนเทนต์โซเชียลมีเดียและทรัพย์สินทางการตลาดผ่านการเชื่อมต่อกับ GoDaddy Airo®
- HubSpot กำลังทดลองใช้ความสามารถสร้างภาพเพื่อจัดทำสื่อการตลาดและการขาย
- ช่วยให้มีโอกาสสร้างภาพคุณภาพสูงได้โดยไม่ต้องมีดีไซเนอร์ เพื่อนำไปใช้กับอีเมล โซเชียลมีเดีย และหน้าแลนดิ้งเพจ
- Gamma: สร้างภาพ AI มากกว่า 5 ล้านภาพต่อวัน เพื่อช่วยงานนำเสนอและเว็บไซต์
- HeyGen: ปรับปรุงความสามารถในการสร้างและแก้ไขอวตาร เพื่อมอบประสบการณ์ที่เป็นส่วนตัวมากขึ้นให้ผู้ใช้
- OpusClip: สร้างภาพปกแบบดึงดูดการคลิกสำหรับครีเอเตอร์ YouTube
- Instacart กำลังทดสอบการใช้ Image Generation API เพื่อเพิ่มภาพลงในสูตรอาหารหรือรายการช็อปปิง
- invideo นำ gpt-image-1 มาใช้เพื่อเพิ่มความสามารถด้านการสร้างข้อความที่ดีขึ้น, การควบคุมการแก้ไขอย่างแม่นยำ, และ การให้คู่มือสไตล์
ความปลอดภัย
- gpt-image-1 ใช้มาตรการป้องกันแบบเดียวกับการสร้างภาพของ 4o ที่ใช้ใน ChatGPT
- ป้องกันการสร้างภาพที่เป็นอันตราย และ ใส่เมตาดาตา C2PA ลงในภาพที่สร้าง
- สามารถปรับระดับความไวของการกรองได้ผ่านพารามิเตอร์
moderation (ค่าเริ่มต้น: auto, ความไวต่ำ: low)
- OpenAI ไม่นำข้อมูลของลูกค้า API ไปใช้ฝึกโมเดล และ อินพุต/เอาต์พุตเป็นไปตามนโยบายการใช้งาน API
นโยบายราคา
- โทเค็นอินพุตข้อความ: $5 ต่อ 1 ล้านโทเค็น
- โทเค็นอินพุตภาพ: $10 ต่อ 1 ล้านโทเค็น
- โทเค็นเอาต์พุตภาพ: $40 ต่อ 1 ล้านโทเค็น
- ค่าบริการต่อภาพโดยประมาณตามระดับคุณภาพคือ $0.02 (ต่ำ), $0.07 (กลาง), $0.19 (สูง)
วิธีเริ่มต้น
- gpt-image-1 พร้อมใช้งานบน Images API ทั่วโลก และจะรองรับ Responses API ในเร็วๆ นี้
- นักพัฒนาบางรายอาจต้องผ่านกระบวนการยืนยันองค์กรก่อนใช้งาน
- สามารถทดสอบความสามารถใน Playground และเริ่มต้นได้ผ่านเอกสารคู่มือ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
เมื่อวานมีการบ่นเรื่องอัตราการปฏิเสธที่สูงมากสำหรับงานที่เกี่ยวข้องกับรัฐบาลและกองทัพ ซึ่งอาจทำให้ผู้รับจ้างหันไปใช้โมเดลโอเพนซอร์สที่พัฒนาใน CN และทำให้งานเสียหายได้
ด้วยความอยากรู้อยากเห็น จึงสร้างพรอมป์ต์เดียวกันสำหรับแต่ละระดับคุณภาพ: 'Auto', 'low', 'medium', 'high'
สร้างภาพ 5 ภาพใน Playground ภาพหนึ่งใช้แค่พรอมป์ต์ข้อความ ส่วนอีก 4 ภาพใช้รูปจากโทรศัพท์ ใช้เงินไป $0.85 เพื่อทำภาพเหมือนสไตล์ Studio Ghibli สำหรับแชตกลุ่มครอบครัว แต่แพงเกินไปถ้าจะเอาไปใช้ในผลิตภัณฑ์สำหรับลูกค้า
สงสัยว่ามีแอปพลิเคชันแบบไหนที่ต้องสร้างภาพเป็นหลักร้อยหรือหลักพัน ชอบการทำรูปครอบครัวเป็นสไตล์ Ghibli แต่ไม่ได้ต้องการทำจำนวนมาก ทุกครั้งที่ใช้การสร้างภาพก็เป็นงานครั้งเดียวจบ และทำใน UI ของ ChatGPT ก็ถือว่าน่าพอใจแล้ว
ในแง่ราคา API นี้น่าจะยากที่จะอธิบายความคุ้มค่าได้ เว้นแต่จะได้ประโยชน์จากการใส่ภาพอ้างอิง โดยภาพ 'medium' ขนาด 1024x1024 ที่สร้างได้มีราคา $0.04 ต่อภาพ ซึ่งอยู่ในคลาสราคาเดียวกับ Imagen 3 และ Flux 1.1 Pro จากการทดสอบใน Playground ใหม่ ภาพ medium มีคุณภาพด้อยกว่าสองโมเดลคู่แข่ง และยังใช้เวลาสร้างเกิน 15 วินาที
"การตัดต่อวิดีโอ: invideo ช่วยให้ผู้ใช้หลายล้านคนเปลี่ยนไอเดียเป็นวิดีโอด้วย AI ได้ ด้วยการผสานรวม gpt-image-1 ตอนนี้แพลตฟอร์มสามารถให้การสร้างข้อความที่ดีขึ้น การควบคุมการแก้ไขที่ละเอียดขึ้น และคำสั่งด้านสไตล์ขั้นสูง"
การใช้งาน gpt-image-1 คิดราคาตามโทเค็น โดยมีราคาคิดแยกระหว่างโทเค็นข้อความและโทเค็นภาพ
สำหรับคนที่สงสัย โมเดลนี้เป็น LLM-based ไม่ใช่ diffusion-based ซึ่งทำให้มันทำตามพรอมป์ต์ข้อความได้แม่นยำกว่ามาก
GoDaddy กำลังทดลองอย่างจริงจังในการผสานการสร้างภาพ เพื่อให้ลูกค้าสามารถสร้างโลโก้ที่แก้ไขต่อได้ง่าย
มีใครพอมีไอเดียไหมว่า "โทเค็นภาพ" ในการคิดราคาหมายถึงอะไร?