Flux - โมเดล Text-To-Image โอเพนซอร์สขนาด 12B พารามิเตอร์

(blog.fal.ai)

8 คะแนน โดย GN⁺ 2024-08-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลข้อความสู่ภาพโอเพนซอร์สแบบ SOTA ที่ใหญ่ที่สุด พัฒนาโดย Black Forest Labs
- ทีมต้นฉบับผู้พัฒนา Stable Diffusion
ด้วยขนาด 12B พารามิเตอร์ จึงขยายขีดจำกัดของความสร้างสรรค์และประสิทธิภาพ พร้อมมอบความสามารถในการสร้างภาพที่ใกล้เคียงกับ Midjourney

มีให้เลือก 3 รุ่น

FLUX.1 [dev]: โมเดลพื้นฐานที่โอเพนซอร์สภายใต้ไลเซนส์แบบไม่ใช่เชิงพาณิชย์ โดยชุมชนสามารถนำไปต่อยอดได้
FLUX.1 [schnell]: เวอร์ชัน distilled ของโมเดลพื้นฐาน ทำงานได้เร็วขึ้นสูงสุด 10 เท่า ไลเซนส์ Apache 2
FLUX.1 [pro]: เวอร์ชันปิดที่ใช้งานได้ผ่าน API เท่านั้น

คุณสมบัติเด่น

คุณภาพของภาพที่ดีขึ้น: สามารถสร้างภาพความละเอียดสูงที่น่าทึ่งได้
กายวิภาคของมนุษย์ขั้นสูงและโฟโตรีอะลิซึม: สามารถสร้างภาพที่สมจริงมากและถูกต้องตามหลักกายวิภาค
การทำตามพรอมป์ต์ที่ดีขึ้น: สามารถสร้างภาพที่แม่นยำและเกี่ยวข้องกับอินพุตได้มากขึ้น
ความเร็วที่ยอดเยี่ยม: ความเร็วและประสิทธิภาพของ Flux Schnell เหมาะอย่างยิ่งสำหรับแอปพลิเคชันที่มีความต้องการสูง

การผสานรวมของ fal

ผสานรวมเอนจินอนุมานล้ำสมัยของ fal ทำให้รันโมเดล Flux ได้เร็วกว่า eager torch สูงสุด 2 เท่า
เวลาประมวลผลรวดเร็ว พร้อมคงคุณภาพและรายละเอียดที่ยอดเยี่ยมไว้

สรุปโดย GN⁺

Flux คือโมเดลข้อความสู่ภาพรุ่นล่าสุดจาก Black Forest Labs ที่นำเสนอเกณฑ์มาตรฐานใหม่ของความสร้างสรรค์และประสิทธิภาพ
มีโซลูชันที่ปรับให้เหมาะกับการใช้งานที่หลากหลายผ่านโมเดลหลายเวอร์ชัน
ด้วยคุณภาพภาพที่ดีขึ้นและความสามารถในการถ่ายทอดภาพที่สมจริง จึงเหมาะกับแอปพลิเคชันที่มีความต้องการสูง
เอนจินอนุมานของ fal ช่วยให้รันโมเดลได้รวดเร็วและมีประสิทธิภาพมากยิ่งขึ้น
โปรเจกต์อื่นที่มีความสามารถคล้ายกัน ได้แก่ DALL-E และ Midjourney

1 ความคิดเห็น

GN⁺ 2024-08-02

ความคิดเห็นจาก Hacker News

burkay จาก fal.ai: โมเดลนี้ไม่ได้สร้างโดย fal แต่สร้างโดย Black Forest Labs
- fal.ai รันโมเดลบนเอนจินอนุมานที่ปรับแต่งมาอย่างเหมาะสม ทำให้ทำงานได้เร็วมาก
- สามารถลองใช้โมเดลได้ใน playground
- โมเดล [schnell] เปิดโอเพนซอร์สบน Hugging Face ภายใต้ไลเซนส์ Apache
- การเรนเดอร์ข้อความเร็วมากและยอดเยี่ยม และมี text encoder ที่จัดการข้อความและตำแหน่งได้ดีกว่า
- เมื่อการเรนเดอร์ข้อความดีขึ้น ลายน้ำข้อความในข้อมูลฝึกก็จะปรากฏชัดเจนขึ้น
- มีลิงก์ให้ลองใช้โมเดล
  - FLUX.1 [schnell]: Apache 2.0, open weights, step distillation
  - FLUX.1 [dev]: ไม่ใช่เชิงพาณิชย์, open weights, guided distillation (ต้องล็อกอิน)
  - FLUX.1 [pro]: โคลสซอร์ส, SOTA, raw data (ใช้งานได้ผ่าน API เท่านั้น)
ผู้ใช้อื่น: การเปรียบเทียบส่วนใหญ่ยังทดสอบโมเดลใหม่นี้ได้ไม่ดีพอ
- การทำตามพรอมป์ต์ที่ดีที่สุดในตลาดตอนนี้คือ DALL-E 3 แต่ก็ยังอ่อนในแนวคิดที่ซับซ้อนและมีการเซ็นเซอร์มาก
- จากการเปรียบเทียบ Flux กับ DALL-E 3 พบว่า Flux น่าประทับใจและทำผลงานได้ดีมาก
- ได้โพสต์ผลการเปรียบเทียบไว้ในบล็อก
ผู้ใช้อื่น: ทดสอบโดยใช้พรอมป์ต์ของ ideogram และ Flux สร้างภาพที่ดีมาก
- เคยลองใช้ ideogram แต่ไม่ชอบฟิลเตอร์ของมัน
- ถ้ารันในเครื่องได้ ก็ใกล้เคียงมากทั้งด้านคุณภาพภาพและการทำตามพรอมป์ต์
- เมื่อข้อความซับซ้อน ก็ยังเขียนออกมาได้ไม่ชัดเจน
- ให้พรอมป์ต์ของภาพจาก ideogram เป็นตัวอย่าง
- เลิกใช้ stable diffusion ไปนานแล้ว เพราะเทคโนโลยีซับซ้อนเกินไปจนไม่สนุก
- อยากได้ระบบแบบ ideogram ที่รันในเครื่องได้โดยไม่มีฟิลเตอร์
- โมเดลนี้ดีมาก
ผู้ใช้อื่น: ทุกครั้งที่เห็นโมเดลใหม่ จะลองดูว่ามันสร้างไดอะแกรมวิศวกรรมได้ไหม
- โมเดลนี้ยังจัดการไดอะแกรมวิศวกรรมได้ไม่ดีนัก
- อยากให้บริษัท AI ช่วยแก้ปัญหาเรื่องไดอะแกรมวิศวกรรม
- เป็นไปได้มากว่ายังไม่มีอยู่ในชุดข้อมูลฝึกปัจจุบัน
- อยากสร้างชุดข้อมูลสังเคราะห์/เบนช์มาร์ก
ผู้ใช้อื่น: ขั้นตอนสมัครใช้งานยุ่งยาก
- การสร้างบัญชี Github ตอนนี้เกิดข้อผิดพลาด ต้องลองสองครั้งและใช้สองเบราว์เซอร์
ผู้ใช้อื่น: สตาร์ตอัปที่ได้เงินทุนเวนเจอร์ยังคงปล่อยโมเดลฟรีต่อไปทั้งที่ไม่มีโมเดลธุรกิจ
- สนับสนุนโอเพนซอร์ส แต่กังวลว่าในระยะยาวอาจไม่ยั่งยืน
ผู้ใช้อื่น: คุณภาพน่าประทับใจ
ผู้ใช้อื่น: จัดการความสัมพันธ์เชิงพื้นที่ได้ไม่ดี
- "บ้านที่กลับหัว" -> บ้านธรรมดา
- "ม้านั่งอยู่บนสุนัข" -> ม้ากับสุนัขอยู่ข้างกัน
- "Lockheed Martin F-22 Raptor ที่พลิกคว่ำ" -> ได้ผลลัพธ์ผิด

Flux - โมเดล Text-To-Image โอเพนซอร์สขนาด 12B พารามิเตอร์

มีให้เลือก 3 รุ่น

คุณสมบัติเด่น

การผสานรวมของ fal

สรุปโดย GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News