8 คะแนน โดย GN⁺ 2024-08-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลข้อความสู่ภาพโอเพนซอร์สแบบ SOTA ที่ใหญ่ที่สุด พัฒนาโดย Black Forest Labs
    • ทีมต้นฉบับผู้พัฒนา Stable Diffusion
  • ด้วยขนาด 12B พารามิเตอร์ จึงขยายขีดจำกัดของความสร้างสรรค์และประสิทธิภาพ พร้อมมอบความสามารถในการสร้างภาพที่ใกล้เคียงกับ Midjourney

มีให้เลือก 3 รุ่น

  • FLUX.1 [dev]: โมเดลพื้นฐานที่โอเพนซอร์สภายใต้ไลเซนส์แบบไม่ใช่เชิงพาณิชย์ โดยชุมชนสามารถนำไปต่อยอดได้
  • FLUX.1 [schnell]: เวอร์ชัน distilled ของโมเดลพื้นฐาน ทำงานได้เร็วขึ้นสูงสุด 10 เท่า ไลเซนส์ Apache 2
  • FLUX.1 [pro]: เวอร์ชันปิดที่ใช้งานได้ผ่าน API เท่านั้น

คุณสมบัติเด่น

  • คุณภาพของภาพที่ดีขึ้น: สามารถสร้างภาพความละเอียดสูงที่น่าทึ่งได้
  • กายวิภาคของมนุษย์ขั้นสูงและโฟโตรีอะลิซึม: สามารถสร้างภาพที่สมจริงมากและถูกต้องตามหลักกายวิภาค
  • การทำตามพรอมป์ต์ที่ดีขึ้น: สามารถสร้างภาพที่แม่นยำและเกี่ยวข้องกับอินพุตได้มากขึ้น
  • ความเร็วที่ยอดเยี่ยม: ความเร็วและประสิทธิภาพของ Flux Schnell เหมาะอย่างยิ่งสำหรับแอปพลิเคชันที่มีความต้องการสูง

การผสานรวมของ fal

  • ผสานรวมเอนจินอนุมานล้ำสมัยของ fal ทำให้รันโมเดล Flux ได้เร็วกว่า eager torch สูงสุด 2 เท่า
  • เวลาประมวลผลรวดเร็ว พร้อมคงคุณภาพและรายละเอียดที่ยอดเยี่ยมไว้

สรุปโดย GN⁺

  • Flux คือโมเดลข้อความสู่ภาพรุ่นล่าสุดจาก Black Forest Labs ที่นำเสนอเกณฑ์มาตรฐานใหม่ของความสร้างสรรค์และประสิทธิภาพ
  • มีโซลูชันที่ปรับให้เหมาะกับการใช้งานที่หลากหลายผ่านโมเดลหลายเวอร์ชัน
  • ด้วยคุณภาพภาพที่ดีขึ้นและความสามารถในการถ่ายทอดภาพที่สมจริง จึงเหมาะกับแอปพลิเคชันที่มีความต้องการสูง
  • เอนจินอนุมานของ fal ช่วยให้รันโมเดลได้รวดเร็วและมีประสิทธิภาพมากยิ่งขึ้น
  • โปรเจกต์อื่นที่มีความสามารถคล้ายกัน ได้แก่ DALL-E และ Midjourney

1 ความคิดเห็น

 
GN⁺ 2024-08-02
ความคิดเห็นจาก Hacker News
  • burkay จาก fal.ai: โมเดลนี้ไม่ได้สร้างโดย fal แต่สร้างโดย Black Forest Labs

    • fal.ai รันโมเดลบนเอนจินอนุมานที่ปรับแต่งมาอย่างเหมาะสม ทำให้ทำงานได้เร็วมาก
    • สามารถลองใช้โมเดลได้ใน playground
    • โมเดล [schnell] เปิดโอเพนซอร์สบน Hugging Face ภายใต้ไลเซนส์ Apache
    • การเรนเดอร์ข้อความเร็วมากและยอดเยี่ยม และมี text encoder ที่จัดการข้อความและตำแหน่งได้ดีกว่า
    • เมื่อการเรนเดอร์ข้อความดีขึ้น ลายน้ำข้อความในข้อมูลฝึกก็จะปรากฏชัดเจนขึ้น
    • มีลิงก์ให้ลองใช้โมเดล
      • FLUX.1 [schnell]: Apache 2.0, open weights, step distillation
      • FLUX.1 [dev]: ไม่ใช่เชิงพาณิชย์, open weights, guided distillation (ต้องล็อกอิน)
      • FLUX.1 [pro]: โคลสซอร์ส, SOTA, raw data (ใช้งานได้ผ่าน API เท่านั้น)
  • ผู้ใช้อื่น: การเปรียบเทียบส่วนใหญ่ยังทดสอบโมเดลใหม่นี้ได้ไม่ดีพอ

    • การทำตามพรอมป์ต์ที่ดีที่สุดในตลาดตอนนี้คือ DALL-E 3 แต่ก็ยังอ่อนในแนวคิดที่ซับซ้อนและมีการเซ็นเซอร์มาก
    • จากการเปรียบเทียบ Flux กับ DALL-E 3 พบว่า Flux น่าประทับใจและทำผลงานได้ดีมาก
    • ได้โพสต์ผลการเปรียบเทียบไว้ในบล็อก
  • ผู้ใช้อื่น: ทดสอบโดยใช้พรอมป์ต์ของ ideogram และ Flux สร้างภาพที่ดีมาก

    • เคยลองใช้ ideogram แต่ไม่ชอบฟิลเตอร์ของมัน
    • ถ้ารันในเครื่องได้ ก็ใกล้เคียงมากทั้งด้านคุณภาพภาพและการทำตามพรอมป์ต์
    • เมื่อข้อความซับซ้อน ก็ยังเขียนออกมาได้ไม่ชัดเจน
    • ให้พรอมป์ต์ของภาพจาก ideogram เป็นตัวอย่าง
    • เลิกใช้ stable diffusion ไปนานแล้ว เพราะเทคโนโลยีซับซ้อนเกินไปจนไม่สนุก
    • อยากได้ระบบแบบ ideogram ที่รันในเครื่องได้โดยไม่มีฟิลเตอร์
    • โมเดลนี้ดีมาก
  • ผู้ใช้อื่น: ทุกครั้งที่เห็นโมเดลใหม่ จะลองดูว่ามันสร้างไดอะแกรมวิศวกรรมได้ไหม

    • โมเดลนี้ยังจัดการไดอะแกรมวิศวกรรมได้ไม่ดีนัก
    • อยากให้บริษัท AI ช่วยแก้ปัญหาเรื่องไดอะแกรมวิศวกรรม
    • เป็นไปได้มากว่ายังไม่มีอยู่ในชุดข้อมูลฝึกปัจจุบัน
    • อยากสร้างชุดข้อมูลสังเคราะห์/เบนช์มาร์ก
  • ผู้ใช้อื่น: ขั้นตอนสมัครใช้งานยุ่งยาก

    • การสร้างบัญชี Github ตอนนี้เกิดข้อผิดพลาด ต้องลองสองครั้งและใช้สองเบราว์เซอร์
  • ผู้ใช้อื่น: สตาร์ตอัปที่ได้เงินทุนเวนเจอร์ยังคงปล่อยโมเดลฟรีต่อไปทั้งที่ไม่มีโมเดลธุรกิจ

    • สนับสนุนโอเพนซอร์ส แต่กังวลว่าในระยะยาวอาจไม่ยั่งยืน
  • ผู้ใช้อื่น: คุณภาพน่าประทับใจ

  • ผู้ใช้อื่น: จัดการความสัมพันธ์เชิงพื้นที่ได้ไม่ดี

    • "บ้านที่กลับหัว" -> บ้านธรรมดา
    • "ม้านั่งอยู่บนสุนัข" -> ม้ากับสุนัขอยู่ข้างกัน
    • "Lockheed Martin F-22 Raptor ที่พลิกคว่ำ" -> ได้ผลลัพธ์ผิด