1 คะแนน โดย GN⁺ 2025-10-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็นคอนเทนต์ในรูปแบบการเปรียบเทียบผลลัพธ์ของ เครื่องมือแก้ไขภาพด้วย Generative AI หลายตัว
  • มีโครงสร้างสำหรับ เปรียบเทียบผลการแก้ไขในเชิงภาพ ที่แต่ละเครื่องมือสร้างขึ้นจากอินพุตเดียวกัน
  • บนหน้ามีข้อความ “Loading editing comparisons...” แสดงอยู่ ซึ่งบ่งชี้ว่า กำลังโหลดการเปรียบเทียบการแก้ไข
  • นอกเหนือจากชื่อเรื่องแล้ว ไม่มีการให้ชื่อเครื่องมือ เกณฑ์การเปรียบเทียบ หรือคำอธิบายผลลัพธ์โดยละเอียด
  • โดยรวมดูเหมือนจะเป็น อินเทอร์เฟซสำหรับเปรียบเทียบประสิทธิภาพการแก้ไขภาพด้วย AI แต่ในต้นฉบับไม่มีรายละเอียดเพิ่มเติม

ภาพรวมของหน้า

  • ชื่อเรื่องคือ “Generative AI Image Editing Showdown” ซึ่งสื่อถึงการเปรียบเทียบโมเดลแก้ไขภาพด้วย AI หลายตัว
  • ในเนื้อหามีเพียงข้อความ “Loading editing comparisons...” เท่านั้น และ ไม่มีผลการเปรียบเทียบหรือคำอธิบายใด ๆ รวมอยู่
  • ในต้นฉบับ ไม่มีข้อความ ข้อมูล รูปภาพ รายชื่อเครื่องมือ หรือเกณฑ์การประเมินเพิ่มเติม

ข้อจำกัดของข้อมูลที่มีให้

  • ต้นฉบับ ไม่มีคำอธิบายที่เป็นรูปธรรมเกี่ยวกับผลการแก้ไขหรือรายละเอียดการเปรียบเทียบ
  • ดังนั้น จุดประสงค์ของการเปรียบเทียบ โมเดล AI ที่ใช้ และวิธีการประเมินผล จึงไม่ได้ระบุไว้
  • โดยรวมแล้ว คอนเทนต์อยู่ในสถานะกำลังโหลด จึงยังไม่มีการให้ข้อมูลที่เป็นสาระสำคัญ

1 ความคิดเห็น

 
GN⁺ 2025-10-30
ความเห็นจาก Hacker News
  • ทุกคนกำลัง ประเมิน Gemini 2.5 Flash Image / Nano Banana ต่ำเกินไป
    มันทรงพลังกว่ารุ่นอื่นมากในขณะที่ราคาต่อภาพเท่ากัน และด้วย text encoder ทำให้มันจัดการกับ พรอมป์ต์ที่ซับซ้อนและละเอียดอ่อน ได้ดีกว่ามาก
    ฉันเผยแพร่ตัวอย่างไว้แล้วผ่าน แพ็กเกจ Python gemimg ของฉัน และกำลังเตรียมเขียนบล็อกโพสต์ที่รวมกรณีตัวอย่างที่หลากหลายกว่านี้
    ใน AI Studio ของ Google ยังรองรับการสร้างภาพฟรีที่ควบคุมอัตราส่วนได้ด้วย
    แต่ก็แปลกใจที่ Seedream 4.0 ชนะการทดสอบครั้งนี้

    • จริง ๆ แล้ว Nano Banana เคย เป็นไวรัล พอสมควรตอนเปิดตัว
      ถ้าไม่นับฟีเจอร์ที่ฝังอยู่ใน ChatGPT หรือกระแสสไตล์ Ghibli ฉันคิดว่ามันเป็นหนึ่งในโมเดลแต่งภาพที่เป็นที่รู้จักมากที่สุด
    • Seedream เหนือกว่าในแง่ความตรงตามพรอมป์ต์ แต่มีแนวโน้มทำให้เกิด การเปลี่ยนแปลงของไล่ระดับสี เล็กน้อย
      สำหรับการใช้งานของฉันมันไม่ใช่ปัญหาใหญ่ แต่ถ้าใครให้ความสำคัญกับความสม่ำเสมอของโทนสี Nano Banana อาจดีกว่า
    • เวลาใช้ Nano Banana ประมาณครึ่งหนึ่ง AI Studio จะขึ้นว่าล้มเหลวโดยไม่มีเหตุผล
      ทั้งที่ก็ไม่ใช่คำขอแนวติดเส้นลิขสิทธิ์ แต่ข้อผิดพลาดแบบนี้เกิดบ่อย
      ถึงอย่างนั้นเวลามันสำเร็จ ผลลัพธ์ก็ น่าประทับใจมาก
    • ฉันใช้ Nano Banana เพื่อเก็บภาพครัวรก ๆ ของตัวเอง ตอนแรกมันล้มเหลวแบบหมดรูป
      แต่พอลองครั้งที่สองด้วยการให้วิเคราะห์ภาพก่อนเพื่อดึง รายการของที่รก ออกมา แล้วค่อยสั่งลบผ่านพรอมป์ต์ ผลลัพธ์ก็ดีขึ้นมาก
      สุดท้ายก็ทำให้รู้สึกถึงความสำคัญของ prompt engineering อีกครั้ง
    • Gemini ตอนที่ทำงานดีมันยอดเยี่ยมมาก แต่บางครั้งก็ให้ผลลัพธ์หลุดโลกไปเลยและไม่ว่าลองพรอมป์ต์แบบไหนก็ไม่ตรง
      Flux ดีอย่างน่าทึ่ง แต่คนส่วนใหญ่ (รวมถึงฉัน) สุดท้ายก็มักใช้โมเดลคุ้นมืออย่าง ChatGPT หรือ Gemini เป็นค่าเริ่มต้น
  • การเปรียบเทียบแบบนี้ ใช้งานได้จริง กว่ากราฟ benchmark มาก
    ฉันใช้ Nano Banana บ่อย แต่พอมาถึงงานแก้ไขภาพอาคารภายนอกหรือภูมิสถาปัตย์ มันอ่อนมาก
    เรื่องอย่างทางเท้า ร่องระบายน้ำ หรือการแมตช์สี แทบเป็นไปไม่ได้เลย

    • ฉันกำลังทดลองเปลี่ยนภาพกลางวันเป็นกลางคืนด้วย Qwen Image Edit และโมเดลส่วนใหญ่พลาดเรื่อง การจัดแนวขอบภาพ
      Nano Banana ก็จัดการขอบเขตไม่แม่น ทำให้ภาพเหลื่อม
  • ถ้ามองจากคนที่เคยเห็นมาตรฐานในปี 2022 เดโมตอนนี้น่าทึ่งจนเทียบกับยุค SD1·2·3 ไม่ได้เลย
    ดูเหมือนว่าเราเข้าสู่ยุคที่โมเดล เข้าใจ ทั้งพรอมป์ต์และภาพจริง ๆ แล้ว
    นี่คือช่วงเวลาที่ความคิดสร้างสรรค์ขยายตัวแบบก้าวกระโดด ขณะที่วิศวกรรมยังพัฒนาอย่างต่อเนื่อง

  • การเปลี่ยนพรอมป์ต์หรือจำนวนครั้งที่ลอง แล้วเลือกแสดงเฉพาะผลลัพธ์ที่ชอบที่สุด ทำให้ความ เป็นกลาง ของการทดสอบลดลง
    ควรมีเงื่อนไขที่เป็นมาตรฐาน เช่น ใช้พรอมป์ต์และ seed เดียวกันกับทุกโมเดลแล้วสร้าง 5 ครั้ง
    ตัวอย่างเช่น Gemini 2.5 Flash ได้รับอิสระมากเกินไปในเทสต์ “Girl with Pearl Earring”
    ในทางกลับกัน OpenAI gpt-image-1 ให้ผลลัพธ์ที่ดีกว่ามากด้วยจำนวนครั้งที่น้อยกว่า แต่กลับถูกนับว่าไม่ผ่าน

    • อ้างอิงไว้ก่อนว่า ตัวอย่าง gpt-image-1 เป็นของเทสต์ “You Only Move Twice”
    • ถ้าจะให้ดี ลองจัดแข่ง “ภาพที่แย่ที่สุด” ไปเลย น่าจะเห็นชัดกว่าว่าโมเดลไหนน่าหงุดหงิดน้อยกว่า
  • ในบทความที่ฉันลงไว้บนบล็อก Replicate ฉันเปรียบเทียบหลายโมเดลด้วยตัวเอง
    ในบรรดานั้น Qwen Image Edit ทั้งถูกที่สุดและเร็วที่สุด แถมยังจัดการงานแก้ไขส่วนใหญ่ได้ดี
    ถ้าฉันจะทำแอปแต่งภาพ ก็น่าจะเลือกโมเดลนี้

  • ตัวการเปรียบเทียบเองก็น่าสนใจ แต่ ภาพยีราฟ ตอนท้ายไม่ได้สั้นลง แค่ตัวมันงอ
    ถึงอย่างนั้นฉันก็มักเลือกผลลัพธ์ของ Gemini อยู่บ่อย ๆ และอยากให้มีการให้คะแนนแบบ เต็ม 10 แทน pass/fail

    • คำว่า “ยีราฟที่งออย่างประหลาด” ทำให้ฉันขำมาก
      ถ้ามีนิทรรศการแบบนั้นจริง ฉันอยากไปดูมาก
  • ช่วงหลังฉันแทบไม่ได้สร้างภาพด้วย AI เลย
    ราวปีกว่า ๆ ครึ่งก่อนหน้านี้การรันโมเดลเองบนเครื่องยังเป็นกระแสอยู่ แต่ตอนนี้ส่วนใหญ่ย้ายไป คลาวด์เป็นหลัก แล้ว
    ถึงอย่างนั้นในการแต่งภาพถ่ายจริงก็ยังรู้สึกถึง พื้นผิวที่ไม่เป็นธรรมชาติ อยู่ดี
    เช่น ผมของคนที่เงาเกินไป หรือต้นไม้ที่ดูเหมือนพลาสติก

    • ขนาดของโมเดลภาพและความต้องการด้านคอมพิวต์ใหญ่เกินไป จนคนทั่วไป โฮสต์เอง ได้ยาก
      แม้จะรัน Flux Kontext แบบโลคัลได้ แต่ก็ต้องใช้โมเดล quantized และสร้างภาพอย่างช้า ๆ จึงไม่มีประสิทธิภาพ
      แถมใน ChatGPT ก็สร้างภาพฟรีได้อยู่แล้ว เหตุผลที่จะยึดติดกับโลคัลจึงลดลง
      ในเทสต์เรื่องเส้นผม มีแค่ Gemini 2.5 Flash ที่จับทั้งโทนสีและพื้นผิวได้ถูกต้อง
      ส่วน Seedream 4 มีปัญหาเปลี่ยนการคัลเลอร์เกรดทั้งภาพ เลยไม่ค่อยชอบ
  • ฉันคิดว่าน่าจะใส่ Reve เข้าไปในการทดสอบด้วย

    • Nano Banana เปลี่ยนทิศทางสายตาของตัวละครได้ไม่ค่อยดี แต่ Reve ให้ ผลลัพธ์สมบูรณ์แบบตั้งแต่ครั้งแรก
      มันลบวัตถุที่ตัวละครถืออยู่ เปลี่ยนสายตาให้มองกล้อง และปรับท่าทางให้เป็นธรรมชาติได้ด้วย
      แถมผลลัพธ์ทั้ง 4 ภาพก็คุณภาพสูงพอจะใช้งานได้ทั้งหมด
      หลังจากนั้นฉันก็ไปอ่านบทความแนะนำโมเดลของ Reve แล้วตัดสินใจสมัครทันที
    • ขอบคุณสำหรับคำแนะนำ ไว้จะลองเพิ่มเข้าไปในรายการทดสอบภายหลัง
    • ขอบคุณสำหรับทิปดี ๆ
  • ความพยายามถือว่าดี แต่ พรอมป์ต์ที่ผิด อย่างเช่น “หอคอยในภาพเอียงไปทางขวา” จะยิ่งทำให้โมเดลเอียงมากขึ้นไปอีก

    • ประโยคนั้นไม่ใช่พรอมป์ต์ที่ป้อนจริง แต่เป็น ประโยคเริ่มต้น
      ที่จำนวนครั้งลองแตกต่างกัน เพราะมีการปรับพรอมป์ต์ให้เหมาะกับแต่ละโมเดล
  • โดยรวมเป็นการทดสอบที่สนุกดี
    มีคนชี้ว่าพรอมป์ต์ไม่ได้สมบูรณ์แบบ แต่กลับทำให้มันดูสมจริงในแบบ ระดับที่ผู้ใช้ทั่วไปน่าจะพิมพ์จริง

    • ฉันจัดการพรอมป์ต์มาตั้งแต่ยุค SD 1.5 เลยรู้ดีว่าแต่ละโมเดลต้องการ การดัดแปลงพรอมป์ต์ แบบไหน
      อย่างที่อธิบายใน FAQ ฉันลองหลายเวอร์ชันของพรอมป์ต์เพื่อไม่ให้โมเดลติดอยู่กับคำบางคำ
      ตัวอย่างเช่นคำสั่งอย่าง “Turn on the lights” ไม่ได้เป็นแค่คำสั่งธรรมดา
      แต่เป็นพรอมป์ต์ที่ใช้ทดสอบ ความเข้าใจของ multimodal LLM
      ประโยคแบบนี้ใช้ไม่ได้ผลแน่นอนกับโมเดลดั้งเดิมอย่าง SDXL