ศึกดวลการแก้ไขภาพด้วย Generative AI

(genai-showdown.specr.net)

1 คะแนน โดย GN⁺ 2025-10-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เป็นคอนเทนต์ในรูปแบบการเปรียบเทียบผลลัพธ์ของ เครื่องมือแก้ไขภาพด้วย Generative AI หลายตัว
มีโครงสร้างสำหรับ เปรียบเทียบผลการแก้ไขในเชิงภาพ ที่แต่ละเครื่องมือสร้างขึ้นจากอินพุตเดียวกัน
บนหน้ามีข้อความ “Loading editing comparisons...” แสดงอยู่ ซึ่งบ่งชี้ว่า กำลังโหลดการเปรียบเทียบการแก้ไข
นอกเหนือจากชื่อเรื่องแล้ว ไม่มีการให้ชื่อเครื่องมือ เกณฑ์การเปรียบเทียบ หรือคำอธิบายผลลัพธ์โดยละเอียด
โดยรวมดูเหมือนจะเป็น อินเทอร์เฟซสำหรับเปรียบเทียบประสิทธิภาพการแก้ไขภาพด้วย AI แต่ในต้นฉบับไม่มีรายละเอียดเพิ่มเติม

ภาพรวมของหน้า

ชื่อเรื่องคือ “Generative AI Image Editing Showdown” ซึ่งสื่อถึงการเปรียบเทียบโมเดลแก้ไขภาพด้วย AI หลายตัว
ในเนื้อหามีเพียงข้อความ “Loading editing comparisons...” เท่านั้น และ ไม่มีผลการเปรียบเทียบหรือคำอธิบายใด ๆ รวมอยู่
ในต้นฉบับ ไม่มีข้อความ ข้อมูล รูปภาพ รายชื่อเครื่องมือ หรือเกณฑ์การประเมินเพิ่มเติม

ข้อจำกัดของข้อมูลที่มีให้

ต้นฉบับ ไม่มีคำอธิบายที่เป็นรูปธรรมเกี่ยวกับผลการแก้ไขหรือรายละเอียดการเปรียบเทียบ
ดังนั้น จุดประสงค์ของการเปรียบเทียบ โมเดล AI ที่ใช้ และวิธีการประเมินผล จึงไม่ได้ระบุไว้
โดยรวมแล้ว คอนเทนต์อยู่ในสถานะกำลังโหลด จึงยังไม่มีการให้ข้อมูลที่เป็นสาระสำคัญ

1 ความคิดเห็น

GN⁺ 2025-10-30

ความเห็นจาก Hacker News

ทุกคนกำลัง ประเมิน Gemini 2.5 Flash Image / Nano Banana ต่ำเกินไป
มันทรงพลังกว่ารุ่นอื่นมากในขณะที่ราคาต่อภาพเท่ากัน และด้วย text encoder ทำให้มันจัดการกับ พรอมป์ต์ที่ซับซ้อนและละเอียดอ่อน ได้ดีกว่ามาก
ฉันเผยแพร่ตัวอย่างไว้แล้วผ่าน แพ็กเกจ Python gemimg ของฉัน และกำลังเตรียมเขียนบล็อกโพสต์ที่รวมกรณีตัวอย่างที่หลากหลายกว่านี้
ใน AI Studio ของ Google ยังรองรับการสร้างภาพฟรีที่ควบคุมอัตราส่วนได้ด้วย
แต่ก็แปลกใจที่ Seedream 4.0 ชนะการทดสอบครั้งนี้
- จริง ๆ แล้ว Nano Banana เคย เป็นไวรัล พอสมควรตอนเปิดตัว
  ถ้าไม่นับฟีเจอร์ที่ฝังอยู่ใน ChatGPT หรือกระแสสไตล์ Ghibli ฉันคิดว่ามันเป็นหนึ่งในโมเดลแต่งภาพที่เป็นที่รู้จักมากที่สุด
- Seedream เหนือกว่าในแง่ความตรงตามพรอมป์ต์ แต่มีแนวโน้มทำให้เกิด การเปลี่ยนแปลงของไล่ระดับสี เล็กน้อย
  สำหรับการใช้งานของฉันมันไม่ใช่ปัญหาใหญ่ แต่ถ้าใครให้ความสำคัญกับความสม่ำเสมอของโทนสี Nano Banana อาจดีกว่า
- เวลาใช้ Nano Banana ประมาณครึ่งหนึ่ง AI Studio จะขึ้นว่าล้มเหลวโดยไม่มีเหตุผล
  ทั้งที่ก็ไม่ใช่คำขอแนวติดเส้นลิขสิทธิ์ แต่ข้อผิดพลาดแบบนี้เกิดบ่อย
  ถึงอย่างนั้นเวลามันสำเร็จ ผลลัพธ์ก็ น่าประทับใจมาก
- ฉันใช้ Nano Banana เพื่อเก็บภาพครัวรก ๆ ของตัวเอง ตอนแรกมันล้มเหลวแบบหมดรูป
  แต่พอลองครั้งที่สองด้วยการให้วิเคราะห์ภาพก่อนเพื่อดึง รายการของที่รก ออกมา แล้วค่อยสั่งลบผ่านพรอมป์ต์ ผลลัพธ์ก็ดีขึ้นมาก
  สุดท้ายก็ทำให้รู้สึกถึงความสำคัญของ prompt engineering อีกครั้ง
- Gemini ตอนที่ทำงานดีมันยอดเยี่ยมมาก แต่บางครั้งก็ให้ผลลัพธ์หลุดโลกไปเลยและไม่ว่าลองพรอมป์ต์แบบไหนก็ไม่ตรง
  Flux ดีอย่างน่าทึ่ง แต่คนส่วนใหญ่ (รวมถึงฉัน) สุดท้ายก็มักใช้โมเดลคุ้นมืออย่าง ChatGPT หรือ Gemini เป็นค่าเริ่มต้น
การเปรียบเทียบแบบนี้ ใช้งานได้จริง กว่ากราฟ benchmark มาก
ฉันใช้ Nano Banana บ่อย แต่พอมาถึงงานแก้ไขภาพอาคารภายนอกหรือภูมิสถาปัตย์ มันอ่อนมาก
เรื่องอย่างทางเท้า ร่องระบายน้ำ หรือการแมตช์สี แทบเป็นไปไม่ได้เลย
- ฉันกำลังทดลองเปลี่ยนภาพกลางวันเป็นกลางคืนด้วย Qwen Image Edit และโมเดลส่วนใหญ่พลาดเรื่อง การจัดแนวขอบภาพ
  Nano Banana ก็จัดการขอบเขตไม่แม่น ทำให้ภาพเหลื่อม
ถ้ามองจากคนที่เคยเห็นมาตรฐานในปี 2022 เดโมตอนนี้น่าทึ่งจนเทียบกับยุค SD1·2·3 ไม่ได้เลย
ดูเหมือนว่าเราเข้าสู่ยุคที่โมเดล เข้าใจ ทั้งพรอมป์ต์และภาพจริง ๆ แล้ว
นี่คือช่วงเวลาที่ความคิดสร้างสรรค์ขยายตัวแบบก้าวกระโดด ขณะที่วิศวกรรมยังพัฒนาอย่างต่อเนื่อง
การเปลี่ยนพรอมป์ต์หรือจำนวนครั้งที่ลอง แล้วเลือกแสดงเฉพาะผลลัพธ์ที่ชอบที่สุด ทำให้ความ เป็นกลาง ของการทดสอบลดลง
ควรมีเงื่อนไขที่เป็นมาตรฐาน เช่น ใช้พรอมป์ต์และ seed เดียวกันกับทุกโมเดลแล้วสร้าง 5 ครั้ง
ตัวอย่างเช่น Gemini 2.5 Flash ได้รับอิสระมากเกินไปในเทสต์ “Girl with Pearl Earring”
ในทางกลับกัน OpenAI gpt-image-1 ให้ผลลัพธ์ที่ดีกว่ามากด้วยจำนวนครั้งที่น้อยกว่า แต่กลับถูกนับว่าไม่ผ่าน
- อ้างอิงไว้ก่อนว่า ตัวอย่าง gpt-image-1 เป็นของเทสต์ “You Only Move Twice”
- ถ้าจะให้ดี ลองจัดแข่ง “ภาพที่แย่ที่สุด” ไปเลย น่าจะเห็นชัดกว่าว่าโมเดลไหนน่าหงุดหงิดน้อยกว่า
ในบทความที่ฉันลงไว้บนบล็อก Replicate ฉันเปรียบเทียบหลายโมเดลด้วยตัวเอง
ในบรรดานั้น Qwen Image Edit ทั้งถูกที่สุดและเร็วที่สุด แถมยังจัดการงานแก้ไขส่วนใหญ่ได้ดี
ถ้าฉันจะทำแอปแต่งภาพ ก็น่าจะเลือกโมเดลนี้
ตัวการเปรียบเทียบเองก็น่าสนใจ แต่ ภาพยีราฟ ตอนท้ายไม่ได้สั้นลง แค่ตัวมันงอ
ถึงอย่างนั้นฉันก็มักเลือกผลลัพธ์ของ Gemini อยู่บ่อย ๆ และอยากให้มีการให้คะแนนแบบ เต็ม 10 แทน pass/fail
- คำว่า “ยีราฟที่งออย่างประหลาด” ทำให้ฉันขำมาก
  ถ้ามีนิทรรศการแบบนั้นจริง ฉันอยากไปดูมาก
ช่วงหลังฉันแทบไม่ได้สร้างภาพด้วย AI เลย
ราวปีกว่า ๆ ครึ่งก่อนหน้านี้การรันโมเดลเองบนเครื่องยังเป็นกระแสอยู่ แต่ตอนนี้ส่วนใหญ่ย้ายไป คลาวด์เป็นหลัก แล้ว
ถึงอย่างนั้นในการแต่งภาพถ่ายจริงก็ยังรู้สึกถึง พื้นผิวที่ไม่เป็นธรรมชาติ อยู่ดี
เช่น ผมของคนที่เงาเกินไป หรือต้นไม้ที่ดูเหมือนพลาสติก
- ขนาดของโมเดลภาพและความต้องการด้านคอมพิวต์ใหญ่เกินไป จนคนทั่วไป โฮสต์เอง ได้ยาก
  แม้จะรัน Flux Kontext แบบโลคัลได้ แต่ก็ต้องใช้โมเดล quantized และสร้างภาพอย่างช้า ๆ จึงไม่มีประสิทธิภาพ
  แถมใน ChatGPT ก็สร้างภาพฟรีได้อยู่แล้ว เหตุผลที่จะยึดติดกับโลคัลจึงลดลง
  ในเทสต์เรื่องเส้นผม มีแค่ Gemini 2.5 Flash ที่จับทั้งโทนสีและพื้นผิวได้ถูกต้อง
  ส่วน Seedream 4 มีปัญหาเปลี่ยนการคัลเลอร์เกรดทั้งภาพ เลยไม่ค่อยชอบ
ฉันคิดว่าน่าจะใส่ Reve เข้าไปในการทดสอบด้วย
- Nano Banana เปลี่ยนทิศทางสายตาของตัวละครได้ไม่ค่อยดี แต่ Reve ให้ ผลลัพธ์สมบูรณ์แบบตั้งแต่ครั้งแรก
  มันลบวัตถุที่ตัวละครถืออยู่ เปลี่ยนสายตาให้มองกล้อง และปรับท่าทางให้เป็นธรรมชาติได้ด้วย
  แถมผลลัพธ์ทั้ง 4 ภาพก็คุณภาพสูงพอจะใช้งานได้ทั้งหมด
  หลังจากนั้นฉันก็ไปอ่านบทความแนะนำโมเดลของ Reve แล้วตัดสินใจสมัครทันที
- ขอบคุณสำหรับคำแนะนำ ไว้จะลองเพิ่มเข้าไปในรายการทดสอบภายหลัง
- ขอบคุณสำหรับทิปดี ๆ
ความพยายามถือว่าดี แต่ พรอมป์ต์ที่ผิด อย่างเช่น “หอคอยในภาพเอียงไปทางขวา” จะยิ่งทำให้โมเดลเอียงมากขึ้นไปอีก
- ประโยคนั้นไม่ใช่พรอมป์ต์ที่ป้อนจริง แต่เป็น ประโยคเริ่มต้น
  ที่จำนวนครั้งลองแตกต่างกัน เพราะมีการปรับพรอมป์ต์ให้เหมาะกับแต่ละโมเดล
โดยรวมเป็นการทดสอบที่สนุกดี
มีคนชี้ว่าพรอมป์ต์ไม่ได้สมบูรณ์แบบ แต่กลับทำให้มันดูสมจริงในแบบ ระดับที่ผู้ใช้ทั่วไปน่าจะพิมพ์จริง
- ฉันจัดการพรอมป์ต์มาตั้งแต่ยุค SD 1.5 เลยรู้ดีว่าแต่ละโมเดลต้องการ การดัดแปลงพรอมป์ต์ แบบไหน
  อย่างที่อธิบายใน FAQ ฉันลองหลายเวอร์ชันของพรอมป์ต์เพื่อไม่ให้โมเดลติดอยู่กับคำบางคำ
  ตัวอย่างเช่นคำสั่งอย่าง “Turn on the lights” ไม่ได้เป็นแค่คำสั่งธรรมดา
  แต่เป็นพรอมป์ต์ที่ใช้ทดสอบ ความเข้าใจของ multimodal LLM
  ประโยคแบบนี้ใช้ไม่ได้ผลแน่นอนกับโมเดลดั้งเดิมอย่าง SDXL

ศึกดวลการแก้ไขภาพด้วย Generative AI

ภาพรวมของหน้า

ข้อจำกัดของข้อมูลที่มีให้

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News