- เป็นคอนเทนต์ในรูปแบบการเปรียบเทียบผลลัพธ์ของ เครื่องมือแก้ไขภาพด้วย Generative AI หลายตัว
- มีโครงสร้างสำหรับ เปรียบเทียบผลการแก้ไขในเชิงภาพ ที่แต่ละเครื่องมือสร้างขึ้นจากอินพุตเดียวกัน
- บนหน้ามีข้อความ “Loading editing comparisons...” แสดงอยู่ ซึ่งบ่งชี้ว่า กำลังโหลดการเปรียบเทียบการแก้ไข
- นอกเหนือจากชื่อเรื่องแล้ว ไม่มีการให้ชื่อเครื่องมือ เกณฑ์การเปรียบเทียบ หรือคำอธิบายผลลัพธ์โดยละเอียด
- โดยรวมดูเหมือนจะเป็น อินเทอร์เฟซสำหรับเปรียบเทียบประสิทธิภาพการแก้ไขภาพด้วย AI แต่ในต้นฉบับไม่มีรายละเอียดเพิ่มเติม
ภาพรวมของหน้า
- ชื่อเรื่องคือ “Generative AI Image Editing Showdown” ซึ่งสื่อถึงการเปรียบเทียบโมเดลแก้ไขภาพด้วย AI หลายตัว
- ในเนื้อหามีเพียงข้อความ “Loading editing comparisons...” เท่านั้น และ ไม่มีผลการเปรียบเทียบหรือคำอธิบายใด ๆ รวมอยู่
- ในต้นฉบับ ไม่มีข้อความ ข้อมูล รูปภาพ รายชื่อเครื่องมือ หรือเกณฑ์การประเมินเพิ่มเติม
ข้อจำกัดของข้อมูลที่มีให้
- ต้นฉบับ ไม่มีคำอธิบายที่เป็นรูปธรรมเกี่ยวกับผลการแก้ไขหรือรายละเอียดการเปรียบเทียบ
- ดังนั้น จุดประสงค์ของการเปรียบเทียบ โมเดล AI ที่ใช้ และวิธีการประเมินผล จึงไม่ได้ระบุไว้
- โดยรวมแล้ว คอนเทนต์อยู่ในสถานะกำลังโหลด จึงยังไม่มีการให้ข้อมูลที่เป็นสาระสำคัญ
1 ความคิดเห็น
ความเห็นจาก Hacker News
ทุกคนกำลัง ประเมิน Gemini 2.5 Flash Image / Nano Banana ต่ำเกินไป
มันทรงพลังกว่ารุ่นอื่นมากในขณะที่ราคาต่อภาพเท่ากัน และด้วย text encoder ทำให้มันจัดการกับ พรอมป์ต์ที่ซับซ้อนและละเอียดอ่อน ได้ดีกว่ามาก
ฉันเผยแพร่ตัวอย่างไว้แล้วผ่าน แพ็กเกจ Python gemimg ของฉัน และกำลังเตรียมเขียนบล็อกโพสต์ที่รวมกรณีตัวอย่างที่หลากหลายกว่านี้
ใน AI Studio ของ Google ยังรองรับการสร้างภาพฟรีที่ควบคุมอัตราส่วนได้ด้วย
แต่ก็แปลกใจที่ Seedream 4.0 ชนะการทดสอบครั้งนี้
ถ้าไม่นับฟีเจอร์ที่ฝังอยู่ใน ChatGPT หรือกระแสสไตล์ Ghibli ฉันคิดว่ามันเป็นหนึ่งในโมเดลแต่งภาพที่เป็นที่รู้จักมากที่สุด
สำหรับการใช้งานของฉันมันไม่ใช่ปัญหาใหญ่ แต่ถ้าใครให้ความสำคัญกับความสม่ำเสมอของโทนสี Nano Banana อาจดีกว่า
ทั้งที่ก็ไม่ใช่คำขอแนวติดเส้นลิขสิทธิ์ แต่ข้อผิดพลาดแบบนี้เกิดบ่อย
ถึงอย่างนั้นเวลามันสำเร็จ ผลลัพธ์ก็ น่าประทับใจมาก
แต่พอลองครั้งที่สองด้วยการให้วิเคราะห์ภาพก่อนเพื่อดึง รายการของที่รก ออกมา แล้วค่อยสั่งลบผ่านพรอมป์ต์ ผลลัพธ์ก็ดีขึ้นมาก
สุดท้ายก็ทำให้รู้สึกถึงความสำคัญของ prompt engineering อีกครั้ง
Flux ดีอย่างน่าทึ่ง แต่คนส่วนใหญ่ (รวมถึงฉัน) สุดท้ายก็มักใช้โมเดลคุ้นมืออย่าง ChatGPT หรือ Gemini เป็นค่าเริ่มต้น
การเปรียบเทียบแบบนี้ ใช้งานได้จริง กว่ากราฟ benchmark มาก
ฉันใช้ Nano Banana บ่อย แต่พอมาถึงงานแก้ไขภาพอาคารภายนอกหรือภูมิสถาปัตย์ มันอ่อนมาก
เรื่องอย่างทางเท้า ร่องระบายน้ำ หรือการแมตช์สี แทบเป็นไปไม่ได้เลย
Nano Banana ก็จัดการขอบเขตไม่แม่น ทำให้ภาพเหลื่อม
ถ้ามองจากคนที่เคยเห็นมาตรฐานในปี 2022 เดโมตอนนี้น่าทึ่งจนเทียบกับยุค SD1·2·3 ไม่ได้เลย
ดูเหมือนว่าเราเข้าสู่ยุคที่โมเดล เข้าใจ ทั้งพรอมป์ต์และภาพจริง ๆ แล้ว
นี่คือช่วงเวลาที่ความคิดสร้างสรรค์ขยายตัวแบบก้าวกระโดด ขณะที่วิศวกรรมยังพัฒนาอย่างต่อเนื่อง
การเปลี่ยนพรอมป์ต์หรือจำนวนครั้งที่ลอง แล้วเลือกแสดงเฉพาะผลลัพธ์ที่ชอบที่สุด ทำให้ความ เป็นกลาง ของการทดสอบลดลง
ควรมีเงื่อนไขที่เป็นมาตรฐาน เช่น ใช้พรอมป์ต์และ seed เดียวกันกับทุกโมเดลแล้วสร้าง 5 ครั้ง
ตัวอย่างเช่น Gemini 2.5 Flash ได้รับอิสระมากเกินไปในเทสต์ “Girl with Pearl Earring”
ในทางกลับกัน OpenAI gpt-image-1 ให้ผลลัพธ์ที่ดีกว่ามากด้วยจำนวนครั้งที่น้อยกว่า แต่กลับถูกนับว่าไม่ผ่าน
ในบทความที่ฉันลงไว้บนบล็อก Replicate ฉันเปรียบเทียบหลายโมเดลด้วยตัวเอง
ในบรรดานั้น Qwen Image Edit ทั้งถูกที่สุดและเร็วที่สุด แถมยังจัดการงานแก้ไขส่วนใหญ่ได้ดี
ถ้าฉันจะทำแอปแต่งภาพ ก็น่าจะเลือกโมเดลนี้
ตัวการเปรียบเทียบเองก็น่าสนใจ แต่ ภาพยีราฟ ตอนท้ายไม่ได้สั้นลง แค่ตัวมันงอ
ถึงอย่างนั้นฉันก็มักเลือกผลลัพธ์ของ Gemini อยู่บ่อย ๆ และอยากให้มีการให้คะแนนแบบ เต็ม 10 แทน pass/fail
ถ้ามีนิทรรศการแบบนั้นจริง ฉันอยากไปดูมาก
ช่วงหลังฉันแทบไม่ได้สร้างภาพด้วย AI เลย
ราวปีกว่า ๆ ครึ่งก่อนหน้านี้การรันโมเดลเองบนเครื่องยังเป็นกระแสอยู่ แต่ตอนนี้ส่วนใหญ่ย้ายไป คลาวด์เป็นหลัก แล้ว
ถึงอย่างนั้นในการแต่งภาพถ่ายจริงก็ยังรู้สึกถึง พื้นผิวที่ไม่เป็นธรรมชาติ อยู่ดี
เช่น ผมของคนที่เงาเกินไป หรือต้นไม้ที่ดูเหมือนพลาสติก
แม้จะรัน Flux Kontext แบบโลคัลได้ แต่ก็ต้องใช้โมเดล quantized และสร้างภาพอย่างช้า ๆ จึงไม่มีประสิทธิภาพ
แถมใน ChatGPT ก็สร้างภาพฟรีได้อยู่แล้ว เหตุผลที่จะยึดติดกับโลคัลจึงลดลง
ในเทสต์เรื่องเส้นผม มีแค่ Gemini 2.5 Flash ที่จับทั้งโทนสีและพื้นผิวได้ถูกต้อง
ส่วน Seedream 4 มีปัญหาเปลี่ยนการคัลเลอร์เกรดทั้งภาพ เลยไม่ค่อยชอบ
ฉันคิดว่าน่าจะใส่ Reve เข้าไปในการทดสอบด้วย
มันลบวัตถุที่ตัวละครถืออยู่ เปลี่ยนสายตาให้มองกล้อง และปรับท่าทางให้เป็นธรรมชาติได้ด้วย
แถมผลลัพธ์ทั้ง 4 ภาพก็คุณภาพสูงพอจะใช้งานได้ทั้งหมด
หลังจากนั้นฉันก็ไปอ่านบทความแนะนำโมเดลของ Reve แล้วตัดสินใจสมัครทันที
ความพยายามถือว่าดี แต่ พรอมป์ต์ที่ผิด อย่างเช่น “หอคอยในภาพเอียงไปทางขวา” จะยิ่งทำให้โมเดลเอียงมากขึ้นไปอีก
ที่จำนวนครั้งลองแตกต่างกัน เพราะมีการปรับพรอมป์ต์ให้เหมาะกับแต่ละโมเดล
โดยรวมเป็นการทดสอบที่สนุกดี
มีคนชี้ว่าพรอมป์ต์ไม่ได้สมบูรณ์แบบ แต่กลับทำให้มันดูสมจริงในแบบ ระดับที่ผู้ใช้ทั่วไปน่าจะพิมพ์จริง
อย่างที่อธิบายใน FAQ ฉันลองหลายเวอร์ชันของพรอมป์ต์เพื่อไม่ให้โมเดลติดอยู่กับคำบางคำ
ตัวอย่างเช่นคำสั่งอย่าง “Turn on the lights” ไม่ได้เป็นแค่คำสั่งธรรมดา
แต่เป็นพรอมป์ต์ที่ใช้ทดสอบ ความเข้าใจของ multimodal LLM
ประโยคแบบนี้ใช้ไม่ได้ผลแน่นอนกับโมเดลดั้งเดิมอย่าง SDXL