ศึกดวลภาพ GenAI (Showdown)

(genai-showdown.specr.net)

1 คะแนน โดย GN⁺ 2025-10-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โปรเจ็กต์ทดลองที่ทดสอบ โมเดล AI สร้างภาพ หลายตัวด้วยพรอมต์เดียวกัน เพื่อประเมิน ความแม่นยำ·ความคิดสร้างสรรค์·ความสม่ำเสมอ
มี ทั้งหมด 14 โมเดล เข้าร่วม เช่น OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7
ทุกโมเดลสร้างภาพจากคำอธิบายที่กำหนดให้เท่านั้น โดยไม่มีฟีเจอร์ inpainting หรือการแก้ไขภาพ
แต่ละการทดสอบมี เกณฑ์ผ่านขั้นต่ำที่ชัดเจน และคำนวณอัตราความสำเร็จจากการตรงตามองค์ประกอบภาพที่กำหนด
ผลลัพธ์เผยให้เห็นช่องว่างด้านประสิทธิภาพระหว่างโมเดล และแสดงให้เห็นว่า การเข้าใจแนวคิดซับซ้อนหรือการสร้างโครงสร้างเชิงคณิตศาสตร์ยังคงเป็นเรื่องยาก

ภาพรวมการทดลอง

เป็น การทดลองเบนช์มาร์กเชิงเปรียบเทียบ ที่ประเมินความสามารถในการสร้างภาพล้วน ๆ ของแต่ละโมเดลภายใต้ กฎที่เข้มงวด
- ห้ามใช้ฟีเจอร์อย่าง inpainting, remix หรือคำสั่งแก้ไขต่อภายหลังทั้งหมด
- แต่ละโมเดลได้รับอนุญาตให้ลองได้เพียงหลายสิบครั้งต่อหนึ่งพรอมต์
เกณฑ์การประเมินเน้นที่ การตรงตามเงื่อนไขด้านภาพอย่างแม่นยำ

ผลการทดสอบสำคัญ

The Prussian Ring Toss
- ฉากที่ทหารปรัสเซียโยนห่วงใส่หมวกปลายแหลมของกันและกัน
- จาก 6 โมเดล มี 5 โมเดลผ่านเงื่อนไข เป็นเคสที่มีอัตราความสำเร็จสูงสุด
Nine-Pointed Star
- โจทย์ที่ต้องสร้างดาว 9 แฉกให้ได้อย่างถูกต้อง
- โมเดลส่วนใหญ่ล้มเหลวเพราะโน้มเอียงไปเป็นรูปแบบจำนวนคู่ มีเพียง 3 โมเดลที่สำเร็จ
Spheron
- ภาพสไตล์สีน้ำมันของอเล็กซานเดอร์มหาราชกำลังรบอยู่บนของเล่น ‘Hippity Hop’
- ใช้ประเมินความสามารถในการผสานบริบททางประวัติศาสตร์กับวัตถุสมัยใหม่ โดยมีเพียง 4 โมเดลที่สำเร็จ
Cubed⁵
- ฉากที่มีกล่องแก้วใส 5 ลูกวางซ้อนกันในแนวตั้ง ตามลำดับ สีแดง–น้ำเงิน–เขียว–ม่วง–เหลือง
- มี 5 โมเดลที่ถ่ายทอดได้ถูกต้อง และ สัดส่วนแนวตั้งส่งผลอย่างมากต่อคุณภาพของผลลัพธ์
Cephalopodic Puppet Show
- ฉากที่ขาหมึกทั้ง 8 เส้นแต่ละเส้นสวม หุ่นถุงเท้า
- เป็นการทดสอบที่ต้องอาศัยความเข้าใจเชิงแนวคิด และมีเพียงครึ่งหนึ่งที่ผ่านเงื่อนไข

ตัวอย่างการทดสอบเพิ่มเติม

Quantum Entangled Einstein: การวาดไอน์สไตน์พร้อมหลอดไฟแห่งไอเดียที่เกี่ยวข้องกับกลศาสตร์ควอนตัม → สำเร็จ 3/6
The Yarrctic Circle: ภาพโจรสลัดขั้วโลกที่มีขาเทียมทำจากน้ำแข็ง → สำเร็จ 6/6 ทุกโมเดล
The Labyrinth: การสร้างเขาวงกต 2D ที่มีทางเข้า·ทางออก·เส้นทางชัดเจน → สำเร็จ 1/6
A Dicey Situation: การทำลูกเต๋า 20 หน้า (D20) ที่มี เฉพาะเลขจำนวนเฉพาะบนหน้า → ล้มเหลว 0/6 ทุกโมเดล

การวิเคราะห์และนัยสำคัญ

โมเดลมักเกิดข้อผิดพลาดบ่อยในงานที่เป็น โครงสร้างเชิงตรรกะและการบรรยายตามกฎ มากกว่าสไตล์ภาพแบบเรียบง่าย
โดยเฉพาะพรอมต์ที่มีเงื่อนไขละเอียด เช่น ข้อความ·ตัวเลข·โครงสร้างสมมาตร·ลำดับสี มีอัตราล้มเหลวสูง
ในทางกลับกัน พรอมต์เชิงเรื่องเล่าที่ใช้อารมณ์หรือจินตนาการ กลับแสดงความสม่ำเสมอได้ค่อนข้างสูง
โดยรวมแล้ว โมเดล GenAI ยังเผยให้เห็น ข้อจำกัดในการเข้าใจแนวคิดซับซ้อนและความสามารถในการถ่ายทอดโครงสร้าง

สรุป

การทดลองครั้งนี้เป็นความพยายามที่น่าสนใจในการวัด ‘ความเข้าใจที่แท้จริง’ ของโมเดล text-to-image แต่ละตัว
แม้แต่โมเดลรุ่นใหม่อย่าง Midjourney และ OpenAI 4o ก็ยังล้มเหลวอย่างสิ้นเชิงในบางฉากที่มีตรรกะซับซ้อน
ผลลัพธ์แสดงให้เห็นว่า “การเข้าใจข้อความ” กับ “การทำภาพความหมายนั้นออกมาได้อย่างแม่นยำ” เป็นคนละปัญหากัน
โจทย์สำคัญของการพัฒนาโมเดลในอนาคตน่าจะอยู่ที่ การปรับปรุงความสอดคล้องระหว่างบริบททางภาษาและโครงสร้างทางภาพ

1 ความคิดเห็น

GN⁺ 2025-10-28

ความคิดเห็นบน Hacker News

ตอนใช้ GPT-4o รำคาญมากที่บริษัททำตัวเหมือนเป็น ผู้ตัดสินทางศีลธรรม แล้วปฏิเสธคำขอของผู้ใช้บ่อย ๆ
แม้แต่เรื่องที่ถูกกฎหมายก็ยังบอกว่า “ไม่อนุญาต” ให้ความรู้สึกเหมือนการเซ็นเซอร์แบบปี 1964 ที่บริษัทมาบังคับใช้
ส่วน GPT-5 ก็ยิ่งทนไม่ได้ เพราะทุกครั้งที่เริ่มบทสนทนามักขึ้นต้นด้วย คำพูดประจบประแจง อย่าง “เป็นคำถามที่ดีนะครับ”, “เป็นข้อสังเกตที่ยอดเยี่ยมครับ”
- หลายคนวิจารณ์ Altman ที่อนุญาต NSFW ใน ChatGPT แต่ฉันคิดว่านั่นเป็นทิศทางที่ถูกต้องในการ ลดการเซ็นเซอร์โดยองค์กร
  ถ้าเอาข้อมูลความชอบของผู้ใช้ไปฝึกด้วย RLHF โมเดลจะมีผลข้างเคียงกลายเป็น โรคชอบประจบ
  ตอนนี้ LLM หลัก ๆ ก็เป็นกันหมด แต่ถึงอย่างนั้นก็ยังดีกว่า GPT-4o
- พอลองใช้โมเดลสายจีนจะเห็นว่า ข้อจำกัดน้อยกว่า มาก แน่นอนว่ายังมีข้อยกเว้นอยู่บ้าง
- ยังไม่เคยเห็นซอฟต์แวร์สำหรับองค์กรตัวไหนที่อนุญาต NSFW
  ChatGPT เป็นผลิตภัณฑ์สำหรับองค์กร ดังนั้นถ้ามันสร้าง ภาพรุนแรงหรือภาพเชิงล่อแหลม ได้ บริษัทใหญ่ก็คงไม่มีวันซื้อแน่
  จากประสบการณ์ที่เคยทำงานเป็นผู้รับผิดชอบจัดซื้อซอฟต์แวร์ให้บริษัท Fortune 500 ฉันมั่นใจ 100%
ตอนแรกแปลกใจที่บทความไม่มีวันที่ แต่พอไปดูใน Wayback ก็พบว่า หน้า text-to-image ถูกเพิ่มในเดือนเมษายน ส่วน หน้า image editing ถูกเพิ่มในเดือนกันยายน
พอไม่มีวันที่ ตอนเห็นครั้งแรกเลยดูเหมือนถูกทำขึ้นมาพร้อมกัน
- น่าจะเป็นเพราะคนทำ SEO โน้มน้าวว่า บทความที่ไม่มีวันที่ติดอันดับในเสิร์ชเอนจินได้ดีกว่า
  ขอให้หมอนของพวกเขาร้อนทั้งสองด้าน
- ใช่ เป็นเนื้อหาค่อนข้างเก่าแล้ว ทุกวันนี้ในวงการ AI แค่ ผ่านไปหนึ่งสัปดาห์ก็เชยแล้ว
ตอนแรกคำว่า “image editing” ทำให้งง
ที่จริงมันคือฟังก์ชัน สร้างภาพใหม่ แต่เหมือนจะใช้ในความหมายว่าปรับแก้ภาพเดิม
โมเดลมัลติโหมด อย่าง Qwen3-VL-30B-A3B แก้ไขภาพเดิมได้ดี ส่วน imagegpt.com ก็ดีเหมือนกัน แต่ไม่รู้ว่าใช้โมเดลอะไร
- ได้รับฟีดแบ็กแบบนี้มาหลายครั้ง เลยคิดว่าต้องทำให้ แถบนำทางด้านบนเด่นขึ้น
  อ้างอิงไว้ก่อนว่า Qwen3-VL ไม่ใช่โมเดลสร้างหรือแก้ไขภาพ แต่เป็น โมเดลสำหรับการให้เหตุผลกับภาพ
  มีความเป็นไปได้ว่าฝั่งแบ็กเอนด์ใช้ Qwen-Image-Edit
- เว็บไซต์ที่ฉันเห็นดูเหมือนเป็นการแก้ภาพเดิมจริง ๆ
  เช่น ถ้าใส่พรอมป์ต์ว่า “เพิ่มผมให้ผู้ชายหัวล้าน” ก็จะได้ผลลัพธ์ที่เป็นภาพต้นฉบับซึ่งถูกแก้ไขแล้ว
  ในเชิงเทคนิคมันคือการสร้างภาพใหม่ แต่ฉันมองว่า แนวคิดคล้ายกับการกด Save As ใน Photoshop
ลิงก์จริงคือ https://genai-showdown.specr.net/image-editing
- ใช่ นี่คือ ลิงก์สำหรับการแก้ไขภาพ ส่วนอีกอันเป็นของ text-to-image
คาดว่าเบื้องหลังโมเดลน่าจะสร้างภาพหลายครั้งแล้ว แสดงเฉพาะผลลัพธ์ที่ดีที่สุด
GPT-4o มี temperature ต่ำ จึงสม่ำเสมอมากกว่าแต่ความคิดสร้างสรรค์น้อยกว่า ขณะที่ Midjourney ใช้ temperature สูงกว่าเลยสร้าง พื้นหลังและพื้นผิวที่หลากหลาย ได้
โทน สีเซเปีย ของ 4o อาจเป็นการโพสต์โปรเซสก็ได้
ในความเป็นจริงอาจเป็นเวิร์กโฟลว์หลายขั้นตอนที่ค่อย ๆ ปรับแต่งภาพสุดท้าย
- ถ้าลองรันโมเดลภาพบนเครื่องเอง จะรู้ว่าโมเดลที่โฮสต์ส่วนใหญ่ ไม่ได้สร้างหลายครั้ง แต่รันแค่ครั้งเดียว
  อย่างไรก็ตาม โมเดลที่อิง LLM มักใช้ การเขียนพรอมป์ต์ใหม่ (prompt rewriting) บ่อยมาก
  กรณีของ DALL·E 3 อธิบายไว้ดีในบทความนี้
- ถ้าเปิดเผยจำนวนครั้งที่พยายามสร้างและผลลัพธ์ของแต่ละพรอมป์ต์ก็น่าจะน่าสนใจขึ้นมาก
พอเห็น “Alexander the Great on a Hippity Hop” ก็ กดอัปโหวต ทันที
- ฉันเองก็ลืมของเล่นชิ้นนั้นไปสนิทแล้ว แต่พอเห็นนี่ก็ นึกถึงความทรงจำวัยเด็ก ขึ้นมาเลย
- แต่ถึงอย่างนั้นฉันก็ยังชอบ ภาพคิเมราม้า มากกว่า
ถ้าอยากลองเปรียบเทียบโมเดลภาพ สามารถทดลองฟรีได้ที่ BrandImageGen.com
ตอนนี้กำลังรอฟีดแบ็กจากผู้สมัครใช้งาน
มีคนถามว่ามีมีม “อย่าวาดช้างสีเขียว” อยู่ไหน แล้วไปเจอว่ามีคนเสนอไว้ใน GitHub discussion
มีการโพสต์บทความ รีวิวเปรียบเทียบ เครื่องมือสร้างภาพหลายตัว
ลิงก์ Generative AI Review
เพราะ “Editing Showdown” เลยได้รู้จัก โมเดล Seedream เป็นครั้งแรก
แต่หลังจากลองหลายครั้งแล้วก็ยังไม่ค่อยเข้าใจโครงสร้างที่ให้ LLM ตัวอื่นมาเป็นผู้ประเมิน เท่าไร มันเองก็น่าจะมีข้อจำกัดด้านความแม่นยำไม่ใช่หรือ
- ใน FAQ เขียนเกณฑ์การประเมินไว้ชัดเจน
  ใช้แบบ PASS/FAIL คือถ้าสร้างภาพที่ตรงกับพรอมป์ต์ไม่ได้เลยแม้แต่ครั้งเดียวก็ถือว่าสอบตก
  แนวคิดคือการทดสอบแบบ Pictionary test ว่า “ถ้าเอาไปให้คนเดินถนนดู เขาจะเดาพรอมป์ต์ได้ไหม?”
  การประเมินสุดท้ายตัดสินด้วยมือโดยอิงเกณฑ์ที่ชัดเจน
- การให้ LLM ประเมิน LLM เป็นมาตรฐานของอุตสาหกรรม
  จะขังผู้ประเมินที่เป็นมนุษย์ไว้ในกล่องให้มานั่งประเมินผลลัพธ์ 7600 ชิ้นก็คงไม่ได้
  แน่นอนว่าการตัดสินของ LLM ก็ไม่สมบูรณ์แบบ แต่ในแง่ ความสามารถในการเปรียบเทียบและความสม่ำเสมอ มันดีกว่ามนุษย์
  และถ้าใช้มันเป็นแค่ เทอร์โมมิเตอร์วัดประสิทธิภาพ ไม่ใช่เป้าหมายในการเพิ่มประสิทธิภาพ ก็ไม่ได้มีปัญหาใหญ่
  แต่ถ้าเอาไปใช้เป็นเป้าหมายการเพิ่มประสิทธิภาพ ก็อาจได้ ผลลัพธ์ประหลาด แบบ GPT-5

ศึกดวลภาพ GenAI (Showdown)

ภาพรวมการทดลอง

ผลการทดสอบสำคัญ

ตัวอย่างการทดสอบเพิ่มเติม

การวิเคราะห์และนัยสำคัญ

สรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News