- โปรเจ็กต์ทดลองที่ทดสอบ โมเดล AI สร้างภาพ หลายตัวด้วยพรอมต์เดียวกัน เพื่อประเมิน ความแม่นยำ·ความคิดสร้างสรรค์·ความสม่ำเสมอ
- มี ทั้งหมด 14 โมเดล เข้าร่วม เช่น OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7
- ทุกโมเดลสร้างภาพจากคำอธิบายที่กำหนดให้เท่านั้น โดยไม่มีฟีเจอร์ inpainting หรือการแก้ไขภาพ
- แต่ละการทดสอบมี เกณฑ์ผ่านขั้นต่ำที่ชัดเจน และคำนวณอัตราความสำเร็จจากการตรงตามองค์ประกอบภาพที่กำหนด
- ผลลัพธ์เผยให้เห็นช่องว่างด้านประสิทธิภาพระหว่างโมเดล และแสดงให้เห็นว่า การเข้าใจแนวคิดซับซ้อนหรือการสร้างโครงสร้างเชิงคณิตศาสตร์ยังคงเป็นเรื่องยาก
ภาพรวมการทดลอง
- เป็น การทดลองเบนช์มาร์กเชิงเปรียบเทียบ ที่ประเมินความสามารถในการสร้างภาพล้วน ๆ ของแต่ละโมเดลภายใต้ กฎที่เข้มงวด
- ห้ามใช้ฟีเจอร์อย่าง inpainting, remix หรือคำสั่งแก้ไขต่อภายหลังทั้งหมด
- แต่ละโมเดลได้รับอนุญาตให้ลองได้เพียงหลายสิบครั้งต่อหนึ่งพรอมต์
- เกณฑ์การประเมินเน้นที่ การตรงตามเงื่อนไขด้านภาพอย่างแม่นยำ
ผลการทดสอบสำคัญ
- The Prussian Ring Toss
- ฉากที่ทหารปรัสเซียโยนห่วงใส่หมวกปลายแหลมของกันและกัน
- จาก 6 โมเดล มี 5 โมเดลผ่านเงื่อนไข เป็นเคสที่มีอัตราความสำเร็จสูงสุด
- Nine-Pointed Star
- โจทย์ที่ต้องสร้างดาว 9 แฉกให้ได้อย่างถูกต้อง
- โมเดลส่วนใหญ่ล้มเหลวเพราะโน้มเอียงไปเป็นรูปแบบจำนวนคู่ มีเพียง 3 โมเดลที่สำเร็จ
- Spheron
- ภาพสไตล์สีน้ำมันของอเล็กซานเดอร์มหาราชกำลังรบอยู่บนของเล่น ‘Hippity Hop’
- ใช้ประเมินความสามารถในการผสานบริบททางประวัติศาสตร์กับวัตถุสมัยใหม่ โดยมีเพียง 4 โมเดลที่สำเร็จ
- Cubed⁵
- ฉากที่มีกล่องแก้วใส 5 ลูกวางซ้อนกันในแนวตั้ง ตามลำดับ สีแดง–น้ำเงิน–เขียว–ม่วง–เหลือง
- มี 5 โมเดลที่ถ่ายทอดได้ถูกต้อง และ สัดส่วนแนวตั้งส่งผลอย่างมากต่อคุณภาพของผลลัพธ์
- Cephalopodic Puppet Show
- ฉากที่ขาหมึกทั้ง 8 เส้นแต่ละเส้นสวม หุ่นถุงเท้า
- เป็นการทดสอบที่ต้องอาศัยความเข้าใจเชิงแนวคิด และมีเพียงครึ่งหนึ่งที่ผ่านเงื่อนไข
ตัวอย่างการทดสอบเพิ่มเติม
- Quantum Entangled Einstein: การวาดไอน์สไตน์พร้อมหลอดไฟแห่งไอเดียที่เกี่ยวข้องกับกลศาสตร์ควอนตัม → สำเร็จ 3/6
- The Yarrctic Circle: ภาพโจรสลัดขั้วโลกที่มีขาเทียมทำจากน้ำแข็ง → สำเร็จ 6/6 ทุกโมเดล
- The Labyrinth: การสร้างเขาวงกต 2D ที่มีทางเข้า·ทางออก·เส้นทางชัดเจน → สำเร็จ 1/6
- A Dicey Situation: การทำลูกเต๋า 20 หน้า (D20) ที่มี เฉพาะเลขจำนวนเฉพาะบนหน้า → ล้มเหลว 0/6 ทุกโมเดล
การวิเคราะห์และนัยสำคัญ
- โมเดลมักเกิดข้อผิดพลาดบ่อยในงานที่เป็น โครงสร้างเชิงตรรกะและการบรรยายตามกฎ มากกว่าสไตล์ภาพแบบเรียบง่าย
- โดยเฉพาะพรอมต์ที่มีเงื่อนไขละเอียด เช่น ข้อความ·ตัวเลข·โครงสร้างสมมาตร·ลำดับสี มีอัตราล้มเหลวสูง
- ในทางกลับกัน พรอมต์เชิงเรื่องเล่าที่ใช้อารมณ์หรือจินตนาการ กลับแสดงความสม่ำเสมอได้ค่อนข้างสูง
- โดยรวมแล้ว โมเดล GenAI ยังเผยให้เห็น ข้อจำกัดในการเข้าใจแนวคิดซับซ้อนและความสามารถในการถ่ายทอดโครงสร้าง
สรุป
- การทดลองครั้งนี้เป็นความพยายามที่น่าสนใจในการวัด ‘ความเข้าใจที่แท้จริง’ ของโมเดล text-to-image แต่ละตัว
- แม้แต่โมเดลรุ่นใหม่อย่าง Midjourney และ OpenAI 4o ก็ยังล้มเหลวอย่างสิ้นเชิงในบางฉากที่มีตรรกะซับซ้อน
- ผลลัพธ์แสดงให้เห็นว่า “การเข้าใจข้อความ” กับ “การทำภาพความหมายนั้นออกมาได้อย่างแม่นยำ” เป็นคนละปัญหากัน
- โจทย์สำคัญของการพัฒนาโมเดลในอนาคตน่าจะอยู่ที่ การปรับปรุงความสอดคล้องระหว่างบริบททางภาษาและโครงสร้างทางภาพ
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
แม้แต่เรื่องที่ถูกกฎหมายก็ยังบอกว่า “ไม่อนุญาต” ให้ความรู้สึกเหมือนการเซ็นเซอร์แบบปี 1964 ที่บริษัทมาบังคับใช้
ส่วน GPT-5 ก็ยิ่งทนไม่ได้ เพราะทุกครั้งที่เริ่มบทสนทนามักขึ้นต้นด้วย คำพูดประจบประแจง อย่าง “เป็นคำถามที่ดีนะครับ”, “เป็นข้อสังเกตที่ยอดเยี่ยมครับ”
ถ้าเอาข้อมูลความชอบของผู้ใช้ไปฝึกด้วย RLHF โมเดลจะมีผลข้างเคียงกลายเป็น โรคชอบประจบ
ตอนนี้ LLM หลัก ๆ ก็เป็นกันหมด แต่ถึงอย่างนั้นก็ยังดีกว่า GPT-4o
ChatGPT เป็นผลิตภัณฑ์สำหรับองค์กร ดังนั้นถ้ามันสร้าง ภาพรุนแรงหรือภาพเชิงล่อแหลม ได้ บริษัทใหญ่ก็คงไม่มีวันซื้อแน่
จากประสบการณ์ที่เคยทำงานเป็นผู้รับผิดชอบจัดซื้อซอฟต์แวร์ให้บริษัท Fortune 500 ฉันมั่นใจ 100%
พอไม่มีวันที่ ตอนเห็นครั้งแรกเลยดูเหมือนถูกทำขึ้นมาพร้อมกัน
ขอให้หมอนของพวกเขาร้อนทั้งสองด้าน
ที่จริงมันคือฟังก์ชัน สร้างภาพใหม่ แต่เหมือนจะใช้ในความหมายว่าปรับแก้ภาพเดิม
โมเดลมัลติโหมด อย่าง Qwen3-VL-30B-A3B แก้ไขภาพเดิมได้ดี ส่วน imagegpt.com ก็ดีเหมือนกัน แต่ไม่รู้ว่าใช้โมเดลอะไร
อ้างอิงไว้ก่อนว่า Qwen3-VL ไม่ใช่โมเดลสร้างหรือแก้ไขภาพ แต่เป็น โมเดลสำหรับการให้เหตุผลกับภาพ
มีความเป็นไปได้ว่าฝั่งแบ็กเอนด์ใช้ Qwen-Image-Edit
เช่น ถ้าใส่พรอมป์ต์ว่า “เพิ่มผมให้ผู้ชายหัวล้าน” ก็จะได้ผลลัพธ์ที่เป็นภาพต้นฉบับซึ่งถูกแก้ไขแล้ว
ในเชิงเทคนิคมันคือการสร้างภาพใหม่ แต่ฉันมองว่า แนวคิดคล้ายกับการกด Save As ใน Photoshop
GPT-4o มี temperature ต่ำ จึงสม่ำเสมอมากกว่าแต่ความคิดสร้างสรรค์น้อยกว่า ขณะที่ Midjourney ใช้ temperature สูงกว่าเลยสร้าง พื้นหลังและพื้นผิวที่หลากหลาย ได้
โทน สีเซเปีย ของ 4o อาจเป็นการโพสต์โปรเซสก็ได้
ในความเป็นจริงอาจเป็นเวิร์กโฟลว์หลายขั้นตอนที่ค่อย ๆ ปรับแต่งภาพสุดท้าย
อย่างไรก็ตาม โมเดลที่อิง LLM มักใช้ การเขียนพรอมป์ต์ใหม่ (prompt rewriting) บ่อยมาก
กรณีของ DALL·E 3 อธิบายไว้ดีในบทความนี้
ตอนนี้กำลังรอฟีดแบ็กจากผู้สมัครใช้งาน
ลิงก์ Generative AI Review
แต่หลังจากลองหลายครั้งแล้วก็ยังไม่ค่อยเข้าใจโครงสร้างที่ให้ LLM ตัวอื่นมาเป็นผู้ประเมิน เท่าไร มันเองก็น่าจะมีข้อจำกัดด้านความแม่นยำไม่ใช่หรือ
ใช้แบบ PASS/FAIL คือถ้าสร้างภาพที่ตรงกับพรอมป์ต์ไม่ได้เลยแม้แต่ครั้งเดียวก็ถือว่าสอบตก
แนวคิดคือการทดสอบแบบ Pictionary test ว่า “ถ้าเอาไปให้คนเดินถนนดู เขาจะเดาพรอมป์ต์ได้ไหม?”
การประเมินสุดท้ายตัดสินด้วยมือโดยอิงเกณฑ์ที่ชัดเจน
จะขังผู้ประเมินที่เป็นมนุษย์ไว้ในกล่องให้มานั่งประเมินผลลัพธ์ 7600 ชิ้นก็คงไม่ได้
แน่นอนว่าการตัดสินของ LLM ก็ไม่สมบูรณ์แบบ แต่ในแง่ ความสามารถในการเปรียบเทียบและความสม่ำเสมอ มันดีกว่ามนุษย์
และถ้าใช้มันเป็นแค่ เทอร์โมมิเตอร์วัดประสิทธิภาพ ไม่ใช่เป้าหมายในการเพิ่มประสิทธิภาพ ก็ไม่ได้มีปัญหาใหญ่
แต่ถ้าเอาไปใช้เป็นเป้าหมายการเพิ่มประสิทธิภาพ ก็อาจได้ ผลลัพธ์ประหลาด แบบ GPT-5