1 คะแนน โดย GN⁺ 2025-10-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โปรเจ็กต์ทดลองที่ทดสอบ โมเดล AI สร้างภาพ หลายตัวด้วยพรอมต์เดียวกัน เพื่อประเมิน ความแม่นยำ·ความคิดสร้างสรรค์·ความสม่ำเสมอ
  • มี ทั้งหมด 14 โมเดล เข้าร่วม เช่น OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev, Midjourney v7
  • ทุกโมเดลสร้างภาพจากคำอธิบายที่กำหนดให้เท่านั้น โดยไม่มีฟีเจอร์ inpainting หรือการแก้ไขภาพ
  • แต่ละการทดสอบมี เกณฑ์ผ่านขั้นต่ำที่ชัดเจน และคำนวณอัตราความสำเร็จจากการตรงตามองค์ประกอบภาพที่กำหนด
  • ผลลัพธ์เผยให้เห็นช่องว่างด้านประสิทธิภาพระหว่างโมเดล และแสดงให้เห็นว่า การเข้าใจแนวคิดซับซ้อนหรือการสร้างโครงสร้างเชิงคณิตศาสตร์ยังคงเป็นเรื่องยาก

ภาพรวมการทดลอง

  • เป็น การทดลองเบนช์มาร์กเชิงเปรียบเทียบ ที่ประเมินความสามารถในการสร้างภาพล้วน ๆ ของแต่ละโมเดลภายใต้ กฎที่เข้มงวด
    • ห้ามใช้ฟีเจอร์อย่าง inpainting, remix หรือคำสั่งแก้ไขต่อภายหลังทั้งหมด
    • แต่ละโมเดลได้รับอนุญาตให้ลองได้เพียงหลายสิบครั้งต่อหนึ่งพรอมต์
  • เกณฑ์การประเมินเน้นที่ การตรงตามเงื่อนไขด้านภาพอย่างแม่นยำ

ผลการทดสอบสำคัญ

  • The Prussian Ring Toss
    • ฉากที่ทหารปรัสเซียโยนห่วงใส่หมวกปลายแหลมของกันและกัน
    • จาก 6 โมเดล มี 5 โมเดลผ่านเงื่อนไข เป็นเคสที่มีอัตราความสำเร็จสูงสุด
  • Nine-Pointed Star
    • โจทย์ที่ต้องสร้างดาว 9 แฉกให้ได้อย่างถูกต้อง
    • โมเดลส่วนใหญ่ล้มเหลวเพราะโน้มเอียงไปเป็นรูปแบบจำนวนคู่ มีเพียง 3 โมเดลที่สำเร็จ
  • Spheron
    • ภาพสไตล์สีน้ำมันของอเล็กซานเดอร์มหาราชกำลังรบอยู่บนของเล่น ‘Hippity Hop’
    • ใช้ประเมินความสามารถในการผสานบริบททางประวัติศาสตร์กับวัตถุสมัยใหม่ โดยมีเพียง 4 โมเดลที่สำเร็จ
  • Cubed⁵
    • ฉากที่มีกล่องแก้วใส 5 ลูกวางซ้อนกันในแนวตั้ง ตามลำดับ สีแดง–น้ำเงิน–เขียว–ม่วง–เหลือง
    • มี 5 โมเดลที่ถ่ายทอดได้ถูกต้อง และ สัดส่วนแนวตั้งส่งผลอย่างมากต่อคุณภาพของผลลัพธ์
  • Cephalopodic Puppet Show
    • ฉากที่ขาหมึกทั้ง 8 เส้นแต่ละเส้นสวม หุ่นถุงเท้า
    • เป็นการทดสอบที่ต้องอาศัยความเข้าใจเชิงแนวคิด และมีเพียงครึ่งหนึ่งที่ผ่านเงื่อนไข

ตัวอย่างการทดสอบเพิ่มเติม

  • Quantum Entangled Einstein: การวาดไอน์สไตน์พร้อมหลอดไฟแห่งไอเดียที่เกี่ยวข้องกับกลศาสตร์ควอนตัม → สำเร็จ 3/6
  • The Yarrctic Circle: ภาพโจรสลัดขั้วโลกที่มีขาเทียมทำจากน้ำแข็ง → สำเร็จ 6/6 ทุกโมเดล
  • The Labyrinth: การสร้างเขาวงกต 2D ที่มีทางเข้า·ทางออก·เส้นทางชัดเจน → สำเร็จ 1/6
  • A Dicey Situation: การทำลูกเต๋า 20 หน้า (D20) ที่มี เฉพาะเลขจำนวนเฉพาะบนหน้า → ล้มเหลว 0/6 ทุกโมเดล

การวิเคราะห์และนัยสำคัญ

  • โมเดลมักเกิดข้อผิดพลาดบ่อยในงานที่เป็น โครงสร้างเชิงตรรกะและการบรรยายตามกฎ มากกว่าสไตล์ภาพแบบเรียบง่าย
  • โดยเฉพาะพรอมต์ที่มีเงื่อนไขละเอียด เช่น ข้อความ·ตัวเลข·โครงสร้างสมมาตร·ลำดับสี มีอัตราล้มเหลวสูง
  • ในทางกลับกัน พรอมต์เชิงเรื่องเล่าที่ใช้อารมณ์หรือจินตนาการ กลับแสดงความสม่ำเสมอได้ค่อนข้างสูง
  • โดยรวมแล้ว โมเดล GenAI ยังเผยให้เห็น ข้อจำกัดในการเข้าใจแนวคิดซับซ้อนและความสามารถในการถ่ายทอดโครงสร้าง

สรุป

  • การทดลองครั้งนี้เป็นความพยายามที่น่าสนใจในการวัด ‘ความเข้าใจที่แท้จริง’ ของโมเดล text-to-image แต่ละตัว
  • แม้แต่โมเดลรุ่นใหม่อย่าง Midjourney และ OpenAI 4o ก็ยังล้มเหลวอย่างสิ้นเชิงในบางฉากที่มีตรรกะซับซ้อน
  • ผลลัพธ์แสดงให้เห็นว่า “การเข้าใจข้อความ” กับ “การทำภาพความหมายนั้นออกมาได้อย่างแม่นยำ” เป็นคนละปัญหากัน
  • โจทย์สำคัญของการพัฒนาโมเดลในอนาคตน่าจะอยู่ที่ การปรับปรุงความสอดคล้องระหว่างบริบททางภาษาและโครงสร้างทางภาพ

1 ความคิดเห็น

 
GN⁺ 2025-10-28
ความคิดเห็นบน Hacker News
  • ตอนใช้ GPT-4o รำคาญมากที่บริษัททำตัวเหมือนเป็น ผู้ตัดสินทางศีลธรรม แล้วปฏิเสธคำขอของผู้ใช้บ่อย ๆ
    แม้แต่เรื่องที่ถูกกฎหมายก็ยังบอกว่า “ไม่อนุญาต” ให้ความรู้สึกเหมือนการเซ็นเซอร์แบบปี 1964 ที่บริษัทมาบังคับใช้
    ส่วน GPT-5 ก็ยิ่งทนไม่ได้ เพราะทุกครั้งที่เริ่มบทสนทนามักขึ้นต้นด้วย คำพูดประจบประแจง อย่าง “เป็นคำถามที่ดีนะครับ”, “เป็นข้อสังเกตที่ยอดเยี่ยมครับ”
    • หลายคนวิจารณ์ Altman ที่อนุญาต NSFW ใน ChatGPT แต่ฉันคิดว่านั่นเป็นทิศทางที่ถูกต้องในการ ลดการเซ็นเซอร์โดยองค์กร
      ถ้าเอาข้อมูลความชอบของผู้ใช้ไปฝึกด้วย RLHF โมเดลจะมีผลข้างเคียงกลายเป็น โรคชอบประจบ
      ตอนนี้ LLM หลัก ๆ ก็เป็นกันหมด แต่ถึงอย่างนั้นก็ยังดีกว่า GPT-4o
    • พอลองใช้โมเดลสายจีนจะเห็นว่า ข้อจำกัดน้อยกว่า มาก แน่นอนว่ายังมีข้อยกเว้นอยู่บ้าง
    • ยังไม่เคยเห็นซอฟต์แวร์สำหรับองค์กรตัวไหนที่อนุญาต NSFW
      ChatGPT เป็นผลิตภัณฑ์สำหรับองค์กร ดังนั้นถ้ามันสร้าง ภาพรุนแรงหรือภาพเชิงล่อแหลม ได้ บริษัทใหญ่ก็คงไม่มีวันซื้อแน่
      จากประสบการณ์ที่เคยทำงานเป็นผู้รับผิดชอบจัดซื้อซอฟต์แวร์ให้บริษัท Fortune 500 ฉันมั่นใจ 100%
  • ตอนแรกแปลกใจที่บทความไม่มีวันที่ แต่พอไปดูใน Wayback ก็พบว่า หน้า text-to-image ถูกเพิ่มในเดือนเมษายน ส่วน หน้า image editing ถูกเพิ่มในเดือนกันยายน
    พอไม่มีวันที่ ตอนเห็นครั้งแรกเลยดูเหมือนถูกทำขึ้นมาพร้อมกัน
    • น่าจะเป็นเพราะคนทำ SEO โน้มน้าวว่า บทความที่ไม่มีวันที่ติดอันดับในเสิร์ชเอนจินได้ดีกว่า
      ขอให้หมอนของพวกเขาร้อนทั้งสองด้าน
    • ใช่ เป็นเนื้อหาค่อนข้างเก่าแล้ว ทุกวันนี้ในวงการ AI แค่ ผ่านไปหนึ่งสัปดาห์ก็เชยแล้ว
  • ตอนแรกคำว่า “image editing” ทำให้งง
    ที่จริงมันคือฟังก์ชัน สร้างภาพใหม่ แต่เหมือนจะใช้ในความหมายว่าปรับแก้ภาพเดิม
    โมเดลมัลติโหมด อย่าง Qwen3-VL-30B-A3B แก้ไขภาพเดิมได้ดี ส่วน imagegpt.com ก็ดีเหมือนกัน แต่ไม่รู้ว่าใช้โมเดลอะไร
    • ได้รับฟีดแบ็กแบบนี้มาหลายครั้ง เลยคิดว่าต้องทำให้ แถบนำทางด้านบนเด่นขึ้น
      อ้างอิงไว้ก่อนว่า Qwen3-VL ไม่ใช่โมเดลสร้างหรือแก้ไขภาพ แต่เป็น โมเดลสำหรับการให้เหตุผลกับภาพ
      มีความเป็นไปได้ว่าฝั่งแบ็กเอนด์ใช้ Qwen-Image-Edit
    • เว็บไซต์ที่ฉันเห็นดูเหมือนเป็นการแก้ภาพเดิมจริง ๆ
      เช่น ถ้าใส่พรอมป์ต์ว่า “เพิ่มผมให้ผู้ชายหัวล้าน” ก็จะได้ผลลัพธ์ที่เป็นภาพต้นฉบับซึ่งถูกแก้ไขแล้ว
      ในเชิงเทคนิคมันคือการสร้างภาพใหม่ แต่ฉันมองว่า แนวคิดคล้ายกับการกด Save As ใน Photoshop
  • ลิงก์จริงคือ https://genai-showdown.specr.net/image-editing
    • ใช่ นี่คือ ลิงก์สำหรับการแก้ไขภาพ ส่วนอีกอันเป็นของ text-to-image
  • คาดว่าเบื้องหลังโมเดลน่าจะสร้างภาพหลายครั้งแล้ว แสดงเฉพาะผลลัพธ์ที่ดีที่สุด
    GPT-4o มี temperature ต่ำ จึงสม่ำเสมอมากกว่าแต่ความคิดสร้างสรรค์น้อยกว่า ขณะที่ Midjourney ใช้ temperature สูงกว่าเลยสร้าง พื้นหลังและพื้นผิวที่หลากหลาย ได้
    โทน สีเซเปีย ของ 4o อาจเป็นการโพสต์โปรเซสก็ได้
    ในความเป็นจริงอาจเป็นเวิร์กโฟลว์หลายขั้นตอนที่ค่อย ๆ ปรับแต่งภาพสุดท้าย
    • ถ้าลองรันโมเดลภาพบนเครื่องเอง จะรู้ว่าโมเดลที่โฮสต์ส่วนใหญ่ ไม่ได้สร้างหลายครั้ง แต่รันแค่ครั้งเดียว
      อย่างไรก็ตาม โมเดลที่อิง LLM มักใช้ การเขียนพรอมป์ต์ใหม่ (prompt rewriting) บ่อยมาก
      กรณีของ DALL·E 3 อธิบายไว้ดีในบทความนี้
    • ถ้าเปิดเผยจำนวนครั้งที่พยายามสร้างและผลลัพธ์ของแต่ละพรอมป์ต์ก็น่าจะน่าสนใจขึ้นมาก
  • พอเห็น “Alexander the Great on a Hippity Hop” ก็ กดอัปโหวต ทันที
    • ฉันเองก็ลืมของเล่นชิ้นนั้นไปสนิทแล้ว แต่พอเห็นนี่ก็ นึกถึงความทรงจำวัยเด็ก ขึ้นมาเลย
    • แต่ถึงอย่างนั้นฉันก็ยังชอบ ภาพคิเมราม้า มากกว่า
  • ถ้าอยากลองเปรียบเทียบโมเดลภาพ สามารถทดลองฟรีได้ที่ BrandImageGen.com
    ตอนนี้กำลังรอฟีดแบ็กจากผู้สมัครใช้งาน
  • มีคนถามว่ามีมีม “อย่าวาดช้างสีเขียว” อยู่ไหน แล้วไปเจอว่ามีคนเสนอไว้ใน GitHub discussion
  • มีการโพสต์บทความ รีวิวเปรียบเทียบ เครื่องมือสร้างภาพหลายตัว
    ลิงก์ Generative AI Review
  • เพราะ “Editing Showdown” เลยได้รู้จัก โมเดล Seedream เป็นครั้งแรก
    แต่หลังจากลองหลายครั้งแล้วก็ยังไม่ค่อยเข้าใจโครงสร้างที่ให้ LLM ตัวอื่นมาเป็นผู้ประเมิน เท่าไร มันเองก็น่าจะมีข้อจำกัดด้านความแม่นยำไม่ใช่หรือ
    • ใน FAQ เขียนเกณฑ์การประเมินไว้ชัดเจน
      ใช้แบบ PASS/FAIL คือถ้าสร้างภาพที่ตรงกับพรอมป์ต์ไม่ได้เลยแม้แต่ครั้งเดียวก็ถือว่าสอบตก
      แนวคิดคือการทดสอบแบบ Pictionary test ว่า “ถ้าเอาไปให้คนเดินถนนดู เขาจะเดาพรอมป์ต์ได้ไหม?”
      การประเมินสุดท้ายตัดสินด้วยมือโดยอิงเกณฑ์ที่ชัดเจน
    • การให้ LLM ประเมิน LLM เป็นมาตรฐานของอุตสาหกรรม
      จะขังผู้ประเมินที่เป็นมนุษย์ไว้ในกล่องให้มานั่งประเมินผลลัพธ์ 7600 ชิ้นก็คงไม่ได้
      แน่นอนว่าการตัดสินของ LLM ก็ไม่สมบูรณ์แบบ แต่ในแง่ ความสามารถในการเปรียบเทียบและความสม่ำเสมอ มันดีกว่ามนุษย์
      และถ้าใช้มันเป็นแค่ เทอร์โมมิเตอร์วัดประสิทธิภาพ ไม่ใช่เป้าหมายในการเพิ่มประสิทธิภาพ ก็ไม่ได้มีปัญหาใหญ่
      แต่ถ้าเอาไปใช้เป็นเป้าหมายการเพิ่มประสิทธิภาพ ก็อาจได้ ผลลัพธ์ประหลาด แบบ GPT-5