Qwen3.6-35B-A3B สร้างภาพนกกระทุงได้ดีกว่า Claude Opus 4.7

(simonwillison.net)

6 คะแนน โดย GN⁺ 12 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อเปรียบเทียบ Qwen3.6-35B-A3B กับ Claude Opus 4.7 ในการสร้างภาพ ‘นกกระทุงขี่จักรยาน’ ผลคือ Qwen สร้างภาพที่ สมบูรณ์กว่า
โมเดล Qwen เป็นเวอร์ชันล่าสุดจาก Alibaba โดยรัน โมเดล quantized ขนาด 20.9GB ที่ Unsloth แจกจ่าย แบบโลคัลบน MacBook Pro M5 ผ่าน LM Studio
Claude Opus 4.7 มี ข้อผิดพลาดในการแสดงเฟรมจักรยาน และแม้จะใช้ตัวเลือก thinking_level: max แล้ว คุณภาพก็แทบไม่ดีขึ้น
เดิมที ‘Pelican benchmark’ เป็น การทดสอบเชิงเสียดสีเพื่อเปรียบเทียบโมเดล แต่ผลครั้งนี้แสดงให้เห็นว่า LLM แบบโลคัลอาจเหนือกว่าโมเดลเชิงพาณิชย์ได้
Qwen3.6-35B-A3B เป็นกรณีตัวอย่างที่พิสูจน์ ศักยภาพการแข่งขันของโมเดลขนาดใหญ่ที่รันได้ในสภาพแวดล้อมโลคัล

การทดลองเปรียบเทียบ Qwen3.6-35B-A3B กับ Claude Opus 4.7

มีการทดลองเปรียบเทียบสองโมเดล Qwen3.6-35B-A3B และ Claude Opus 4.7 โดยให้สร้างภาพ ‘นกกระทุงขี่จักรยาน’
- โมเดล Qwen เป็นเวอร์ชันล่าสุดที่ Alibaba เปิดเผย และใช้โมเดล quantized ขนาด 20.9GB ที่ Unsloth จัดให้
- รันแบบโลคัลบน MacBook Pro M5 ผ่าน LM Studio และ ปลั๊กอิน llm-lmstudio
- ส่วน Claude Opus 4.7 ใช้โมเดลคลาวด์ล่าสุดของ Anthropic
ผลลัพธ์คือ Qwen3.6-35B-A3B สร้าง ภาพนกกระทุงที่สมบูรณ์กว่า
- Claude Opus 4.7 เกิดข้อผิดพลาด แสดงเฟรมจักรยานผิด
- มีการลองใหม่โดยเพิ่มตัวเลือก thinking_level: max แต่คุณภาพแทบไม่ดีขึ้น
บางส่วนตั้งข้อสงสัยว่าโมเดลต่าง ๆ ถูก ฝึกมาให้เข้ากับ ‘Pelican benchmark’
- ผู้เขียนปฏิเสธข้อกล่าวหานี้ แต่เพื่อยืนยันความน่าเชื่อถือของผลลัพธ์ จึงเพิ่มการทดสอบใหม่ด้วย ‘ฟลามิงโกขี่จักรยานล้อเดียว’
- Qwen3.6-35B-A3B ยังทำได้ดีกว่าอีกครั้ง และผู้เขียนประเมินว่าคอมเมนต์ “” ภายในโค้ด SVG น่าประทับใจ

ความหมายและข้อจำกัดของ Pelican benchmark

เดิมที ‘Pelican bicycle benchmark’ เริ่มต้นจาก การทดสอบเชิงล้อเลียนเพื่อเสียดสีความไร้สาระของการเปรียบเทียบโมเดล
- แต่ในทางปฏิบัติกลับพบว่า มีความสัมพันธ์บางอย่างระหว่างคุณภาพของภาพนกกระทุงกับประสิทธิภาพโดยรวมของโมเดล
- ผลลัพธ์ยุคแรกในเดือนตุลาคม 2024 ยังหยาบมาก แต่หลังจากนั้นโมเดลต่าง ๆ ก็เริ่มสร้าง ภาพประกอบที่ใช้งานได้จริง มากขึ้นเรื่อย ๆ
ในการทดลองครั้งนี้ ความสัมพันธ์ดังกล่าว พังทลายลงเป็นครั้งแรก
- แม้โมเดล Qwen จะให้ผลลัพธ์ที่ดีกว่า แต่ก็ยัง ยากจะบอกว่าเวอร์ชัน quantized ขนาด 21GB ทรงพลังกว่าโมเดลเชิงพาณิชย์รุ่นล่าสุดของ Anthropic
- อย่างไรก็ตาม หากต้อง สร้าง ‘SVG ของนกกระทุงขี่จักรยาน’ ณ ตอนนี้ Qwen3.6-35B-A3B ที่รันได้แบบโลคัล น่าจะเป็นตัวเลือกที่ดีกว่า
โดยรวมแล้ว การเปรียบเทียบครั้งนี้ถูกมองว่าเป็นตัวอย่างที่แสดงให้เห็น ระดับพัฒนาการของ LLM แบบโลคัล และ การลดช่องว่างกับโมเดลเชิงพาณิชย์ขนาดใหญ่
- โดยเฉพาะการพิสูจน์ความเป็นไปได้ในการรันโมเดลขนาดใหญ่ในสภาพแวดล้อม LM Studio ซึ่งเป็นจุดที่น่าสนใจ

1 ความคิดเห็น

GN⁺ 12 일 전

ความคิดเห็นจาก Hacker News

เห็นด้วยกับการทดสอบสำรองนี้ได้ยาก Opus flamingo แสดงส่วนประกอบอย่างแป้นถีบ อาน ซี่ล้อ และจะงอยปากของจักรยานจริงได้อย่างใช้งานได้จริง ถ้ามองด้านความสมจริง Qwen หลุดไปไกลมาก ค่อนข้างน่าแปลกใจที่มีคนชอบผลลัพธ์ของ Qwen มากกว่า ดูเหมือนว่า Qwen จะ overfitting กับข้อมูล Pelican มากกว่า
- ฟลามิงโกของ Qwen น่าสนใจทางศิลปะมากกว่าเยอะ เป็น ฟลามิงโกตาเดียวใส่แว่นกันแดดและหูกระต่าย กำลังสูบบุหรี่ ส่วน Opus วาดฟลามิงโกที่น่าเบื่อและดูแปลก ๆ อยู่บ้าง ท้องฟ้าและพื้นหลังของ Qwen ก็น่าสนใจกว่าเช่นกัน แต่ถ้าดูความสมจริงทางกายภาพ Opus ใกล้เคียงกว่ามาก
- อย่างน้อย Qwen ก็วาด เฟรมจักรยานที่สมบูรณ์ ออกมาได้ เฟรมของ Opus ดูเหมือนจะหักครึ่งได้และเหมือนจะบังคับเลี้ยวไม่ได้ด้วย
- Qwen เพิ่มรายละเอียดในฉากหลัง แต่ตัวนกกระทุงเองดูเหมือนนกกระสาปากงอ และขาก็ขาดหายไป น่าประทับใจสำหรับโมเดลรันโลคัล แต่ยังไม่ใช่ผู้ชนะ
- นี่คือ โมเดล 3B การที่ผลลัพธ์ออกมาใกล้เคียงกันขนาดนี้ก็น่าทึ่งแล้ว ประเด็นถกเถียงเรื่องศิลปะไม่ใช่แก่นสำคัญ
ถ้าวัดตามความสามารถด้านโค้ด Qwen 3.6 35b a3b แก้โจทย์ Power Ranking ได้ 11 ข้อจาก 98 ข้อ Qwen 3.5 ขนาดเท่ากันทำได้ 10 ข้อ, Qwen 3.5 27b dense ทำได้ 26 ข้อ, ส่วน Opus ทำได้ 95 ข้อ ดังนั้น Qwen 3.6 ดีขึ้นเพียงเล็กน้อยมาก
- benchmark นี้มีปัญหา ข้อมูลฝึกกับข้อมูล benchmark ซ้อนทับกัน เหมือน Brokk Power Ranking
- ความเร็วดีขึ้นชัดเจน บน M1 Max ตอนอธิบายภาพ Qwen 3.6 35b a3b ได้ 34 โทเคนต่อวินาที, Qwen 3.5 27b ได้ 10 โทเคนต่อวินาที, ส่วน Qwen 3.5 35b a3b ไม่รองรับอินพุตภาพ
- การเอาโมเดลเล็กสำหรับรันแบบโลคัลไปเทียบกับ frontier model ราคาแพง นั้นไม่ยุติธรรม ควรเทียบกับโมเดลราคาใกล้กัน หรือ frontier model ขนาดเล็กอย่าง Haiku, Flash, GPT Nano มากกว่า
เข้าใจความสนุกของ ‘การทดสอบนกกระทุง’ แต่ตอนนี้ไม่แน่ใจแล้วว่ามันพิสูจน์อะไร ถ้าอยากดูว่าโมเดลปรับตัวกับสถานการณ์นอก distribution ได้ดีแค่ไหน การลอง จับคู่สัตว์อื่นกับกิจกรรมอื่น (เช่น วาฬเล่นสเกตบอร์ด) น่าจะมีความหมายกว่า
- เพราะงั้นฉันเลยลอง ฟลามิงโกขี่รถล้อเดียว ชั่วขณะหนึ่งก็สงสัยว่าผู้ให้บริการโมเดลอาจฝึกมาให้เข้ากับนกกระทุงโดยเฉพาะ แต่พอเห็นผลของฟลามิงโกแล้วก็มั่นใจว่าไม่ใช่
- ยิ่ง benchmark ไหนดัง ก็ยิ่งมีโอกาสถูกดูแลเป็นพิเศษตอนฝึกโมเดล อยากลองด้วยพรอมป์ต์อย่าง “ช้างขับรถ” หรือ “สิงโตนอนบนเตียง”
- ถ้าอ่านบทความจะเห็นว่าระบุชัดว่าการทดสอบนี้ตั้งใจทำมาแบบ ขำ ๆ มันแค่ใช้ติดตามแนวโน้มความสามารถของโมเดลอย่างหลวม ๆ และผลครั้งนี้แสดงให้เห็นว่าแนวโน้มนั้นพังลงแล้ว
- โมเดลอาจจำการทดสอบนี้ได้ แต่คงไม่ได้ฝึกกับอะไรอย่าง “เต่าทำคิกฟลิปบนสเกตบอร์ด” อย่างที่เห็นจาก ทวีตของ Jeff Dean ความล้มเหลวของ Opus 4.7 กับนกกระทุงกลับเป็นหลักฐานในทางนั้นมากกว่า
- มุกนี้หมดอายุไปแล้ว แต่ท่ามกลาง กระแส hype เกินจริงของวงการ AI ก็ยังมีคนเอาจริงเอาจังอยู่เรื่อย ๆ พอมีภาพนกกระทุงที่ดี ก็ถูกหยิบมาเป็นหลักฐานว่าโมเดลนั้นยอดเยี่ยม วนซ้ำแบบนี้ตลอด
วันนี้ฉันเสียเวลาไปกับการพยายามแก้ไดอะแกรมสไลด์ด้วย Gemini แล้วสุดท้ายก็ยอมแพ้ มันเก่งเรื่องทำอะไรตลก ๆ ในครั้งเดียว แต่การแก้ละเอียดแบบ “ปรับตรงนี้นิดเดียว” แทบเป็นไปไม่ได้เลย รู้สึกถึง ช่องว่าง ระหว่างของเล่นกับเครื่องมืออย่างชัดเจน
ใน HN เวลาใครบอกว่า “แล็ปท็อปของฉัน” ดูเหมือนจะหมายถึง MacBook สเปกแรง อยู่เสมอ ซึ่งแรงกว่าคอมพิวเตอร์ส่วนใหญ่เสียอีก
ถ้าถาม Opus ตรง ๆ ว่า “เก่งสร้างภาพไหม” มันจะตอบว่า “ไม่” มันไม่เคยถูก ทำการตลาดว่าเป็นโมเดลสร้างภาพ มาตั้งแต่แรก
- ช่วงนี้เริ่มสงสัยว่า OpenAI กำลังปั่นคอมเมนต์ใน HN เพื่อ เปลี่ยนทิศทางการถกเถียง หรือเปล่า เพราะเห็นคอมเมนต์ที่คอยปกป้อง OpenAI หรือโจมตีโมเดลอื่นเกินเหตุในบางหัวข้อซ้ำ ๆ
- Claude เก่งมากเรื่องการสร้าง SVG ฉันใช้ Claude ทำไอคอนเล็ก ๆ บ่อย แต่ภาพประกอบ SVG แบบนกกระทุงขี่จักรยานนั้นในทางปฏิบัติแทบไม่มีประโยชน์ เพราะนกกระทุงขี่จักรยานไม่ได้
ในภาษามี spatial metaphor อยู่มากโดยธรรมชาติ เช่น เราพูดว่าเงิน “ขึ้น” แทนที่จะพูดว่า “เพิ่มขึ้น” โครงสร้างเชิงอุปมาพวกนี้อาจสะท้อนอยู่ใน โครงสร้างของ weight space ของโมเดลด้วย ดังนั้นยิ่งโมเดลเรียนรู้กลยุทธ์ซับซ้อนมากขึ้น รูปแบบเหล่านี้ก็อาจยิ่งลึกขึ้นในอนาคต อยากทำโปรเจ็กต์เปรียบเทียบเรขาคณิตของ activation ระหว่างโมเดลรุ่นเก่ากับรุ่นใหม่
Opus และ Sonnet มี ประสิทธิภาพในงานที่ไม่ใช่โค้ดลดลงเรื่อย ๆ หลังเวอร์ชัน 4.1
ไม่รู้ว่าเดโมแบบนี้พิสูจน์อะไรได้ LLM เก่งเฉพาะงานที่ถูกฝึกมาหรืองานคล้ายกัน การสร้าง SVG ไม่ใช่งานแบบนั้นโดยธรรมชาติ แต่ก่อนทำไม่ได้เพราะมีตัวอย่างในข้อมูลฝึกน้อย ต่อมาพอเพิ่มตัวอย่างเพื่อใช้โปรโมตก็เลยพอทำได้บ้าง แต่ก็ยังไม่ใช่สิ่งที่ใช้จริงได้ การปรับปรุงแบบนี้ไม่ได้ต่อยอดไปสู่ความสามารถอื่น ตอนนี้การเพิ่มขนาดโมเดลเริ่มหยุดแล้ว จุดสนใจจึงเป็นการปรับจูนเฉพาะงาน ถ้ามีโจทย์ลับที่ไม่อยู่ในข้อมูลฝึก ก็คงใช้วัด ความสามารถในการ generalize ได้จริง แต่นี่ไม่ใช่การทดสอบแบบนั้น
- ฉันลองเทียบผล SVG ของโมเดล GPT-5.4, mini, nano แล้วค่อนข้างน่าสนใจ ดูช่วงท้ายของโพสต์นี้
ฉันเป็น อีกัวนา แต่ต้องเอาจักรยานไปล้างที่ร้านล้างรถ กำลังคิดว่าจะเดินไปหรือขึ้นรถบัสดี
- มีคนเสนอให้ฝากจักรยานไว้กับนกกระทุงแล้วให้มันเอาไปล้างแทน
- อีกคนแนะนำว่า “มันไกลเกินไป เรียก $PartnerRideshareCo ดีกว่า”

Qwen3.6-35B-A3B สร้างภาพนกกระทุงได้ดีกว่า Claude Opus 4.7

การทดลองเปรียบเทียบ Qwen3.6-35B-A3B กับ Claude Opus 4.7

ความหมายและข้อจำกัดของ Pelican benchmark

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News