Qwen3.6-35B-A3B สร้างภาพนกกระทุงได้ดีกว่า Claude Opus 4.7
(simonwillison.net)- เมื่อเปรียบเทียบ Qwen3.6-35B-A3B กับ Claude Opus 4.7 ในการสร้างภาพ ‘นกกระทุงขี่จักรยาน’ ผลคือ Qwen สร้างภาพที่ สมบูรณ์กว่า
- โมเดล Qwen เป็นเวอร์ชันล่าสุดจาก Alibaba โดยรัน โมเดล quantized ขนาด 20.9GB ที่ Unsloth แจกจ่าย แบบโลคัลบน MacBook Pro M5 ผ่าน LM Studio
- Claude Opus 4.7 มี ข้อผิดพลาดในการแสดงเฟรมจักรยาน และแม้จะใช้ตัวเลือก
thinking_level: maxแล้ว คุณภาพก็แทบไม่ดีขึ้น - เดิมที ‘Pelican benchmark’ เป็น การทดสอบเชิงเสียดสีเพื่อเปรียบเทียบโมเดล แต่ผลครั้งนี้แสดงให้เห็นว่า LLM แบบโลคัลอาจเหนือกว่าโมเดลเชิงพาณิชย์ได้
- Qwen3.6-35B-A3B เป็นกรณีตัวอย่างที่พิสูจน์ ศักยภาพการแข่งขันของโมเดลขนาดใหญ่ที่รันได้ในสภาพแวดล้อมโลคัล
การทดลองเปรียบเทียบ Qwen3.6-35B-A3B กับ Claude Opus 4.7
- มีการทดลองเปรียบเทียบสองโมเดล Qwen3.6-35B-A3B และ Claude Opus 4.7 โดยให้สร้างภาพ ‘นกกระทุงขี่จักรยาน’
- โมเดล Qwen เป็นเวอร์ชันล่าสุดที่ Alibaba เปิดเผย และใช้โมเดล quantized ขนาด 20.9GB ที่ Unsloth จัดให้
- รันแบบโลคัลบน MacBook Pro M5 ผ่าน LM Studio และ ปลั๊กอิน llm-lmstudio
- ส่วน Claude Opus 4.7 ใช้โมเดลคลาวด์ล่าสุดของ Anthropic
- ผลลัพธ์คือ Qwen3.6-35B-A3B สร้าง ภาพนกกระทุงที่สมบูรณ์กว่า
- Claude Opus 4.7 เกิดข้อผิดพลาด แสดงเฟรมจักรยานผิด
- มีการลองใหม่โดยเพิ่มตัวเลือก
thinking_level: maxแต่คุณภาพแทบไม่ดีขึ้น
- บางส่วนตั้งข้อสงสัยว่าโมเดลต่าง ๆ ถูก ฝึกมาให้เข้ากับ ‘Pelican benchmark’
- ผู้เขียนปฏิเสธข้อกล่าวหานี้ แต่เพื่อยืนยันความน่าเชื่อถือของผลลัพธ์ จึงเพิ่มการทดสอบใหม่ด้วย ‘ฟลามิงโกขี่จักรยานล้อเดียว’
- Qwen3.6-35B-A3B ยังทำได้ดีกว่าอีกครั้ง และผู้เขียนประเมินว่าคอมเมนต์ “” ภายในโค้ด SVG น่าประทับใจ
ความหมายและข้อจำกัดของ Pelican benchmark
- เดิมที ‘Pelican bicycle benchmark’ เริ่มต้นจาก การทดสอบเชิงล้อเลียนเพื่อเสียดสีความไร้สาระของการเปรียบเทียบโมเดล
- แต่ในทางปฏิบัติกลับพบว่า มีความสัมพันธ์บางอย่างระหว่างคุณภาพของภาพนกกระทุงกับประสิทธิภาพโดยรวมของโมเดล
- ผลลัพธ์ยุคแรกในเดือนตุลาคม 2024 ยังหยาบมาก แต่หลังจากนั้นโมเดลต่าง ๆ ก็เริ่มสร้าง ภาพประกอบที่ใช้งานได้จริง มากขึ้นเรื่อย ๆ
- ในการทดลองครั้งนี้ ความสัมพันธ์ดังกล่าว พังทลายลงเป็นครั้งแรก
- แม้โมเดล Qwen จะให้ผลลัพธ์ที่ดีกว่า แต่ก็ยัง ยากจะบอกว่าเวอร์ชัน quantized ขนาด 21GB ทรงพลังกว่าโมเดลเชิงพาณิชย์รุ่นล่าสุดของ Anthropic
- อย่างไรก็ตาม หากต้อง สร้าง ‘SVG ของนกกระทุงขี่จักรยาน’ ณ ตอนนี้ Qwen3.6-35B-A3B ที่รันได้แบบโลคัล น่าจะเป็นตัวเลือกที่ดีกว่า
- โดยรวมแล้ว การเปรียบเทียบครั้งนี้ถูกมองว่าเป็นตัวอย่างที่แสดงให้เห็น ระดับพัฒนาการของ LLM แบบโลคัล และ การลดช่องว่างกับโมเดลเชิงพาณิชย์ขนาดใหญ่
- โดยเฉพาะการพิสูจน์ความเป็นไปได้ในการรันโมเดลขนาดใหญ่ในสภาพแวดล้อม LM Studio ซึ่งเป็นจุดที่น่าสนใจ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
เห็นด้วยกับการทดสอบสำรองนี้ได้ยาก Opus flamingo แสดงส่วนประกอบอย่างแป้นถีบ อาน ซี่ล้อ และจะงอยปากของจักรยานจริงได้อย่างใช้งานได้จริง ถ้ามองด้านความสมจริง Qwen หลุดไปไกลมาก ค่อนข้างน่าแปลกใจที่มีคนชอบผลลัพธ์ของ Qwen มากกว่า ดูเหมือนว่า Qwen จะ overfitting กับข้อมูล Pelican มากกว่า
ถ้าวัดตามความสามารถด้านโค้ด Qwen 3.6 35b a3b แก้โจทย์ Power Ranking ได้ 11 ข้อจาก 98 ข้อ Qwen 3.5 ขนาดเท่ากันทำได้ 10 ข้อ, Qwen 3.5 27b dense ทำได้ 26 ข้อ, ส่วน Opus ทำได้ 95 ข้อ ดังนั้น Qwen 3.6 ดีขึ้นเพียงเล็กน้อยมาก
เข้าใจความสนุกของ ‘การทดสอบนกกระทุง’ แต่ตอนนี้ไม่แน่ใจแล้วว่ามันพิสูจน์อะไร ถ้าอยากดูว่าโมเดลปรับตัวกับสถานการณ์นอก distribution ได้ดีแค่ไหน การลอง จับคู่สัตว์อื่นกับกิจกรรมอื่น (เช่น วาฬเล่นสเกตบอร์ด) น่าจะมีความหมายกว่า
วันนี้ฉันเสียเวลาไปกับการพยายามแก้ไดอะแกรมสไลด์ด้วย Gemini แล้วสุดท้ายก็ยอมแพ้ มันเก่งเรื่องทำอะไรตลก ๆ ในครั้งเดียว แต่การแก้ละเอียดแบบ “ปรับตรงนี้นิดเดียว” แทบเป็นไปไม่ได้เลย รู้สึกถึง ช่องว่าง ระหว่างของเล่นกับเครื่องมืออย่างชัดเจน
ใน HN เวลาใครบอกว่า “แล็ปท็อปของฉัน” ดูเหมือนจะหมายถึง MacBook สเปกแรง อยู่เสมอ ซึ่งแรงกว่าคอมพิวเตอร์ส่วนใหญ่เสียอีก
ถ้าถาม Opus ตรง ๆ ว่า “เก่งสร้างภาพไหม” มันจะตอบว่า “ไม่” มันไม่เคยถูก ทำการตลาดว่าเป็นโมเดลสร้างภาพ มาตั้งแต่แรก
ในภาษามี spatial metaphor อยู่มากโดยธรรมชาติ เช่น เราพูดว่าเงิน “ขึ้น” แทนที่จะพูดว่า “เพิ่มขึ้น” โครงสร้างเชิงอุปมาพวกนี้อาจสะท้อนอยู่ใน โครงสร้างของ weight space ของโมเดลด้วย ดังนั้นยิ่งโมเดลเรียนรู้กลยุทธ์ซับซ้อนมากขึ้น รูปแบบเหล่านี้ก็อาจยิ่งลึกขึ้นในอนาคต อยากทำโปรเจ็กต์เปรียบเทียบเรขาคณิตของ activation ระหว่างโมเดลรุ่นเก่ากับรุ่นใหม่
Opus และ Sonnet มี ประสิทธิภาพในงานที่ไม่ใช่โค้ดลดลงเรื่อย ๆ หลังเวอร์ชัน 4.1
ไม่รู้ว่าเดโมแบบนี้พิสูจน์อะไรได้ LLM เก่งเฉพาะงานที่ถูกฝึกมาหรืองานคล้ายกัน การสร้าง SVG ไม่ใช่งานแบบนั้นโดยธรรมชาติ แต่ก่อนทำไม่ได้เพราะมีตัวอย่างในข้อมูลฝึกน้อย ต่อมาพอเพิ่มตัวอย่างเพื่อใช้โปรโมตก็เลยพอทำได้บ้าง แต่ก็ยังไม่ใช่สิ่งที่ใช้จริงได้ การปรับปรุงแบบนี้ไม่ได้ต่อยอดไปสู่ความสามารถอื่น ตอนนี้การเพิ่มขนาดโมเดลเริ่มหยุดแล้ว จุดสนใจจึงเป็นการปรับจูนเฉพาะงาน ถ้ามีโจทย์ลับที่ไม่อยู่ในข้อมูลฝึก ก็คงใช้วัด ความสามารถในการ generalize ได้จริง แต่นี่ไม่ใช่การทดสอบแบบนั้น
ฉันเป็น อีกัวนา แต่ต้องเอาจักรยานไปล้างที่ร้านล้างรถ กำลังคิดว่าจะเดินไปหรือขึ้นรถบัสดี