นี่คือเบนช์มาร์กที่ผู้เขียนซึ่งเป็นคอมมิตเตอร์ของ Ruby ให้ Claude Code สร้าง mini Git ใน 13 ภาษา แล้ววัดเวลา ค่าใช้จ่าย และจำนวนบรรทัดโค้ด โดยรันทั้งหมด 600 ครั้ง ครั้งละ 20 รอบต่อภาษา และใช้โมเดล Claude Opus 4.6
ผลลัพธ์คือ Ruby($0.36) → Python($0.38) → JavaScript($0.39) เร็วและประหยัดที่สุด ขณะที่ภาษาที่มี static type ช้ากว่า 1.4–2.6 เท่าและมีค่าใช้จ่ายสูงกว่า เมื่อเพิ่ม type checker แล้ว Python/mypy ช้าลง 1.6–1.7 เท่า และ Ruby/Steep ช้าลง 2~3.2 เท่า ส่วน OCaml·Haskell ที่มีจำนวนบรรทัดโค้ดน้อย กลับใช้ thinking token มาก จึงอยู่เพียงระดับกลางถึงล่าง
ผู้เขียนเน้นว่า “ความต่างระหว่าง 30 วินาทีกับ 60 วินาทีส่งผลต่อสมาธิและ flow การพัฒนา และความเร็วในการพัฒนาเองก็เป็นมิติหนึ่งของคุณภาพ” อย่างไรก็ตาม เขาเสริมว่านี่ยังมีข้อจำกัดเพราะเป็นงานเดี่ยวขนาดต้นแบบ และในงานขนาดใหญ่ static type อาจได้เปรียบ
6 ความคิดเห็น
ดูเหมือนว่านี่เป็นการวัดผลรวมที่มีตัวแปรอื่นนอกเหนือจากคุณลักษณะของภาษาเข้ามาปะปนอยู่ มีผลลัพธ์เวลาใช้ต่อการทดลองอยู่บน Github แต่ไม่มีบันทึกการรัน แม้แต่เวลาใช้ต่อแต่ละงานย่อยซึ่งเป็นตัวชี้วัดที่ใช้กันทั่วไปที่สุดก็ยังตรวจสอบได้ยาก และด้วยลักษณะของผลลัพธ์จาก LLM จึงดูเหมือนว่าไม่สามารถทำซ้ำได้
ผู้เขียนเองก็รับรู้ข้อจำกัดนี้ในส่วนข้อจำกัด ว่านี่เป็นงานแบบครั้งเดียวในขั้นต้นแบบ ถึงอย่างนั้นโดยรวมแล้วผมคิดว่านี่เป็นการทดลองที่ขาดความโปร่งใสและไม่มีการควบคุมตัวแปร
คงจะดีไม่น้อยถ้ามีการเปรียบเทียบหลายภาษาให้ผ่านการทดลองขนาดใหญ่สักครั้ง
แต่การทดสอบระดับนั้นก็ไม่ได้มีองค์กรไหนทำกัน แถมเมื่อเป็นสมาชิกในชุมชนมาลองทำเอง การทดลองให้แม่นยำก็คงยากสินะครับ
ผมหาข้อมูลจากหลายที่แล้ว แต่ก็ไม่ง่ายเลยที่จะเจอข้อมูลที่ใช้ได้จริง
ซึ่งก็คงเป็นเรื่องธรรมดา เพราะจะมีสักกี่คนที่ยอมควักเงินตัวเองมาออกแบบการทดลองอย่างจริงจัง เพื่อดูว่าภาษาไหนดีกว่ากัน..
ผมเองก็คิดว่าเป็นการทดลองที่มีข้อจำกัดเยอะมาก แต่ก็รู้สึกว่าดีที่อย่างน้อยยังได้เห็นความพยายามลองทำดูบ้าง..^^
เจ้า Ruby นั่นอีกแล้ว
คนเขียน Ruby เป็นคนทดสอบเอง ก็คงจะบอกว่า Ruby ดีอยู่แล้วสิ
แต่ด้วยลักษณะเฉพาะของ Ruby อยู่แล้ว ปริมาณการใช้โทเค็นจึงมีแนวโน้มที่จะน้อยเป็นธรรมดา เพราะเหมาะกับการเขียนโค้ดให้สั้น กระชับ ทำให้การใช้โทเค็นในส่วนของจำนวนโทเค็นเอาต์พุตลดลงไปด้วย
ฮ่าๆ ต้องอ่านโดยยอมรับก่อนว่าผมอาจมีอคติอยู่นิดหน่อย เพราะเป็นคอมมิตเตอร์ของภาษา Ruby
ถ้าถามว่าจะเชื่อถือ implementation ของภาษาไหนมากที่สุดล่ะ… 55555