1 คะแนน โดย GN⁺ 2023-07-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • บทความล่าสุดที่ได้รับความสนใจบน Twitter คือ "การจัดประเภทข้อความแบบ 'ไม่มีผู้เขียน': วิธีจัดประเภทแบบไม่ใช้พารามิเตอร์ด้วยการใช้ตัวบีบอัด"
  • ผู้เขียนได้ตรวจสอบซอร์สโค้ดเพื่อทำซ้ำผลลัพธ์ของบทความ และพบข้อบกพร่องหรือทางเลือกที่ไม่คาดคิดในโค้ด kNN
  • ข้อบกพร่องในโค้ดทำให้ค่าความแม่นยำของวิธีดังกล่าวออกมาสูงกว่าที่คาดไว้
  • ใน Table 5 ของบทความ วิธี gzip แสดงประสิทธิภาพที่ดีกว่าวิธีอื่นที่อิงโครงข่ายประสาทเทียม
  • ผู้เขียนได้คำนวณตัวเลขใหม่ และพบว่าผลลัพธ์ที่แก้ไขแล้วได้เปลี่ยนข้อสรุปของการทดลองไปอย่างมาก
  • บทความใช้ตัวจำแนก kNN ที่ k=2 ซึ่งเป็นตัวเลือกที่แปลกสำหรับการจัดประเภทแบบ kNN
  • ในซอร์สโค้ดมีกลยุทธ์การตัดสินลำดับความสำคัญที่ไม่คาดคิด ซึ่งส่งผลต่อค่าความแม่นยำที่รายงานไว้
  • ผู้เขียนได้จัดทำ implementation ของตนเองเพื่อเปรียบเทียบผลลัพธ์โดยใช้กลยุทธ์การตัดสินลำดับความสำคัญแบบอื่น
  • ผลลัพธ์ที่คำนวณใหม่แสดงให้เห็นว่าโค้ดต้นฉบับและ implementation ของผู้เขียนให้ผลลัพธ์ที่คล้ายกัน
  • ยังคงมีข้อสงสัยเกี่ยวกับค่าความแม่นยำที่สูงของชุดข้อมูลฟิลิปปินส์ และความแตกต่างเล็กน้อยระหว่างผลลัพธ์ "table5" กับ "code"

1 ความคิดเห็น

 
GN⁺ 2023-07-18
ความเห็นจาก Hacker News
  • ข้อผิดพลาดในงานวิจัย "gzip beats BERT" เป็นความผิดพลาดเชิงระเบียบวิธีที่ต้องใส่ใจอย่างมากในวงการ ML
  • การนำอัลกอริทึมการบีบอัดมาใช้กับ ML ไม่ใช่ "ของฟรี" และอาจไม่ได้สร้างความมหัศจรรย์อะไรเป็นพิเศษ
  • ผู้เขียนบล็อกโพสต์ได้ส่ง GitHub issue เกี่ยวกับงานวิจัยนี้แล้ว
  • วิทยาศาสตร์ที่ดีต้องอาศัยวิศวกรรมซอฟต์แวร์ที่ดี และความผิดพลาดในการทดลองก็เกิดขึ้นได้บ่อย
  • บล็อกโพสต์เกี่ยวกับประเด็นนี้ได้รับการต้อนรับด้วยความขอบคุณ เพราะช่วยทำให้ปัญหานี้กระจ่างขึ้น
  • การเลือกใช้ kNN เป็นตัวจำแนกประเภทในงานวิจัยทำให้เกิดคำถาม และมีการเสนออัลกอริทึมทางเลือก
  • ผลลัพธ์ของงานวิจัยได้ก่อให้เกิดคำถามว่าอัลกอริทึมการบีบอัดจะเอาชนะ LLM ได้อย่างไร
  • ผู้ที่กล่าวอ้างอย่างใหญ่โตเกี่ยวกับงานวิจัยนี้อาจต้องทบทวนคำกล่าวอ้างของตนใหม่
  • บล็อกโพสต์นี้กระตุ้นให้เกิดการถกเถียงและการวิเคราะห์เพิ่มเติมบน Twitter
  • มีการตั้งข้อสังเกตถึงความเป็นไปได้ที่ผลลัพธ์ของงานวิจัยอาจได้รับผลจากกรณีคะแนนเสมอที่เกิดขึ้นแบบสุ่ม