1 ความคิดเห็น

 
GN⁺ 2023-07-15
ความคิดเห็นจาก Hacker News
- ผู้เขียนใช้ฟังก์ชันระยะทางที่เรียกว่า "Normalized Compression Distance" (NCD) เพื่อนำ kNN ไปใช้กับเอกสารที่ถูกบีบอัด
- วิธีนี้ให้ประสิทธิภาพดีกว่า BERT ในงานจัดประเภทแบบ zero-shot
- Gzip มีพลังมากเมื่อมีคำที่ซ้ำกันจำนวนมาก แต่ DNN เหนือกว่าในด้านความคล้ายคลึงเชิงความหมาย
- ผลลัพธ์น่าสนใจ แต่ไม่ได้หวือหวาเท่าที่ฟังดู
- สำหรับข้อมูลที่อยู่นอกขอบเขตการกระจาย BERT ยังคงทำผลงานได้ดีกว่า
- ทั้งอัลกอริทึมการบีบอัดและโมเดล ML ต่างก็เป็นรูปแบบหนึ่งของการบีบอัด และอาจมีคุณสมบัติพื้นฐานบางอย่างที่อธิบายประสิทธิภาพของภาษาและข้อมูลของมนุษย์ได้
- ลิงก์ควรชี้ไปที่งานวิจัยใน URL ที่ให้มา
- การเชื่อมชิ้นข้อความที่คล้ายกันจะบีบอัดได้ดีกว่าชิ้นอื่น
- Gzip อาจเหมาะกับการบีบอัดมากกว่า เพราะมันแทนข้อมูลเข้าในลักษณะที่สามารถรับรู้และติดป้ายกำกับได้
- Gzip อาจมีปัญหากับคำอย่าง "not" ที่ทำให้ความหมายของประโยคกลับด้าน```