การบีบอัดแบบไม่สูญเสียของข้อความภาษาอังกฤษสั้น ๆ

(textsynth.org)

3 คะแนน โดย lifthrasiir 2019-07-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ช่วงนี้ได้ยินชื่อ Fabrice Bellard บ่อยอยู่เหมือนกัน แต่โปรเจ็กต์ก่อนหน้านี้ของเขาคืออัลกอริทึมการบีบอัดแบบไม่สูญเสียที่ใช้โครงข่ายประสาทเทียม (ดู https://bellard.org/nncp/) พอดีกับที่ช่วงนี้มีการเปิดเผย GPT-2 (https://openai.com/blog/better-language-models/) ออกมา เลยเกิดไอเดียว่า ถ้าแทนที่โครงข่ายประสาทเทียมด้วยตัวนั้นแล้วนำไปใช้กับอัลกอริทึมการบีบอัดจะเป็นอย่างไร? หน้านี้จึงเกิดขึ้นจากแนวคิดดังกล่าว มันใช้เพียงราว 15% สำหรับข้อความภาษาอังกฤษสั้น ๆ หรือคิดเป็นแค่ 1.2 บิตต่ออักขระ ซึ่งถือว่าเข้าใกล้ระดับเอนโทรปีของข้อมูลที่ประเมินไว้สำหรับตัวอักษรภาษาอังกฤษหนึ่งตัว (0.6~1.3 บิต) อย่างมาก อย่างที่เห็นจาก URL ดูเหมือนว่าตั้งใจให้ส่งผ่าน SMS

อัลกอริทึมการบีบอัดที่ใช้โครงข่ายประสาทเทียมไม่ใช่เรื่องใหม่ อัลกอริทึมการบีบอัดระดับแนวหน้าทั้งหมดที่มี PAQ เป็นตัวอย่าง ล้วนใช้วิธีเชิงสถิติ และการใช้โครงข่ายประสาทเทียมก็ไม่ใช่เรื่องหายาก แม้แต่ context mixing (https://en.wikipedia.org/wiki/Context_mixing) ซึ่งเป็นรากฐานสำคัญของพวกมัน ก็เป็นการประยุกต์ใช้โครงข่ายประสาทเทียม และ LSTM ที่ Bellard ใช้ก็มีตัวอย่างมาก่อนแล้ว (https://github.com/byronknoll/lstm-compress) ผลงานที่ Bellard มีส่วนเพิ่มเข้ามานั้นใกล้เคียงกับการปรับแต่งประสิทธิภาพมากกว่า

1 ความคิดเห็น

iolothebard 2019-07-16

ใช้ Unicode cjk กับช่วงอักษรเกาหลีเลยเหรอ...

พอนึกถึงฝันร้ายยุค 2 ไบต์แบบผสม/แบบสำเร็จรูป ที่อักขระ extended ascii ดูเหมือนตัวเกาหลี/ฮันจา ก็รู้สึกขึ้นมาทันที.. (ยืนยันว่าแก่จริง)

การบีบอัดแบบไม่สูญเสียของข้อความภาษาอังกฤษสั้น ๆ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น