πFS - ระบบไฟล์ที่เก็บข้อมูลไว้ใน π แทนฮาร์ดไดรฟ์
(github.com/philipl)- πfs เป็นระบบไฟล์ที่ทำแนวคิดการเก็บข้อมูลไว้ใน π แทนการเก็บลงฮาร์ดไดรฟ์ เพื่อไม่ให้ใช้พื้นที่จริง โดยมีแกนสำคัญคือสมมติฐานว่า π บรรจุไฟล์ที่เป็นไปได้ทั้งหมดซึ่งอาจมีอยู่ได้
- คำอธิบายนี้อิงกับการคาดเดาว่า หาก π เป็น จำนวนปกติ (normal) จริงแล้ว ไฟล์จำกัดทุกไฟล์จะมีอยู่ในรูปแบบเลขฐาน 16 ของมัน
- หากรู้ ดัชนี ของไฟล์ภายใน π และความยาวของไฟล์ ก็สามารถดึงไฟล์ออกมาได้ด้วย Bailey–Borwein–Plouffe formula และการติดตั้งใช้งานนี้จะค้นหาแต่ละไบต์ของไฟล์จาก π แยกกันเพื่อประสิทธิภาพ
- ตอนรันใช้รูปแบบ
πfs -o mdd=<metadata directory> <mountpoint>โดย metadata directory จะเก็บเมทาดาทา เช่น ชื่อไฟล์และตำแหน่งของไฟล์ภายใน π - การบิลด์ต้องใช้แพ็กเกจ
autoconf,automake,libfuseและบิลด์ตามลำดับ./autogen.sh,./configure,make,make install - การติดตั้งใช้งานปัจจุบันยังเป็น ต้นแบบระยะแรก และมีตัวอย่างว่าการเก็บไฟล์ข้อความ 400 บรรทัดใช้เวลา 5 นาที
- ความเป็นไปได้ในอนาคตที่ถูกระบุไว้ ได้แก่ การค้นหาและดึงข้อมูลแบบ variable run length, Arithmetic Coding, การดึงข้อมูลแบบขนาน, การดึงข้อมูล π บนคลาวด์, และ πfs สำหรับ Hadoop
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ทำให้นึกถึงตอนที่เคยพยายามใช้ ห้องสมุดแห่งบาเบล เป็นเครื่องมือบีบอัดข้อมูล
มันพาผมหลุดเข้าไปใน rabbit hole ที่น่าสนใจ และเป็นครั้งแรกที่ได้รู้จักทฤษฎีสารสนเทศ
ข้อสรุปคือ แค่การอธิบายที่อยู่ตำแหน่งของข้อมูลก็ต้องใช้ข้อมูลเกือบพอ ๆ กับตัวข้อมูลเองอยู่แล้ว เลยแทบไม่ช่วยเรื่องการบีบอัด และใกล้เคียงกับการทดลองทางความคิดที่สนุกมากกว่า
สิ่งที่น่าสนใจในยุคนี้คือ LLM เป็นรูปแบบหนึ่งของ การบีบอัดแบบสูญเสียข้อมูล ที่ทำเป้าหมายหลักของเครื่องมือพวกนี้ที่เคยล้มเหลวให้เกิดขึ้นจริง แน่นอนว่ามีการสูญเสีย และต้องอาศัยฐานขนาดมหาศาล
https://youtu.be/l6DKRf-fAAM?is=ne73FCJ7ErXhzZ-v
https://youtu.be/l6DKRf-fAAM
การคำนวณคร่าว ๆ สำหรับการเก็บ 4-gram ที่ใช้ได้ หรือก็คือลำดับคำ 4 คำ คือ 1 หมื่นล้านรายการ × 14 บิตต่อคำ = ประมาณ 17GB สำหรับทั้งหมด 1 หมื่นล้านรายการ แต่ถึงอย่างนั้น LLM ที่เล็กกว่านี้ 100 เท่า ก็ยังเขียนร้อยแก้วที่สอดคล้องกันได้
ทำให้นึกถึง nsafs หรือ National Security Agency Filesystem แนวคิดคือมัน “ฟรี” เพราะรัฐบาลเป็นคนจ่าย: https://github.com/freedomtools/nsafs
https://en.wikipedia.org/wiki/Write-only_memory_(joke)
แนวคิดคือเลือกดัชนีแบบสุ่ม แล้วแชร์ private key นั้นกับอีกฝ่าย จากนั้นก็สามารถใช้ข้อความเป็น one-time pad ได้ โดยให้เหตุผลว่า ถ้า NSA จะถอดรหัสก็ต้องบัฟเฟอร์และเก็บทั้งสตรีมทั้งหมดที่ถูกสร้างออกมาระดับ GB/s ซึ่งดูไม่ค่อยใช้งานได้จริงนัก
น่าจะควรชี้ให้เห็นว่า ยิ่งความยาวข้อมูลมากขึ้น โอกาสที่ ดัชนีและความยาว ของลำดับนั้นใน π จะเล็กกว่าข้อมูลต้นฉบับก็ยิ่งต่ำมากจนแทบเป็นไปไม่ได้
ส่วนทรัพยากรคำนวณสำหรับหาเลข 10 หลักที่รวมรหัสพื้นที่เข้าไปด้วยนั้นไม่มี
<ตัวเลขขนาด 20TB>นี่คือโพสต์ที่เกี่ยวข้อง มีอีกไหม?
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=36357466 - มิถุนายน 2023, ความคิดเห็น 107 รายการ
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=28699499 - กันยายน 2021, ความคิดเห็น 30 รายการ
PiFS – The Data-Free Filesystem - https://news.ycombinator.com/item?id=26208704 - กุมภาพันธ์ 2021, ความคิดเห็น 1 รายการ
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=21359338 - ตุลาคม 2019, ความคิดเห็น 1 รายการ
The π Filesystem for FUSE: Store Your Data in π - https://news.ycombinator.com/item?id=19223032 - กุมภาพันธ์ 2019, ความคิดเห็น 1 รายการ
pifs - Avoid disk space usage by saving your files in the digits of Pi - https://news.ycombinator.com/item?id=18687275 - ธันวาคม 2018, ความคิดเห็น 1 รายการ
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=13869691 - มีนาคม 2017, ความคิดเห็น 105 รายการ
Πfs: Stores your data in π - https://news.ycombinator.com/item?id=10856108 - มกราคม 2016, ความคิดเห็น 1 รายการ
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=10847693 - มกราคม 2016, ความคิดเห็น 1 รายการ
File system that stores location of file in Pi - https://news.ycombinator.com/item?id=8018818 - กรกฎาคม 2014, ความคิดเห็น 98 รายการ
100% Compression Using Pi - https://news.ycombinator.com/item?id=6698852 - พฤศจิกายน 2013, ความคิดเห็น 32 รายการ
โพสต์ซ้ำถ้าผ่านไปสักประมาณ 1 ปีก็ถือว่าโอเค และลิงก์ไปเธรดเก่า ๆ มีไว้สำหรับผู้อ่านที่อยากรู้ต่อ
นึกถึงอันนี้ด้วย: https://www.spronck.net/sloot.html
อ่านเพิ่มเติม: https://en.wikipedia.org/wiki/Sloot_Digital_Coding_System
วิธีการเข้ารหัสจริง ๆ คือเก็บแต่ละเส้นของวิดีโอไว้ในฐานข้อมูล จากนั้นเข้ารหัสแต่ละเฟรมเป็นลำดับของการเรียกดูเส้น แล้วเก็บเฟรมที่เข้ารหัสนั้นไว้ในฐานข้อมูลอีกชุดหนึ่ง วิดีโอแต่ละเรื่องจึงกลายเป็นลำดับของการเรียกดูเฟรม
นี่จึงเป็นเหตุผลว่าทำไมถึงสาธิตการเล่นวิดีโอ 16 เรื่องพร้อมกันได้อย่างลื่นไหลบนฮาร์ดแวร์ปลายยุค 90 เพราะแต่ละเฟรมเป็นลำดับของการเรียกดูเส้น ดังนั้นต่อให้แบ่งจอออกเป็นแนวนอน 16 ส่วนเพื่อเล่น 16 วิดีโอพร้อมกัน ก็ไม่ได้หนักไปกว่าการเล่นวิดีโอเดียวเต็มจอ
ในทำนองเดียวกัน แต่ละเฟรมถูกถอดรหัสแยกกัน จึงทำให้กรอไปข้างหน้าและย้อนกลับได้ลื่นไหลด้วย ไม่ต้องคำนวณความต่างจาก keyframe เหมือนการบีบอัดวิดีโอแบบดั้งเดิม ดังนั้นการเล่นที่ความเร็ว 2x ก็ไม่ได้หนักไปกว่าความเร็ว 1x
แน่นอนว่าคงเก็บไฟล์วิดีโอให้เหลือขนาดอย่าง 8KB ไม่ได้ แต่ถ้าฐานข้อมูลมีซีซันหนึ่งของซีรีส์ทีวีอยู่แล้ว อย่างน้อยก็เก็บโอเพนิงและเอนด์เครดิตแค่ครั้งเดียวได้
การตระหนักว่า π มีความรู้ทั้งหมดทั้งอดีตและอนาคตอยู่ในนั้น แม้กระทั่งวันตายของฉันเอง ก็ชวนอึดอัด
และก็ไม่อาจพูดได้ด้วยว่ามันบรรจุความรู้ทั้งหมดของอดีตและอนาคต เพราะมันยังมีความเท็จที่เป็นไปได้ทั้งหมดเกี่ยวกับอดีตและอนาคตปะปนอยู่ด้วย ในแบบที่แยกจากความจริงไม่ได้
การเข้ารหัสข้อมูลเป็นออฟเซ็ตในลำดับ pseudorandom มีประสิทธิภาพด้านการจัดเก็บแย่กว่าการเก็บข้อมูลโดยตรง
เกร็ดน่าสนใจ: “Chrispratt” ในภาษาแคลิฟอร์เนียโบราณแปลว่า “Joel McHale ไม่ได้อยากได้บทนั้น”
https://dn760100.eu.archive.org/0/items/TheLibraryOfBabel/ba...
จำได้ราง ๆ ว่าเมื่อก่อนมีผลงานชิ้นหนึ่งในการแข่ง benchmark การบีบอัด ที่ถือว่า ชื่อไฟล์เป็นส่วนหนึ่งของอินพุตของอัลกอริทึมคลายการบีบอัด เลยผ่าน benchmark แบบหัวหมอได้
benchmark วัดแค่ขนาดไฟล์ ดังนั้นจึงเอาชนะตัวชี้วัดนั้นได้
นี่ไม่ได้อาศัยคุณสมบัติของ π ที่ยังพิสูจน์ไม่ได้อยู่หรือ? มันต้องการทั้ง การครอบคลุมสตริงจำกัดทั้งหมด และความเป็นปรกติ ซึ่งทั้งสองอย่างยังไม่ถูกพิสูจน์