2 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • πfs เป็นระบบไฟล์ที่ทำแนวคิดการเก็บข้อมูลไว้ใน π แทนการเก็บลงฮาร์ดไดรฟ์ เพื่อไม่ให้ใช้พื้นที่จริง โดยมีแกนสำคัญคือสมมติฐานว่า π บรรจุไฟล์ที่เป็นไปได้ทั้งหมดซึ่งอาจมีอยู่ได้
  • คำอธิบายนี้อิงกับการคาดเดาว่า หาก π เป็น จำนวนปกติ (normal) จริงแล้ว ไฟล์จำกัดทุกไฟล์จะมีอยู่ในรูปแบบเลขฐาน 16 ของมัน
  • หากรู้ ดัชนี ของไฟล์ภายใน π และความยาวของไฟล์ ก็สามารถดึงไฟล์ออกมาได้ด้วย Bailey–Borwein–Plouffe formula และการติดตั้งใช้งานนี้จะค้นหาแต่ละไบต์ของไฟล์จาก π แยกกันเพื่อประสิทธิภาพ
  • ตอนรันใช้รูปแบบ πfs -o mdd=<metadata directory> <mountpoint> โดย metadata directory จะเก็บเมทาดาทา เช่น ชื่อไฟล์และตำแหน่งของไฟล์ภายใน π
  • การบิลด์ต้องใช้แพ็กเกจ autoconf, automake, libfuse และบิลด์ตามลำดับ ./autogen.sh, ./configure, make, make install
  • การติดตั้งใช้งานปัจจุบันยังเป็น ต้นแบบระยะแรก และมีตัวอย่างว่าการเก็บไฟล์ข้อความ 400 บรรทัดใช้เวลา 5 นาที
  • ความเป็นไปได้ในอนาคตที่ถูกระบุไว้ ได้แก่ การค้นหาและดึงข้อมูลแบบ variable run length, Arithmetic Coding, การดึงข้อมูลแบบขนาน, การดึงข้อมูล π บนคลาวด์, และ πfs สำหรับ Hadoop

1 ความคิดเห็น

 
GN⁺ 4 시간 전
ความคิดเห็นจาก Hacker News
  • ทำให้นึกถึงตอนที่เคยพยายามใช้ ห้องสมุดแห่งบาเบล เป็นเครื่องมือบีบอัดข้อมูล
    มันพาผมหลุดเข้าไปใน rabbit hole ที่น่าสนใจ และเป็นครั้งแรกที่ได้รู้จักทฤษฎีสารสนเทศ
    ข้อสรุปคือ แค่การอธิบายที่อยู่ตำแหน่งของข้อมูลก็ต้องใช้ข้อมูลเกือบพอ ๆ กับตัวข้อมูลเองอยู่แล้ว เลยแทบไม่ช่วยเรื่องการบีบอัด และใกล้เคียงกับการทดลองทางความคิดที่สนุกมากกว่า
    สิ่งที่น่าสนใจในยุคนี้คือ LLM เป็นรูปแบบหนึ่งของ การบีบอัดแบบสูญเสียข้อมูล ที่ทำเป้าหมายหลักของเครื่องมือพวกนี้ที่เคยล้มเหลวให้เกิดขึ้นจริง แน่นอนว่ามีการสูญเสีย และต้องอาศัยฐานขนาดมหาศาล

    • วิดีโอนี้น่าจะน่าสนใจ: Reinventing Entropy Compression is Intelligence Part 1, 3Blue1Brown
      https://youtu.be/l6DKRf-fAAM?is=ne73FCJ7ErXhzZ-v
    • 3Blue1Brown เพิ่งลงวิดีโอเกี่ยวกับ ความเชื่อมโยงระหว่างปัญญากับการบีบอัด
      https://youtu.be/l6DKRf-fAAM
    • ในความหมายหนึ่ง วิทยาศาสตร์ คือรูปแบบการบีบอัดที่สุดโต่งที่สุด นิวตันกลศาสตร์อธิบายปรากฏการณ์จำนวนมหาศาลได้ด้วยข้อความไม่กี่บรรทัด
    • พอมองในระดับของการบีบอัดแล้วก็น่าประทับใจมาก ผมยังคิดว่าคอมเมนต์ที่เคยเขียนไว้ก่อนหน้านี้ยังถูกต้องอยู่ เพียงแต่ตรงนั้นควรเป็นบิตไม่ใช่ไบต์: https://news.ycombinator.com/item?id=39559969
      การคำนวณคร่าว ๆ สำหรับการเก็บ 4-gram ที่ใช้ได้ หรือก็คือลำดับคำ 4 คำ คือ 1 หมื่นล้านรายการ × 14 บิตต่อคำ = ประมาณ 17GB สำหรับทั้งหมด 1 หมื่นล้านรายการ แต่ถึงอย่างนั้น LLM ที่เล็กกว่านี้ 100 เท่า ก็ยังเขียนร้อยแก้วที่สอดคล้องกันได้
  • ทำให้นึกถึง nsafs หรือ National Security Agency Filesystem แนวคิดคือมัน “ฟรี” เพราะรัฐบาลเป็นคนจ่าย: https://github.com/freedomtools/nsafs

    • นี่คือ หน่วยความจำแบบเขียนอย่างเดียว ที่มีขั้นตอนเพิ่มขึ้นมาอีกหน่อย
      https://en.wikipedia.org/wiki/Write-only_memory_(joke)
    • ครั้งหนึ่งตอนสัมภาษณ์งานที่บริษัทแห่งหนึ่ง ผู้สัมภาษณ์เล่าว่าในฐานะนักลงทุนร่วมลงทุน เขาเคยลงทุนในโครงการที่สร้าง สตรีมเลขสุ่ม ขนาดมหาศาล
      แนวคิดคือเลือกดัชนีแบบสุ่ม แล้วแชร์ private key นั้นกับอีกฝ่าย จากนั้นก็สามารถใช้ข้อความเป็น one-time pad ได้ โดยให้เหตุผลว่า ถ้า NSA จะถอดรหัสก็ต้องบัฟเฟอร์และเก็บทั้งสตรีมทั้งหมดที่ถูกสร้างออกมาระดับ GB/s ซึ่งดูไม่ค่อยใช้งานได้จริงนัก
  • น่าจะควรชี้ให้เห็นว่า ยิ่งความยาวข้อมูลมากขึ้น โอกาสที่ ดัชนีและความยาว ของลำดับนั้นใน π จะเล็กกว่าข้อมูลต้นฉบับก็ยิ่งต่ำมากจนแทบเป็นไปไม่ได้

    • ดูเหมือนจะแก้ได้ง่ายมาก ก็แค่บันทึกดัชนีและความยาวใน π อีกทีด้วยดัชนีและความยาวใน π
    • ตอนเรียนมหาวิทยาลัยผมเคยคิดว่าน่าจะบีบอัดได้ถ้าบอกเบอร์โทรศัพท์เป็นดัชนีใน π แต่เบอร์โทรศัพท์ 7 หลักกลับอยู่ที่ ดัชนี 8 หลัก
      ส่วนทรัพยากรคำนวณสำหรับหาเลข 10 หลักที่รวมรหัสพื้นที่เข้าไปด้วยนั้นไม่มี
    • ดัชนีของไฟล์ยาว 20 บรรทัดกลายเป็น <ตัวเลขขนาด 20TB>
    • ต้นฉบับพูดถึงประเด็นนี้ไว้

      Now, we all know that it can take a while to find a long sequence of digits in π, so for practical reasons, we should break the files up into smaller chunks that can be more readily found.
      In this implementation, to maximise performance, we consider each individual byte of the file separately, and look it up in π.

  • นี่คือโพสต์ที่เกี่ยวข้อง มีอีกไหม?
    πfs – A data-free filesystem - https://news.ycombinator.com/item?id=36357466 - มิถุนายน 2023, ความคิดเห็น 107 รายการ
    πfs – A data-free filesystem - https://news.ycombinator.com/item?id=28699499 - กันยายน 2021, ความคิดเห็น 30 รายการ
    PiFS – The Data-Free Filesystem - https://news.ycombinator.com/item?id=26208704 - กุมภาพันธ์ 2021, ความคิดเห็น 1 รายการ
    Πfs: Never worry about data again - https://news.ycombinator.com/item?id=21359338 - ตุลาคม 2019, ความคิดเห็น 1 รายการ
    The π Filesystem for FUSE: Store Your Data in π - https://news.ycombinator.com/item?id=19223032 - กุมภาพันธ์ 2019, ความคิดเห็น 1 รายการ
    pifs - Avoid disk space usage by saving your files in the digits of Pi - https://news.ycombinator.com/item?id=18687275 - ธันวาคม 2018, ความคิดเห็น 1 รายการ
    πfs – A data-free filesystem - https://news.ycombinator.com/item?id=13869691 - มีนาคม 2017, ความคิดเห็น 105 รายการ
    Πfs: Stores your data in π - https://news.ycombinator.com/item?id=10856108 - มกราคม 2016, ความคิดเห็น 1 รายการ
    Πfs: Never worry about data again - https://news.ycombinator.com/item?id=10847693 - มกราคม 2016, ความคิดเห็น 1 รายการ
    File system that stores location of file in Pi - https://news.ycombinator.com/item?id=8018818 - กรกฎาคม 2014, ความคิดเห็น 98 รายการ
    100% Compression Using Pi - https://news.ycombinator.com/item?id=6698852 - พฤศจิกายน 2013, ความคิดเห็น 32 รายการ
    โพสต์ซ้ำถ้าผ่านไปสักประมาณ 1 ปีก็ถือว่าโอเค และลิงก์ไปเธรดเก่า ๆ มีไว้สำหรับผู้อ่านที่อยากรู้ต่อ

    • สงสัยว่ารายการแบบนี้สร้างกันอย่างไร
  • นึกถึงอันนี้ด้วย: https://www.spronck.net/sloot.html
    อ่านเพิ่มเติม: https://en.wikipedia.org/wiki/Sloot_Digital_Coding_System

    • เคยลองหาข้อมูลนิดหน่อยเมื่อก่อน อย่างน้อยสิ่งที่ Sloot ทำก็ใหม่อยู่บ้าง
      วิธีการเข้ารหัสจริง ๆ คือเก็บแต่ละเส้นของวิดีโอไว้ในฐานข้อมูล จากนั้นเข้ารหัสแต่ละเฟรมเป็นลำดับของการเรียกดูเส้น แล้วเก็บเฟรมที่เข้ารหัสนั้นไว้ในฐานข้อมูลอีกชุดหนึ่ง วิดีโอแต่ละเรื่องจึงกลายเป็นลำดับของการเรียกดูเฟรม
      นี่จึงเป็นเหตุผลว่าทำไมถึงสาธิตการเล่นวิดีโอ 16 เรื่องพร้อมกันได้อย่างลื่นไหลบนฮาร์ดแวร์ปลายยุค 90 เพราะแต่ละเฟรมเป็นลำดับของการเรียกดูเส้น ดังนั้นต่อให้แบ่งจอออกเป็นแนวนอน 16 ส่วนเพื่อเล่น 16 วิดีโอพร้อมกัน ก็ไม่ได้หนักไปกว่าการเล่นวิดีโอเดียวเต็มจอ
      ในทำนองเดียวกัน แต่ละเฟรมถูกถอดรหัสแยกกัน จึงทำให้กรอไปข้างหน้าและย้อนกลับได้ลื่นไหลด้วย ไม่ต้องคำนวณความต่างจาก keyframe เหมือนการบีบอัดวิดีโอแบบดั้งเดิม ดังนั้นการเล่นที่ความเร็ว 2x ก็ไม่ได้หนักไปกว่าความเร็ว 1x
      แน่นอนว่าคงเก็บไฟล์วิดีโอให้เหลือขนาดอย่าง 8KB ไม่ได้ แต่ถ้าฐานข้อมูลมีซีซันหนึ่งของซีรีส์ทีวีอยู่แล้ว อย่างน้อยก็เก็บโอเพนิงและเอนด์เครดิตแค่ครั้งเดียวได้
    • The SDCS is only possible if keys are allowed to become infinite, or the data store is allowed to become infinite (...) This would, of course, make the idea useless.
      แต่ π นั้นไม่มีที่สิ้นสุด ดังนั้นตราบใดที่กฎของมัวร์ยังเข้าข้างเรา อุปกรณ์อัจฉริยะชิ้นนี้ก็จะใช้การได้

  • One of the properties that π is conjectured to have is that it is normal
    ประเด็นสำคัญตรงนี้คือคำว่า conjectured
    ดีใจที่ได้เห็นประเด็นความเข้มงวดเล็ก ๆ ที่ผมชอบย้ำอยู่บ่อย ๆ ปรากฏขึ้นมา ยังไม่มีการพิสูจน์เลยว่าสำหรับอตรรกยะที่ไม่ได้ถูกสร้างขึ้นมาโดยตรงนั้น จะเป็นจำนวนปกติหรือจะมีสตริงจำกัดทุกแบบรวมอยู่

    • สงสัยว่า “ไม่ได้ถูกสร้างขึ้นมาโดยตรง” ในที่นี้หมายถึงอะไร
  • In this implementation, to maximise performance, we consider each individual byte of the file separately, and look it up in π.
    ถ้ามองแต่ละบิตแยกกันน่าจะได้ประสิทธิภาพดีกว่า ต้องใช้อินเด็กซ์แค่ 2 กับ 33 และน่าจะแมปสิ่งนี้เข้ากับบิตของพื้นที่เก็บข้อมูลได้อย่างมีประสิทธิภาพ

  • การตระหนักว่า π มีความรู้ทั้งหมดทั้งอดีตและอนาคตอยู่ในนั้น แม้กระทั่งวันตายของฉันเอง ก็ชวนอึดอัด

    • เช่นเดียวกับ ลำดับบิตอนันต์แบบสุ่มทั้งหมด ทุกลำดับ ส่วนที่ขัดกับสัญชาตญาณไม่ได้มาจาก π แต่มาจากความเป็นอนันต์
      และก็ไม่อาจพูดได้ด้วยว่ามันบรรจุความรู้ทั้งหมดของอดีตและอนาคต เพราะมันยังมีความเท็จที่เป็นไปได้ทั้งหมดเกี่ยวกับอดีตและอนาคตปะปนอยู่ด้วย ในแบบที่แยกจากความจริงไม่ได้
      การเข้ารหัสข้อมูลเป็นออฟเซ็ตในลำดับ pseudorandom มีประสิทธิภาพด้านการจัดเก็บแย่กว่าการเก็บข้อมูลโดยตรง
    • ที่แย่ที่สุดคือมันยังมี Star Wars ภาค 4~6 จากเส้นเวลาอื่นที่ Chris Pratt ได้รับเลือกให้เป็น Han Solo อยู่ด้วย
      เกร็ดน่าสนใจ: “Chrispratt” ในภาษาแคลิฟอร์เนียโบราณแปลว่า “Joel McHale ไม่ได้อยากได้บทนั้น”
    • น่าจะอ่าน The Library of Babel ของ Jorge Borges ได้อย่างเพลิดเพลิน
      https://dn760100.eu.archive.org/0/items/TheLibraryOfBabel/ba...
    • ใครก็ตามที่เริ่มอ่านนำหน้า π จะได้ตัวเลขที่สดใหม่ที่สุดเสมอ มันคือการเข้ารหัสที่สมบูรณ์แบบ
    • มันยังมี ข่าวปลอม ทั้งหมดของอดีตและอนาคตอยู่ด้วย และไม่มีทางรู้ได้ว่าฝั่งไหนคือของจริง
  • จำได้ราง ๆ ว่าเมื่อก่อนมีผลงานชิ้นหนึ่งในการแข่ง benchmark การบีบอัด ที่ถือว่า ชื่อไฟล์เป็นส่วนหนึ่งของอินพุตของอัลกอริทึมคลายการบีบอัด เลยผ่าน benchmark แบบหัวหมอได้
    benchmark วัดแค่ขนาดไฟล์ ดังนั้นจึงเอาชนะตัวชี้วัดนั้นได้

  • นี่ไม่ได้อาศัยคุณสมบัติของ π ที่ยังพิสูจน์ไม่ได้อยู่หรือ? มันต้องการทั้ง การครอบคลุมสตริงจำกัดทั้งหมด และความเป็นปรกติ ซึ่งทั้งสองอย่างยังไม่ถูกพิสูจน์