1 คะแนน โดย GN⁺ 2026-02-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มีการดำเนินการ วิเคราะห์ทางนิติดิจิทัล กับเอกสาร PDF ที่กระทรวงยุติธรรมสหรัฐฯ เปิดเผยภายใต้ Epstein Files Transparency Act โดยมุ่งเน้นที่โครงสร้างไฟล์และไวยากรณ์ของไฟล์
  • ผลการวิเคราะห์พบว่า PDF ที่เผยแพร่ใน ชุดข้อมูล EFTA 01–07 ถูกทำการปกปิดข้อมูล (redaction) อย่างถูกต้อง และข้อกล่าวอ้างบนโซเชียลมีเดียที่ว่า “สามารถกู้คืนส่วนที่ปกปิดได้” ไม่เป็นความจริง
  • PDF ทั้งหมด ไม่มีการเข้ารหัส คำอธิบายประกอบ JavaScript หรือไฟล์แนบ และส่วนใหญ่เป็นเอกสารที่อิงจากภาพสแกนพร้อม OCR ขณะที่บางไฟล์มี เมทาดาทาที่ซ่อนอยู่ (dictionary)
  • พบรายละเอียดทางเทคนิค เช่น การใส่หมายเลข Bates, object stream แบบไม่บีบอัด, การระบุเวอร์ชันผิด, และการใส่คำอธิบายประกอบไม่ครบถ้วน แต่ไม่ได้ส่งผลกระทบอย่างมีนัยสำคัญต่อความถูกต้องของไฟล์
  • กรณีนี้แสดงให้เห็นถึง ความซับซ้อนของ PDF forensics และข้อจำกัดด้านความน่าเชื่อถือของเครื่องมือ พร้อมตอกย้ำ ความสำคัญของเวิร์กโฟลว์การชำระข้อมูลและการปกปิดข้อมูลที่ถูกต้อง ก่อนเผยแพร่เอกสารอ่อนไหว

ภาพรวมของข้อมูลที่ DoJ เปิดเผย

  • กระทรวงยุติธรรมเปิดเผย ZIP archive จำนวน 7 ชุดเมื่อวันที่ 19 ธันวาคม 2025 (รวม 2.97GB) ภายในประกอบด้วย PDF 4,085 ไฟล์, ไฟล์ AVI 1 ไฟล์ และไฟล์ข้อมูล .DAT กับ .OPT สำหรับแต่ละชุด
    • ชื่อไฟล์ PDF เรียงลำดับตั้งแต่ EFTA00000001.pdf ถึง EFTA00009664.pdf
    • ยืนยันว่ามี PDF อีกราว 5,879 ไฟล์ที่ยังไม่ถูกเปิดเผย
  • PDF ส่วนใหญ่เป็น เอกสารที่อิงจากภาพสแกน โดยมีข้อความที่ค้นหาได้บางส่วนผ่าน OCR
    • มีการปกปิดข้อมูลแบบ “กล่องดำ” และยืนยันว่าเป็นการปกปิดที่ทำอย่างถูกต้องในระดับพิกเซล
    • ไม่พบเอกสารแบบ born-digital

การวิเคราะห์ความถูกต้องของไฟล์และเวอร์ชัน

  • ผลการตรวจสอบความถูกต้องโดยใช้ เครื่องมือ PDF forensics หลายตัว พบข้อผิดพลาดเล็กน้อยเพียงรายการเดียว
    • ใน 109 ไฟล์ มีการตั้งค่า ค่า Descent ของ FontDescriptor เป็นค่าบวก แต่เป็นเพียงความคลาดเคลื่อนเล็กน้อยในการจับคู่ฟอนต์ และไม่กระทบต่อความถูกต้องโดยรวม
  • เมื่อนำเครื่องมือ pdfinfo สองชนิดมาเปรียบเทียบ พบว่า ค่าการอ่านเวอร์ชัน PDF แตกต่างกัน
    • Tool A รายงานว่าเป็นเวอร์ชัน 1.3 จำนวน 209 ไฟล์ และเวอร์ชัน 1.5 จำนวน 3,875 ไฟล์
    • Tool B รายงานว่าเป็นเวอร์ชัน 1.3 จำนวน 3,817 ไฟล์ และเวอร์ชัน 1.5 จำนวน 267 ไฟล์
    • ความต่างนี้เกิดจากวิธีจัดการรายการ Version ใน incremental update ที่ต่างกัน โดยผลของ Tool A ถูกต้องกว่า
  • PDF ทั้งหมด ไม่มีการเข้ารหัส แท็ก คำอธิบายประกอบ บุ๊กมาร์ก ฟอร์ม JavaScript หรือไฟล์แนบ
    • จำนวนหน้ารวมทั้งหมดคือ 9,659 หน้า และส่วนใหญ่เป็นเอกสารหน้าเดียว

Incremental update และหมายเลข Bates

  • PDF มีการสะสมประวัติการแก้ไขผ่าน incremental update หลายครั้ง
    • PDF ไฟล์แรก (EFTA00000001.pdf) มี incremental update 2 ครั้ง
    • ในการอัปเดตครั้งสุดท้าย มีการเพิ่ม หมายเลข Bates ให้แต่ละหน้า
  • การเพิ่มหมายเลข Bates ใช้ cross-reference stream แบบ /Type /XRef และพบรูปแบบเดียวกันนี้ใน PDF ตัวอย่างทั้งหมด
  • ใน incremental update ครั้งแรก เวอร์ชัน PDF ถูกเปลี่ยนจาก 1.3 เป็น 1.5 แต่มีข้อผิดพลาดทางเทคนิคจากความไม่สอดคล้องกับ header
    • นอกจากนี้ยังมี Info dictionary ของเอกสารที่ซ่อนอยู่ แต่ไม่ได้ถูกอ้างอิงใน trailer สุดท้าย จึงไม่ปรากฏใน PDF viewer ทั่วไป
    • dictionary ดังกล่าวมีข้อมูล /Creator (OmniPage CSDK 21.1) และ /Producer (Processing-CLI)

เมทาดาทาและการวิเคราะห์วันที่

  • จากผลของ pdfinfo พบว่า PDF ส่วนใหญ่ ไม่มีเมทาดาทาแบบระบุชัดหรือ XMP stream
    • อย่างไรก็ตาม ในบางไฟล์พบ orphaned Info dictionary และมีรายการ /Info ปรากฏหลายครั้ง
  • มีเพียงไฟล์ EFTA00003212.pdf เท่านั้นที่มีรายการ Title, Author, Subject, Keywords, Creator
    • พบ 215 ไฟล์ที่มีค่า /Producer เป็น “pypdf”
  • วันที่สร้าง (CreationDate) และวันที่แก้ไข (ModDate) ตรงกันทั้งหมด และอยู่ในช่วง 18–19 ธันวาคม 2025
    • สิ่งนี้บ่งชี้ว่า DoJ ทำ batch processing ต่อเนื่องราว 36 ชั่วโมง

ภาพและคุณลักษณะของการสแกน

  • PDF ทั้งหมด ไม่มีภาพ JPEG (DCTDecode) แต่ใช้ bitmap แบบบีบอัดด้วย FLATE แทน
    • ความละเอียดอยู่ที่ประมาณ 96 DPI และจำกัด palette สีไว้ที่ 256 สี
    • สันนิษฐานว่าทำไปเพื่อ ลบเมทาดาทา EXIF, IPTC, XMP
  • บางเอกสารมีร่องรอยการสแกนจริง เช่น ขอบกระดาษ รูเจาะ หรือรอยขีดเขียน ขณะที่บางเอกสารดูเหมือนเป็น ภาพที่จำลองการสแกนหลังเรนเดอร์แบบดิจิทัล
    • แยกได้จากมุมเอียง (skew) ที่เหมือนกันและการไม่มีสัญญาณรบกวน
  • การใช้ ฟอนต์ monospaced แบบ Courier ทำให้มีความเสี่ยงที่จะคาดเดาจำนวนอักขระที่ถูกปกปิดได้จากการนับตำแหน่ง

คุณภาพ OCR และความถูกต้องของการปกปิดข้อมูล

  • ผล OCR มี ความแม่นยำต่ำและไม่มีความสามารถด้านการรู้จำภาษา อยู่ในระดับการรู้จำอักขระอย่างง่ายเท่านั้น
    • ข้อความ OCR ของ PDF ไฟล์แรก (EFTA00000001.pdf) ส่วนใหญ่ไม่ถูกต้อง
  • การปกปิดแบบ “กล่องดำ” ถูก นำไปใช้โดยตรงกับพิกเซลของภาพ ไม่ใช่การวางสี่เหลี่ยมทับบนวัตถุข้อความ
    • ดังนั้นจึงไม่มีข้อความที่สามารถกู้คืนได้

บทสรุปและนัยสำคัญ

  • pipeline การสร้าง PDF ของ DoJ ประกอบด้วย การตัด JPEG ออก, การลดเมทาดาทาให้เหลือน้อยที่สุด, การเรนเดอร์แบบอิงภาพ, และการทำ OCR
    • อย่างไรก็ตาม การคงเหลือของ object ที่ไม่จำเป็น, stream ว่าง, และ incremental update ที่ยังค้างอยู่ ทำให้ขนาดไฟล์และความซับซ้อนเพิ่มขึ้น
  • ยังมี comment ของ PDF และ orphaned object บางส่วนหลงเหลืออยู่ จึงอาจมีความเสี่ยงต่อการรั่วไหลของข้อมูล
  • PDF forensics มีความเสี่ยงสูงต่อการตีความผิดพลาด เนื่องจาก ผลลัพธ์ที่ต่างกันระหว่างเครื่องมือและความซับซ้อนของฟอร์แมต
    • ด้วยเหตุนี้ PDF Association จึงดำเนิน PDF Forensic Liaison Working Group เพื่อผลักดันมาตรฐานและการให้ความรู้ในอุตสาหกรรม

1 ความคิดเห็น

 
GN⁺ 2026-02-05
ความคิดเห็นจาก Hacker News
  • มีการพบว่าเอกสารบางฉบับแม้จะดูเหมือนสแกนจริง แต่เป็น PDF เทียมที่ไม่มีสัญญาณรบกวนทางกายภาพเลย
    เมื่อดูจากการเอียง (skew) ที่เหมือนกันทุกหน้าและขอบที่สมบูรณ์แบบ จึงดูเหมือนเป็นเอกสารดิจิทัลต้นฉบับที่ถูกเรนเดอร์เป็นภาพ แล้วค่อยทำโพสต์โปรเซสอย่างการเอียง การย่อขนาด และการลดสี

    • สิ่งที่น่าสงสัยจริงๆ คือเอกสารไหนบ้างที่เป็น “สแกนปลอม” แบบนี้ และมันมีเจตนาเพื่อเสริมเรื่องเล่าทางการเมืองแบบใด
      เหตุผลที่ใครสักคนจะทำแบบนี้ อาจเป็นเพราะต้องการทำให้ ภาพที่สร้างด้วย AI หรือข้อมูลที่ถูกดัดแปลงดูเหมือนของจริง
    • ถ้าใช้ GNOME Desktop สามารถใส่ Bash script ไว้ที่ ~/.local/share/nautilus/ เพื่อสร้าง PDF สแกนปลอม จากเมนูคลิกขวาได้ทันที
      จำต้นทางไม่ได้แล้ว แต่เหมือนเคยเห็นใน Stack Exchange โดยใช้คำสั่ง magick เพื่อหมุน ใส่นอยส์ แปลงเป็นเกรย์สเกล ฯลฯ
    • การทำแบบนี้ดูแปลกๆ แค่พิมพ์เอกสารออกมาแล้วสแกนใหม่ก็น่าจะง่ายกว่ามาก
    • เอกสารที่ถูกพูดถึงโดยเฉพาะดูเหมือนจะเป็น เอกสารสัมภาษณ์ A. Acosta ของ DoJ ในปี 2019
      ถ้าเป็นของจริง ก็ชวนให้สงสัยว่าทำไม FBI ถึงปลอมให้ดูเหมือนเอกสารสแกน หรือมีส่วนไหนของข้อตกลงระหว่าง Epstein กับ Acosta ที่ไม่อยากเปิดเผยกันแน่
      ลิงก์ PDF ที่เกี่ยวข้อง
    • ฉันเองก็ทำอะไรคล้ายๆ กันบ่อย เวลามีคนขอลายเซ็น ก็จะเซ็นลงบนกระดาษเปล่าแล้วสแกนเก็บไว้ จากนั้นค่อยเอาไปประกบกับเอกสารทีหลังแล้วส่งกลับ
  • คิดว่าการที่ DOJ เผยแพร่ สำเนาที่ถูกแก้ไขแล้ว แทนต้นฉบับนั้นมีปัญหาทางกฎหมาย
    ซอฟต์แวร์ที่ใช้คือ OmniPage CSDK 21.1 ซึ่งลบเมทาดาทาทั้งหมดออกและลบไฟล์ที่เข้ารหัสด้วย

  • สงสัยว่าเคยมีใครวิเคราะห์สไตล์การเขียนของ Epstein (JE) แล้วเอาไปเทียบกับโพสต์ตามที่ต่างๆ อย่าง 4chan หรือไม่
    ฝั่ง Ghislaine ก็น่าจะมีข้อมูลมากพอเหมือนกัน ถึงจะไม่เชื่อข้อกล่าวหาเรื่อง MaxwellHill แต่ก็น่ามีเบาะแสบางอย่างได้

    • เมื่อก่อนเคยมี โปรเจกต์ stylometry ที่วิเคราะห์สไตล์การเขียนของผู้ใช้ HN แล้วหาบัญชีที่คล้ายกัน
      โพสต์ที่เกี่ยวข้อง
      เว็บไซต์ถูกปิดไปเพราะปัญหาความเป็นส่วนตัว แต่ความแม่นยำสูงมาก ฉันเองก็เลยอยากลองทำ AI ผู้ช่วยบนเบราว์เซอร์ ที่สุ่มปรับสไตล์คอมเมนต์ของตัวเองบ้าง
    • แต่ฉันก็ยังสงสัยอยู่ดี ว่าดูจากสไตล์การเขียนกับคำศัพท์อย่างเดียว คนจำนวนมากมันซ้อนทับกันเกินไปจนยากจะระบุตัวตนได้
      อย่างไรก็ตาม อีเมลของ Epstein มีลักษณะเฉพาะมาก อาจเป็นข้อยกเว้นก็ได้
    • ที่จริงแค่ การวิเคราะห์ n-gram อย่างเดียว stylometry ก็ละเอียดพอจะระบุตัวผู้เขียนได้แล้ว
      ลิงก์เดโม HN
      วิธีแบบนี้ยังแยกข้อความที่สร้างด้วย AI ได้ดีด้วย คิดว่าดีกว่าแนวทางฝึก “AI สำหรับตรวจจับ AI” แบบ transformer มาก
    • งานเขียนของ Epstein แทบจะ อ่านยากผิดไวยากรณ์ในระดับดิสเล็กเซีย
      อาจเป็นเพราะคนระดับสูงแทบไม่ได้เขียนอะไรด้วยตัวเองจนเสียทักษะการเรียบเรียงประโยคไป หรืออาจเป็นภาษาภายในของพวกเขาเองก็ได้
  • ตรงคุกกี้ป๊อปอัปของหน้านี้ใช้ปุ่มปฏิเสธว่า “Continue without consent” ซึ่งขำดี

    • เหมือนเป็นถ้อยคำที่ตั้งใจทำให้ผู้ใช้ รู้สึกผิด จริงๆ
    • มันน่าขันตรงที่เว็บเกี่ยวกับ Epstein กลับทำตัวเหมือน Epstein เอง
  • ข้อมูลอาจรั่วผ่าน ออบเจ็กต์กำพร้า ใน annotation ของ PDF หรือภายใน compressed object stream ก็ได้
    หวังว่าจะมีใครกำลัง เก็บถาวร เอกสารทั้งหมดแบบแยกอิสระอยู่ เพราะบางส่วนดูเหมือนถูกลบไปแล้ว

    • ใน Reddit โพสต์ที่เกี่ยวข้องก็ถูกลบหรือโดน shadowban อยู่เหมือนกัน
      แต่ใน คอมมูนิตี้ Lemmy ยังมีการพูดคุยกันอยู่
    • เอกสารบางฉบับอาจถูก ปิดทับเพิ่มเติม เพราะมีชื่อของผู้เสียหายอยู่
    • ตอนแรกใน หน้า Epstein Files Transparency Act มีลิงก์ .zip ของทุก dataset อยู่ครบ แต่ช่วงหนึ่งหายไปหมด แล้วตอนนี้ส่วนใหญ่กลับมาแล้ว
  • ตอนนี้กำลังใช้โมเดล allenai/olmocr-2-7b เปรียบเทียบกับผล OCR ที่ DOJ ให้มา
    มีภาพประมาณ 500,000 หน้าเลยใช้เวลาพอสมควร แต่ อัตราการรู้จำของ olmocr-2-7b ค่อนข้างสูง

    • สงสัยว่าเคยลองวิธีลดขนาดภาพเพื่อเพิ่มประสิทธิภาพหรือยัง
      แล้วอยากรู้ด้วยว่าถ้าลดต่ำกว่าขนาดไหนไปแล้วจะเริ่มอ่านข้อความยาก
  • เคยสงสัยว่าทำไมไฟล์ใหม่บางไฟล์ถึงมี เครื่องหมาย '=' แบบสุ่ม ปรากฏอยู่
    มันไม่ค่อยเหมือนความผิดพลาดจาก OCR และดูคล้ายตั้งใจทำให้ค้นหาได้ยาก

    • เมื่อวานมีโพสต์เกี่ยวกับเรื่องนี้ขึ้นหน้าแรก HN: ลิงก์
    • จริงๆ แล้วนี่เป็นปัญหาจาก ข้อผิดพลาดในการจัดการ quoted-printable encoding ของอีเมล
      Lars Ingebrigtsen ผู้พัฒนา gnus อธิบายไว้ในบล็อก
  • PDF บางไฟล์มี ไฟล์แนบที่เข้ารหัสแบบ Base64 ฝังอยู่ในเนื้อหาแบบตรงๆ
    คุณภาพ OCR แย่มากจนถ้าจะกู้คืนต้องใช้ความพยายามพอสมควร
    ตัวอย่าง PDF,
    เธรด Reddit ที่เกี่ยวข้อง

    • สงสัยว่าถ้าผิดพลาดแค่ไม่กี่ไบต์ ก็อาจทำให้ กู้คืนข้อมูลไบนารีไม่ได้เลย หรือไม่
  • ส่วนตัวแล้วสิ่งที่น่าสนใจกว่าคือ บัญชีธนาคารของ Epstein
    ประเด็นสำคัญคือใครเป็นคนให้เงินเขา และใครเป็นคนรับเงินจากเขา

    • DOJ น่าจะรู้อยู่แล้ว หรือถ้าต้องการก็ตรวจสอบข้อมูลพวกนี้ได้ทันที
    • แต่ การวิเคราะห์หาสาเหตุรากของการไหลของเงิน ไม่ได้ถูกเปิดเผยต่อสาธารณะ
      กลับเปิดเผยเท่าที่จำเป็นเพื่อให้กระแสสาธารณะไหลไปสู่ความเกลียดชังระหว่างบางกลุ่มแทน
  • การเข้าถึงถูก Cloudflare บล็อก