- มีการดำเนินการ วิเคราะห์ทางนิติดิจิทัล กับเอกสาร PDF ที่กระทรวงยุติธรรมสหรัฐฯ เปิดเผยภายใต้ Epstein Files Transparency Act โดยมุ่งเน้นที่โครงสร้างไฟล์และไวยากรณ์ของไฟล์
- ผลการวิเคราะห์พบว่า PDF ที่เผยแพร่ใน ชุดข้อมูล EFTA 01–07 ถูกทำการปกปิดข้อมูล (redaction) อย่างถูกต้อง และข้อกล่าวอ้างบนโซเชียลมีเดียที่ว่า “สามารถกู้คืนส่วนที่ปกปิดได้” ไม่เป็นความจริง
- PDF ทั้งหมด ไม่มีการเข้ารหัส คำอธิบายประกอบ JavaScript หรือไฟล์แนบ และส่วนใหญ่เป็นเอกสารที่อิงจากภาพสแกนพร้อม OCR ขณะที่บางไฟล์มี เมทาดาทาที่ซ่อนอยู่ (dictionary)
- พบรายละเอียดทางเทคนิค เช่น การใส่หมายเลข Bates, object stream แบบไม่บีบอัด, การระบุเวอร์ชันผิด, และการใส่คำอธิบายประกอบไม่ครบถ้วน แต่ไม่ได้ส่งผลกระทบอย่างมีนัยสำคัญต่อความถูกต้องของไฟล์
- กรณีนี้แสดงให้เห็นถึง ความซับซ้อนของ PDF forensics และข้อจำกัดด้านความน่าเชื่อถือของเครื่องมือ พร้อมตอกย้ำ ความสำคัญของเวิร์กโฟลว์การชำระข้อมูลและการปกปิดข้อมูลที่ถูกต้อง ก่อนเผยแพร่เอกสารอ่อนไหว
ภาพรวมของข้อมูลที่ DoJ เปิดเผย
- กระทรวงยุติธรรมเปิดเผย ZIP archive จำนวน 7 ชุดเมื่อวันที่ 19 ธันวาคม 2025 (รวม 2.97GB) ภายในประกอบด้วย PDF 4,085 ไฟล์, ไฟล์ AVI 1 ไฟล์ และไฟล์ข้อมูล
.DAT กับ .OPT สำหรับแต่ละชุด
- ชื่อไฟล์ PDF เรียงลำดับตั้งแต่
EFTA00000001.pdf ถึง EFTA00009664.pdf
- ยืนยันว่ามี PDF อีกราว 5,879 ไฟล์ที่ยังไม่ถูกเปิดเผย
- PDF ส่วนใหญ่เป็น เอกสารที่อิงจากภาพสแกน โดยมีข้อความที่ค้นหาได้บางส่วนผ่าน OCR
- มีการปกปิดข้อมูลแบบ “กล่องดำ” และยืนยันว่าเป็นการปกปิดที่ทำอย่างถูกต้องในระดับพิกเซล
- ไม่พบเอกสารแบบ born-digital
การวิเคราะห์ความถูกต้องของไฟล์และเวอร์ชัน
- ผลการตรวจสอบความถูกต้องโดยใช้ เครื่องมือ PDF forensics หลายตัว พบข้อผิดพลาดเล็กน้อยเพียงรายการเดียว
- ใน 109 ไฟล์ มีการตั้งค่า ค่า Descent ของ FontDescriptor เป็นค่าบวก แต่เป็นเพียงความคลาดเคลื่อนเล็กน้อยในการจับคู่ฟอนต์ และไม่กระทบต่อความถูกต้องโดยรวม
- เมื่อนำเครื่องมือ
pdfinfo สองชนิดมาเปรียบเทียบ พบว่า ค่าการอ่านเวอร์ชัน PDF แตกต่างกัน
- Tool A รายงานว่าเป็นเวอร์ชัน 1.3 จำนวน 209 ไฟล์ และเวอร์ชัน 1.5 จำนวน 3,875 ไฟล์
- Tool B รายงานว่าเป็นเวอร์ชัน 1.3 จำนวน 3,817 ไฟล์ และเวอร์ชัน 1.5 จำนวน 267 ไฟล์
- ความต่างนี้เกิดจากวิธีจัดการรายการ Version ใน incremental update ที่ต่างกัน โดยผลของ Tool A ถูกต้องกว่า
- PDF ทั้งหมด ไม่มีการเข้ารหัส แท็ก คำอธิบายประกอบ บุ๊กมาร์ก ฟอร์ม JavaScript หรือไฟล์แนบ
- จำนวนหน้ารวมทั้งหมดคือ 9,659 หน้า และส่วนใหญ่เป็นเอกสารหน้าเดียว
Incremental update และหมายเลข Bates
- PDF มีการสะสมประวัติการแก้ไขผ่าน incremental update หลายครั้ง
- PDF ไฟล์แรก (
EFTA00000001.pdf) มี incremental update 2 ครั้ง
- ในการอัปเดตครั้งสุดท้าย มีการเพิ่ม หมายเลข Bates ให้แต่ละหน้า
- การเพิ่มหมายเลข Bates ใช้ cross-reference stream แบบ
/Type /XRef และพบรูปแบบเดียวกันนี้ใน PDF ตัวอย่างทั้งหมด
- ใน incremental update ครั้งแรก เวอร์ชัน PDF ถูกเปลี่ยนจาก 1.3 เป็น 1.5 แต่มีข้อผิดพลาดทางเทคนิคจากความไม่สอดคล้องกับ header
- นอกจากนี้ยังมี Info dictionary ของเอกสารที่ซ่อนอยู่ แต่ไม่ได้ถูกอ้างอิงใน trailer สุดท้าย จึงไม่ปรากฏใน PDF viewer ทั่วไป
- dictionary ดังกล่าวมีข้อมูล
/Creator (OmniPage CSDK 21.1) และ /Producer (Processing-CLI)
เมทาดาทาและการวิเคราะห์วันที่
- จากผลของ
pdfinfo พบว่า PDF ส่วนใหญ่ ไม่มีเมทาดาทาแบบระบุชัดหรือ XMP stream
- อย่างไรก็ตาม ในบางไฟล์พบ orphaned Info dictionary และมีรายการ
/Info ปรากฏหลายครั้ง
- มีเพียงไฟล์
EFTA00003212.pdf เท่านั้นที่มีรายการ Title, Author, Subject, Keywords, Creator
- พบ 215 ไฟล์ที่มีค่า
/Producer เป็น “pypdf”
- วันที่สร้าง (
CreationDate) และวันที่แก้ไข (ModDate) ตรงกันทั้งหมด และอยู่ในช่วง 18–19 ธันวาคม 2025
- สิ่งนี้บ่งชี้ว่า DoJ ทำ batch processing ต่อเนื่องราว 36 ชั่วโมง
ภาพและคุณลักษณะของการสแกน
- PDF ทั้งหมด ไม่มีภาพ JPEG (
DCTDecode) แต่ใช้ bitmap แบบบีบอัดด้วย FLATE แทน
- ความละเอียดอยู่ที่ประมาณ 96 DPI และจำกัด palette สีไว้ที่ 256 สี
- สันนิษฐานว่าทำไปเพื่อ ลบเมทาดาทา EXIF, IPTC, XMP
- บางเอกสารมีร่องรอยการสแกนจริง เช่น ขอบกระดาษ รูเจาะ หรือรอยขีดเขียน ขณะที่บางเอกสารดูเหมือนเป็น ภาพที่จำลองการสแกนหลังเรนเดอร์แบบดิจิทัล
- แยกได้จากมุมเอียง (skew) ที่เหมือนกันและการไม่มีสัญญาณรบกวน
- การใช้ ฟอนต์ monospaced แบบ Courier ทำให้มีความเสี่ยงที่จะคาดเดาจำนวนอักขระที่ถูกปกปิดได้จากการนับตำแหน่ง
คุณภาพ OCR และความถูกต้องของการปกปิดข้อมูล
- ผล OCR มี ความแม่นยำต่ำและไม่มีความสามารถด้านการรู้จำภาษา อยู่ในระดับการรู้จำอักขระอย่างง่ายเท่านั้น
- ข้อความ OCR ของ PDF ไฟล์แรก (
EFTA00000001.pdf) ส่วนใหญ่ไม่ถูกต้อง
- การปกปิดแบบ “กล่องดำ” ถูก นำไปใช้โดยตรงกับพิกเซลของภาพ ไม่ใช่การวางสี่เหลี่ยมทับบนวัตถุข้อความ
- ดังนั้นจึงไม่มีข้อความที่สามารถกู้คืนได้
บทสรุปและนัยสำคัญ
- pipeline การสร้าง PDF ของ DoJ ประกอบด้วย การตัด JPEG ออก, การลดเมทาดาทาให้เหลือน้อยที่สุด, การเรนเดอร์แบบอิงภาพ, และการทำ OCR
- อย่างไรก็ตาม การคงเหลือของ object ที่ไม่จำเป็น, stream ว่าง, และ incremental update ที่ยังค้างอยู่ ทำให้ขนาดไฟล์และความซับซ้อนเพิ่มขึ้น
- ยังมี comment ของ PDF และ orphaned object บางส่วนหลงเหลืออยู่ จึงอาจมีความเสี่ยงต่อการรั่วไหลของข้อมูล
- PDF forensics มีความเสี่ยงสูงต่อการตีความผิดพลาด เนื่องจาก ผลลัพธ์ที่ต่างกันระหว่างเครื่องมือและความซับซ้อนของฟอร์แมต
- ด้วยเหตุนี้ PDF Association จึงดำเนิน PDF Forensic Liaison Working Group เพื่อผลักดันมาตรฐานและการให้ความรู้ในอุตสาหกรรม
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
มีการพบว่าเอกสารบางฉบับแม้จะดูเหมือนสแกนจริง แต่เป็น PDF เทียมที่ไม่มีสัญญาณรบกวนทางกายภาพเลย
เมื่อดูจากการเอียง (skew) ที่เหมือนกันทุกหน้าและขอบที่สมบูรณ์แบบ จึงดูเหมือนเป็นเอกสารดิจิทัลต้นฉบับที่ถูกเรนเดอร์เป็นภาพ แล้วค่อยทำโพสต์โปรเซสอย่างการเอียง การย่อขนาด และการลดสี
เหตุผลที่ใครสักคนจะทำแบบนี้ อาจเป็นเพราะต้องการทำให้ ภาพที่สร้างด้วย AI หรือข้อมูลที่ถูกดัดแปลงดูเหมือนของจริง
~/.local/share/nautilus/เพื่อสร้าง PDF สแกนปลอม จากเมนูคลิกขวาได้ทันทีจำต้นทางไม่ได้แล้ว แต่เหมือนเคยเห็นใน Stack Exchange โดยใช้คำสั่ง
magickเพื่อหมุน ใส่นอยส์ แปลงเป็นเกรย์สเกล ฯลฯถ้าเป็นของจริง ก็ชวนให้สงสัยว่าทำไม FBI ถึงปลอมให้ดูเหมือนเอกสารสแกน หรือมีส่วนไหนของข้อตกลงระหว่าง Epstein กับ Acosta ที่ไม่อยากเปิดเผยกันแน่
ลิงก์ PDF ที่เกี่ยวข้อง
คิดว่าการที่ DOJ เผยแพร่ สำเนาที่ถูกแก้ไขแล้ว แทนต้นฉบับนั้นมีปัญหาทางกฎหมาย
ซอฟต์แวร์ที่ใช้คือ OmniPage CSDK 21.1 ซึ่งลบเมทาดาทาทั้งหมดออกและลบไฟล์ที่เข้ารหัสด้วย
สงสัยว่าเคยมีใครวิเคราะห์สไตล์การเขียนของ Epstein (JE) แล้วเอาไปเทียบกับโพสต์ตามที่ต่างๆ อย่าง 4chan หรือไม่
ฝั่ง Ghislaine ก็น่าจะมีข้อมูลมากพอเหมือนกัน ถึงจะไม่เชื่อข้อกล่าวหาเรื่อง MaxwellHill แต่ก็น่ามีเบาะแสบางอย่างได้
โพสต์ที่เกี่ยวข้อง
เว็บไซต์ถูกปิดไปเพราะปัญหาความเป็นส่วนตัว แต่ความแม่นยำสูงมาก ฉันเองก็เลยอยากลองทำ AI ผู้ช่วยบนเบราว์เซอร์ ที่สุ่มปรับสไตล์คอมเมนต์ของตัวเองบ้าง
อย่างไรก็ตาม อีเมลของ Epstein มีลักษณะเฉพาะมาก อาจเป็นข้อยกเว้นก็ได้
ลิงก์เดโม HN
วิธีแบบนี้ยังแยกข้อความที่สร้างด้วย AI ได้ดีด้วย คิดว่าดีกว่าแนวทางฝึก “AI สำหรับตรวจจับ AI” แบบ transformer มาก
อาจเป็นเพราะคนระดับสูงแทบไม่ได้เขียนอะไรด้วยตัวเองจนเสียทักษะการเรียบเรียงประโยคไป หรืออาจเป็นภาษาภายในของพวกเขาเองก็ได้
ตรงคุกกี้ป๊อปอัปของหน้านี้ใช้ปุ่มปฏิเสธว่า “Continue without consent” ซึ่งขำดี
ข้อมูลอาจรั่วผ่าน ออบเจ็กต์กำพร้า ใน annotation ของ PDF หรือภายใน compressed object stream ก็ได้
หวังว่าจะมีใครกำลัง เก็บถาวร เอกสารทั้งหมดแบบแยกอิสระอยู่ เพราะบางส่วนดูเหมือนถูกลบไปแล้ว
แต่ใน คอมมูนิตี้ Lemmy ยังมีการพูดคุยกันอยู่
ตอนนี้กำลังใช้โมเดล allenai/olmocr-2-7b เปรียบเทียบกับผล OCR ที่ DOJ ให้มา
มีภาพประมาณ 500,000 หน้าเลยใช้เวลาพอสมควร แต่ อัตราการรู้จำของ olmocr-2-7b ค่อนข้างสูง
แล้วอยากรู้ด้วยว่าถ้าลดต่ำกว่าขนาดไหนไปแล้วจะเริ่มอ่านข้อความยาก
เคยสงสัยว่าทำไมไฟล์ใหม่บางไฟล์ถึงมี เครื่องหมาย '=' แบบสุ่ม ปรากฏอยู่
มันไม่ค่อยเหมือนความผิดพลาดจาก OCR และดูคล้ายตั้งใจทำให้ค้นหาได้ยาก
Lars Ingebrigtsen ผู้พัฒนา gnus อธิบายไว้ในบล็อก
PDF บางไฟล์มี ไฟล์แนบที่เข้ารหัสแบบ Base64 ฝังอยู่ในเนื้อหาแบบตรงๆ
คุณภาพ OCR แย่มากจนถ้าจะกู้คืนต้องใช้ความพยายามพอสมควร
ตัวอย่าง PDF,
เธรด Reddit ที่เกี่ยวข้อง
ส่วนตัวแล้วสิ่งที่น่าสนใจกว่าคือ บัญชีธนาคารของ Epstein
ประเด็นสำคัญคือใครเป็นคนให้เงินเขา และใครเป็นคนรับเงินจากเขา
กลับเปิดเผยเท่าที่จำเป็นเพื่อให้กระแสสาธารณะไหลไปสู่ความเกลียดชังระหว่างบางกลุ่มแทน
การเข้าถึงถูก Cloudflare บล็อก