กรณีศึกษาเชิงนิติดิจิทัลของ PDF คดีเอปสตีน

(pdfa.org)

1 คะแนน โดย GN⁺ 2026-02-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

มีการดำเนินการ วิเคราะห์ทางนิติดิจิทัล กับเอกสาร PDF ที่กระทรวงยุติธรรมสหรัฐฯ เปิดเผยภายใต้ Epstein Files Transparency Act โดยมุ่งเน้นที่โครงสร้างไฟล์และไวยากรณ์ของไฟล์
ผลการวิเคราะห์พบว่า PDF ที่เผยแพร่ใน ชุดข้อมูล EFTA 01–07 ถูกทำการปกปิดข้อมูล (redaction) อย่างถูกต้อง และข้อกล่าวอ้างบนโซเชียลมีเดียที่ว่า “สามารถกู้คืนส่วนที่ปกปิดได้” ไม่เป็นความจริง
PDF ทั้งหมด ไม่มีการเข้ารหัส คำอธิบายประกอบ JavaScript หรือไฟล์แนบ และส่วนใหญ่เป็นเอกสารที่อิงจากภาพสแกนพร้อม OCR ขณะที่บางไฟล์มี เมทาดาทาที่ซ่อนอยู่ (dictionary)
พบรายละเอียดทางเทคนิค เช่น การใส่หมายเลข Bates, object stream แบบไม่บีบอัด, การระบุเวอร์ชันผิด, และการใส่คำอธิบายประกอบไม่ครบถ้วน แต่ไม่ได้ส่งผลกระทบอย่างมีนัยสำคัญต่อความถูกต้องของไฟล์
กรณีนี้แสดงให้เห็นถึง ความซับซ้อนของ PDF forensics และข้อจำกัดด้านความน่าเชื่อถือของเครื่องมือ พร้อมตอกย้ำ ความสำคัญของเวิร์กโฟลว์การชำระข้อมูลและการปกปิดข้อมูลที่ถูกต้อง ก่อนเผยแพร่เอกสารอ่อนไหว

ภาพรวมของข้อมูลที่ DoJ เปิดเผย

กระทรวงยุติธรรมเปิดเผย ZIP archive จำนวน 7 ชุดเมื่อวันที่ 19 ธันวาคม 2025 (รวม 2.97GB) ภายในประกอบด้วย PDF 4,085 ไฟล์, ไฟล์ AVI 1 ไฟล์ และไฟล์ข้อมูล .DAT กับ .OPT สำหรับแต่ละชุด
- ชื่อไฟล์ PDF เรียงลำดับตั้งแต่ EFTA00000001.pdf ถึง EFTA00009664.pdf
- ยืนยันว่ามี PDF อีกราว 5,879 ไฟล์ที่ยังไม่ถูกเปิดเผย
PDF ส่วนใหญ่เป็น เอกสารที่อิงจากภาพสแกน โดยมีข้อความที่ค้นหาได้บางส่วนผ่าน OCR
- มีการปกปิดข้อมูลแบบ “กล่องดำ” และยืนยันว่าเป็นการปกปิดที่ทำอย่างถูกต้องในระดับพิกเซล
- ไม่พบเอกสารแบบ born-digital

การวิเคราะห์ความถูกต้องของไฟล์และเวอร์ชัน

ผลการตรวจสอบความถูกต้องโดยใช้ เครื่องมือ PDF forensics หลายตัว พบข้อผิดพลาดเล็กน้อยเพียงรายการเดียว
- ใน 109 ไฟล์ มีการตั้งค่า ค่า Descent ของ FontDescriptor เป็นค่าบวก แต่เป็นเพียงความคลาดเคลื่อนเล็กน้อยในการจับคู่ฟอนต์ และไม่กระทบต่อความถูกต้องโดยรวม
เมื่อนำเครื่องมือ pdfinfo สองชนิดมาเปรียบเทียบ พบว่า ค่าการอ่านเวอร์ชัน PDF แตกต่างกัน
- Tool A รายงานว่าเป็นเวอร์ชัน 1.3 จำนวน 209 ไฟล์ และเวอร์ชัน 1.5 จำนวน 3,875 ไฟล์
- Tool B รายงานว่าเป็นเวอร์ชัน 1.3 จำนวน 3,817 ไฟล์ และเวอร์ชัน 1.5 จำนวน 267 ไฟล์
- ความต่างนี้เกิดจากวิธีจัดการรายการ Version ใน incremental update ที่ต่างกัน โดยผลของ Tool A ถูกต้องกว่า
PDF ทั้งหมด ไม่มีการเข้ารหัส แท็ก คำอธิบายประกอบ บุ๊กมาร์ก ฟอร์ม JavaScript หรือไฟล์แนบ
- จำนวนหน้ารวมทั้งหมดคือ 9,659 หน้า และส่วนใหญ่เป็นเอกสารหน้าเดียว

Incremental update และหมายเลข Bates

PDF มีการสะสมประวัติการแก้ไขผ่าน incremental update หลายครั้ง
- PDF ไฟล์แรก (EFTA00000001.pdf) มี incremental update 2 ครั้ง
- ในการอัปเดตครั้งสุดท้าย มีการเพิ่ม หมายเลข Bates ให้แต่ละหน้า
การเพิ่มหมายเลข Bates ใช้ cross-reference stream แบบ /Type /XRef และพบรูปแบบเดียวกันนี้ใน PDF ตัวอย่างทั้งหมด
ใน incremental update ครั้งแรก เวอร์ชัน PDF ถูกเปลี่ยนจาก 1.3 เป็น 1.5 แต่มีข้อผิดพลาดทางเทคนิคจากความไม่สอดคล้องกับ header
- นอกจากนี้ยังมี Info dictionary ของเอกสารที่ซ่อนอยู่ แต่ไม่ได้ถูกอ้างอิงใน trailer สุดท้าย จึงไม่ปรากฏใน PDF viewer ทั่วไป
- dictionary ดังกล่าวมีข้อมูล /Creator (OmniPage CSDK 21.1) และ /Producer (Processing-CLI)

เมทาดาทาและการวิเคราะห์วันที่

จากผลของ pdfinfo พบว่า PDF ส่วนใหญ่ ไม่มีเมทาดาทาแบบระบุชัดหรือ XMP stream
- อย่างไรก็ตาม ในบางไฟล์พบ orphaned Info dictionary และมีรายการ /Info ปรากฏหลายครั้ง
มีเพียงไฟล์ EFTA00003212.pdf เท่านั้นที่มีรายการ Title, Author, Subject, Keywords, Creator
- พบ 215 ไฟล์ที่มีค่า /Producer เป็น “pypdf”
วันที่สร้าง (CreationDate) และวันที่แก้ไข (ModDate) ตรงกันทั้งหมด และอยู่ในช่วง 18–19 ธันวาคม 2025
- สิ่งนี้บ่งชี้ว่า DoJ ทำ batch processing ต่อเนื่องราว 36 ชั่วโมง

ภาพและคุณลักษณะของการสแกน

PDF ทั้งหมด ไม่มีภาพ JPEG (DCTDecode) แต่ใช้ bitmap แบบบีบอัดด้วย FLATE แทน
- ความละเอียดอยู่ที่ประมาณ 96 DPI และจำกัด palette สีไว้ที่ 256 สี
- สันนิษฐานว่าทำไปเพื่อ ลบเมทาดาทา EXIF, IPTC, XMP
บางเอกสารมีร่องรอยการสแกนจริง เช่น ขอบกระดาษ รูเจาะ หรือรอยขีดเขียน ขณะที่บางเอกสารดูเหมือนเป็น ภาพที่จำลองการสแกนหลังเรนเดอร์แบบดิจิทัล
- แยกได้จากมุมเอียง (skew) ที่เหมือนกันและการไม่มีสัญญาณรบกวน
การใช้ ฟอนต์ monospaced แบบ Courier ทำให้มีความเสี่ยงที่จะคาดเดาจำนวนอักขระที่ถูกปกปิดได้จากการนับตำแหน่ง

คุณภาพ OCR และความถูกต้องของการปกปิดข้อมูล

ผล OCR มี ความแม่นยำต่ำและไม่มีความสามารถด้านการรู้จำภาษา อยู่ในระดับการรู้จำอักขระอย่างง่ายเท่านั้น
- ข้อความ OCR ของ PDF ไฟล์แรก (EFTA00000001.pdf) ส่วนใหญ่ไม่ถูกต้อง
การปกปิดแบบ “กล่องดำ” ถูก นำไปใช้โดยตรงกับพิกเซลของภาพ ไม่ใช่การวางสี่เหลี่ยมทับบนวัตถุข้อความ
- ดังนั้นจึงไม่มีข้อความที่สามารถกู้คืนได้

บทสรุปและนัยสำคัญ

pipeline การสร้าง PDF ของ DoJ ประกอบด้วย การตัด JPEG ออก, การลดเมทาดาทาให้เหลือน้อยที่สุด, การเรนเดอร์แบบอิงภาพ, และการทำ OCR
- อย่างไรก็ตาม การคงเหลือของ object ที่ไม่จำเป็น, stream ว่าง, และ incremental update ที่ยังค้างอยู่ ทำให้ขนาดไฟล์และความซับซ้อนเพิ่มขึ้น
ยังมี comment ของ PDF และ orphaned object บางส่วนหลงเหลืออยู่ จึงอาจมีความเสี่ยงต่อการรั่วไหลของข้อมูล
PDF forensics มีความเสี่ยงสูงต่อการตีความผิดพลาด เนื่องจาก ผลลัพธ์ที่ต่างกันระหว่างเครื่องมือและความซับซ้อนของฟอร์แมต
- ด้วยเหตุนี้ PDF Association จึงดำเนิน PDF Forensic Liaison Working Group เพื่อผลักดันมาตรฐานและการให้ความรู้ในอุตสาหกรรม

1 ความคิดเห็น

GN⁺ 2026-02-05

ความคิดเห็นจาก Hacker News

มีการพบว่าเอกสารบางฉบับแม้จะดูเหมือนสแกนจริง แต่เป็น PDF เทียมที่ไม่มีสัญญาณรบกวนทางกายภาพเลย
เมื่อดูจากการเอียง (skew) ที่เหมือนกันทุกหน้าและขอบที่สมบูรณ์แบบ จึงดูเหมือนเป็นเอกสารดิจิทัลต้นฉบับที่ถูกเรนเดอร์เป็นภาพ แล้วค่อยทำโพสต์โปรเซสอย่างการเอียง การย่อขนาด และการลดสี
- สิ่งที่น่าสงสัยจริงๆ คือเอกสารไหนบ้างที่เป็น “สแกนปลอม” แบบนี้ และมันมีเจตนาเพื่อเสริมเรื่องเล่าทางการเมืองแบบใด
  เหตุผลที่ใครสักคนจะทำแบบนี้ อาจเป็นเพราะต้องการทำให้ ภาพที่สร้างด้วย AI หรือข้อมูลที่ถูกดัดแปลงดูเหมือนของจริง
- ถ้าใช้ GNOME Desktop สามารถใส่ Bash script ไว้ที่ ~/.local/share/nautilus/ เพื่อสร้าง PDF สแกนปลอม จากเมนูคลิกขวาได้ทันที
  จำต้นทางไม่ได้แล้ว แต่เหมือนเคยเห็นใน Stack Exchange โดยใช้คำสั่ง magick เพื่อหมุน ใส่นอยส์ แปลงเป็นเกรย์สเกล ฯลฯ
- การทำแบบนี้ดูแปลกๆ แค่พิมพ์เอกสารออกมาแล้วสแกนใหม่ก็น่าจะง่ายกว่ามาก
- เอกสารที่ถูกพูดถึงโดยเฉพาะดูเหมือนจะเป็น เอกสารสัมภาษณ์ A. Acosta ของ DoJ ในปี 2019
  ถ้าเป็นของจริง ก็ชวนให้สงสัยว่าทำไม FBI ถึงปลอมให้ดูเหมือนเอกสารสแกน หรือมีส่วนไหนของข้อตกลงระหว่าง Epstein กับ Acosta ที่ไม่อยากเปิดเผยกันแน่
  ลิงก์ PDF ที่เกี่ยวข้อง
- ฉันเองก็ทำอะไรคล้ายๆ กันบ่อย เวลามีคนขอลายเซ็น ก็จะเซ็นลงบนกระดาษเปล่าแล้วสแกนเก็บไว้ จากนั้นค่อยเอาไปประกบกับเอกสารทีหลังแล้วส่งกลับ
คิดว่าการที่ DOJ เผยแพร่ สำเนาที่ถูกแก้ไขแล้ว แทนต้นฉบับนั้นมีปัญหาทางกฎหมาย
ซอฟต์แวร์ที่ใช้คือ OmniPage CSDK 21.1 ซึ่งลบเมทาดาทาทั้งหมดออกและลบไฟล์ที่เข้ารหัสด้วย
สงสัยว่าเคยมีใครวิเคราะห์สไตล์การเขียนของ Epstein (JE) แล้วเอาไปเทียบกับโพสต์ตามที่ต่างๆ อย่าง 4chan หรือไม่
ฝั่ง Ghislaine ก็น่าจะมีข้อมูลมากพอเหมือนกัน ถึงจะไม่เชื่อข้อกล่าวหาเรื่อง MaxwellHill แต่ก็น่ามีเบาะแสบางอย่างได้
- เมื่อก่อนเคยมี โปรเจกต์ stylometry ที่วิเคราะห์สไตล์การเขียนของผู้ใช้ HN แล้วหาบัญชีที่คล้ายกัน
  โพสต์ที่เกี่ยวข้อง
  เว็บไซต์ถูกปิดไปเพราะปัญหาความเป็นส่วนตัว แต่ความแม่นยำสูงมาก ฉันเองก็เลยอยากลองทำ AI ผู้ช่วยบนเบราว์เซอร์ ที่สุ่มปรับสไตล์คอมเมนต์ของตัวเองบ้าง
- แต่ฉันก็ยังสงสัยอยู่ดี ว่าดูจากสไตล์การเขียนกับคำศัพท์อย่างเดียว คนจำนวนมากมันซ้อนทับกันเกินไปจนยากจะระบุตัวตนได้
  อย่างไรก็ตาม อีเมลของ Epstein มีลักษณะเฉพาะมาก อาจเป็นข้อยกเว้นก็ได้
- ที่จริงแค่ การวิเคราะห์ n-gram อย่างเดียว stylometry ก็ละเอียดพอจะระบุตัวผู้เขียนได้แล้ว
  ลิงก์เดโม HN
  วิธีแบบนี้ยังแยกข้อความที่สร้างด้วย AI ได้ดีด้วย คิดว่าดีกว่าแนวทางฝึก “AI สำหรับตรวจจับ AI” แบบ transformer มาก
- งานเขียนของ Epstein แทบจะ อ่านยากผิดไวยากรณ์ในระดับดิสเล็กเซีย
  อาจเป็นเพราะคนระดับสูงแทบไม่ได้เขียนอะไรด้วยตัวเองจนเสียทักษะการเรียบเรียงประโยคไป หรืออาจเป็นภาษาภายในของพวกเขาเองก็ได้
ตรงคุกกี้ป๊อปอัปของหน้านี้ใช้ปุ่มปฏิเสธว่า “Continue without consent” ซึ่งขำดี
- เหมือนเป็นถ้อยคำที่ตั้งใจทำให้ผู้ใช้ รู้สึกผิด จริงๆ
- มันน่าขันตรงที่เว็บเกี่ยวกับ Epstein กลับทำตัวเหมือน Epstein เอง
ข้อมูลอาจรั่วผ่าน ออบเจ็กต์กำพร้า ใน annotation ของ PDF หรือภายใน compressed object stream ก็ได้
หวังว่าจะมีใครกำลัง เก็บถาวร เอกสารทั้งหมดแบบแยกอิสระอยู่ เพราะบางส่วนดูเหมือนถูกลบไปแล้ว
- ใน Reddit โพสต์ที่เกี่ยวข้องก็ถูกลบหรือโดน shadowban อยู่เหมือนกัน
  แต่ใน คอมมูนิตี้ Lemmy ยังมีการพูดคุยกันอยู่
- เอกสารบางฉบับอาจถูก ปิดทับเพิ่มเติม เพราะมีชื่อของผู้เสียหายอยู่
- ตอนแรกใน หน้า Epstein Files Transparency Act มีลิงก์ .zip ของทุก dataset อยู่ครบ แต่ช่วงหนึ่งหายไปหมด แล้วตอนนี้ส่วนใหญ่กลับมาแล้ว
ตอนนี้กำลังใช้โมเดล allenai/olmocr-2-7b เปรียบเทียบกับผล OCR ที่ DOJ ให้มา
มีภาพประมาณ 500,000 หน้าเลยใช้เวลาพอสมควร แต่ อัตราการรู้จำของ olmocr-2-7b ค่อนข้างสูง
- สงสัยว่าเคยลองวิธีลดขนาดภาพเพื่อเพิ่มประสิทธิภาพหรือยัง
  แล้วอยากรู้ด้วยว่าถ้าลดต่ำกว่าขนาดไหนไปแล้วจะเริ่มอ่านข้อความยาก
เคยสงสัยว่าทำไมไฟล์ใหม่บางไฟล์ถึงมี เครื่องหมาย '=' แบบสุ่ม ปรากฏอยู่
มันไม่ค่อยเหมือนความผิดพลาดจาก OCR และดูคล้ายตั้งใจทำให้ค้นหาได้ยาก
- เมื่อวานมีโพสต์เกี่ยวกับเรื่องนี้ขึ้นหน้าแรก HN: ลิงก์
- จริงๆ แล้วนี่เป็นปัญหาจาก ข้อผิดพลาดในการจัดการ quoted-printable encoding ของอีเมล
  Lars Ingebrigtsen ผู้พัฒนา gnus อธิบายไว้ในบล็อก
PDF บางไฟล์มี ไฟล์แนบที่เข้ารหัสแบบ Base64 ฝังอยู่ในเนื้อหาแบบตรงๆ
คุณภาพ OCR แย่มากจนถ้าจะกู้คืนต้องใช้ความพยายามพอสมควร
ตัวอย่าง PDF,
เธรด Reddit ที่เกี่ยวข้อง
- สงสัยว่าถ้าผิดพลาดแค่ไม่กี่ไบต์ ก็อาจทำให้ กู้คืนข้อมูลไบนารีไม่ได้เลย หรือไม่
ส่วนตัวแล้วสิ่งที่น่าสนใจกว่าคือ บัญชีธนาคารของ Epstein
ประเด็นสำคัญคือใครเป็นคนให้เงินเขา และใครเป็นคนรับเงินจากเขา
- DOJ น่าจะรู้อยู่แล้ว หรือถ้าต้องการก็ตรวจสอบข้อมูลพวกนี้ได้ทันที
- แต่ การวิเคราะห์หาสาเหตุรากของการไหลของเงิน ไม่ได้ถูกเปิดเผยต่อสาธารณะ
  กลับเปิดเผยเท่าที่จำเป็นเพื่อให้กระแสสาธารณะไหลไปสู่ความเกลียดชังระหว่างบางกลุ่มแทน
การเข้าถึงถูก Cloudflare บล็อก

กรณีศึกษาเชิงนิติดิจิทัลของ PDF คดีเอปสตีน

ภาพรวมของข้อมูลที่ DoJ เปิดเผย

การวิเคราะห์ความถูกต้องของไฟล์และเวอร์ชัน

Incremental update และหมายเลข Bates

เมทาดาทาและการวิเคราะห์วันที่

ภาพและคุณลักษณะของการสแกน

คุณภาพ OCR และความถูกต้องของการปกปิดข้อมูล

บทสรุปและนัยสำคัญ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News