TimeCapsuleLLM: โมเดลภาษาขนาดใหญ่ที่ฝึกด้วยข้อมูลเฉพาะช่วงปี 1800~1875

(github.com/haykgrigo3)

5 คะแนน โดย GN⁺ 2026-01-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

TimeCapsuleLLM คือ โมเดลภาษาขนาดใหญ่ (LLM) ที่ฝึกด้วยข้อมูลจากช่วงเวลาที่กำหนดเท่านั้น (1800~1875) โดยมีเป้าหมายเพื่อลดอคติแบบสมัยใหม่ให้เหลือน้อยที่สุด และสร้างภาษาและโลกทัศน์ของยุคนั้นขึ้นมาใหม่
โมเดลใช้ชุดข้อมูลที่ประกอบด้วย เอกสารประวัติศาสตร์ หนังสือ หนังสือพิมพ์ และเอกสารกฎหมายของพื้นที่ลอนดอน เพื่อสะท้อน รูปแบบภาษาและคำศัพท์ตามยุคสมัย
เวอร์ชันแรกสร้างบนพื้นฐานของ nanoGPT และเวอร์ชันถัดมาสร้างบนพื้นฐานของ Microsoft Phi 1.5 โดยมีขนาดข้อมูลสูงสุด 90GB และพารามิเตอร์โมเดลสูงสุด 700M
ใช้วิธี Selective Temporal Training(STT) เพื่อคัดเลือกและฝึกเฉพาะข้อมูลของช่วงเวลาที่ต้องการ โดยออกแบบมาเพื่อไม่ให้มีแนวคิดสมัยใหม่ปะปนอยู่
เป็นโครงการเชิงทดลองที่แสดงให้เห็นถึงความเป็นไปได้ของการวิจัยโมเดลภาษาประวัติศาสตร์และ การจำลองภาษาของปัญญาประดิษฐ์ตามยุคสมัย

ภาพรวมโครงการ

TimeCapsuleLLM เป็น โมเดลภาษาที่ฝึกด้วยข้อมูลจากช่วงเวลาและสถานที่เฉพาะเท่านั้น โดยมีเป้าหมายเพื่อลดอคติแบบสมัยใหม่ และสร้าง คำศัพท์ สำนวนการเขียน และโลกทัศน์ของยุคนั้น ขึ้นมาใหม่
- นำเสนอแนวคิดว่า “AI ไม่ได้แค่เลียนแบบบุคคลในประวัติศาสตร์ แต่เป็นโมเดลที่ใช้ภาษาของยุคนั้นจริง ๆ”
เวอร์ชันเริ่มต้น (v0, v0.5) พัฒนาบนพื้นฐานของ nanoGPT ของ Andrej Karpathy และ v1 พัฒนาบนพื้นฐานของ Microsoft Phi 1.5
โมเดลเปิดเผยบน Hugging Face

จุดเด่นของแต่ละเวอร์ชันโมเดล

v0
- ฝึกด้วยข้อมูลประมาณ 187MB
- ใช้คำศัพท์แบบศตวรรษที่ 19 แต่ประโยคส่วนใหญ่ยังไม่เป็นรูปประโยคที่สมบูรณ์
- ไม่มีแนวคิดสมัยใหม่ปรากฏเลย
v0.5
- ไวยากรณ์และเครื่องหมายวรรคตอนได้รับการปรับปรุง ทำให้จำลอง สำนวนแบบยุควิกตอเรีย ได้
- อัตราความผิดพลาดด้านข้อเท็จจริงยังสูง และมี OCR noise (เช่น “Digitized by Google”) ปะปนอยู่
v1
- สร้างคำตอบที่เชื่อมโยงเหตุการณ์และบุคคลในประวัติศาสตร์จริงได้
- ตัวอย่าง: สำหรับพรอมป์ต์ “It was the year of our Lord 1834” โมเดลสร้างประโยคที่กล่าวถึง การประท้วงและคำร้องในลอนดอน
v2mini-eval1 / eval2
- ฝึก 10K สเต็ปด้วยตัวอย่างข้อมูล 15GB จากทั้งหมด 90GB
- เคยมีปัญหา tokenizer ทำให้คำถูกแยกในการแสดงผล แต่หลังแก้ไขแล้วยังคงโครงสร้างประโยคไว้ได้
- สำหรับพรอมป์ต์อย่าง “Charles Dickens”, “Charles Darwin” สามารถสร้างคำบรรยายแบบศตวรรษที่ 19 ได้

องค์ประกอบของชุดข้อมูล

ชุดข้อมูล v2
- ข้อความจากลอนดอนช่วงปี 1800~1875 ขนาด 90GB รวม 136,344 เอกสาร
- การ tokenization ทั้งหมดยังไม่เสร็จสมบูรณ์ และมีการเผยแพร่ ตัวอย่าง 15GB บน Hugging Face
แหล่งข้อมูลมาจาก หนังสือสาธารณสมบัติ หนังสือพิมพ์ เอกสารกฎหมาย ฯลฯ
ขนาดข้อมูลในแต่ละเวอร์ชัน
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB

Selective Temporal Training(STT)

STT คือ ระเบียบวิธีการฝึกที่ใช้เฉพาะข้อมูลจากช่วงเวลาประวัติศาสตร์ที่กำหนด
- ตัดอิทธิพลของแนวคิดสมัยใหม่ออก และสะท้อนเฉพาะความรู้กับภาษาของยุคนั้น
- TimeCapsuleLLM v0.5 ถูก ฝึกตั้งแต่ต้น (from scratch) ด้วยข้อมูลเฉพาะช่วงปี 1800~1875 เท่านั้น
แทนที่จะใช้ fine-tuning กับโมเดลเดิม โครงการนี้ฝึกใหม่ทั้งหมดเพื่อ กำจัดข้อมูลสมัยใหม่ที่ตกค้างอยู่

ขนาดโมเดลและสภาพแวดล้อมการฝึก

จำนวนพารามิเตอร์ของโมเดล
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
อุปกรณ์ที่ใช้ฝึก
- v0/v0.5: GPU RTX 4060, CPU i5-13400F, RAM 16GB
- v1, v2mini-eval1: เช่าใช้ A100 SXM GPU

วิธีใช้งาน

โครงการนี้มุ่งเน้นที่ การรวบรวมข้อมูลประวัติศาสตร์ การทำความสะอาดข้อมูล และการสร้าง tokenizer
ขั้นตอนเป็นลำดับดังนี้
1. รวบรวมข้อความประวัติศาสตร์: จัดหาเอกสารสาธารณสมบัติ หนังสือ ฯลฯ ตามช่วงเวลา
2. สร้าง tokenizer: รัน train_tokenizer.py เพื่อสร้าง vocab.json, merges.txt
3. ฝึกโมเดล: อ้างอิงเอกสารของ nanoGPT หรือสถาปัตยกรรมที่เลือกใช้

การวิเคราะห์อคติ

มีการจัดเตรียมสื่อภาพสำหรับผลลัพธ์ของ v2mini-eval1 ในด้าน อคติของสรรพนาม อคติเชิงภูมิศาสตร์ และอคติเชิงเวลา
สามารถดูสถิติรายละเอียดได้ในไฟล์ v2_bias_report.json

ไลเซนส์และข้อมูลการเผยแพร่

เผยแพร่ภายใต้ MIT License
บน GitHub มี 1.2k Stars และ 41 Forks
ภาษาหลักคือ Python 100%
รีลีสล่าสุด: v2mini-eval2 — London (1800–1875)

1 ความคิดเห็น

GN⁺ 2026-01-13

ความคิดเห็นบน Hacker News

มีความคิดว่า ถ้าฝึก โมเดลล้ำสมัย โดยตั้งปี 1900 เป็นจุดตัด แล้วลองถามเรื่องกลศาสตร์ควอนตัม (QM) กับทฤษฎีสัมพัทธภาพจะเป็นอย่างไร
ถ้าโมเดลตอบได้ถูกต้องแม้เพียงเล็กน้อย ก็จะเป็นหลักฐานที่ทรงพลังว่า LLM คือเส้นทางไปสู่ปัญญาที่ยิ่งใหญ่กว่า
- ในยุคนั้นก็มีแนวคิดที่ใกล้กับ QM และทฤษฎีสัมพัทธภาพอยู่แล้ว
  การทดลอง Michelson-Morley (1887), การแปลงลอเรนซ์ (1889), ปรากฏการณ์โฟโตอิเล็กทริก (1887) เป็นตัวอย่าง
  William Clifford เสียชีวิตในปี 1889 แต่ได้เสนอแนวคิดที่จะอธิบายแรงและสสารด้วย ความโค้งของอวกาศ
  วิทยาศาสตร์ไม่ได้เกิดขึ้นอย่างฉับพลัน และหากสังเคราะห์งานวิจัยในยุคนั้นเข้าด้วยกัน ก็อาจนำไปสู่ทฤษฎีเหล่านี้ได้อย่างเป็นธรรมชาติ
- ฉันกำลังทำโปรเจ็กต์ฝึกโมเดลโดยเน้นวรรณกรรมวิทยาศาสตร์ภาษาเยอรมัน (ก่อนปี 1904)
  คุณภาพ OCR แย่มากจนส่วนใหญ่ต้องจัดการเอง แต่ โมเดลขนาด 700M พารามิเตอร์ ยังพอทำที่บ้านได้
  อย่างไรก็ตาม ถ้าจะให้มีความสามารถในการให้เหตุผลจริง ๆ ต้องใช้โมเดลระดับ 70B
  อีกทั้งยังมีโจทย์ใหญ่ว่าจะป้องกันไม่ให้ความรู้จากปี 2026 ปะปนเข้ามาระหว่างกระบวนการ fine-tuning และ RL ได้อย่างไร
- สาขาเคมีก็เป็นเป้าหมายการทดลองที่น่าสนใจ
  ช่วงปลายศตวรรษที่ 19 คือยุคทองของเคมี และน่าสนใจว่า LLM จะสามารถให้ การคาดการณ์เชิงอุณหพลศาสตร์ หรือเสนอสมมติฐานใหม่ได้หรือไม่
- มีโปรเจ็กต์ที่เคยลองแนวทางคล้ายกันแล้ว: history-llms
  ดูการถกเถียงที่เกี่ยวข้องได้ใน เธรด HN
- งานของ Li และคณะ (2024) "Evaluating Large Language Models for Generalization and Robustness via Data Compression" ก็น่าอ้างอิงเช่นกัน
  แนวทางที่ใช้ อัตราการบีบอัดข้อมูล (perplexity) เพื่อวัดความสามารถในการทำให้ทั่วไปและความแข็งแกร่งของโมเดลนั้นน่าประทับใจมาก
การคิดว่า “Who art Henry” เป็นภาษาอังกฤษแบบศตวรรษที่ 19 ดูเป็นตัวอย่างของการ ขาดสัญชาตญาณทางภาษาศาสตร์เชิงประวัติศาสตร์
เพราะจริง ๆ แล้วมันไม่ถูกหลักไวยากรณ์ในยุคไหนเลย
- ในฐานะคนที่อ่านหนังสือคริสต์ศาสนาช่วงศตวรรษที่ 17~19 มามาก ฉันเห็นด้วยว่าคำนี้ฟังดูแปลก
- ถ้า “Who art Henry” คือพรอมป์ต์ ก็ชวนสงสัยว่าคำแบบศตวรรษที่ 19 ที่ถูกต้องจริง ๆ ควรเป็นอย่างไร
น่าสนใจว่า การทดลองนี้จะเป็นบททดสอบที่แสดงความเป็นไปได้ของ AGI ได้หรือไม่
คำถามคือ ถ้าให้ข้อมูลเฉพาะก่อนช่วงเวลาหนึ่ง (ปี X) จะสามารถอนุมานการค้นพบในภายหลัง (Y) ได้เองหรือไม่
- ต้องนิยาม AGI ให้ชัดก่อน
  การค้นพบบางอย่างอาจเกิดจากการผสมแนวคิดเดิม แต่ ทฤษฎีสัมพัทธภาพและกลศาสตร์ควอนตัม ต้องพึ่งการทดลองอย่างจำเป็น
  ตัวอย่างเช่น โมเดลในยุคนั้นอาจพัฒนาทฤษฎีสัมพัทธภาพทั่วไปในเชิงคณิตศาสตร์ได้ แต่ก็น่าจะอธิบายการเคลื่อนที่ของจุดใกล้ดวงอาทิตย์ที่สุดของดาวพุธว่าเกิดจาก ดาวเคราะห์ Vulcan มากกว่า (วิกิของ Vulcan)
- แทบเป็นไปไม่ได้เลยที่จะป้องกัน data leak ได้อย่างสมบูรณ์
  เอกสารที่จัดหมวดหมู่ผิด เชิงอรรถ เมทาดาทา ฯลฯ ล้วนมีความเสี่ยงที่ ความรู้จะรั่วไหลเข้ามา
- โดยพื้นฐานแล้ว หากมีแค่ข้อมูลเก่า ปริมาณก็ไม่พอจะฝึกโมเดล SoTA ได้
- ถ้าจะให้การทดลองนี้เป็นไปได้จริง คงต้องใช้โมเดลระดับ GPT-5
  ต้องมีทั้งข้อความจำนวนมหาศาล พารามิเตอร์ขนาดใหญ่ และกระบวนการ RLHF แบบศตวรรษที่ 19
- การทดลองแบบนี้จะเป็นบททดสอบจริงว่า LLM คิดอย่างสร้างสรรค์ หรือแค่ท่องจำสิ่งเดิม
มีการเสนอไอเดียให้เปรียบเทียบโมเดลที่ฝึกด้วยข้อมูลปี 1800~1875 กับโมเดลที่ฝึกด้วยข้อมูลปี 1800~2025
แล้วใช้ความแตกต่างของการกระจายความน่าจะเป็นทั้งสองเพื่อพยายามคาดการณ์ปี 2040
ในทางปฏิบัติคงทำนายได้แม่นยำยาก แต่ในฐานะการทดลองเรื่อง การอินเตอร์โพเลต/เอ็กซ์ทราโพเลตของการกระจายความน่าจะเป็น ก็ดูน่าสนุก
- มีมุกด้วยว่า หรือบางทีมันอาจฟังดูเหมือน สแลงของเด็ก Gen Alpha ก็ได้
เป็นแนวคิดที่น่าสนใจ แต่ข้อมูลบันทึกในยุคนั้นมี อคติที่เอนเอียงไปทางชนชั้นปัญญาชน
ไม่ใช่ยุคที่ทุกคนทิ้งร่องรอยเป็นลายลักษณ์อักษรเหมือนปัจจุบัน
โมเดลสมัยใหม่ฝึกจากข้อความหลายสิบ TB แต่ข้อมูลศตวรรษที่ 19 มีน้อยกว่ามากและขาดความหลากหลาย
ดังนั้นการตอบคำถามอย่าง “ในปี 1834 เกิดอะไรขึ้น?” ด้วยสำนวนคล้ายข่าวหนังสือพิมพ์จึงเป็นผลลัพธ์ที่เป็นธรรมชาติ
- แต่ อคติที่สม่ำเสมอ แบบนี้อาจกลายเป็นข้อดีได้
  LLM ปัจจุบันมีความคิดจากผู้คนจำนวนมากปะปนกันจนบางครั้งให้ ผลลัพธ์ที่มีสัญญาณรบกวนสูง
  โมเดลที่ฝึกจากมุมมองอันสม่ำเสมอของยุคหนึ่งอาจมี สไตล์การตอบ ที่คาดเดาได้มากกว่า
- อคติที่ปรากฏชัดจากข้อจำกัดที่สร้างขึ้นโดยตั้งใจ อาจช่วยให้มองเห็น อคติที่ซ่อนอยู่ ในโมเดลรุ่นใหม่ได้ด้วย
- โมเดลสมัยใหม่เอนเอียงไปทางภาษาอังกฤษ มุมมองแบบตะวันตก และทัศนะหลังยุค 1990
  นอกจากนี้ กระบวนการ alignment ยังสะท้อนค่านิยมของผู้ให้บริการด้วย
  ในทางกลับกัน โมเดลที่อิงข้อมูลอดีตคือการสะท้อนอคติของยุคนั้นแบบ “โดยบังเอิญ”
อย่างน้อยโมเดลแบบนี้ก็น่าจะช่วย หยุดการล้นทะลักของอีโมจิ ได้
แต่ก็ชวนสงสัยว่าการทำ tokenization จะต่างออกไปอย่างไร
มันอาจไม่มีความรู้ด้านการเขียนโค้ด แต่ถ้ารวมกับ LLM สมัยใหม่ ก็อาจสร้าง คำอธิบายโค้ดในสไตล์ศตวรรษที่ 19 ได้
กำลังคิดอยู่ว่าจะผสมเลเยอร์กันได้ไหม คล้ายกับ โมเดล style transfer ในอดีต
- มีคนเสนอว่า “แค่ให้สองโมเดลคุยกันเองไม่พอเหรอ?”
การฝึกโมเดลจากเอกสารก่อนยุคสารสนเทศแล้วสอนโมเดลนั้นว่า ‘คอมพิวเตอร์คืออะไร’ ให้ความรู้สึกน่ารักดี
แต่ผลลัพธ์ตอนนี้ยังใกล้เคียง ระดับ Markov chain มากกว่า ChatGPT
ทำให้นึกถึงอีกโปรเจ็กต์ “time-locked LLM” ที่เพิ่งขึ้น HN ไม่นานนี้
ผลงานออกมาดูดี แต่เขากำลังคิดหนักว่าจะป้องกัน การใช้ผิดวัตถุประสงค์และความเข้าใจผิด อย่างไร
ดู เธรดที่เกี่ยวข้อง
ถ้าโมเดลนี้ให้ผลลัพธ์อย่างสม่ำเสมอได้จริง ก็อาจใช้โต้แย้งข้ออ้างที่ว่า ข้อมูลมีลิขสิทธิ์เป็นสิ่งจำเป็น สำหรับการฝึก LLM ได้
แต่ตอนนี้ดูเหมือนยังไม่ถึงระดับนั้น
- อ้างอิงเพิ่มเติม มีกรณีที่สร้างโมเดลได้ค่อนข้างดีโดยใช้ข้อมูลสาธารณะล้วน ๆ
  The Common Pile v0.1 สร้าง โมเดลขนาด 7B พารามิเตอร์ จากข้อความสาธารณะ 8TB
ฉันเองก็เคยลองการทดลองคล้ายกัน: โปรเจ็กต์ transformer
ฝึกโมเดลแยกกันด้วยวรรณกรรมที่ต่างกัน เช่น พระคัมภีร์ ดอนกิโฆเต้ และคาฟคา
(เคยมีตัวสร้างเนื้อเพลงกับตัวแปลด้วย แต่คุณภาพไม่ค่อยดีนัก)

TimeCapsuleLLM: โมเดลภาษาขนาดใหญ่ที่ฝึกด้วยข้อมูลเฉพาะช่วงปี 1800~1875

ภาพรวมโครงการ

จุดเด่นของแต่ละเวอร์ชันโมเดล

องค์ประกอบของชุดข้อมูล

Selective Temporal Training(STT)

ขนาดโมเดลและสภาพแวดล้อมการฝึก

วิธีใช้งาน

การวิเคราะห์อคติ

ไลเซนส์และข้อมูลการเผยแพร่

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News