5 คะแนน โดย GN⁺ 2026-01-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • TimeCapsuleLLM คือ โมเดลภาษาขนาดใหญ่ (LLM) ที่ฝึกด้วยข้อมูลจากช่วงเวลาที่กำหนดเท่านั้น (1800~1875) โดยมีเป้าหมายเพื่อลดอคติแบบสมัยใหม่ให้เหลือน้อยที่สุด และสร้างภาษาและโลกทัศน์ของยุคนั้นขึ้นมาใหม่
  • โมเดลใช้ชุดข้อมูลที่ประกอบด้วย เอกสารประวัติศาสตร์ หนังสือ หนังสือพิมพ์ และเอกสารกฎหมายของพื้นที่ลอนดอน เพื่อสะท้อน รูปแบบภาษาและคำศัพท์ตามยุคสมัย
  • เวอร์ชันแรกสร้างบนพื้นฐานของ nanoGPT และเวอร์ชันถัดมาสร้างบนพื้นฐานของ Microsoft Phi 1.5 โดยมีขนาดข้อมูลสูงสุด 90GB และพารามิเตอร์โมเดลสูงสุด 700M
  • ใช้วิธี Selective Temporal Training(STT) เพื่อคัดเลือกและฝึกเฉพาะข้อมูลของช่วงเวลาที่ต้องการ โดยออกแบบมาเพื่อไม่ให้มีแนวคิดสมัยใหม่ปะปนอยู่
  • เป็นโครงการเชิงทดลองที่แสดงให้เห็นถึงความเป็นไปได้ของการวิจัยโมเดลภาษาประวัติศาสตร์และ การจำลองภาษาของปัญญาประดิษฐ์ตามยุคสมัย

ภาพรวมโครงการ

  • TimeCapsuleLLM เป็น โมเดลภาษาที่ฝึกด้วยข้อมูลจากช่วงเวลาและสถานที่เฉพาะเท่านั้น โดยมีเป้าหมายเพื่อลดอคติแบบสมัยใหม่ และสร้าง คำศัพท์ สำนวนการเขียน และโลกทัศน์ของยุคนั้น ขึ้นมาใหม่
    • นำเสนอแนวคิดว่า “AI ไม่ได้แค่เลียนแบบบุคคลในประวัติศาสตร์ แต่เป็นโมเดลที่ใช้ภาษาของยุคนั้นจริง ๆ”
  • เวอร์ชันเริ่มต้น (v0, v0.5) พัฒนาบนพื้นฐานของ nanoGPT ของ Andrej Karpathy และ v1 พัฒนาบนพื้นฐานของ Microsoft Phi 1.5
  • โมเดลเปิดเผยบน Hugging Face

จุดเด่นของแต่ละเวอร์ชันโมเดล

  • v0
    • ฝึกด้วยข้อมูลประมาณ 187MB
    • ใช้คำศัพท์แบบศตวรรษที่ 19 แต่ประโยคส่วนใหญ่ยังไม่เป็นรูปประโยคที่สมบูรณ์
    • ไม่มีแนวคิดสมัยใหม่ปรากฏเลย
  • v0.5
    • ไวยากรณ์และเครื่องหมายวรรคตอนได้รับการปรับปรุง ทำให้จำลอง สำนวนแบบยุควิกตอเรีย ได้
    • อัตราความผิดพลาดด้านข้อเท็จจริงยังสูง และมี OCR noise (เช่น “Digitized by Google”) ปะปนอยู่
  • v1
    • สร้างคำตอบที่เชื่อมโยงเหตุการณ์และบุคคลในประวัติศาสตร์จริงได้
    • ตัวอย่าง: สำหรับพรอมป์ต์ “It was the year of our Lord 1834” โมเดลสร้างประโยคที่กล่าวถึง การประท้วงและคำร้องในลอนดอน
  • v2mini-eval1 / eval2
    • ฝึก 10K สเต็ปด้วยตัวอย่างข้อมูล 15GB จากทั้งหมด 90GB
    • เคยมีปัญหา tokenizer ทำให้คำถูกแยกในการแสดงผล แต่หลังแก้ไขแล้วยังคงโครงสร้างประโยคไว้ได้
    • สำหรับพรอมป์ต์อย่าง “Charles Dickens”, “Charles Darwin” สามารถสร้างคำบรรยายแบบศตวรรษที่ 19 ได้

องค์ประกอบของชุดข้อมูล

  • ชุดข้อมูล v2
    • ข้อความจากลอนดอนช่วงปี 1800~1875 ขนาด 90GB รวม 136,344 เอกสาร
    • การ tokenization ทั้งหมดยังไม่เสร็จสมบูรณ์ และมีการเผยแพร่ ตัวอย่าง 15GB บน Hugging Face
  • แหล่งข้อมูลมาจาก หนังสือสาธารณสมบัติ หนังสือพิมพ์ เอกสารกฎหมาย ฯลฯ
  • ขนาดข้อมูลในแต่ละเวอร์ชัน
    • v0: 187MB
    • v0.5: 435MB
    • v1: 6.25GB
    • v2mini-eval1: 15GB

Selective Temporal Training(STT)

  • STT คือ ระเบียบวิธีการฝึกที่ใช้เฉพาะข้อมูลจากช่วงเวลาประวัติศาสตร์ที่กำหนด
    • ตัดอิทธิพลของแนวคิดสมัยใหม่ออก และสะท้อนเฉพาะความรู้กับภาษาของยุคนั้น
    • TimeCapsuleLLM v0.5 ถูก ฝึกตั้งแต่ต้น (from scratch) ด้วยข้อมูลเฉพาะช่วงปี 1800~1875 เท่านั้น
  • แทนที่จะใช้ fine-tuning กับโมเดลเดิม โครงการนี้ฝึกใหม่ทั้งหมดเพื่อ กำจัดข้อมูลสมัยใหม่ที่ตกค้างอยู่

ขนาดโมเดลและสภาพแวดล้อมการฝึก

  • จำนวนพารามิเตอร์ของโมเดล
    • v0: 16M
    • v0.5: 123M
    • v1: 700M
    • v2mini-eval1: 300M
  • อุปกรณ์ที่ใช้ฝึก
    • v0/v0.5: GPU RTX 4060, CPU i5-13400F, RAM 16GB
    • v1, v2mini-eval1: เช่าใช้ A100 SXM GPU

วิธีใช้งาน

  • โครงการนี้มุ่งเน้นที่ การรวบรวมข้อมูลประวัติศาสตร์ การทำความสะอาดข้อมูล และการสร้าง tokenizer
  • ขั้นตอนเป็นลำดับดังนี้
    1. รวบรวมข้อความประวัติศาสตร์: จัดหาเอกสารสาธารณสมบัติ หนังสือ ฯลฯ ตามช่วงเวลา
    2. สร้าง tokenizer: รัน train_tokenizer.py เพื่อสร้าง vocab.json, merges.txt
    3. ฝึกโมเดล: อ้างอิงเอกสารของ nanoGPT หรือสถาปัตยกรรมที่เลือกใช้

การวิเคราะห์อคติ

  • มีการจัดเตรียมสื่อภาพสำหรับผลลัพธ์ของ v2mini-eval1 ในด้าน อคติของสรรพนาม อคติเชิงภูมิศาสตร์ และอคติเชิงเวลา
  • สามารถดูสถิติรายละเอียดได้ในไฟล์ v2_bias_report.json

ไลเซนส์และข้อมูลการเผยแพร่

  • เผยแพร่ภายใต้ MIT License
  • บน GitHub มี 1.2k Stars และ 41 Forks
  • ภาษาหลักคือ Python 100%
  • รีลีสล่าสุด: v2mini-eval2 — London (1800–1875)

1 ความคิดเห็น

 
GN⁺ 2026-01-13
ความคิดเห็นบน Hacker News
  • มีความคิดว่า ถ้าฝึก โมเดลล้ำสมัย โดยตั้งปี 1900 เป็นจุดตัด แล้วลองถามเรื่องกลศาสตร์ควอนตัม (QM) กับทฤษฎีสัมพัทธภาพจะเป็นอย่างไร
    ถ้าโมเดลตอบได้ถูกต้องแม้เพียงเล็กน้อย ก็จะเป็นหลักฐานที่ทรงพลังว่า LLM คือเส้นทางไปสู่ปัญญาที่ยิ่งใหญ่กว่า

    • ในยุคนั้นก็มีแนวคิดที่ใกล้กับ QM และทฤษฎีสัมพัทธภาพอยู่แล้ว
      การทดลอง Michelson-Morley (1887), การแปลงลอเรนซ์ (1889), ปรากฏการณ์โฟโตอิเล็กทริก (1887) เป็นตัวอย่าง
      William Clifford เสียชีวิตในปี 1889 แต่ได้เสนอแนวคิดที่จะอธิบายแรงและสสารด้วย ความโค้งของอวกาศ
      วิทยาศาสตร์ไม่ได้เกิดขึ้นอย่างฉับพลัน และหากสังเคราะห์งานวิจัยในยุคนั้นเข้าด้วยกัน ก็อาจนำไปสู่ทฤษฎีเหล่านี้ได้อย่างเป็นธรรมชาติ
    • ฉันกำลังทำโปรเจ็กต์ฝึกโมเดลโดยเน้นวรรณกรรมวิทยาศาสตร์ภาษาเยอรมัน (ก่อนปี 1904)
      คุณภาพ OCR แย่มากจนส่วนใหญ่ต้องจัดการเอง แต่ โมเดลขนาด 700M พารามิเตอร์ ยังพอทำที่บ้านได้
      อย่างไรก็ตาม ถ้าจะให้มีความสามารถในการให้เหตุผลจริง ๆ ต้องใช้โมเดลระดับ 70B
      อีกทั้งยังมีโจทย์ใหญ่ว่าจะป้องกันไม่ให้ความรู้จากปี 2026 ปะปนเข้ามาระหว่างกระบวนการ fine-tuning และ RL ได้อย่างไร
    • สาขาเคมีก็เป็นเป้าหมายการทดลองที่น่าสนใจ
      ช่วงปลายศตวรรษที่ 19 คือยุคทองของเคมี และน่าสนใจว่า LLM จะสามารถให้ การคาดการณ์เชิงอุณหพลศาสตร์ หรือเสนอสมมติฐานใหม่ได้หรือไม่
    • มีโปรเจ็กต์ที่เคยลองแนวทางคล้ายกันแล้ว: history-llms
      ดูการถกเถียงที่เกี่ยวข้องได้ใน เธรด HN
    • งานของ Li และคณะ (2024) "Evaluating Large Language Models for Generalization and Robustness via Data Compression" ก็น่าอ้างอิงเช่นกัน
      แนวทางที่ใช้ อัตราการบีบอัดข้อมูล (perplexity) เพื่อวัดความสามารถในการทำให้ทั่วไปและความแข็งแกร่งของโมเดลนั้นน่าประทับใจมาก
  • การคิดว่า “Who art Henry” เป็นภาษาอังกฤษแบบศตวรรษที่ 19 ดูเป็นตัวอย่างของการ ขาดสัญชาตญาณทางภาษาศาสตร์เชิงประวัติศาสตร์
    เพราะจริง ๆ แล้วมันไม่ถูกหลักไวยากรณ์ในยุคไหนเลย

    • ในฐานะคนที่อ่านหนังสือคริสต์ศาสนาช่วงศตวรรษที่ 17~19 มามาก ฉันเห็นด้วยว่าคำนี้ฟังดูแปลก
    • ถ้า “Who art Henry” คือพรอมป์ต์ ก็ชวนสงสัยว่าคำแบบศตวรรษที่ 19 ที่ถูกต้องจริง ๆ ควรเป็นอย่างไร
  • น่าสนใจว่า การทดลองนี้จะเป็นบททดสอบที่แสดงความเป็นไปได้ของ AGI ได้หรือไม่
    คำถามคือ ถ้าให้ข้อมูลเฉพาะก่อนช่วงเวลาหนึ่ง (ปี X) จะสามารถอนุมานการค้นพบในภายหลัง (Y) ได้เองหรือไม่

    • ต้องนิยาม AGI ให้ชัดก่อน
      การค้นพบบางอย่างอาจเกิดจากการผสมแนวคิดเดิม แต่ ทฤษฎีสัมพัทธภาพและกลศาสตร์ควอนตัม ต้องพึ่งการทดลองอย่างจำเป็น
      ตัวอย่างเช่น โมเดลในยุคนั้นอาจพัฒนาทฤษฎีสัมพัทธภาพทั่วไปในเชิงคณิตศาสตร์ได้ แต่ก็น่าจะอธิบายการเคลื่อนที่ของจุดใกล้ดวงอาทิตย์ที่สุดของดาวพุธว่าเกิดจาก ดาวเคราะห์ Vulcan มากกว่า (วิกิของ Vulcan)
    • แทบเป็นไปไม่ได้เลยที่จะป้องกัน data leak ได้อย่างสมบูรณ์
      เอกสารที่จัดหมวดหมู่ผิด เชิงอรรถ เมทาดาทา ฯลฯ ล้วนมีความเสี่ยงที่ ความรู้จะรั่วไหลเข้ามา
    • โดยพื้นฐานแล้ว หากมีแค่ข้อมูลเก่า ปริมาณก็ไม่พอจะฝึกโมเดล SoTA ได้
    • ถ้าจะให้การทดลองนี้เป็นไปได้จริง คงต้องใช้โมเดลระดับ GPT-5
      ต้องมีทั้งข้อความจำนวนมหาศาล พารามิเตอร์ขนาดใหญ่ และกระบวนการ RLHF แบบศตวรรษที่ 19
    • การทดลองแบบนี้จะเป็นบททดสอบจริงว่า LLM คิดอย่างสร้างสรรค์ หรือแค่ท่องจำสิ่งเดิม
  • มีการเสนอไอเดียให้เปรียบเทียบโมเดลที่ฝึกด้วยข้อมูลปี 1800~1875 กับโมเดลที่ฝึกด้วยข้อมูลปี 1800~2025
    แล้วใช้ความแตกต่างของการกระจายความน่าจะเป็นทั้งสองเพื่อพยายามคาดการณ์ปี 2040
    ในทางปฏิบัติคงทำนายได้แม่นยำยาก แต่ในฐานะการทดลองเรื่อง การอินเตอร์โพเลต/เอ็กซ์ทราโพเลตของการกระจายความน่าจะเป็น ก็ดูน่าสนุก

    • มีมุกด้วยว่า หรือบางทีมันอาจฟังดูเหมือน สแลงของเด็ก Gen Alpha ก็ได้
  • เป็นแนวคิดที่น่าสนใจ แต่ข้อมูลบันทึกในยุคนั้นมี อคติที่เอนเอียงไปทางชนชั้นปัญญาชน
    ไม่ใช่ยุคที่ทุกคนทิ้งร่องรอยเป็นลายลักษณ์อักษรเหมือนปัจจุบัน
    โมเดลสมัยใหม่ฝึกจากข้อความหลายสิบ TB แต่ข้อมูลศตวรรษที่ 19 มีน้อยกว่ามากและขาดความหลากหลาย
    ดังนั้นการตอบคำถามอย่าง “ในปี 1834 เกิดอะไรขึ้น?” ด้วยสำนวนคล้ายข่าวหนังสือพิมพ์จึงเป็นผลลัพธ์ที่เป็นธรรมชาติ

    • แต่ อคติที่สม่ำเสมอ แบบนี้อาจกลายเป็นข้อดีได้
      LLM ปัจจุบันมีความคิดจากผู้คนจำนวนมากปะปนกันจนบางครั้งให้ ผลลัพธ์ที่มีสัญญาณรบกวนสูง
      โมเดลที่ฝึกจากมุมมองอันสม่ำเสมอของยุคหนึ่งอาจมี สไตล์การตอบ ที่คาดเดาได้มากกว่า
    • อคติที่ปรากฏชัดจากข้อจำกัดที่สร้างขึ้นโดยตั้งใจ อาจช่วยให้มองเห็น อคติที่ซ่อนอยู่ ในโมเดลรุ่นใหม่ได้ด้วย
    • โมเดลสมัยใหม่เอนเอียงไปทางภาษาอังกฤษ มุมมองแบบตะวันตก และทัศนะหลังยุค 1990
      นอกจากนี้ กระบวนการ alignment ยังสะท้อนค่านิยมของผู้ให้บริการด้วย
      ในทางกลับกัน โมเดลที่อิงข้อมูลอดีตคือการสะท้อนอคติของยุคนั้นแบบ “โดยบังเอิญ”
  • อย่างน้อยโมเดลแบบนี้ก็น่าจะช่วย หยุดการล้นทะลักของอีโมจิ ได้
    แต่ก็ชวนสงสัยว่าการทำ tokenization จะต่างออกไปอย่างไร
    มันอาจไม่มีความรู้ด้านการเขียนโค้ด แต่ถ้ารวมกับ LLM สมัยใหม่ ก็อาจสร้าง คำอธิบายโค้ดในสไตล์ศตวรรษที่ 19 ได้
    กำลังคิดอยู่ว่าจะผสมเลเยอร์กันได้ไหม คล้ายกับ โมเดล style transfer ในอดีต

    • มีคนเสนอว่า “แค่ให้สองโมเดลคุยกันเองไม่พอเหรอ?”
  • การฝึกโมเดลจากเอกสารก่อนยุคสารสนเทศแล้วสอนโมเดลนั้นว่า ‘คอมพิวเตอร์คืออะไร’ ให้ความรู้สึกน่ารักดี
    แต่ผลลัพธ์ตอนนี้ยังใกล้เคียง ระดับ Markov chain มากกว่า ChatGPT

  • ทำให้นึกถึงอีกโปรเจ็กต์ “time-locked LLM” ที่เพิ่งขึ้น HN ไม่นานนี้
    ผลงานออกมาดูดี แต่เขากำลังคิดหนักว่าจะป้องกัน การใช้ผิดวัตถุประสงค์และความเข้าใจผิด อย่างไร
    ดู เธรดที่เกี่ยวข้อง

  • ถ้าโมเดลนี้ให้ผลลัพธ์อย่างสม่ำเสมอได้จริง ก็อาจใช้โต้แย้งข้ออ้างที่ว่า ข้อมูลมีลิขสิทธิ์เป็นสิ่งจำเป็น สำหรับการฝึก LLM ได้
    แต่ตอนนี้ดูเหมือนยังไม่ถึงระดับนั้น

    • อ้างอิงเพิ่มเติม มีกรณีที่สร้างโมเดลได้ค่อนข้างดีโดยใช้ข้อมูลสาธารณะล้วน ๆ
      The Common Pile v0.1 สร้าง โมเดลขนาด 7B พารามิเตอร์ จากข้อความสาธารณะ 8TB
  • ฉันเองก็เคยลองการทดลองคล้ายกัน: โปรเจ็กต์ transformer
    ฝึกโมเดลแยกกันด้วยวรรณกรรมที่ต่างกัน เช่น พระคัมภีร์ ดอนกิโฆเต้ และคาฟคา
    (เคยมีตัวสร้างเนื้อเพลงกับตัวแปลด้วย แต่คุณภาพไม่ค่อยดีนัก)