- TimeCapsuleLLM คือ โมเดลภาษาขนาดใหญ่ (LLM) ที่ฝึกด้วยข้อมูลจากช่วงเวลาที่กำหนดเท่านั้น (1800~1875) โดยมีเป้าหมายเพื่อลดอคติแบบสมัยใหม่ให้เหลือน้อยที่สุด และสร้างภาษาและโลกทัศน์ของยุคนั้นขึ้นมาใหม่
- โมเดลใช้ชุดข้อมูลที่ประกอบด้วย เอกสารประวัติศาสตร์ หนังสือ หนังสือพิมพ์ และเอกสารกฎหมายของพื้นที่ลอนดอน เพื่อสะท้อน รูปแบบภาษาและคำศัพท์ตามยุคสมัย
- เวอร์ชันแรกสร้างบนพื้นฐานของ nanoGPT และเวอร์ชันถัดมาสร้างบนพื้นฐานของ Microsoft Phi 1.5 โดยมีขนาดข้อมูลสูงสุด 90GB และพารามิเตอร์โมเดลสูงสุด 700M
- ใช้วิธี Selective Temporal Training(STT) เพื่อคัดเลือกและฝึกเฉพาะข้อมูลของช่วงเวลาที่ต้องการ โดยออกแบบมาเพื่อไม่ให้มีแนวคิดสมัยใหม่ปะปนอยู่
- เป็นโครงการเชิงทดลองที่แสดงให้เห็นถึงความเป็นไปได้ของการวิจัยโมเดลภาษาประวัติศาสตร์และ การจำลองภาษาของปัญญาประดิษฐ์ตามยุคสมัย
ภาพรวมโครงการ
- TimeCapsuleLLM เป็น โมเดลภาษาที่ฝึกด้วยข้อมูลจากช่วงเวลาและสถานที่เฉพาะเท่านั้น โดยมีเป้าหมายเพื่อลดอคติแบบสมัยใหม่ และสร้าง คำศัพท์ สำนวนการเขียน และโลกทัศน์ของยุคนั้น ขึ้นมาใหม่
- นำเสนอแนวคิดว่า “AI ไม่ได้แค่เลียนแบบบุคคลในประวัติศาสตร์ แต่เป็นโมเดลที่ใช้ภาษาของยุคนั้นจริง ๆ”
- เวอร์ชันเริ่มต้น (v0, v0.5) พัฒนาบนพื้นฐานของ nanoGPT ของ Andrej Karpathy และ v1 พัฒนาบนพื้นฐานของ Microsoft Phi 1.5
- โมเดลเปิดเผยบน Hugging Face
จุดเด่นของแต่ละเวอร์ชันโมเดล
- v0
- ฝึกด้วยข้อมูลประมาณ 187MB
- ใช้คำศัพท์แบบศตวรรษที่ 19 แต่ประโยคส่วนใหญ่ยังไม่เป็นรูปประโยคที่สมบูรณ์
- ไม่มีแนวคิดสมัยใหม่ปรากฏเลย
- v0.5
- ไวยากรณ์และเครื่องหมายวรรคตอนได้รับการปรับปรุง ทำให้จำลอง สำนวนแบบยุควิกตอเรีย ได้
- อัตราความผิดพลาดด้านข้อเท็จจริงยังสูง และมี OCR noise (เช่น “Digitized by Google”) ปะปนอยู่
- v1
- สร้างคำตอบที่เชื่อมโยงเหตุการณ์และบุคคลในประวัติศาสตร์จริงได้
- ตัวอย่าง: สำหรับพรอมป์ต์ “It was the year of our Lord 1834” โมเดลสร้างประโยคที่กล่าวถึง การประท้วงและคำร้องในลอนดอน
- v2mini-eval1 / eval2
- ฝึก 10K สเต็ปด้วยตัวอย่างข้อมูล 15GB จากทั้งหมด 90GB
- เคยมีปัญหา tokenizer ทำให้คำถูกแยกในการแสดงผล แต่หลังแก้ไขแล้วยังคงโครงสร้างประโยคไว้ได้
- สำหรับพรอมป์ต์อย่าง “Charles Dickens”, “Charles Darwin” สามารถสร้างคำบรรยายแบบศตวรรษที่ 19 ได้
องค์ประกอบของชุดข้อมูล
- ชุดข้อมูล v2
- ข้อความจากลอนดอนช่วงปี 1800~1875 ขนาด 90GB รวม 136,344 เอกสาร
- การ tokenization ทั้งหมดยังไม่เสร็จสมบูรณ์ และมีการเผยแพร่ ตัวอย่าง 15GB บน Hugging Face
- แหล่งข้อมูลมาจาก หนังสือสาธารณสมบัติ หนังสือพิมพ์ เอกสารกฎหมาย ฯลฯ
- ขนาดข้อมูลในแต่ละเวอร์ชัน
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB
Selective Temporal Training(STT)
- STT คือ ระเบียบวิธีการฝึกที่ใช้เฉพาะข้อมูลจากช่วงเวลาประวัติศาสตร์ที่กำหนด
- ตัดอิทธิพลของแนวคิดสมัยใหม่ออก และสะท้อนเฉพาะความรู้กับภาษาของยุคนั้น
- TimeCapsuleLLM v0.5 ถูก ฝึกตั้งแต่ต้น (from scratch) ด้วยข้อมูลเฉพาะช่วงปี 1800~1875 เท่านั้น
- แทนที่จะใช้ fine-tuning กับโมเดลเดิม โครงการนี้ฝึกใหม่ทั้งหมดเพื่อ กำจัดข้อมูลสมัยใหม่ที่ตกค้างอยู่
ขนาดโมเดลและสภาพแวดล้อมการฝึก
- จำนวนพารามิเตอร์ของโมเดล
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
- อุปกรณ์ที่ใช้ฝึก
- v0/v0.5: GPU RTX 4060, CPU i5-13400F, RAM 16GB
- v1, v2mini-eval1: เช่าใช้ A100 SXM GPU
วิธีใช้งาน
- โครงการนี้มุ่งเน้นที่ การรวบรวมข้อมูลประวัติศาสตร์ การทำความสะอาดข้อมูล และการสร้าง tokenizer
- ขั้นตอนเป็นลำดับดังนี้
- รวบรวมข้อความประวัติศาสตร์: จัดหาเอกสารสาธารณสมบัติ หนังสือ ฯลฯ ตามช่วงเวลา
- สร้าง tokenizer: รัน
train_tokenizer.py เพื่อสร้าง vocab.json, merges.txt
- ฝึกโมเดล: อ้างอิงเอกสารของ nanoGPT หรือสถาปัตยกรรมที่เลือกใช้
การวิเคราะห์อคติ
- มีการจัดเตรียมสื่อภาพสำหรับผลลัพธ์ของ v2mini-eval1 ในด้าน อคติของสรรพนาม อคติเชิงภูมิศาสตร์ และอคติเชิงเวลา
- สามารถดูสถิติรายละเอียดได้ในไฟล์
v2_bias_report.json
ไลเซนส์และข้อมูลการเผยแพร่
- เผยแพร่ภายใต้ MIT License
- บน GitHub มี 1.2k Stars และ 41 Forks
- ภาษาหลักคือ Python 100%
- รีลีสล่าสุด: v2mini-eval2 — London (1800–1875)
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
มีความคิดว่า ถ้าฝึก โมเดลล้ำสมัย โดยตั้งปี 1900 เป็นจุดตัด แล้วลองถามเรื่องกลศาสตร์ควอนตัม (QM) กับทฤษฎีสัมพัทธภาพจะเป็นอย่างไร
ถ้าโมเดลตอบได้ถูกต้องแม้เพียงเล็กน้อย ก็จะเป็นหลักฐานที่ทรงพลังว่า LLM คือเส้นทางไปสู่ปัญญาที่ยิ่งใหญ่กว่า
การทดลอง Michelson-Morley (1887), การแปลงลอเรนซ์ (1889), ปรากฏการณ์โฟโตอิเล็กทริก (1887) เป็นตัวอย่าง
William Clifford เสียชีวิตในปี 1889 แต่ได้เสนอแนวคิดที่จะอธิบายแรงและสสารด้วย ความโค้งของอวกาศ
วิทยาศาสตร์ไม่ได้เกิดขึ้นอย่างฉับพลัน และหากสังเคราะห์งานวิจัยในยุคนั้นเข้าด้วยกัน ก็อาจนำไปสู่ทฤษฎีเหล่านี้ได้อย่างเป็นธรรมชาติ
คุณภาพ OCR แย่มากจนส่วนใหญ่ต้องจัดการเอง แต่ โมเดลขนาด 700M พารามิเตอร์ ยังพอทำที่บ้านได้
อย่างไรก็ตาม ถ้าจะให้มีความสามารถในการให้เหตุผลจริง ๆ ต้องใช้โมเดลระดับ 70B
อีกทั้งยังมีโจทย์ใหญ่ว่าจะป้องกันไม่ให้ความรู้จากปี 2026 ปะปนเข้ามาระหว่างกระบวนการ fine-tuning และ RL ได้อย่างไร
ช่วงปลายศตวรรษที่ 19 คือยุคทองของเคมี และน่าสนใจว่า LLM จะสามารถให้ การคาดการณ์เชิงอุณหพลศาสตร์ หรือเสนอสมมติฐานใหม่ได้หรือไม่
ดูการถกเถียงที่เกี่ยวข้องได้ใน เธรด HN
แนวทางที่ใช้ อัตราการบีบอัดข้อมูล (perplexity) เพื่อวัดความสามารถในการทำให้ทั่วไปและความแข็งแกร่งของโมเดลนั้นน่าประทับใจมาก
การคิดว่า “Who art Henry” เป็นภาษาอังกฤษแบบศตวรรษที่ 19 ดูเป็นตัวอย่างของการ ขาดสัญชาตญาณทางภาษาศาสตร์เชิงประวัติศาสตร์
เพราะจริง ๆ แล้วมันไม่ถูกหลักไวยากรณ์ในยุคไหนเลย
น่าสนใจว่า การทดลองนี้จะเป็นบททดสอบที่แสดงความเป็นไปได้ของ AGI ได้หรือไม่
คำถามคือ ถ้าให้ข้อมูลเฉพาะก่อนช่วงเวลาหนึ่ง (ปี X) จะสามารถอนุมานการค้นพบในภายหลัง (Y) ได้เองหรือไม่
การค้นพบบางอย่างอาจเกิดจากการผสมแนวคิดเดิม แต่ ทฤษฎีสัมพัทธภาพและกลศาสตร์ควอนตัม ต้องพึ่งการทดลองอย่างจำเป็น
ตัวอย่างเช่น โมเดลในยุคนั้นอาจพัฒนาทฤษฎีสัมพัทธภาพทั่วไปในเชิงคณิตศาสตร์ได้ แต่ก็น่าจะอธิบายการเคลื่อนที่ของจุดใกล้ดวงอาทิตย์ที่สุดของดาวพุธว่าเกิดจาก ดาวเคราะห์ Vulcan มากกว่า (วิกิของ Vulcan)
เอกสารที่จัดหมวดหมู่ผิด เชิงอรรถ เมทาดาทา ฯลฯ ล้วนมีความเสี่ยงที่ ความรู้จะรั่วไหลเข้ามา
ต้องมีทั้งข้อความจำนวนมหาศาล พารามิเตอร์ขนาดใหญ่ และกระบวนการ RLHF แบบศตวรรษที่ 19
มีการเสนอไอเดียให้เปรียบเทียบโมเดลที่ฝึกด้วยข้อมูลปี 1800~1875 กับโมเดลที่ฝึกด้วยข้อมูลปี 1800~2025
แล้วใช้ความแตกต่างของการกระจายความน่าจะเป็นทั้งสองเพื่อพยายามคาดการณ์ปี 2040
ในทางปฏิบัติคงทำนายได้แม่นยำยาก แต่ในฐานะการทดลองเรื่อง การอินเตอร์โพเลต/เอ็กซ์ทราโพเลตของการกระจายความน่าจะเป็น ก็ดูน่าสนุก
เป็นแนวคิดที่น่าสนใจ แต่ข้อมูลบันทึกในยุคนั้นมี อคติที่เอนเอียงไปทางชนชั้นปัญญาชน
ไม่ใช่ยุคที่ทุกคนทิ้งร่องรอยเป็นลายลักษณ์อักษรเหมือนปัจจุบัน
โมเดลสมัยใหม่ฝึกจากข้อความหลายสิบ TB แต่ข้อมูลศตวรรษที่ 19 มีน้อยกว่ามากและขาดความหลากหลาย
ดังนั้นการตอบคำถามอย่าง “ในปี 1834 เกิดอะไรขึ้น?” ด้วยสำนวนคล้ายข่าวหนังสือพิมพ์จึงเป็นผลลัพธ์ที่เป็นธรรมชาติ
LLM ปัจจุบันมีความคิดจากผู้คนจำนวนมากปะปนกันจนบางครั้งให้ ผลลัพธ์ที่มีสัญญาณรบกวนสูง
โมเดลที่ฝึกจากมุมมองอันสม่ำเสมอของยุคหนึ่งอาจมี สไตล์การตอบ ที่คาดเดาได้มากกว่า
นอกจากนี้ กระบวนการ alignment ยังสะท้อนค่านิยมของผู้ให้บริการด้วย
ในทางกลับกัน โมเดลที่อิงข้อมูลอดีตคือการสะท้อนอคติของยุคนั้นแบบ “โดยบังเอิญ”
อย่างน้อยโมเดลแบบนี้ก็น่าจะช่วย หยุดการล้นทะลักของอีโมจิ ได้
แต่ก็ชวนสงสัยว่าการทำ tokenization จะต่างออกไปอย่างไร
มันอาจไม่มีความรู้ด้านการเขียนโค้ด แต่ถ้ารวมกับ LLM สมัยใหม่ ก็อาจสร้าง คำอธิบายโค้ดในสไตล์ศตวรรษที่ 19 ได้
กำลังคิดอยู่ว่าจะผสมเลเยอร์กันได้ไหม คล้ายกับ โมเดล style transfer ในอดีต
การฝึกโมเดลจากเอกสารก่อนยุคสารสนเทศแล้วสอนโมเดลนั้นว่า ‘คอมพิวเตอร์คืออะไร’ ให้ความรู้สึกน่ารักดี
แต่ผลลัพธ์ตอนนี้ยังใกล้เคียง ระดับ Markov chain มากกว่า ChatGPT
ทำให้นึกถึงอีกโปรเจ็กต์ “time-locked LLM” ที่เพิ่งขึ้น HN ไม่นานนี้
ผลงานออกมาดูดี แต่เขากำลังคิดหนักว่าจะป้องกัน การใช้ผิดวัตถุประสงค์และความเข้าใจผิด อย่างไร
ดู เธรดที่เกี่ยวข้อง
ถ้าโมเดลนี้ให้ผลลัพธ์อย่างสม่ำเสมอได้จริง ก็อาจใช้โต้แย้งข้ออ้างที่ว่า ข้อมูลมีลิขสิทธิ์เป็นสิ่งจำเป็น สำหรับการฝึก LLM ได้
แต่ตอนนี้ดูเหมือนยังไม่ถึงระดับนั้น
The Common Pile v0.1 สร้าง โมเดลขนาด 7B พารามิเตอร์ จากข้อความสาธารณะ 8TB
ฉันเองก็เคยลองการทดลองคล้ายกัน: โปรเจ็กต์ transformer
ฝึกโมเดลแยกกันด้วยวรรณกรรมที่ต่างกัน เช่น พระคัมภีร์ ดอนกิโฆเต้ และคาฟคา
(เคยมีตัวสร้างเนื้อเพลงกับตัวแปลด้วย แต่คุณภาพไม่ค่อยดีนัก)