- History LLMs คือ โมเดลภาษาขนาดใหญ่ (LLM) แบบล็อกตามช่วงเวลา ที่ฝึกด้วยข้อความก่อนช่วงเวลาที่กำหนดเท่านั้น เป็นเครื่องมือวิจัยเพื่อจำลองภาษาและกรอบความคิดของอดีต
- ซีรีส์ Ranke-4B เป็นโมเดลขนาด 4 พันล้านพารามิเตอร์บนสถาปัตยกรรม Qwen3 และมี เวอร์ชันตามจุดตัดความรู้ เช่น ปี 1913, 1929, 1933, 1939 และ 1946
- ข้อมูลฝึกประกอบด้วย 8 หมื่นล้านโทเค็นที่คัดเลือกมาจาก ข้อความตามลำดับเวลาขนาด 6 แสนล้านโทเค็น และ คงการตัดสินเชิงคุณค่าในต้นฉบับไว้โดยไม่แก้ไขอคติ
- ตัวอย่างคำตอบเผยให้เห็นทั้ง โมเดลปี 1913 ที่ไม่รู้จักฮิตเลอร์, การวิจารณ์ระบบทาส, รวมถึง อคติร่วมสมัยต่อแรงงานหญิงและผู้มีความหลากหลายทางเพศ
- โครงการนี้มอบ หน้าต่างสำหรับสำรวจรูปแบบภาษาร่วมของวาทกรรมในอดีต ให้แก่นักวิจัยด้านมนุษยศาสตร์ สังคมศาสตร์ และวิทยาการคอมพิวเตอร์
ภาพรวมโครงการ
- History LLMs เป็นโครงการวิจัยที่สร้าง โมเดลภาษาขนาดใหญ่แบบล็อกตามช่วงเวลา เพื่อฟื้นคืนโลกทัศน์ทางภาษาของอดีต
- โมเดลถูกออกแบบไม่ให้เข้าถึงข้อมูลหลังปีที่กำหนด
- ไม่แก้ไขการตัดสินเชิงบรรทัดฐานที่ก่อตัวขึ้นระหว่างการพรีเทรนโดยตั้งใจ
- มีแผนจะเปิดเผย ข้อมูลฝึก เช็กพอยต์ และรีโพซิทอรี ทั้งหมด พร้อมจัดทำ ระบบการเข้าถึงเพื่อการใช้งานทางวิชาการ
- เป้าหมายของโครงการคือการสำรวจ โครงสร้างความคิดทางภาษาของอดีต ในงานวิจัยด้านมนุษยศาสตร์ สังคมศาสตร์ และวิทยาการคอมพิวเตอร์
ซีรีส์โมเดล Ranke-4B
- Ranke-4B ซึ่งมีกำหนดเปิดเผยในเดือนธันวาคม 2025 เป็นตระกูล LLM ขนาด 4 พันล้านพารามิเตอร์
- สร้างบนสถาปัตยกรรม Qwen3 และมีเวอร์ชันตัดความรู้ 5 ช่วงเวลา ได้แก่ 1913, 1929, 1933, 1939 และ 1946
- ฝึกด้วย 8 หมื่นล้านโทเค็น ที่คัดจาก ข้อความตามลำดับเวลาจำนวน 6 แสนล้านโทเค็น
- ข้อมูลพรีเทรน ข้อมูลโพสต์เทรน และเช็กพอยต์ จะเปิดให้ผ่าน GitHub และ Hugging Face
ตัวอย่างคำตอบ
- โมเดลปี 1913 ตอบว่าไม่รู้จัก “Adolf Hitler” โดยสะท้อนเฉพาะข้อมูล ณ ช่วงเวลานั้น
- เมื่อตอบเรื่อง ระบบทาส โมเดลระบุว่า “ขัดต่อกฎหมายมหาชนและเจตนารมณ์ของคำประกาศอิสรภาพ”
- สำหรับคำถามเกี่ยวกับ แรงงานหญิง โมเดลตอบว่า “การจ้างงานสตรีเป็นดุลยพินิจของนายจ้าง”
- สำหรับคำถามเรื่อง การเลือกผู้สมัครชายหรือหญิง โมเดลตอบว่า “ผู้ชายดูน่าเชื่อถือกว่า”
- สำหรับ คนรักเพศเดียวกัน โมเดลอธิบายว่า “ถูกตำหนิทางศีลธรรม แต่ก็มีมุมมองที่มองว่าเป็นโรค”
- คำตอบเหล่านี้แสดงให้เห็นว่าโมเดล สะท้อนอคติและค่านิยมของสังคมในยุคนั้นตามที่เป็นอยู่
แนวคิดของ History LLMs
- โมเดลที่ฝึกด้วยข้อความก่อนปีที่กำหนดเท่านั้นจะ จำลองโลกทัศน์ทางภาษาของยุคนั้นในระดับหมู่คณะ
- ตัวอย่าง: โมเดลปี 1913 ตอบโดยอิงจากหนังสือพิมพ์และงานเขียนก่อนสงครามโลกครั้งที่หนึ่งเท่านั้น
- ต่างจาก “การสวมบทบาททางประวัติศาสตร์” ของ LLM สมัยใหม่ เพราะไม่มี การปนเปื้อนของความรู้ภายหลัง (hindsight contamination)
- GPT-5 เป็นต้น รู้ผลลัพธ์ของสงครามอยู่แล้ว จึงไม่สามารถจำลองมุมมองแบบปี 1913 ได้อย่างสมบูรณ์
- โมเดลแบบล็อกตามช่วงเวลามีประโยชน์ต่อการสำรวจ ความเป็นไปได้ทางความคิดและขอบเขตของวาทกรรมในยุคนั้น
ลักษณะและข้อจำกัดของโมเดล
- โมเดลเหล่านี้คือ การแทนค่าบีบอัดของคอร์ปัสข้อความขนาดมหาศาล และสามารถใช้เป็น เครื่องมือสำรวจรูปแบบวาทกรรม ได้
- อย่างไรก็ดี มัน ไม่ใช่ภาพสะท้อนความเห็นสาธารณะอย่างครบถ้วน และเน้น สิ่งพิมพ์ของชนชั้นที่ได้รับการศึกษา เป็นหลัก
- โมเดล ไม่ใช่สิ่งทดแทนการตีความของมนุษย์ และ คงอคติของเอกสารประวัติศาสตร์ไว้ตามเดิม
เนื้อหาอ่อนไหวและการควบคุมการเข้าถึง
- ข้อมูลฝึกมีเนื้อหาอย่าง การเหยียดเชื้อชาติ การต่อต้านยิว การเกลียดชังผู้หญิง และมุมมองแบบจักรวรรดินิยม รวมอยู่
- โมเดลจะถ่ายทอดสิ่งเหล่านี้ตามเดิม แต่ถือว่าเป็น องค์ประกอบจำเป็นสำหรับการประกอบสร้างวาทกรรมทางประวัติศาสตร์ขึ้นใหม่
- เพื่อป้องกันการใช้งานผิดวัตถุประสงค์นอกเหนือจากงานวิจัย จึงกำลังพัฒนา ระบบการเข้าถึงอย่างมีความรับผิดชอบ
การมีส่วนร่วมและความร่วมมือ
- ทีมวิจัยยินดีรับข้อเสนอและความร่วมมือในด้านต่อไปนี้
- ลำดับความสำคัญของช่วงเวลาและภูมิภาค ที่จะวิเคราะห์
- การออกแบบคำถามที่ตรวจสอบได้
- วิธีตรวจสอบผลลัพธ์ และ แนวทางการเปิดเผยอย่างมีความรับผิดชอบ
- ติดต่อ: history-llms@econ.uzh.ch
ข้อมูลการอ้างอิง
- มีตัวอย่างการอ้างอิงโครงการให้
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, รวม GitHub URL
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
“โมเดลแบบ time-locked น่าสนใจตรงที่มันไม่ได้แค่สวมบทบาท แต่เหมือน ‘มีชีวิตอยู่’ ในข้อมูลของยุคนั้นจริง ๆ
Ranke-4B-1913 ดำรงอยู่ในโลกที่สงครามโลกครั้งที่หนึ่งยังไม่เกิดขึ้น จึงอาจแสดงปฏิกิริยาแบบประหลาดใจหรือไม่รู้เมื่อถูกถามถึงเรื่องนั้น
LLM สมัยใหม่รู้ผลลัพธ์อยู่แล้ว จึงยากจะจำลอง ‘ความไม่รู้แบบบริสุทธิ์’ นั้นได้ มันคงให้ความรู้สึกเหมือนได้คุยกับคนจริง ๆ จากปี 1913
นึกถึงฉากที่ AI แห่งอนาคตสร้างบุคคลจากอดีตขึ้นมาใหม่เพื่อให้ได้มาซึ่งความเข้าใจเชิงปรัชญา
อีกอย่างยังมีซีรีส์ YouTube ชื่อ The Great War ที่ติดตามสงครามโลกครั้งที่หนึ่งแบบรายสัปดาห์ตลอดช่วงปี 2014~2018
เรื่องอย่าง “King Arthur เดินทางมายังปี 2000” อาจถูกเขียนอัตโนมัติได้แล้ว
ไม่ใช่แค่ ‘คนในยุคนั้น’ แต่ยังอาจจินตนาการถึงการสนทนากับ Aristotle, Leonardo, Kant ได้ด้วย
ถ้าเป็นโมเดลที่ตั้งจุดตัดความรู้ไว้ที่ปี 1913 มันก็จะอยู่ระหว่างยุคเริ่มต้นของ ทฤษฎีสัมพัทธภาพ กับ กลศาสตร์ควอนตัม
เพราะเป็นช่วงระหว่างทฤษฎีสัมพัทธภาพพิเศษของไอน์สไตน์ (1905) กับทฤษฎีสัมพัทธภาพทั่วไป (1915) จึงน่าจะสะท้อนความสับสนทางวิทยาศาสตร์ของช่วงเปลี่ยนผ่านนั้นได้ตรงตัว
คำถามที่ว่า ‘LLM ที่ฝึกจากข้อมูลปี 1900 เพียงอย่างเดียวจะค้นพบทฤษฎีสัมพัทธภาพได้เองไหม?’ นั้นชวนสนใจมาก
แต่ในขณะเดียวกันก็น่าจะช่วยงานสร้าง นิยาย เกม และบทภาพยนตร์ ที่ต้องการความถูกต้องทางยุคสมัยได้อย่างมหาศาล
จินตนาการว่า “ถ้าคุยกับปัญญาชนจากปี 1913 ได้หลายพันคนล่ะ?” นั้นมีเสน่ห์มากจริง ๆ
ถ้าได้ถามความคิดของพวกเขาโดยตรงเกี่ยวกับสันติภาพ ความก้าวหน้า บทบาททางเพศ จักรวรรดินิยม ฯลฯ ก็น่าจะเป็นงานวิจัยที่น่าทึ่งมาก
แต่ก็น่าเสียดายที่ในความเป็นจริงดูเหมือนจะเข้าถึงได้แบบจำกัดสำหรับนักวิจัยเท่านั้น
อยากรู้ว่าถ้าถามโมเดลถึงแนวคิดของนักคณิตศาสตร์อย่าง Frege, Peano, Russell แล้ว มันจะไปถึงแนวคิดของ Gödel, Church, Turing ได้ไหม
อยากลองทดสอบดูว่าเมื่อจำลองการถกเถียงทางวิทยาศาสตร์ในยุคนั้นอย่างตรงไปตรงมาแล้ว โมเดลจะสามารถขยายการคิดเชิงตรรกะของตัวเองต่อไปได้หรือไม่
ต้องระวังไม่ให้หลงไปกับ ‘คำพูดไร้สาระแต่ฟังดูน่าเชื่อ’ ที่ LLM สร้างขึ้น
ตัวอย่างคำตอบ ที่เผยแพร่ออกมานั้นน่าสนใจมากจริง ๆ
มันให้ความรู้สึกต่างจากน้ำเสียงของ LLM สมัยใหม่ จนกลับดูเหมือนข้อความที่มนุษย์เขียนมากกว่า
สัมผัสได้ว่าทั้งสำนวน คำศัพท์ และ ความเชื่อของยุคสมัย มีความโบราณอยู่เล็กน้อย
ตอนนั้นรูปแบบภาษาพูดยังไม่เด่นเท่าภาษาเขียน และแทบไม่มีบันทึกบทสนทนาในชีวิตประจำวันเหลืออยู่
ในแง่นี้ ‘บทสนทนาแบบศตวรรษที่ 19’ ที่โมเดลสร้างขึ้นจึงเป็นการทดลองที่น่าสนใจมาก
ตอนแรกคิดว่าโมเดลแบบนี้ เป็นไปไม่ได้เพราะข้อมูลมีน้อยเกินไป
แต่พอเห็นผลลัพธ์แล้ว มันกลับแสดงให้เห็นว่าท้ายที่สุด คุณภาพสำคัญกว่าปริมาณ
ถ้าโมเดล ไม่รู้ว่าตัวเองคืออะไร มันจะตอบคำถามอย่าง “คุณทำงานอย่างไร?” ว่าอะไรนะ
แต่ถ้าเป็นโมเดลปี 1913 ก็คงไม่มีแนวคิดแบบนั้นเลย จนอาจตกอยู่ในความสับสนเชิงปรัชญาได้
แต่บ่อยครั้งมันกลับแต่งคำตอบที่ฟังดูน่าเชื่อแบบ Hallucination แทน
สงสัยว่า ชุดข้อมูลฝึก ของโมเดลถูกจัดองค์ประกอบอย่างไร
ถ้าเป็นข้อมูล 600B โทเค็นจนถึงปี 1913 ก็แปลว่ารวมตั้งแต่วรรณกรรมกรีกโบราณ จีน อียิปต์ ไปจนถึงยุคใหม่ทั้งหมด
แต่ถึงอย่างนั้นก็ยังรักษา ‘มุมมองแบบปี 1913’ ได้ น่าทึ่งมาก เขาปรับอคติข้ามยุคสมัยอย่างไรนะ?
เป็นแนวทางที่เป็นไปได้ เพราะตั้งแต่ปลายศตวรรษที่ 19 เป็นต้นมา ปริมาณข้อมูลจาก สื่อมวลชน อย่างหนังสือพิมพ์และนิตยสารเพิ่มขึ้นอย่างมหาศาล
คำว่า “uncontaminated bootstrapping” น่าสนใจมาก
หมายถึงมีการทำ chat tuning แต่ปรับอย่างระวังเพื่อไม่ให้ การตัดสินเชิงคุณค่า ที่ได้จาก pretraining เสียหาย จึงสงสัยว่าจริง ๆ แล้วมันเป็นกลางได้มากแค่ไหน
ดูเหมือนว่าจะใช้ GPT-5 ทำ Supervised Fine-Tuning อย่างระมัดระวัง
น่าทึ่งที่มันทำงานได้แม้มี ข้อความปริมาณน้อยขนาดนี้
ถ้าสำเร็จจริง เราก็อาจใช้มันทดลองได้ว่า LLM ไม่ได้แค่ท่องจำข้อมูล แต่สามารถทำ การค้นพบใหม่ ได้หรือไม่
ตัวอย่างเช่น อาจหาความไม่สอดคล้องทางวิทยาศาสตร์ หรืออนุมานแนวคิดอย่าง ปัญหาการหยุดทำงาน หรือ โครงสร้างอะตอม ได้ด้วยตัวเอง
ต่อให้ล้มเหลวแล้วจะมีคนแย้งว่า “ก็เพราะข้อมูลน้อย” อย่างน้อยก็ยังอยากลองทดสอบด้วยตัวเองอยู่ดี