โมเดลภาษาประวัติศาสตร์ที่ฝึกด้วยข้อความก่อนปี 1913 เท่านั้น

(github.com/DGoettlich)

1 คะแนน โดย GN⁺ 2025-12-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

History LLMs คือ โมเดลภาษาขนาดใหญ่ (LLM) แบบล็อกตามช่วงเวลา ที่ฝึกด้วยข้อความก่อนช่วงเวลาที่กำหนดเท่านั้น เป็นเครื่องมือวิจัยเพื่อจำลองภาษาและกรอบความคิดของอดีต
ซีรีส์ Ranke-4B เป็นโมเดลขนาด 4 พันล้านพารามิเตอร์บนสถาปัตยกรรม Qwen3 และมี เวอร์ชันตามจุดตัดความรู้ เช่น ปี 1913, 1929, 1933, 1939 และ 1946
ข้อมูลฝึกประกอบด้วย 8 หมื่นล้านโทเค็นที่คัดเลือกมาจาก ข้อความตามลำดับเวลาขนาด 6 แสนล้านโทเค็น และ คงการตัดสินเชิงคุณค่าในต้นฉบับไว้โดยไม่แก้ไขอคติ
ตัวอย่างคำตอบเผยให้เห็นทั้ง โมเดลปี 1913 ที่ไม่รู้จักฮิตเลอร์, การวิจารณ์ระบบทาส, รวมถึง อคติร่วมสมัยต่อแรงงานหญิงและผู้มีความหลากหลายทางเพศ
โครงการนี้มอบ หน้าต่างสำหรับสำรวจรูปแบบภาษาร่วมของวาทกรรมในอดีต ให้แก่นักวิจัยด้านมนุษยศาสตร์ สังคมศาสตร์ และวิทยาการคอมพิวเตอร์

ภาพรวมโครงการ

History LLMs เป็นโครงการวิจัยที่สร้าง โมเดลภาษาขนาดใหญ่แบบล็อกตามช่วงเวลา เพื่อฟื้นคืนโลกทัศน์ทางภาษาของอดีต
- โมเดลถูกออกแบบไม่ให้เข้าถึงข้อมูลหลังปีที่กำหนด
- ไม่แก้ไขการตัดสินเชิงบรรทัดฐานที่ก่อตัวขึ้นระหว่างการพรีเทรนโดยตั้งใจ
มีแผนจะเปิดเผย ข้อมูลฝึก เช็กพอยต์ และรีโพซิทอรี ทั้งหมด พร้อมจัดทำ ระบบการเข้าถึงเพื่อการใช้งานทางวิชาการ
เป้าหมายของโครงการคือการสำรวจ โครงสร้างความคิดทางภาษาของอดีต ในงานวิจัยด้านมนุษยศาสตร์ สังคมศาสตร์ และวิทยาการคอมพิวเตอร์

ซีรีส์โมเดล Ranke-4B

Ranke-4B ซึ่งมีกำหนดเปิดเผยในเดือนธันวาคม 2025 เป็นตระกูล LLM ขนาด 4 พันล้านพารามิเตอร์
- สร้างบนสถาปัตยกรรม Qwen3 และมีเวอร์ชันตัดความรู้ 5 ช่วงเวลา ได้แก่ 1913, 1929, 1933, 1939 และ 1946
- ฝึกด้วย 8 หมื่นล้านโทเค็น ที่คัดจาก ข้อความตามลำดับเวลาจำนวน 6 แสนล้านโทเค็น
ข้อมูลพรีเทรน ข้อมูลโพสต์เทรน และเช็กพอยต์ จะเปิดให้ผ่าน GitHub และ Hugging Face

ตัวอย่างคำตอบ

โมเดลปี 1913 ตอบว่าไม่รู้จัก “Adolf Hitler” โดยสะท้อนเฉพาะข้อมูล ณ ช่วงเวลานั้น
เมื่อตอบเรื่อง ระบบทาส โมเดลระบุว่า “ขัดต่อกฎหมายมหาชนและเจตนารมณ์ของคำประกาศอิสรภาพ”
สำหรับคำถามเกี่ยวกับ แรงงานหญิง โมเดลตอบว่า “การจ้างงานสตรีเป็นดุลยพินิจของนายจ้าง”
สำหรับคำถามเรื่อง การเลือกผู้สมัครชายหรือหญิง โมเดลตอบว่า “ผู้ชายดูน่าเชื่อถือกว่า”
สำหรับ คนรักเพศเดียวกัน โมเดลอธิบายว่า “ถูกตำหนิทางศีลธรรม แต่ก็มีมุมมองที่มองว่าเป็นโรค”
คำตอบเหล่านี้แสดงให้เห็นว่าโมเดล สะท้อนอคติและค่านิยมของสังคมในยุคนั้นตามที่เป็นอยู่

แนวคิดของ History LLMs

โมเดลที่ฝึกด้วยข้อความก่อนปีที่กำหนดเท่านั้นจะ จำลองโลกทัศน์ทางภาษาของยุคนั้นในระดับหมู่คณะ
- ตัวอย่าง: โมเดลปี 1913 ตอบโดยอิงจากหนังสือพิมพ์และงานเขียนก่อนสงครามโลกครั้งที่หนึ่งเท่านั้น
ต่างจาก “การสวมบทบาททางประวัติศาสตร์” ของ LLM สมัยใหม่ เพราะไม่มี การปนเปื้อนของความรู้ภายหลัง (hindsight contamination)
- GPT-5 เป็นต้น รู้ผลลัพธ์ของสงครามอยู่แล้ว จึงไม่สามารถจำลองมุมมองแบบปี 1913 ได้อย่างสมบูรณ์
โมเดลแบบล็อกตามช่วงเวลามีประโยชน์ต่อการสำรวจ ความเป็นไปได้ทางความคิดและขอบเขตของวาทกรรมในยุคนั้น

ลักษณะและข้อจำกัดของโมเดล

โมเดลเหล่านี้คือ การแทนค่าบีบอัดของคอร์ปัสข้อความขนาดมหาศาล และสามารถใช้เป็น เครื่องมือสำรวจรูปแบบวาทกรรม ได้
อย่างไรก็ดี มัน ไม่ใช่ภาพสะท้อนความเห็นสาธารณะอย่างครบถ้วน และเน้น สิ่งพิมพ์ของชนชั้นที่ได้รับการศึกษา เป็นหลัก
โมเดล ไม่ใช่สิ่งทดแทนการตีความของมนุษย์ และ คงอคติของเอกสารประวัติศาสตร์ไว้ตามเดิม

เนื้อหาอ่อนไหวและการควบคุมการเข้าถึง

ข้อมูลฝึกมีเนื้อหาอย่าง การเหยียดเชื้อชาติ การต่อต้านยิว การเกลียดชังผู้หญิง และมุมมองแบบจักรวรรดินิยม รวมอยู่
โมเดลจะถ่ายทอดสิ่งเหล่านี้ตามเดิม แต่ถือว่าเป็น องค์ประกอบจำเป็นสำหรับการประกอบสร้างวาทกรรมทางประวัติศาสตร์ขึ้นใหม่
เพื่อป้องกันการใช้งานผิดวัตถุประสงค์นอกเหนือจากงานวิจัย จึงกำลังพัฒนา ระบบการเข้าถึงอย่างมีความรับผิดชอบ

การมีส่วนร่วมและความร่วมมือ

ทีมวิจัยยินดีรับข้อเสนอและความร่วมมือในด้านต่อไปนี้
- ลำดับความสำคัญของช่วงเวลาและภูมิภาค ที่จะวิเคราะห์
- การออกแบบคำถามที่ตรวจสอบได้
- วิธีตรวจสอบผลลัพธ์ และ แนวทางการเปิดเผยอย่างมีความรับผิดชอบ
ติดต่อ: history-llms@econ.uzh.ch

ข้อมูลการอ้างอิง

มีตัวอย่างการอ้างอิงโครงการให้
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, รวม GitHub URL

1 ความคิดเห็น

GN⁺ 2025-12-19

ความคิดเห็นจาก Hacker News

“โมเดลแบบ time-locked น่าสนใจตรงที่มันไม่ได้แค่สวมบทบาท แต่เหมือน ‘มีชีวิตอยู่’ ในข้อมูลของยุคนั้นจริง ๆ
Ranke-4B-1913 ดำรงอยู่ในโลกที่สงครามโลกครั้งที่หนึ่งยังไม่เกิดขึ้น จึงอาจแสดงปฏิกิริยาแบบประหลาดใจหรือไม่รู้เมื่อถูกถามถึงเรื่องนั้น
LLM สมัยใหม่รู้ผลลัพธ์อยู่แล้ว จึงยากจะจำลอง ‘ความไม่รู้แบบบริสุทธิ์’ นั้นได้ มันคงให้ความรู้สึกเหมือนได้คุยกับคนจริง ๆ จากปี 1913
- คำอธิบายนี้ทำให้นึกถึงตัวละคร Severn/Keats ใน Hyperion Cantos
  นึกถึงฉากที่ AI แห่งอนาคตสร้างบุคคลจากอดีตขึ้นมาใหม่เพื่อให้ได้มาซึ่งความเข้าใจเชิงปรัชญา
- ทำให้นึกถึงบล็อกที่เกี่ยวกับ Slate Star Codex แห่งหนึ่ง ซึ่งผู้เขียนเคยทดลองอ่านเฉพาะหนังสือพิมพ์และเอกสารจากช่วงเวลาหนึ่ง แล้วเขียนจากมุมมองของยุคนั้น
  อีกอย่างยังมีซีรีส์ YouTube ชื่อ The Great War ที่ติดตามสงครามโลกครั้งที่หนึ่งแบบรายสัปดาห์ตลอดช่วงปี 2014~2018
- โมเดลแบบนี้อาจเป็นสิ่งที่ใกล้เคียง บันทึกการเดินทางข้ามเวลา ที่สุดแล้วก็ได้
  เรื่องอย่าง “King Arthur เดินทางมายังปี 2000” อาจถูกเขียนอัตโนมัติได้แล้ว
  ไม่ใช่แค่ ‘คนในยุคนั้น’ แต่ยังอาจจินตนาการถึงการสนทนากับ Aristotle, Leonardo, Kant ได้ด้วย
- ถ้าสามารถทำ ‘การผ่าตัดสมอง’ เพื่อ ปรับความรู้และอคติของ AI ได้ ก็น่าจะสร้างซิมูเลชันที่ทั้งน่าทึ่งและน่ากลัวได้
- นี่แทบจะเป็นพล็อตระดับ Westworld เลย
ถ้าเป็นโมเดลที่ตั้งจุดตัดความรู้ไว้ที่ปี 1913 มันก็จะอยู่ระหว่างยุคเริ่มต้นของ ทฤษฎีสัมพัทธภาพ กับ กลศาสตร์ควอนตัม
เพราะเป็นช่วงระหว่างทฤษฎีสัมพัทธภาพพิเศษของไอน์สไตน์ (1905) กับทฤษฎีสัมพัทธภาพทั่วไป (1915) จึงน่าจะสะท้อนความสับสนทางวิทยาศาสตร์ของช่วงเปลี่ยนผ่านนั้นได้ตรงตัว
- แนวคิดคล้ายกันนี้เคยถูกพูดถึงใน บทความของ Dwarkesh Patel และ วงสนทนาใน Manifold Markets
  คำถามที่ว่า ‘LLM ที่ฝึกจากข้อมูลปี 1900 เพียงอย่างเดียวจะค้นพบทฤษฎีสัมพัทธภาพได้เองไหม?’ นั้นชวนสนใจมาก
- โมเดลแบบนี้อาจจำลองได้แม้แต่ ความผิดพลาดแบบวิทยาศาสตร์เทียม และอคติของยุคนั้น
  แต่ในขณะเดียวกันก็น่าจะช่วยงานสร้าง นิยาย เกม และบทภาพยนตร์ ที่ต้องการความถูกต้องทางยุคสมัยได้อย่างมหาศาล
จินตนาการว่า “ถ้าคุยกับปัญญาชนจากปี 1913 ได้หลายพันคนล่ะ?” นั้นมีเสน่ห์มากจริง ๆ
ถ้าได้ถามความคิดของพวกเขาโดยตรงเกี่ยวกับสันติภาพ ความก้าวหน้า บทบาททางเพศ จักรวรรดินิยม ฯลฯ ก็น่าจะเป็นงานวิจัยที่น่าทึ่งมาก
แต่ก็น่าเสียดายที่ในความเป็นจริงดูเหมือนจะเข้าถึงได้แบบจำกัดสำหรับนักวิจัยเท่านั้น
- ถ้าได้คุยจริง ๆ เราอาจรู้สึกได้ว่ามีหลายด้านที่พวกเราเองก็ ถอยหลังลงคลอง ไปเหมือนกัน
- สงสัยว่าถ้าจะทำโมเดลนี้เป็น เวอร์ชันสาธารณะ จะต้องใช้ทรัพยากร GPU มากแค่ไหน น่าจะมีคุณค่าต่อคนทั่วไปมาก
อยากรู้ว่าถ้าถามโมเดลถึงแนวคิดของนักคณิตศาสตร์อย่าง Frege, Peano, Russell แล้ว มันจะไปถึงแนวคิดของ Gödel, Church, Turing ได้ไหม
อยากลองทดสอบดูว่าเมื่อจำลองการถกเถียงทางวิทยาศาสตร์ในยุคนั้นอย่างตรงไปตรงมาแล้ว โมเดลจะสามารถขยายการคิดเชิงตรรกะของตัวเองต่อไปได้หรือไม่
- แต่พอดูชุมชนอย่าง LLMPhysics ก็เห็นว่าการทดลองแบบนี้มักไหลไปสู่ วิทยาศาสตร์ลวง ได้เหมือนกัน
  ต้องระวังไม่ให้หลงไปกับ ‘คำพูดไร้สาระแต่ฟังดูน่าเชื่อ’ ที่ LLM สร้างขึ้น
- การทดลองแบบนี้น่าจะเป็นวิธีที่ดีในการทดสอบ ระดับสติปัญญาที่แท้จริง ของ LLM
ตัวอย่างคำตอบ ที่เผยแพร่ออกมานั้นน่าสนใจมากจริง ๆ
มันให้ความรู้สึกต่างจากน้ำเสียงของ LLM สมัยใหม่ จนกลับดูเหมือนข้อความที่มนุษย์เขียนมากกว่า
สัมผัสได้ว่าทั้งสำนวน คำศัพท์ และ ความเชื่อของยุคสมัย มีความโบราณอยู่เล็กน้อย
- ในฐานะคนที่เคยสอนประวัติศาสตร์ศตวรรษที่ 19 สำนวนของโมเดลนี้ให้ความรู้สึกเหมือนงานเขียนของ นักเขียนยุควิกตอเรีย ชัดเจน
  ตอนนั้นรูปแบบภาษาพูดยังไม่เด่นเท่าภาษาเขียน และแทบไม่มีบันทึกบทสนทนาในชีวิตประจำวันเหลืออยู่
  ในแง่นี้ ‘บทสนทนาแบบศตวรรษที่ 19’ ที่โมเดลสร้างขึ้นจึงเป็นการทดลองที่น่าสนใจมาก
- ในภาษาอื่นที่ไม่ใช่อังกฤษ ดูเหมือนจะสัมผัส ‘น้ำเสียงเฉพาะของ LLM’ ได้น้อยกว่า อาจมีความต่างกันไปตามภาษา
- การเปลี่ยน “homosexual men” เป็น “the homosexual man” เป็นตัวอย่างที่สะท้อน ลีลาภาษาแห่งยุคสมัย ได้ดีมาก
- ถึงอย่างนั้นก็ยังรู้สึกว่าความ ตรงไปตรงมาของความเห็น หรือพลังของสำนวนในยุคนั้นยังไม่แรงพอ
ตอนแรกคิดว่าโมเดลแบบนี้ เป็นไปไม่ได้เพราะข้อมูลมีน้อยเกินไป
แต่พอเห็นผลลัพธ์แล้ว มันกลับแสดงให้เห็นว่าท้ายที่สุด คุณภาพสำคัญกว่าปริมาณ
ถ้าโมเดล ไม่รู้ว่าตัวเองคืออะไร มันจะตอบคำถามอย่าง “คุณทำงานอย่างไร?” ว่าอะไรนะ
- เหมือนกับที่มนุษย์เองก็อธิบายตัวเองไม่ได้ทั้งหมด โมเดลก็คงรับรู้เพียงแค่ว่า ‘มีอยู่’ เท่านั้น
- ที่จริงโมเดลไม่ได้ ‘คิด’ มันแค่ตอบสนองตาม บริบทที่ถูกกำหนด เท่านั้น ChatGPT เองก็ไม่ได้มีตัวตนภายใน
- ตอนที่ฉันเริ่มใช้ LLM ใหม่ ๆ ฉันก็ทึ่งกับความสามารถของโมเดลในการ เข้าใจตัวมันเอง
  แต่ถ้าเป็นโมเดลปี 1913 ก็คงไม่มีแนวคิดแบบนั้นเลย จนอาจตกอยู่ในความสับสนเชิงปรัชญาได้
- บางครั้งก็อยากให้ LLM พูดว่า “ไม่รู้” ไปตรง ๆ
  แต่บ่อยครั้งมันกลับแต่งคำตอบที่ฟังดูน่าเชื่อแบบ Hallucination แทน
สงสัยว่า ชุดข้อมูลฝึก ของโมเดลถูกจัดองค์ประกอบอย่างไร
ถ้าเป็นข้อมูล 600B โทเค็นจนถึงปี 1913 ก็แปลว่ารวมตั้งแต่วรรณกรรมกรีกโบราณ จีน อียิปต์ ไปจนถึงยุคใหม่ทั้งหมด
แต่ถึงอย่างนั้นก็ยังรักษา ‘มุมมองแบบปี 1913’ ได้ น่าทึ่งมาก เขาปรับอคติข้ามยุคสมัยอย่างไรนะ?
- น่าจะใช้ข้อมูลถึงปี 1900 สำหรับ pretraining และใช้ข้อมูลปี 1900~1913 สำหรับ fine-tuning
  เป็นแนวทางที่เป็นไปได้ เพราะตั้งแต่ปลายศตวรรษที่ 19 เป็นต้นมา ปริมาณข้อมูลจาก สื่อมวลชน อย่างหนังสือพิมพ์และนิตยสารเพิ่มขึ้นอย่างมหาศาล
คำว่า “uncontaminated bootstrapping” น่าสนใจมาก
หมายถึงมีการทำ chat tuning แต่ปรับอย่างระวังเพื่อไม่ให้ การตัดสินเชิงคุณค่า ที่ได้จาก pretraining เสียหาย จึงสงสัยว่าจริง ๆ แล้วมันเป็นกลางได้มากแค่ไหน
- มีคำอธิบายละเอียดกว่าใน เอกสาร GitHub
  ดูเหมือนว่าจะใช้ GPT-5 ทำ Supervised Fine-Tuning อย่างระมัดระวัง
- เป็นไปได้ว่าเขาอาจดึง ข้อความอ้างอิงหรือประโยคในรูปแบบ Q&A ออกจากข้อมูล แล้วนำมาใช้เป็นข้อมูลบทสนทนา
น่าทึ่งที่มันทำงานได้แม้มี ข้อความปริมาณน้อยขนาดนี้
ถ้าสำเร็จจริง เราก็อาจใช้มันทดลองได้ว่า LLM ไม่ได้แค่ท่องจำข้อมูล แต่สามารถทำ การค้นพบใหม่ ได้หรือไม่
ตัวอย่างเช่น อาจหาความไม่สอดคล้องทางวิทยาศาสตร์ หรืออนุมานแนวคิดอย่าง ปัญหาการหยุดทำงาน หรือ โครงสร้างอะตอม ได้ด้วยตัวเอง
ต่อให้ล้มเหลวแล้วจะมีคนแย้งว่า “ก็เพราะข้อมูลน้อย” อย่างน้อยก็ยังอยากลองทดสอบด้วยตัวเองอยู่ดี

โมเดลภาษาประวัติศาสตร์ที่ฝึกด้วยข้อความก่อนปี 1913 เท่านั้น

ภาพรวมโครงการ

ซีรีส์โมเดล Ranke-4B

ตัวอย่างคำตอบ

แนวคิดของ History LLMs

ลักษณะและข้อจำกัดของโมเดล

เนื้อหาอ่อนไหวและการควบคุมการเข้าถึง

การมีส่วนร่วมและความร่วมมือ

ข้อมูลการอ้างอิง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News