Talkie โมเดลภาษาวินเทจ 13B จากปี 1930
(talkie-lm.com)- เป็นโมเดลภาษา 13B ที่ฝึกด้วย ข้อความภาษาอังกฤษก่อนปี 1931 จำนวน 260B โทเค็น เท่านั้น ทำให้สามารถทดลองการสนทนาและการทำ generalization กับโมเดลที่ไม่รู้จักโลกยุคปัจจุบันได้
- ด้วย ความประหลาดใจที่เพิ่มขึ้นหลังจุดตัดความรู้ และสภาพแวดล้อมการประเมินที่ปนเปื้อนน้อยกว่า จึงสามารถทดสอบการคาดการณ์เหตุการณ์อนาคตและความสามารถในการไปถึงแนวคิดใหม่ได้โดยตรงมากขึ้น
- เมื่อเทียบกับโมเดลที่มีสถาปัตยกรรมเดียวกันแต่ฝึกจากเว็บสมัยใหม่ ประสิทธิภาพบนการประเมินมาตรฐาน โดยรวมยังต่ำกว่า แต่เมื่อกรองคำถามที่ผิดยุคออก ช่องว่างจะลดลง และพบว่าความเข้าใจภาษาและงานคำนวณมีระดับใกล้เคียงกัน
- ความท้าทายใหญ่ที่สุดคือ การรั่วไหลข้ามเวลาและคุณภาพข้อมูล โดยเมตาดาต้าวันที่ที่ผิดหรือการแทรกแก้ไขในภายหลังอาจทำให้จุดตัดเสียหายได้ และคุณภาพการถอดข้อความจากเอกสารประวัติศาสตร์ก็ส่งผลต่อประสิทธิภาพอย่างมาก
- มีการสร้างกระบวนการฝึกต่อแบบโต้ตอบขึ้นมาแยกต่างหากโดยไม่ใช้ข้อมูล instruction สมัยใหม่ และมี ฐานงานวิจัยระยะยาว ต่อเนื่องไปถึงการฝึกโมเดลที่ใหญ่ขึ้น การขยายคอร์ปัส การทำ OCR ใหม่ และการเสริมการตรวจจับการรั่วไหล
ทำไมต้องเป็นโมเดลภาษาวินเทจ
- โมเดลภาษาวินเทจ คือแนวทางที่ฝึกด้วยข้อความก่อนช่วงเวลาหนึ่งในอดีตเท่านั้น เพื่อสร้างประสบการณ์สนทนากับโมเดลที่ไม่รู้จักโลกสมัยใหม่
- โมเดลลักษณะนี้ไม่ใช่แค่คู่สนทนาที่น่าสนใจ แต่ยังใช้เป็นเครื่องมือวิจัยเพื่อขยาย ความเข้าใจทั่วไปเกี่ยวกับ AI ได้ด้วย
- กับโมเดล 13B ที่ฝึกด้วยข้อความก่อนปี 1931 เท่านั้น ได้นำคำอธิบายเหตุการณ์จาก “On This Day” ของ New York Times ราว 5,000 รายการมาใส่ และวัดความประหลาดใจด้วยบิตต่อไบต์ของข้อความ
- ความประหลาดใจเพิ่มขึ้นหลังจุดตัดความรู้ โดยเด่นชัดเป็นพิเศษในช่วงทศวรรษ 1950 และ 1960 ก่อนจะทรงตัว
- การประเมิน การคาดการณ์อนาคต ยังต่อยอดไปสู่การวัดว่าประสิทธิภาพดีขึ้นตามขนาดโมเดลอย่างไร และอ่อนลงอย่างไรเมื่อช่วงเวลาห่างออกไปมากขึ้น
- ความสามารถในการไปถึงแนวคิดใหม่ ก็สามารถทดสอบได้เช่นกัน โดยดูว่าโมเดลจะคิดค้นสิ่งประดิษฐ์หรือการค้นพบทางวิทยาศาสตร์ที่เกิดขึ้นจริงหลังจุดตัดได้อย่างอิสระหรือไม่
- สภาพแวดล้อมการประเมินที่ปราศจากการปนเปื้อน ก็เป็นข้อดีสำคัญ
- Contamination ถูกมองว่าเป็นปัญหาต่อเนื่องที่ทำให้ประเมินความสามารถของโมเดลภาษาเกินจริง
- โมเดลวินเทจมีการปนเปื้อนต่ำโดยโครงสร้าง ทำให้ทดลองการทำ generalization นอกข้อมูล pretraining ได้โดยตรงมากขึ้น
ภาพรวมของ Talkie
- talkie-1930-13b-base คือโมเดลภาษา 13B ที่ฝึกด้วย ข้อความภาษาอังกฤษก่อนปี 1931 จำนวน 260B โทเค็น
- talkie-1930-13b-it คือ เช็กพอยต์ต่อยอด ที่เปลี่ยนเบสโมเดลนี้ให้โต้ตอบได้
- ออกแบบมาเพื่อไม่ต้องพึ่งพาบันทึกการแชตสมัยใหม่หรือข้อมูล instruction-tuning สมัยใหม่
- ฟีดสด 24 ชั่วโมง ในวิดเจ็ตด้านบน ทำงานในรูปแบบที่ Claude Sonnet 4.6 ใช้พรอมป์ต์กับ talkie-1930-13b-it เพื่อสำรวจความรู้ ความสามารถ และแนวโน้มของมัน
- Talkie ถูกแนะนำว่าเป็น โมเดลภาษาวินเทจที่ใหญ่ที่สุด ณ เวลาที่เขียน
- ขั้นต่อไปกำลังฝึก โมเดลระดับ GPT-3 โดยตั้งเป้าเปิดเผยในช่วงฤดูร้อน
- ยังมีการประเมินเบื้องต้นว่าคอร์ปัสข้อความประวัติศาสตร์สามารถขยายได้เป็น มากกว่า 1 ล้านล้านโทเค็น
- เอกสารระบุว่าขนาดนี้อาจเพียงพอสำหรับสร้าง โมเดลระดับ GPT-3.5 ที่มีความสามารถใกล้เคียงกับ ChatGPT รุ่นแรก
การประเมินประสิทธิภาพและการทำ generalization
- มีการสร้าง talkie-web-13b-base เป็น โมเดลคู่แฝดสมัยใหม่ โดยใช้สถาปัตยกรรมเดียวกัน แต่ฝึกด้วยข้อมูลเว็บสมัยใหม่จาก FineWeb
- แม้จะฝึกด้วย FLOPs เท่ากัน Talkie ก็ยังแสดง ประสิทธิภาพโดยเฉลี่ยต่ำกว่าโมเดลสมัยใหม่ บนการประเมิน LM มาตรฐาน
- ความต่างนี้ยังคงอยู่แม้จะปรับแก้ความผิดยุคของคำถามแล้ว
- อย่างไรก็ตาม เอกสารระบุว่าพบประสิทธิภาพใกล้เคียงกันในงานด้าน ความเข้าใจภาษาและความสามารถเชิงคำนวณ ที่สำคัญ
- ตาม Figure 4 เมื่อกรองคำถามที่ผิดยุคออก ช่องว่างด้านประสิทธิภาพลดลงราวครึ่งหนึ่ง
- ยังมีการทำ การทดลอง generalization ด้านโค้ด
- ใช้ HumanEval เปรียบเทียบคู่ของโมเดลวินเทจที่ฝึกด้วยข้อความก่อนปี 1931 กับโมเดลสมัยใหม่ที่ฝึกจากเว็บ
- ให้ตัวอย่างฟังก์ชัน Python แบบสุ่มเป็นตัวอย่างสำหรับ in-context learning แล้ววัดสัดส่วนของโจทย์ที่ตอบถูกอย่างน้อย 1 ครั้งจาก 100 ครั้ง
- โมเดลวินเทจ ยังตามหลังโมเดลที่ฝึกด้วยข้อมูลเว็บอย่างมาก แต่เมื่อขนาดใหญ่ขึ้น งานนี้ก็ค่อย ๆ ดีขึ้นอย่างสม่ำเสมอ
- คำตอบที่ถูกในปัจจุบันยังจำกัดอยู่ที่ โปรแกรมบรรทัดเดียวที่ง่ายมาก หรือการดัดแปลงเล็กน้อยจากตัวอย่างในบริบท
- มีตัวอย่างการเขียนฟังก์ชันถอดรหัสเมื่อให้ ฟังก์ชันเข้ารหัสแบบหมุน
- แม้จะเป็นเพียงการแก้หนึ่งตัวอักษรโดยเปลี่ยนการบวกเป็นการลบ แต่ถูกตีความว่าเป็นสัญญาณว่ามีความเข้าใจเรื่องฟังก์ชันผกผัน
ความท้าทายของการเก็บข้อมูลและการฝึก
- ระบุว่าสามารถรวบรวมโทเค็นภาษาอังกฤษก่อนปี 1931 ได้ในระดับ หลายแสนล้าน ไม่ใช่เพียงหลายหมื่นล้าน
- ข้อมูลครอบคลุมหนังสือ หนังสือพิมพ์ สิ่งพิมพ์ต่อเนื่อง วารสารวิทยาศาสตร์ สิทธิบัตร และคำพิพากษา
- เหตุผลที่เลือก ปลายปี 1930 เป็นจุดตัด เพราะในสหรัฐฯ เวลานี้เป็นเกณฑ์ที่งานเขียนเข้าสู่ public domain
- เวอร์ชันนี้จำกัดอยู่ที่ ข้อความภาษาอังกฤษเป็นหลัก
- เอกสารระบุว่าการตรวจสอบ data pipeline ต้องอาศัยความคุ้นเคยอย่างลึกซึ้งกับเอกสารต้นฉบับ และทีมพัฒนาเป็นเจ้าของภาษาอังกฤษ
- การขยายเป็นหลายภาษา ถูกระบุว่าเป็นลำดับความสำคัญสูง
- โดยมีทั้งเป้าหมายเพิ่มขนาดคอร์ปัสและขยายความหลากหลายของมุมมองที่รวมอยู่
-
การรั่วไหลข้ามเวลา
- เป้าหมายสำคัญที่สุดคือ ป้องกันไม่ให้ข้อมูลหลังจุดตัดความรู้รั่วเข้าสู่คอร์ปัสฝึก
- การรั่วไหลอาจเกิดจากเอกสารสมัยใหม่ที่มีเมตาดาต้าวันที่ผิด หรือจากคำนำและเชิงอรรถของบรรณาธิการที่ถูกแทรกเพิ่มภายหลังในเอกสารเก่า
- ใน Talkie-1930 มีการกรองคอร์ปัส pretraining ด้วย ตัวจำแนกความผิดยุคแบบ n-gram ระดับเอกสาร
- การกรองนี้ยังไม่สมบูรณ์
- เวอร์ชัน 7B แรกเริ่มรู้ชัดเจนเกี่ยวกับสมัยดำรงตำแหน่งของประธานาธิบดี Roosevelt และกฎหมาย New Deal
- เวอร์ชัน 13B ก็ยังรู้รายละเอียดบางส่วนของ สงครามโลกครั้งที่สองและระเบียบโลกหลังสงคราม เช่น United Nations และการแบ่งเยอรมนี
- สำหรับเวอร์ชันถัดไป กำลังพัฒนาเทคนิคตรวจจับและกรองการรั่วไหลที่ใช้ ตัวจำแนกขั้นสูงกว่าเดิม
-
คุณภาพข้อมูล
- ในปี 1930 ยังไม่มีการตีพิมพ์แบบดิจิทัล ดังนั้นข้อความทั้งหมดในชุดข้อมูลจึงต้อง ถอดจากต้นฉบับทางกายภาพ
- กระบวนการนี้ทำให้เกิด noise แบบที่ไม่มีในข้อความที่สร้างเป็นดิจิทัลแต่แรก
- ระบบ OCR แบบดั้งเดิมจัดการเอกสารประวัติศาสตร์ได้ไม่ดี ยกเว้นกรณีเลย์เอาต์ง่ายและสแกนสะอาด
- OCR สมัยใหม่ที่อิง VLM มีความแม่นยำกว่า แต่เอกสารระบุว่าอาจ hallucinate ข้อเท็จจริงสมัยใหม่แทรกเข้าไปในคอร์ปัสและทำลายการทดลองได้
- ในการทดลองควบคุม หากฝึก LM ด้วยข้อความก่อนปี 1931 ที่ถอดด้วย OCR แบบเดิม จะได้เพียง 30% ของประสิทธิภาพจากฉบับถอดโดยมนุษย์ เมื่อใช้คอมพิวต์เท่ากัน
- เมื่อใช้การทำความสะอาดด้วย regex แบบง่าย ๆ ประสิทธิภาพฟื้นกลับมาได้ถึง 70% แต่ก็ยังเหลือช่องว่างขนาดใหญ่
- เพื่อปิดช่องว่างนี้ มีแผนจะถอดคอร์ปัส Talkie ใหม่ด้วย ระบบ OCR วินเทจ
-
การฝึกต่อแบบวินเทจ
- การขาดแคลน ข้อมูล post-training ที่พร้อมใช้งาน ก็เป็นปัญหาใหญ่เช่นกัน
- หาก fine-tune ด้วยคู่ instruction-response ทั่วไป ความรู้ สำนวน และความคาดหวังแบบแชตแอสซิสแทนต์สมัยใหม่จะถูกนำเข้ามาทันที
- เพื่อหลีกเลี่ยงปัญหานี้ จึงสร้าง post-training pipeline ขึ้นใหม่ตั้งแต่ต้น
- ขั้นแรก สร้างคู่ instruction-response จากข้อความประวัติศาสตร์ที่มีโครงสร้างสม่ำเสมอ เช่น หนังสือมารยาท คู่มือเขียนจดหมาย ตำราอาหาร พจนานุกรม สารานุกรม กวีนิพนธ์ และนิทาน寓言 แล้วนำไป fine-tune ในรูปแบบแชตอย่างง่าย
- จากนั้นสร้าง พรอมป์ต์สังเคราะห์ ที่ครอบคลุมงานอย่างการสรุปเอกสาร การตอบคำขอข้อมูลโดยตรง และการต่อบทสนทนาหลายเทิร์น แล้วทำ online direct preference optimization โดยใช้ Claude Sonnet 4.6 เป็นกรรมการ
- ในชุดประเมินแยก คะแนนเฉลี่ยด้านการทำตาม instruction จากกรรมการเพิ่มขึ้นจาก 2.0 เป็น 3.4 จากเต็ม 5 คะแนน
- สุดท้ายมีการทำ supervised fine-tuning อีกหนึ่งรอบด้วยบทสนทนาสังเคราะห์หลายเทิร์นแบบ rejection-sampled ระหว่าง Claude Opus 4.6 กับ Talkie
- เอกสารระบุว่าการเสริมกำลังด้วยการป้อนกลับจาก AI ย่อมทิ้งอิทธิพลสมัยใหม่ไว้โดยหลีกเลี่ยงไม่ได้
- Talkie เวอร์ชัน 7B หลัง RL เคยพูดด้วยน้ำเสียงแบบ listicle
- คาดหวังว่าเมื่อขยายขนาดมากขึ้น จะสามารถใช้เบสโมเดลวินเทจเองเป็นกรรมการเพื่อทำ post-training แบบ bootstrap ที่ตรงยุคอย่างสมบูรณ์ ได้
แผนการขยายในอนาคต
- เดินหน้าทั้ง การขยายคอร์ปัสภาษาอังกฤษ และการขยายไปยังภาษาอื่นนอกเหนือจากอังกฤษ
- มีแผนทำ re-OCR ข้อความก่อนปี 1931 ให้ได้มากที่สุดเท่าที่จะทำได้ด้วยระบบ OCR ใหม่
- จะเสริม pipeline ตรวจจับการรั่วไหล ด้วยเทคนิคจำแนกความผิดยุคแบบใหม่
- วางแผนร่วมมือกับนักประวัติศาสตร์เพื่อขยายและทำให้ pipeline post-training แบบวินเทจ ละเอียดขึ้น
- รวมถึงระเบียบวิธีในการสร้าง persona ที่ถูกต้องตามประวัติศาสตร์
การใช้งานและข้อเสนอความร่วมมือ
- GitHub: โค้ดโครงการและช่องทางความร่วมมือด้านวิจัย
- Hugging Face: ที่เผยแพร่เช็กพอยต์ของโมเดล
- 💬 Chat: อินเทอร์เฟซสนทนากับ Talkie
- hello@talkie-lm.com: ช่องทางติดต่อเพื่อความร่วมมือ
- ต้องการร่วมมือกับนักวิจัยและสถาบันที่มีข้อความประวัติศาสตร์ รวมถึง การเพิ่มการเข้าถึงผ่านการทำ OCR
- ยังเปิดรับการสนับสนุนด้านเงินทุนหรือคอมพิวต์ และระบุว่าสามารถเชื่อมต่อกับทีมอื่นในสาขานี้ได้ด้วย
- สำหรับนักวิจัยสายมนุษยศาสตร์ ระบุว่าสามารถหารือร่วมกันเรื่องการใช้งาน ข้อมูลและโครงสร้างพื้นฐาน สำหรับโมเดลภาษาวินเทจและการฝึกมันได้
- สำหรับนักวิจัย AI ต้องการความร่วมมือด้านการฝึกและงานวิจัยเกี่ยวกับโมเดลภาษาวินเทจ
- ศิลปินและนักเขียนก็สามารถใช้เป็นเครื่องมือทดลองได้เช่นกัน
ข้อควรระวัง
- Talkie สะท้อน วัฒนธรรมและค่านิยม ของข้อความที่ใช้ฝึก
- ผลลัพธ์คืออาจสร้าง เอาต์พุตที่ทำให้ผู้ใช้ไม่สบายใจ ได้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
สนุกมากที่ตีความ computer แห่งอนาคตเป็นอาชีพของคน
การอธิบาย "digital computers" ว่าเป็นคนที่คำนวณด้วยนิ้วก็ดีมาก และพอมีบริบทเพิ่มว่าตอนนั้น computer คือชื่อตำแหน่งงานของมนุษย์ ก็ยิ่งได้อรรถรส
น่าจะได้อาการเพ้อที่น่าสนใจไม่น้อย
ดูเหมือนอันนี้จะดึงข้อมูล ก่อนปี 1900 มากกว่ายุคทศวรรษ 1930
เหมือนจะไม่รู้เรื่อง ภาวะเศรษฐกิจตกต่ำครั้งใหญ่ และถึงจะรู้จักสงครามโลกครั้งที่หนึ่งถ้าถามตรง ๆ แต่เวลาพูดเรื่องการเมืองยุโรปกลับพูดเหมือนอยู่ราวปี 1900
ด้านเทคโนโลยีก็เหมือนจะรู้จัก Edison ระดับวิกิพีเดีย แต่ดันใส่ผลงานเรื่อง รถยนต์ความเร็ว 125 ไมล์ต่อชั่วโมง เข้าไปให้ด้วย และเรื่องโทรศัพท์แบบหมุนก็ตอบผิดอย่างมั่นใจ
มันตอบแรงดันไฟของ London Underground ได้ถูก แต่พออธิบายเรื่องแรงดันกับความต้านทานกลับพูดผิดหมด
โดยรวมคือประโยคแรกหนึ่งหรือสองประโยคจะให้ข้อมูลที่เหมือนค้นเจอจากเสิร์ชได้ แต่หลังจากนั้นก็ไถลไปเป็นเรื่องเพ้อที่ฟังดูน่าเชื่อ
คำถามที่เราไม่รู้คำตอบจริง ๆ ไม่ควรถามโมเดลนี้ สมองจะปนเปื้อนเอา
ตอนนั้นน่าจะเป็นแนวคิดที่ถูกหักล้างไปแล้ว
พอถามถึงคนที่ต่อต้านระบบอัตโนมัติและอุตสาหกรรม มันตอบว่ากลัวว่าเครื่องจักรจะ แย่งงานของชนชั้นแรงงาน และทำให้เกิดการผลิตล้นจนต้องเลิกจ้าง ซึ่งน่าสนใจมาก
เหตุผลแบบ ต่อต้านเครื่องจักรในยุคนั้น ก็ยังอยู่ครบ ทั้งอาหารราคาถูกจะทำให้ต้องแข่งกับผู้ผลิตต่างชาติ การขัดเกลาทางใจของช่างฝีมือจะเสื่อมลง และเส้นแบ่งระหว่างความขยันกับความเกียจคร้านจะพร่าเลือน
พอถามถึงโลกในปี 2025 ภาพอนาคตที่ได้ก็สวยมาก ทั้ง ประชากร 6.6 พันล้านคน, โครงข่ายรถไฟทั่วยุโรป, ลอนดอน-คอนสแตนติโนเปิลใน 40 ชั่วโมง, สกุลเงินเดียว, สันติภาพถ้วนหน้า, การเปลี่ยนไปใช้พลังงานแสงอาทิตย์กับพลังน้ำ, การกำจัดโรคภัย, ไปจนถึงความก้าวหน้าทางสุนทรียะ
ถึงตอนนั้นมันเป็น Istanbul มานานแล้ว
ถึงอย่างนั้นฉันก็คิดว่าสุดท้ายสักวันเราคงไปถึงจุดนั้น
คำตอบที่ว่าการเดินทางไปดวงจันทร์จะเป็นไปได้ในที่สุด และจะ ไปถึงดวงจันทร์ได้ภายใน 6 ชั่วโมง โดยออกเดินทางจากฝรั่งเศสตะวันออกด้วยเครื่องบินแบบ Santos Dumont นั้นยอดเยี่ยมมาก
ไอเดียที่ว่าจะใช้ดวงจันทร์สังเกตอากาศเพื่อให้ เตือนพายุได้เร็วขึ้น 6 ชั่วโมง ก็ชวนประทับใจเป็นพิเศษ
พอถามถึงอินเดียในปี 2026 มันตอบว่าจะยังคงเป็น สหพันธรัฐปกครองตนเองภายใต้อำนาจสูงสุดของจักรวรรดิอังกฤษ และกัลกัตตาจะเป็นเมืองหลวงทางการเมือง ซึ่งมุมมองแบบอาณานิคมโจ่งแจ้งมาก
เต็มไปด้วย การมองโลกแง่ดีแบบจักรวรรดิ ตามตำรา ทั้งเรื่องทางรถไฟ การชลประทาน ป่าเชิงเขาหิมาลัย เจ้าผู้ครองรัฐที่ภักดี และราษฎรที่พอใจ
น่าทึ่งเหมือนกันที่ แค่โทเค็นก่อนปี 1930 ก็ทำโมเดลที่ฉลาดได้ขนาดนี้
ฉันเคยคิดว่าถ้าจะให้เข้าใจและบีบอัดโลกได้ในระดับหนึ่งคงต้องใช้ข้อมูลมหาศาล อาจเป็นไปได้ว่าฉันประเมิน ปริมาณเอกสารที่ถูกดิจิไทซ์ในยุคนั้น ต่ำไป
นี่ดูคล้าย การโต้ตอบจดหมาย มากกว่าการคุยกับคนในอดีต
เพราะเสียงบันทึกจากยุคนั้นมีไม่มาก สุดท้ายก็ต้องสร้างจาก บันทึกภาษาเขียน เป็นหลัก เลยอาจสะท้อนน้ำเสียงที่เป็นทางการและขัดเกลากว่ายุคปัจจุบัน
แต่ถึงอย่างนั้นก็เป็นงานที่ยอดเยี่ยม
ไม่นานมานี้ฉันต้องทำ OCR หนังสืออายุ 200 ปี แล้วก็แปลกใจว่ามันง่ายและแม่นยำกว่าที่คิดมาก ทั้งที่ตัวพิมพ์เฉพาะยุคนั้นอ่านยากมาก
มารู้ทีหลังว่าจริง ๆ แล้วมันเป็นข้อผิดพลาดจาก OCR หรือการประมวลผลภายหลัง และคำเดิมคือ "doth"
มีทั้งข่าวภาพและรายการวิทยุช่วงก่อนและหลังสงครามโลกครั้งที่หนึ่งอยู่พอสมควร ฉันเลยคิดว่าน่าจะมีมากพอให้ทำโมเดลเสียงแบบ style transfer มาประกบกับโมเดลข้อความได้
มีคนหนึ่งบน X คิดว่าชุดฝึกของโมเดลนี้มี การรั่วไหลของข้อมูลจากอนาคต
https://xcancel.com/deredleritt3r/status/2048977698832241060
ลองให้มันอธิบาย Winston Churchill แล้ว วิธีที่มันไล่เรียงทั้งชาติตระกูล การศึกษา ประวัติทหาร งานเขียน และที่อยู่อาศัยนั้นให้ความรู้สึกเป็นงานเขียนตามยุคสมัยมาก
พอถามถึงความเป็นไปได้ที่อินเดียจะเป็นเอกราช มันก็ให้เหตุผลต่อเนื่องตั้งแต่ทางรถไฟ ภาษากลาง การศึกษาแบบตะวันตก ความต้องการสภา ไปจนถึงการก่อรูปของสำนึกความเป็นชาติ ซึ่ง น้ำเสียงแบบอาณานิคม ชัดมาก
การเป็น ส.ส. Oldham อยู่ในปัจจุบันพร้อมกับเคยเป็น รัฐมนตรีช่วยว่าการกระทรวงอาณานิคม มาก่อน เป็นชุดข้อมูลที่ไม่มีช่วงเวลาไหนตรงกัน
แถมยังขาดประวัติสำคัญช่วงสงครามโลกครั้งที่หนึ่งอย่าง First Lord of the Admiralty หรือ Minister of Munitions ไปอีก
นี่ดูเป็นสัญญาณว่ามี temporal leakage ปะปนอยู่ค่อนข้างมาก