1 คะแนน โดย GN⁺ 1 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็นโมเดลภาษา 13B ที่ฝึกด้วย ข้อความภาษาอังกฤษก่อนปี 1931 จำนวน 260B โทเค็น เท่านั้น ทำให้สามารถทดลองการสนทนาและการทำ generalization กับโมเดลที่ไม่รู้จักโลกยุคปัจจุบันได้
  • ด้วย ความประหลาดใจที่เพิ่มขึ้นหลังจุดตัดความรู้ และสภาพแวดล้อมการประเมินที่ปนเปื้อนน้อยกว่า จึงสามารถทดสอบการคาดการณ์เหตุการณ์อนาคตและความสามารถในการไปถึงแนวคิดใหม่ได้โดยตรงมากขึ้น
  • เมื่อเทียบกับโมเดลที่มีสถาปัตยกรรมเดียวกันแต่ฝึกจากเว็บสมัยใหม่ ประสิทธิภาพบนการประเมินมาตรฐาน โดยรวมยังต่ำกว่า แต่เมื่อกรองคำถามที่ผิดยุคออก ช่องว่างจะลดลง และพบว่าความเข้าใจภาษาและงานคำนวณมีระดับใกล้เคียงกัน
  • ความท้าทายใหญ่ที่สุดคือ การรั่วไหลข้ามเวลาและคุณภาพข้อมูล โดยเมตาดาต้าวันที่ที่ผิดหรือการแทรกแก้ไขในภายหลังอาจทำให้จุดตัดเสียหายได้ และคุณภาพการถอดข้อความจากเอกสารประวัติศาสตร์ก็ส่งผลต่อประสิทธิภาพอย่างมาก
  • มีการสร้างกระบวนการฝึกต่อแบบโต้ตอบขึ้นมาแยกต่างหากโดยไม่ใช้ข้อมูล instruction สมัยใหม่ และมี ฐานงานวิจัยระยะยาว ต่อเนื่องไปถึงการฝึกโมเดลที่ใหญ่ขึ้น การขยายคอร์ปัส การทำ OCR ใหม่ และการเสริมการตรวจจับการรั่วไหล

ทำไมต้องเป็นโมเดลภาษาวินเทจ

  • โมเดลภาษาวินเทจ คือแนวทางที่ฝึกด้วยข้อความก่อนช่วงเวลาหนึ่งในอดีตเท่านั้น เพื่อสร้างประสบการณ์สนทนากับโมเดลที่ไม่รู้จักโลกสมัยใหม่
  • โมเดลลักษณะนี้ไม่ใช่แค่คู่สนทนาที่น่าสนใจ แต่ยังใช้เป็นเครื่องมือวิจัยเพื่อขยาย ความเข้าใจทั่วไปเกี่ยวกับ AI ได้ด้วย
    • กับโมเดล 13B ที่ฝึกด้วยข้อความก่อนปี 1931 เท่านั้น ได้นำคำอธิบายเหตุการณ์จาก “On This Day” ของ New York Times ราว 5,000 รายการมาใส่ และวัดความประหลาดใจด้วยบิตต่อไบต์ของข้อความ
    • ความประหลาดใจเพิ่มขึ้นหลังจุดตัดความรู้ โดยเด่นชัดเป็นพิเศษในช่วงทศวรรษ 1950 และ 1960 ก่อนจะทรงตัว
  • การประเมิน การคาดการณ์อนาคต ยังต่อยอดไปสู่การวัดว่าประสิทธิภาพดีขึ้นตามขนาดโมเดลอย่างไร และอ่อนลงอย่างไรเมื่อช่วงเวลาห่างออกไปมากขึ้น
  • ความสามารถในการไปถึงแนวคิดใหม่ ก็สามารถทดสอบได้เช่นกัน โดยดูว่าโมเดลจะคิดค้นสิ่งประดิษฐ์หรือการค้นพบทางวิทยาศาสตร์ที่เกิดขึ้นจริงหลังจุดตัดได้อย่างอิสระหรือไม่
  • สภาพแวดล้อมการประเมินที่ปราศจากการปนเปื้อน ก็เป็นข้อดีสำคัญ
    • Contamination ถูกมองว่าเป็นปัญหาต่อเนื่องที่ทำให้ประเมินความสามารถของโมเดลภาษาเกินจริง
    • โมเดลวินเทจมีการปนเปื้อนต่ำโดยโครงสร้าง ทำให้ทดลองการทำ generalization นอกข้อมูล pretraining ได้โดยตรงมากขึ้น

ภาพรวมของ Talkie

  • talkie-1930-13b-base คือโมเดลภาษา 13B ที่ฝึกด้วย ข้อความภาษาอังกฤษก่อนปี 1931 จำนวน 260B โทเค็น
  • talkie-1930-13b-it คือ เช็กพอยต์ต่อยอด ที่เปลี่ยนเบสโมเดลนี้ให้โต้ตอบได้
    • ออกแบบมาเพื่อไม่ต้องพึ่งพาบันทึกการแชตสมัยใหม่หรือข้อมูล instruction-tuning สมัยใหม่
  • ฟีดสด 24 ชั่วโมง ในวิดเจ็ตด้านบน ทำงานในรูปแบบที่ Claude Sonnet 4.6 ใช้พรอมป์ต์กับ talkie-1930-13b-it เพื่อสำรวจความรู้ ความสามารถ และแนวโน้มของมัน
  • Talkie ถูกแนะนำว่าเป็น โมเดลภาษาวินเทจที่ใหญ่ที่สุด ณ เวลาที่เขียน
  • ขั้นต่อไปกำลังฝึก โมเดลระดับ GPT-3 โดยตั้งเป้าเปิดเผยในช่วงฤดูร้อน
  • ยังมีการประเมินเบื้องต้นว่าคอร์ปัสข้อความประวัติศาสตร์สามารถขยายได้เป็น มากกว่า 1 ล้านล้านโทเค็น
    • เอกสารระบุว่าขนาดนี้อาจเพียงพอสำหรับสร้าง โมเดลระดับ GPT-3.5 ที่มีความสามารถใกล้เคียงกับ ChatGPT รุ่นแรก

การประเมินประสิทธิภาพและการทำ generalization

  • มีการสร้าง talkie-web-13b-base เป็น โมเดลคู่แฝดสมัยใหม่ โดยใช้สถาปัตยกรรมเดียวกัน แต่ฝึกด้วยข้อมูลเว็บสมัยใหม่จาก FineWeb
  • แม้จะฝึกด้วย FLOPs เท่ากัน Talkie ก็ยังแสดง ประสิทธิภาพโดยเฉลี่ยต่ำกว่าโมเดลสมัยใหม่ บนการประเมิน LM มาตรฐาน
    • ความต่างนี้ยังคงอยู่แม้จะปรับแก้ความผิดยุคของคำถามแล้ว
    • อย่างไรก็ตาม เอกสารระบุว่าพบประสิทธิภาพใกล้เคียงกันในงานด้าน ความเข้าใจภาษาและความสามารถเชิงคำนวณ ที่สำคัญ
  • ตาม Figure 4 เมื่อกรองคำถามที่ผิดยุคออก ช่องว่างด้านประสิทธิภาพลดลงราวครึ่งหนึ่ง
  • ยังมีการทำ การทดลอง generalization ด้านโค้ด
    • ใช้ HumanEval เปรียบเทียบคู่ของโมเดลวินเทจที่ฝึกด้วยข้อความก่อนปี 1931 กับโมเดลสมัยใหม่ที่ฝึกจากเว็บ
    • ให้ตัวอย่างฟังก์ชัน Python แบบสุ่มเป็นตัวอย่างสำหรับ in-context learning แล้ววัดสัดส่วนของโจทย์ที่ตอบถูกอย่างน้อย 1 ครั้งจาก 100 ครั้ง
  • โมเดลวินเทจ ยังตามหลังโมเดลที่ฝึกด้วยข้อมูลเว็บอย่างมาก แต่เมื่อขนาดใหญ่ขึ้น งานนี้ก็ค่อย ๆ ดีขึ้นอย่างสม่ำเสมอ
  • คำตอบที่ถูกในปัจจุบันยังจำกัดอยู่ที่ โปรแกรมบรรทัดเดียวที่ง่ายมาก หรือการดัดแปลงเล็กน้อยจากตัวอย่างในบริบท
    • มีตัวอย่างการเขียนฟังก์ชันถอดรหัสเมื่อให้ ฟังก์ชันเข้ารหัสแบบหมุน
    • แม้จะเป็นเพียงการแก้หนึ่งตัวอักษรโดยเปลี่ยนการบวกเป็นการลบ แต่ถูกตีความว่าเป็นสัญญาณว่ามีความเข้าใจเรื่องฟังก์ชันผกผัน

ความท้าทายของการเก็บข้อมูลและการฝึก

  • ระบุว่าสามารถรวบรวมโทเค็นภาษาอังกฤษก่อนปี 1931 ได้ในระดับ หลายแสนล้าน ไม่ใช่เพียงหลายหมื่นล้าน
  • ข้อมูลครอบคลุมหนังสือ หนังสือพิมพ์ สิ่งพิมพ์ต่อเนื่อง วารสารวิทยาศาสตร์ สิทธิบัตร และคำพิพากษา
  • เหตุผลที่เลือก ปลายปี 1930 เป็นจุดตัด เพราะในสหรัฐฯ เวลานี้เป็นเกณฑ์ที่งานเขียนเข้าสู่ public domain
  • เวอร์ชันนี้จำกัดอยู่ที่ ข้อความภาษาอังกฤษเป็นหลัก
    • เอกสารระบุว่าการตรวจสอบ data pipeline ต้องอาศัยความคุ้นเคยอย่างลึกซึ้งกับเอกสารต้นฉบับ และทีมพัฒนาเป็นเจ้าของภาษาอังกฤษ
  • การขยายเป็นหลายภาษา ถูกระบุว่าเป็นลำดับความสำคัญสูง
    • โดยมีทั้งเป้าหมายเพิ่มขนาดคอร์ปัสและขยายความหลากหลายของมุมมองที่รวมอยู่
  • การรั่วไหลข้ามเวลา

    • เป้าหมายสำคัญที่สุดคือ ป้องกันไม่ให้ข้อมูลหลังจุดตัดความรู้รั่วเข้าสู่คอร์ปัสฝึก
    • การรั่วไหลอาจเกิดจากเอกสารสมัยใหม่ที่มีเมตาดาต้าวันที่ผิด หรือจากคำนำและเชิงอรรถของบรรณาธิการที่ถูกแทรกเพิ่มภายหลังในเอกสารเก่า
    • ใน Talkie-1930 มีการกรองคอร์ปัส pretraining ด้วย ตัวจำแนกความผิดยุคแบบ n-gram ระดับเอกสาร
    • การกรองนี้ยังไม่สมบูรณ์
      • เวอร์ชัน 7B แรกเริ่มรู้ชัดเจนเกี่ยวกับสมัยดำรงตำแหน่งของประธานาธิบดี Roosevelt และกฎหมาย New Deal
      • เวอร์ชัน 13B ก็ยังรู้รายละเอียดบางส่วนของ สงครามโลกครั้งที่สองและระเบียบโลกหลังสงคราม เช่น United Nations และการแบ่งเยอรมนี
    • สำหรับเวอร์ชันถัดไป กำลังพัฒนาเทคนิคตรวจจับและกรองการรั่วไหลที่ใช้ ตัวจำแนกขั้นสูงกว่าเดิม
  • คุณภาพข้อมูล

    • ในปี 1930 ยังไม่มีการตีพิมพ์แบบดิจิทัล ดังนั้นข้อความทั้งหมดในชุดข้อมูลจึงต้อง ถอดจากต้นฉบับทางกายภาพ
    • กระบวนการนี้ทำให้เกิด noise แบบที่ไม่มีในข้อความที่สร้างเป็นดิจิทัลแต่แรก
    • ระบบ OCR แบบดั้งเดิมจัดการเอกสารประวัติศาสตร์ได้ไม่ดี ยกเว้นกรณีเลย์เอาต์ง่ายและสแกนสะอาด
    • OCR สมัยใหม่ที่อิง VLM มีความแม่นยำกว่า แต่เอกสารระบุว่าอาจ hallucinate ข้อเท็จจริงสมัยใหม่แทรกเข้าไปในคอร์ปัสและทำลายการทดลองได้
    • ในการทดลองควบคุม หากฝึก LM ด้วยข้อความก่อนปี 1931 ที่ถอดด้วย OCR แบบเดิม จะได้เพียง 30% ของประสิทธิภาพจากฉบับถอดโดยมนุษย์ เมื่อใช้คอมพิวต์เท่ากัน
    • เมื่อใช้การทำความสะอาดด้วย regex แบบง่าย ๆ ประสิทธิภาพฟื้นกลับมาได้ถึง 70% แต่ก็ยังเหลือช่องว่างขนาดใหญ่
    • เพื่อปิดช่องว่างนี้ มีแผนจะถอดคอร์ปัส Talkie ใหม่ด้วย ระบบ OCR วินเทจ
  • การฝึกต่อแบบวินเทจ

    • การขาดแคลน ข้อมูล post-training ที่พร้อมใช้งาน ก็เป็นปัญหาใหญ่เช่นกัน
    • หาก fine-tune ด้วยคู่ instruction-response ทั่วไป ความรู้ สำนวน และความคาดหวังแบบแชตแอสซิสแทนต์สมัยใหม่จะถูกนำเข้ามาทันที
    • เพื่อหลีกเลี่ยงปัญหานี้ จึงสร้าง post-training pipeline ขึ้นใหม่ตั้งแต่ต้น
    • ขั้นแรก สร้างคู่ instruction-response จากข้อความประวัติศาสตร์ที่มีโครงสร้างสม่ำเสมอ เช่น หนังสือมารยาท คู่มือเขียนจดหมาย ตำราอาหาร พจนานุกรม สารานุกรม กวีนิพนธ์ และนิทาน寓言 แล้วนำไป fine-tune ในรูปแบบแชตอย่างง่าย
    • จากนั้นสร้าง พรอมป์ต์สังเคราะห์ ที่ครอบคลุมงานอย่างการสรุปเอกสาร การตอบคำขอข้อมูลโดยตรง และการต่อบทสนทนาหลายเทิร์น แล้วทำ online direct preference optimization โดยใช้ Claude Sonnet 4.6 เป็นกรรมการ
    • ในชุดประเมินแยก คะแนนเฉลี่ยด้านการทำตาม instruction จากกรรมการเพิ่มขึ้นจาก 2.0 เป็น 3.4 จากเต็ม 5 คะแนน
    • สุดท้ายมีการทำ supervised fine-tuning อีกหนึ่งรอบด้วยบทสนทนาสังเคราะห์หลายเทิร์นแบบ rejection-sampled ระหว่าง Claude Opus 4.6 กับ Talkie
    • เอกสารระบุว่าการเสริมกำลังด้วยการป้อนกลับจาก AI ย่อมทิ้งอิทธิพลสมัยใหม่ไว้โดยหลีกเลี่ยงไม่ได้
      • Talkie เวอร์ชัน 7B หลัง RL เคยพูดด้วยน้ำเสียงแบบ listicle
    • คาดหวังว่าเมื่อขยายขนาดมากขึ้น จะสามารถใช้เบสโมเดลวินเทจเองเป็นกรรมการเพื่อทำ post-training แบบ bootstrap ที่ตรงยุคอย่างสมบูรณ์ ได้

แผนการขยายในอนาคต

  • เดินหน้าทั้ง การขยายคอร์ปัสภาษาอังกฤษ และการขยายไปยังภาษาอื่นนอกเหนือจากอังกฤษ
  • มีแผนทำ re-OCR ข้อความก่อนปี 1931 ให้ได้มากที่สุดเท่าที่จะทำได้ด้วยระบบ OCR ใหม่
  • จะเสริม pipeline ตรวจจับการรั่วไหล ด้วยเทคนิคจำแนกความผิดยุคแบบใหม่
  • วางแผนร่วมมือกับนักประวัติศาสตร์เพื่อขยายและทำให้ pipeline post-training แบบวินเทจ ละเอียดขึ้น
    • รวมถึงระเบียบวิธีในการสร้าง persona ที่ถูกต้องตามประวัติศาสตร์

การใช้งานและข้อเสนอความร่วมมือ

  • GitHub: โค้ดโครงการและช่องทางความร่วมมือด้านวิจัย
  • Hugging Face: ที่เผยแพร่เช็กพอยต์ของโมเดล
  • 💬 Chat: อินเทอร์เฟซสนทนากับ Talkie
  • hello@talkie-lm.com: ช่องทางติดต่อเพื่อความร่วมมือ
  • ต้องการร่วมมือกับนักวิจัยและสถาบันที่มีข้อความประวัติศาสตร์ รวมถึง การเพิ่มการเข้าถึงผ่านการทำ OCR
  • ยังเปิดรับการสนับสนุนด้านเงินทุนหรือคอมพิวต์ และระบุว่าสามารถเชื่อมต่อกับทีมอื่นในสาขานี้ได้ด้วย
  • สำหรับนักวิจัยสายมนุษยศาสตร์ ระบุว่าสามารถหารือร่วมกันเรื่องการใช้งาน ข้อมูลและโครงสร้างพื้นฐาน สำหรับโมเดลภาษาวินเทจและการฝึกมันได้
  • สำหรับนักวิจัย AI ต้องการความร่วมมือด้านการฝึกและงานวิจัยเกี่ยวกับโมเดลภาษาวินเทจ
  • ศิลปินและนักเขียนก็สามารถใช้เป็นเครื่องมือทดลองได้เช่นกัน

ข้อควรระวัง

  • Talkie สะท้อน วัฒนธรรมและค่านิยม ของข้อความที่ใช้ฝึก
  • ผลลัพธ์คืออาจสร้าง เอาต์พุตที่ทำให้ผู้ใช้ไม่สบายใจ ได้

1 ความคิดเห็น

 
GN⁺ 1 일 전
ความคิดเห็นจาก Hacker News
  • สนุกมากที่ตีความ computer แห่งอนาคตเป็นอาชีพของคน
    การอธิบาย "digital computers" ว่าเป็นคนที่คำนวณด้วยนิ้วก็ดีมาก และพอมีบริบทเพิ่มว่าตอนนั้น computer คือชื่อตำแหน่งงานของมนุษย์ ก็ยิ่งได้อรรถรส

    • อยากเห็นแบบย้อนกลับเหมือนกัน หมายถึงโมเดลที่ฝึกด้วยข้อมูล แค่ไม่กี่สัปดาห์หรือไม่กี่นาทีล่าสุด หรือโมเดลที่ฝึกด้วย เฉพาะงานวิจัยวิทยาศาสตร์ในช่วง 1–2 ปีล่าสุด
      น่าจะได้อาการเพ้อที่น่าสนใจไม่น้อย
    • ฉันเองก็ ต้องอ่านอยู่สองรอบกว่า ถึงจะเข้าใจ เลยแอบเขินนิดหน่อย
    • ในกลุ่มภาษาโรมานซ์ digital นอกจากจะหมายถึงดิจิทัลแบบสมัยใหม่แล้ว ก็ยังเป็น คำคุณศัพท์ที่เกี่ยวกับนิ้วมือ ด้วย
  • ดูเหมือนอันนี้จะดึงข้อมูล ก่อนปี 1900 มากกว่ายุคทศวรรษ 1930
    เหมือนจะไม่รู้เรื่อง ภาวะเศรษฐกิจตกต่ำครั้งใหญ่ และถึงจะรู้จักสงครามโลกครั้งที่หนึ่งถ้าถามตรง ๆ แต่เวลาพูดเรื่องการเมืองยุโรปกลับพูดเหมือนอยู่ราวปี 1900
    ด้านเทคโนโลยีก็เหมือนจะรู้จัก Edison ระดับวิกิพีเดีย แต่ดันใส่ผลงานเรื่อง รถยนต์ความเร็ว 125 ไมล์ต่อชั่วโมง เข้าไปให้ด้วย และเรื่องโทรศัพท์แบบหมุนก็ตอบผิดอย่างมั่นใจ
    มันตอบแรงดันไฟของ London Underground ได้ถูก แต่พออธิบายเรื่องแรงดันกับความต้านทานกลับพูดผิดหมด
    โดยรวมคือประโยคแรกหนึ่งหรือสองประโยคจะให้ข้อมูลที่เหมือนค้นเจอจากเสิร์ชได้ แต่หลังจากนั้นก็ไถลไปเป็นเรื่องเพ้อที่ฟังดูน่าเชื่อ
    คำถามที่เราไม่รู้คำตอบจริง ๆ ไม่ควรถามโมเดลนี้ สมองจะปนเปื้อนเอา

    • ตอนปี 1929 มีการใช้คำว่า Great Depression แล้วหรือยัง?
    • น่าจะลองถามเรื่อง aether ด้วย
      ตอนนั้นน่าจะเป็นแนวคิดที่ถูกหักล้างไปแล้ว
    • งั้นก็แปลว่าเหมือน LLM ทุกตัว นั่นแหละ
    • ดูจากที่ประโยคแรกฟังขึ้น แต่ยิ่งพูดยิ่งเพ้อ อันนี้แทบจะเป็น เครื่องจำลองมนุษย์รุ่นปี 2026 เลย
  • พอถามถึงคนที่ต่อต้านระบบอัตโนมัติและอุตสาหกรรม มันตอบว่ากลัวว่าเครื่องจักรจะ แย่งงานของชนชั้นแรงงาน และทำให้เกิดการผลิตล้นจนต้องเลิกจ้าง ซึ่งน่าสนใจมาก
    เหตุผลแบบ ต่อต้านเครื่องจักรในยุคนั้น ก็ยังอยู่ครบ ทั้งอาหารราคาถูกจะทำให้ต้องแข่งกับผู้ผลิตต่างชาติ การขัดเกลาทางใจของช่างฝีมือจะเสื่อมลง และเส้นแบ่งระหว่างความขยันกับความเกียจคร้านจะพร่าเลือน

    • ฉันชอบ สำนวนและน้ำเสียง ของโมเดลนี้มากจริง ๆ
  • พอถามถึงโลกในปี 2025 ภาพอนาคตที่ได้ก็สวยมาก ทั้ง ประชากร 6.6 พันล้านคน, โครงข่ายรถไฟทั่วยุโรป, ลอนดอน-คอนสแตนติโนเปิลใน 40 ชั่วโมง, สกุลเงินเดียว, สันติภาพถ้วนหน้า, การเปลี่ยนไปใช้พลังงานแสงอาทิตย์กับพลังน้ำ, การกำจัดโรคภัย, ไปจนถึงความก้าวหน้าทางสุนทรียะ

    • ถ้าอิงมุมมองยุคทศวรรษ 1930 ชื่อ Constantinople ก็เก่าเกินไป
      ถึงตอนนั้นมันเป็น Istanbul มานานแล้ว
    • ทั้งสวยงาม และในขณะเดียวกันก็ค่อนข้างเศร้าด้วย
    • อยากอยู่ในโลกแบบนั้น
    • ภาพอนาคตแบบยุค 1920–1950 ดูเหมือนจะแอบตั้งสมมติฐานถึง ความก้าวหน้าแบบเอ็กซ์โปเนนเชียล ที่คำตอบที่เหมาะสมที่สุด เช่นพลังงานทางเลือก จะเข้าครอบงำทั้งหมดทันทีโดยไม่ต้องผ่าน การแกว่งเชิงวิภาษวิธี
      ถึงอย่างนั้นฉันก็คิดว่าสุดท้ายสักวันเราคงไปถึงจุดนั้น
    • งดงามจริง ๆ
  • คำตอบที่ว่าการเดินทางไปดวงจันทร์จะเป็นไปได้ในที่สุด และจะ ไปถึงดวงจันทร์ได้ภายใน 6 ชั่วโมง โดยออกเดินทางจากฝรั่งเศสตะวันออกด้วยเครื่องบินแบบ Santos Dumont นั้นยอดเยี่ยมมาก
    ไอเดียที่ว่าจะใช้ดวงจันทร์สังเกตอากาศเพื่อให้ เตือนพายุได้เร็วขึ้น 6 ชั่วโมง ก็ชวนประทับใจเป็นพิเศษ

    • แนวคิดว่าจะใช้ดวงจันทร์เหมือน ดาวเทียมอุตุนิยมวิทยา นี่ค่อนข้างมีไหวพริบทีเดียว
  • พอถามถึงอินเดียในปี 2026 มันตอบว่าจะยังคงเป็น สหพันธรัฐปกครองตนเองภายใต้อำนาจสูงสุดของจักรวรรดิอังกฤษ และกัลกัตตาจะเป็นเมืองหลวงทางการเมือง ซึ่งมุมมองแบบอาณานิคมโจ่งแจ้งมาก
    เต็มไปด้วย การมองโลกแง่ดีแบบจักรวรรดิ ตามตำรา ทั้งเรื่องทางรถไฟ การชลประทาน ป่าเชิงเขาหิมาลัย เจ้าผู้ครองรัฐที่ภักดี และราษฎรที่พอใจ

  • น่าทึ่งเหมือนกันที่ แค่โทเค็นก่อนปี 1930 ก็ทำโมเดลที่ฉลาดได้ขนาดนี้
    ฉันเคยคิดว่าถ้าจะให้เข้าใจและบีบอัดโลกได้ในระดับหนึ่งคงต้องใช้ข้อมูลมหาศาล อาจเป็นไปได้ว่าฉันประเมิน ปริมาณเอกสารที่ถูกดิจิไทซ์ในยุคนั้น ต่ำไป

  • นี่ดูคล้าย การโต้ตอบจดหมาย มากกว่าการคุยกับคนในอดีต
    เพราะเสียงบันทึกจากยุคนั้นมีไม่มาก สุดท้ายก็ต้องสร้างจาก บันทึกภาษาเขียน เป็นหลัก เลยอาจสะท้อนน้ำเสียงที่เป็นทางการและขัดเกลากว่ายุคปัจจุบัน
    แต่ถึงอย่างนั้นก็เป็นงานที่ยอดเยี่ยม
    ไม่นานมานี้ฉันต้องทำ OCR หนังสืออายุ 200 ปี แล้วก็แปลกใจว่ามันง่ายและแม่นยำกว่าที่คิดมาก ทั้งที่ตัวพิมพ์เฉพาะยุคนั้นอ่านยากมาก

    • เมื่อก่อนเคยอ่านอีบุ๊กฟรีของฉบับแปล The Arabian Nights โดย Burton แล้วเจอคำว่า "cloth" ใช้เป็นกริยา จนไม่เข้าใจความหมายเลย สุดท้ายก็ยอมแพ้
      มารู้ทีหลังว่าจริง ๆ แล้วมันเป็นข้อผิดพลาดจาก OCR หรือการประมวลผลภายหลัง และคำเดิมคือ "doth"
    • ไม่ใช่ว่ายุคนั้น เสียงบันทึก ไม่มีอยู่เลย
      มีทั้งข่าวภาพและรายการวิทยุช่วงก่อนและหลังสงครามโลกครั้งที่หนึ่งอยู่พอสมควร ฉันเลยคิดว่าน่าจะมีมากพอให้ทำโมเดลเสียงแบบ style transfer มาประกบกับโมเดลข้อความได้
  • มีคนหนึ่งบน X คิดว่าชุดฝึกของโมเดลนี้มี การรั่วไหลของข้อมูลจากอนาคต
    https://xcancel.com/deredleritt3r/status/2048977698832241060

    • ในบทความก็พูดถึงประเด็นนี้เหมือนกัน ในส่วนที่เกี่ยวกับ ความรู้เรื่อง FDR
  • ลองให้มันอธิบาย Winston Churchill แล้ว วิธีที่มันไล่เรียงทั้งชาติตระกูล การศึกษา ประวัติทหาร งานเขียน และที่อยู่อาศัยนั้นให้ความรู้สึกเป็นงานเขียนตามยุคสมัยมาก
    พอถามถึงความเป็นไปได้ที่อินเดียจะเป็นเอกราช มันก็ให้เหตุผลต่อเนื่องตั้งแต่ทางรถไฟ ภาษากลาง การศึกษาแบบตะวันตก ความต้องการสภา ไปจนถึงการก่อรูปของสำนึกความเป็นชาติ ซึ่ง น้ำเสียงแบบอาณานิคม ชัดมาก

    • เนื้อหาส่วนของ Churchill มี ความสอดคล้องตามยุคเวลา ที่แปลก ๆ
      การเป็น ส.ส. Oldham อยู่ในปัจจุบันพร้อมกับเคยเป็น รัฐมนตรีช่วยว่าการกระทรวงอาณานิคม มาก่อน เป็นชุดข้อมูลที่ไม่มีช่วงเวลาไหนตรงกัน
      แถมยังขาดประวัติสำคัญช่วงสงครามโลกครั้งที่หนึ่งอย่าง First Lord of the Admiralty หรือ Minister of Munitions ไปอีก
    • ตรงที่พูดถึงการเรียกร้องสภาให้อินเดีย มันเรียกองค์ประมุขว่า queen ทั้งที่กษัตริย์อังกฤษช่วงปี 1900–1950 เป็นผู้ชาย
      นี่ดูเป็นสัญญาณว่ามี temporal leakage ปะปนอยู่ค่อนข้างมาก