Talkie โมเดลภาษาวินเทจ 13B จากปี 1930

(talkie-lm.com)

1 คะแนน โดย GN⁺ 1 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เป็นโมเดลภาษา 13B ที่ฝึกด้วย ข้อความภาษาอังกฤษก่อนปี 1931 จำนวน 260B โทเค็น เท่านั้น ทำให้สามารถทดลองการสนทนาและการทำ generalization กับโมเดลที่ไม่รู้จักโลกยุคปัจจุบันได้
ด้วย ความประหลาดใจที่เพิ่มขึ้นหลังจุดตัดความรู้ และสภาพแวดล้อมการประเมินที่ปนเปื้อนน้อยกว่า จึงสามารถทดสอบการคาดการณ์เหตุการณ์อนาคตและความสามารถในการไปถึงแนวคิดใหม่ได้โดยตรงมากขึ้น
เมื่อเทียบกับโมเดลที่มีสถาปัตยกรรมเดียวกันแต่ฝึกจากเว็บสมัยใหม่ ประสิทธิภาพบนการประเมินมาตรฐาน โดยรวมยังต่ำกว่า แต่เมื่อกรองคำถามที่ผิดยุคออก ช่องว่างจะลดลง และพบว่าความเข้าใจภาษาและงานคำนวณมีระดับใกล้เคียงกัน
ความท้าทายใหญ่ที่สุดคือ การรั่วไหลข้ามเวลาและคุณภาพข้อมูล โดยเมตาดาต้าวันที่ที่ผิดหรือการแทรกแก้ไขในภายหลังอาจทำให้จุดตัดเสียหายได้ และคุณภาพการถอดข้อความจากเอกสารประวัติศาสตร์ก็ส่งผลต่อประสิทธิภาพอย่างมาก
มีการสร้างกระบวนการฝึกต่อแบบโต้ตอบขึ้นมาแยกต่างหากโดยไม่ใช้ข้อมูล instruction สมัยใหม่ และมี ฐานงานวิจัยระยะยาว ต่อเนื่องไปถึงการฝึกโมเดลที่ใหญ่ขึ้น การขยายคอร์ปัส การทำ OCR ใหม่ และการเสริมการตรวจจับการรั่วไหล

ทำไมต้องเป็นโมเดลภาษาวินเทจ

โมเดลภาษาวินเทจ คือแนวทางที่ฝึกด้วยข้อความก่อนช่วงเวลาหนึ่งในอดีตเท่านั้น เพื่อสร้างประสบการณ์สนทนากับโมเดลที่ไม่รู้จักโลกสมัยใหม่
โมเดลลักษณะนี้ไม่ใช่แค่คู่สนทนาที่น่าสนใจ แต่ยังใช้เป็นเครื่องมือวิจัยเพื่อขยาย ความเข้าใจทั่วไปเกี่ยวกับ AI ได้ด้วย
- กับโมเดล 13B ที่ฝึกด้วยข้อความก่อนปี 1931 เท่านั้น ได้นำคำอธิบายเหตุการณ์จาก “On This Day” ของ New York Times ราว 5,000 รายการมาใส่ และวัดความประหลาดใจด้วยบิตต่อไบต์ของข้อความ
- ความประหลาดใจเพิ่มขึ้นหลังจุดตัดความรู้ โดยเด่นชัดเป็นพิเศษในช่วงทศวรรษ 1950 และ 1960 ก่อนจะทรงตัว
การประเมิน การคาดการณ์อนาคต ยังต่อยอดไปสู่การวัดว่าประสิทธิภาพดีขึ้นตามขนาดโมเดลอย่างไร และอ่อนลงอย่างไรเมื่อช่วงเวลาห่างออกไปมากขึ้น
ความสามารถในการไปถึงแนวคิดใหม่ ก็สามารถทดสอบได้เช่นกัน โดยดูว่าโมเดลจะคิดค้นสิ่งประดิษฐ์หรือการค้นพบทางวิทยาศาสตร์ที่เกิดขึ้นจริงหลังจุดตัดได้อย่างอิสระหรือไม่
สภาพแวดล้อมการประเมินที่ปราศจากการปนเปื้อน ก็เป็นข้อดีสำคัญ
- Contamination ถูกมองว่าเป็นปัญหาต่อเนื่องที่ทำให้ประเมินความสามารถของโมเดลภาษาเกินจริง
- โมเดลวินเทจมีการปนเปื้อนต่ำโดยโครงสร้าง ทำให้ทดลองการทำ generalization นอกข้อมูล pretraining ได้โดยตรงมากขึ้น

ภาพรวมของ Talkie

talkie-1930-13b-base คือโมเดลภาษา 13B ที่ฝึกด้วย ข้อความภาษาอังกฤษก่อนปี 1931 จำนวน 260B โทเค็น
talkie-1930-13b-it คือ เช็กพอยต์ต่อยอด ที่เปลี่ยนเบสโมเดลนี้ให้โต้ตอบได้
- ออกแบบมาเพื่อไม่ต้องพึ่งพาบันทึกการแชตสมัยใหม่หรือข้อมูล instruction-tuning สมัยใหม่
ฟีดสด 24 ชั่วโมง ในวิดเจ็ตด้านบน ทำงานในรูปแบบที่ Claude Sonnet 4.6 ใช้พรอมป์ต์กับ talkie-1930-13b-it เพื่อสำรวจความรู้ ความสามารถ และแนวโน้มของมัน
Talkie ถูกแนะนำว่าเป็น โมเดลภาษาวินเทจที่ใหญ่ที่สุด ณ เวลาที่เขียน
ขั้นต่อไปกำลังฝึก โมเดลระดับ GPT-3 โดยตั้งเป้าเปิดเผยในช่วงฤดูร้อน
ยังมีการประเมินเบื้องต้นว่าคอร์ปัสข้อความประวัติศาสตร์สามารถขยายได้เป็น มากกว่า 1 ล้านล้านโทเค็น
- เอกสารระบุว่าขนาดนี้อาจเพียงพอสำหรับสร้าง โมเดลระดับ GPT-3.5 ที่มีความสามารถใกล้เคียงกับ ChatGPT รุ่นแรก

การประเมินประสิทธิภาพและการทำ generalization

มีการสร้าง talkie-web-13b-base เป็น โมเดลคู่แฝดสมัยใหม่ โดยใช้สถาปัตยกรรมเดียวกัน แต่ฝึกด้วยข้อมูลเว็บสมัยใหม่จาก FineWeb
แม้จะฝึกด้วย FLOPs เท่ากัน Talkie ก็ยังแสดง ประสิทธิภาพโดยเฉลี่ยต่ำกว่าโมเดลสมัยใหม่ บนการประเมิน LM มาตรฐาน
- ความต่างนี้ยังคงอยู่แม้จะปรับแก้ความผิดยุคของคำถามแล้ว
- อย่างไรก็ตาม เอกสารระบุว่าพบประสิทธิภาพใกล้เคียงกันในงานด้าน ความเข้าใจภาษาและความสามารถเชิงคำนวณ ที่สำคัญ
ตาม Figure 4 เมื่อกรองคำถามที่ผิดยุคออก ช่องว่างด้านประสิทธิภาพลดลงราวครึ่งหนึ่ง
ยังมีการทำ การทดลอง generalization ด้านโค้ด
- ใช้ HumanEval เปรียบเทียบคู่ของโมเดลวินเทจที่ฝึกด้วยข้อความก่อนปี 1931 กับโมเดลสมัยใหม่ที่ฝึกจากเว็บ
- ให้ตัวอย่างฟังก์ชัน Python แบบสุ่มเป็นตัวอย่างสำหรับ in-context learning แล้ววัดสัดส่วนของโจทย์ที่ตอบถูกอย่างน้อย 1 ครั้งจาก 100 ครั้ง
โมเดลวินเทจ ยังตามหลังโมเดลที่ฝึกด้วยข้อมูลเว็บอย่างมาก แต่เมื่อขนาดใหญ่ขึ้น งานนี้ก็ค่อย ๆ ดีขึ้นอย่างสม่ำเสมอ
คำตอบที่ถูกในปัจจุบันยังจำกัดอยู่ที่ โปรแกรมบรรทัดเดียวที่ง่ายมาก หรือการดัดแปลงเล็กน้อยจากตัวอย่างในบริบท
- มีตัวอย่างการเขียนฟังก์ชันถอดรหัสเมื่อให้ ฟังก์ชันเข้ารหัสแบบหมุน
- แม้จะเป็นเพียงการแก้หนึ่งตัวอักษรโดยเปลี่ยนการบวกเป็นการลบ แต่ถูกตีความว่าเป็นสัญญาณว่ามีความเข้าใจเรื่องฟังก์ชันผกผัน

ความท้าทายของการเก็บข้อมูลและการฝึก

ระบุว่าสามารถรวบรวมโทเค็นภาษาอังกฤษก่อนปี 1931 ได้ในระดับ หลายแสนล้าน ไม่ใช่เพียงหลายหมื่นล้าน
ข้อมูลครอบคลุมหนังสือ หนังสือพิมพ์ สิ่งพิมพ์ต่อเนื่อง วารสารวิทยาศาสตร์ สิทธิบัตร และคำพิพากษา
เหตุผลที่เลือก ปลายปี 1930 เป็นจุดตัด เพราะในสหรัฐฯ เวลานี้เป็นเกณฑ์ที่งานเขียนเข้าสู่ public domain
เวอร์ชันนี้จำกัดอยู่ที่ ข้อความภาษาอังกฤษเป็นหลัก
- เอกสารระบุว่าการตรวจสอบ data pipeline ต้องอาศัยความคุ้นเคยอย่างลึกซึ้งกับเอกสารต้นฉบับ และทีมพัฒนาเป็นเจ้าของภาษาอังกฤษ
การขยายเป็นหลายภาษา ถูกระบุว่าเป็นลำดับความสำคัญสูง
- โดยมีทั้งเป้าหมายเพิ่มขนาดคอร์ปัสและขยายความหลากหลายของมุมมองที่รวมอยู่
การรั่วไหลข้ามเวลา
- เป้าหมายสำคัญที่สุดคือ ป้องกันไม่ให้ข้อมูลหลังจุดตัดความรู้รั่วเข้าสู่คอร์ปัสฝึก
- การรั่วไหลอาจเกิดจากเอกสารสมัยใหม่ที่มีเมตาดาต้าวันที่ผิด หรือจากคำนำและเชิงอรรถของบรรณาธิการที่ถูกแทรกเพิ่มภายหลังในเอกสารเก่า
- ใน Talkie-1930 มีการกรองคอร์ปัส pretraining ด้วย ตัวจำแนกความผิดยุคแบบ n-gram ระดับเอกสาร
- การกรองนี้ยังไม่สมบูรณ์
  - เวอร์ชัน 7B แรกเริ่มรู้ชัดเจนเกี่ยวกับสมัยดำรงตำแหน่งของประธานาธิบดี Roosevelt และกฎหมาย New Deal
  - เวอร์ชัน 13B ก็ยังรู้รายละเอียดบางส่วนของ สงครามโลกครั้งที่สองและระเบียบโลกหลังสงคราม เช่น United Nations และการแบ่งเยอรมนี
- สำหรับเวอร์ชันถัดไป กำลังพัฒนาเทคนิคตรวจจับและกรองการรั่วไหลที่ใช้ ตัวจำแนกขั้นสูงกว่าเดิม
คุณภาพข้อมูล
- ในปี 1930 ยังไม่มีการตีพิมพ์แบบดิจิทัล ดังนั้นข้อความทั้งหมดในชุดข้อมูลจึงต้อง ถอดจากต้นฉบับทางกายภาพ
- กระบวนการนี้ทำให้เกิด noise แบบที่ไม่มีในข้อความที่สร้างเป็นดิจิทัลแต่แรก
- ระบบ OCR แบบดั้งเดิมจัดการเอกสารประวัติศาสตร์ได้ไม่ดี ยกเว้นกรณีเลย์เอาต์ง่ายและสแกนสะอาด
- OCR สมัยใหม่ที่อิง VLM มีความแม่นยำกว่า แต่เอกสารระบุว่าอาจ hallucinate ข้อเท็จจริงสมัยใหม่แทรกเข้าไปในคอร์ปัสและทำลายการทดลองได้
- ในการทดลองควบคุม หากฝึก LM ด้วยข้อความก่อนปี 1931 ที่ถอดด้วย OCR แบบเดิม จะได้เพียง 30% ของประสิทธิภาพจากฉบับถอดโดยมนุษย์ เมื่อใช้คอมพิวต์เท่ากัน
- เมื่อใช้การทำความสะอาดด้วย regex แบบง่าย ๆ ประสิทธิภาพฟื้นกลับมาได้ถึง 70% แต่ก็ยังเหลือช่องว่างขนาดใหญ่
- เพื่อปิดช่องว่างนี้ มีแผนจะถอดคอร์ปัส Talkie ใหม่ด้วย ระบบ OCR วินเทจ
การฝึกต่อแบบวินเทจ
- การขาดแคลน ข้อมูล post-training ที่พร้อมใช้งาน ก็เป็นปัญหาใหญ่เช่นกัน
- หาก fine-tune ด้วยคู่ instruction-response ทั่วไป ความรู้ สำนวน และความคาดหวังแบบแชตแอสซิสแทนต์สมัยใหม่จะถูกนำเข้ามาทันที
- เพื่อหลีกเลี่ยงปัญหานี้ จึงสร้าง post-training pipeline ขึ้นใหม่ตั้งแต่ต้น
- ขั้นแรก สร้างคู่ instruction-response จากข้อความประวัติศาสตร์ที่มีโครงสร้างสม่ำเสมอ เช่น หนังสือมารยาท คู่มือเขียนจดหมาย ตำราอาหาร พจนานุกรม สารานุกรม กวีนิพนธ์ และนิทาน寓言 แล้วนำไป fine-tune ในรูปแบบแชตอย่างง่าย
- จากนั้นสร้าง พรอมป์ต์สังเคราะห์ ที่ครอบคลุมงานอย่างการสรุปเอกสาร การตอบคำขอข้อมูลโดยตรง และการต่อบทสนทนาหลายเทิร์น แล้วทำ online direct preference optimization โดยใช้ Claude Sonnet 4.6 เป็นกรรมการ
- ในชุดประเมินแยก คะแนนเฉลี่ยด้านการทำตาม instruction จากกรรมการเพิ่มขึ้นจาก 2.0 เป็น 3.4 จากเต็ม 5 คะแนน
- สุดท้ายมีการทำ supervised fine-tuning อีกหนึ่งรอบด้วยบทสนทนาสังเคราะห์หลายเทิร์นแบบ rejection-sampled ระหว่าง Claude Opus 4.6 กับ Talkie
- เอกสารระบุว่าการเสริมกำลังด้วยการป้อนกลับจาก AI ย่อมทิ้งอิทธิพลสมัยใหม่ไว้โดยหลีกเลี่ยงไม่ได้
  - Talkie เวอร์ชัน 7B หลัง RL เคยพูดด้วยน้ำเสียงแบบ listicle
- คาดหวังว่าเมื่อขยายขนาดมากขึ้น จะสามารถใช้เบสโมเดลวินเทจเองเป็นกรรมการเพื่อทำ post-training แบบ bootstrap ที่ตรงยุคอย่างสมบูรณ์ ได้

แผนการขยายในอนาคต

เดินหน้าทั้ง การขยายคอร์ปัสภาษาอังกฤษ และการขยายไปยังภาษาอื่นนอกเหนือจากอังกฤษ
มีแผนทำ re-OCR ข้อความก่อนปี 1931 ให้ได้มากที่สุดเท่าที่จะทำได้ด้วยระบบ OCR ใหม่
จะเสริม pipeline ตรวจจับการรั่วไหล ด้วยเทคนิคจำแนกความผิดยุคแบบใหม่
วางแผนร่วมมือกับนักประวัติศาสตร์เพื่อขยายและทำให้ pipeline post-training แบบวินเทจ ละเอียดขึ้น
- รวมถึงระเบียบวิธีในการสร้าง persona ที่ถูกต้องตามประวัติศาสตร์

การใช้งานและข้อเสนอความร่วมมือ

GitHub: โค้ดโครงการและช่องทางความร่วมมือด้านวิจัย
Hugging Face: ที่เผยแพร่เช็กพอยต์ของโมเดล
💬 Chat: อินเทอร์เฟซสนทนากับ Talkie
hello@talkie-lm.com: ช่องทางติดต่อเพื่อความร่วมมือ
ต้องการร่วมมือกับนักวิจัยและสถาบันที่มีข้อความประวัติศาสตร์ รวมถึง การเพิ่มการเข้าถึงผ่านการทำ OCR
ยังเปิดรับการสนับสนุนด้านเงินทุนหรือคอมพิวต์ และระบุว่าสามารถเชื่อมต่อกับทีมอื่นในสาขานี้ได้ด้วย
สำหรับนักวิจัยสายมนุษยศาสตร์ ระบุว่าสามารถหารือร่วมกันเรื่องการใช้งาน ข้อมูลและโครงสร้างพื้นฐาน สำหรับโมเดลภาษาวินเทจและการฝึกมันได้
สำหรับนักวิจัย AI ต้องการความร่วมมือด้านการฝึกและงานวิจัยเกี่ยวกับโมเดลภาษาวินเทจ
ศิลปินและนักเขียนก็สามารถใช้เป็นเครื่องมือทดลองได้เช่นกัน

ข้อควรระวัง

Talkie สะท้อน วัฒนธรรมและค่านิยม ของข้อความที่ใช้ฝึก
ผลลัพธ์คืออาจสร้าง เอาต์พุตที่ทำให้ผู้ใช้ไม่สบายใจ ได้

1 ความคิดเห็น

GN⁺ 1 일 전

ความคิดเห็นจาก Hacker News

สนุกมากที่ตีความ computer แห่งอนาคตเป็นอาชีพของคน
การอธิบาย "digital computers" ว่าเป็นคนที่คำนวณด้วยนิ้วก็ดีมาก และพอมีบริบทเพิ่มว่าตอนนั้น computer คือชื่อตำแหน่งงานของมนุษย์ ก็ยิ่งได้อรรถรส
- อยากเห็นแบบย้อนกลับเหมือนกัน หมายถึงโมเดลที่ฝึกด้วยข้อมูล แค่ไม่กี่สัปดาห์หรือไม่กี่นาทีล่าสุด หรือโมเดลที่ฝึกด้วย เฉพาะงานวิจัยวิทยาศาสตร์ในช่วง 1–2 ปีล่าสุด
  น่าจะได้อาการเพ้อที่น่าสนใจไม่น้อย
- ฉันเองก็ ต้องอ่านอยู่สองรอบกว่า ถึงจะเข้าใจ เลยแอบเขินนิดหน่อย
- ในกลุ่มภาษาโรมานซ์ digital นอกจากจะหมายถึงดิจิทัลแบบสมัยใหม่แล้ว ก็ยังเป็น คำคุณศัพท์ที่เกี่ยวกับนิ้วมือ ด้วย
ดูเหมือนอันนี้จะดึงข้อมูล ก่อนปี 1900 มากกว่ายุคทศวรรษ 1930
เหมือนจะไม่รู้เรื่อง ภาวะเศรษฐกิจตกต่ำครั้งใหญ่ และถึงจะรู้จักสงครามโลกครั้งที่หนึ่งถ้าถามตรง ๆ แต่เวลาพูดเรื่องการเมืองยุโรปกลับพูดเหมือนอยู่ราวปี 1900
ด้านเทคโนโลยีก็เหมือนจะรู้จัก Edison ระดับวิกิพีเดีย แต่ดันใส่ผลงานเรื่อง รถยนต์ความเร็ว 125 ไมล์ต่อชั่วโมง เข้าไปให้ด้วย และเรื่องโทรศัพท์แบบหมุนก็ตอบผิดอย่างมั่นใจ
มันตอบแรงดันไฟของ London Underground ได้ถูก แต่พออธิบายเรื่องแรงดันกับความต้านทานกลับพูดผิดหมด
โดยรวมคือประโยคแรกหนึ่งหรือสองประโยคจะให้ข้อมูลที่เหมือนค้นเจอจากเสิร์ชได้ แต่หลังจากนั้นก็ไถลไปเป็นเรื่องเพ้อที่ฟังดูน่าเชื่อ
คำถามที่เราไม่รู้คำตอบจริง ๆ ไม่ควรถามโมเดลนี้ สมองจะปนเปื้อนเอา
- ตอนปี 1929 มีการใช้คำว่า Great Depression แล้วหรือยัง?
- น่าจะลองถามเรื่อง aether ด้วย
  ตอนนั้นน่าจะเป็นแนวคิดที่ถูกหักล้างไปแล้ว
- งั้นก็แปลว่าเหมือน LLM ทุกตัว นั่นแหละ
- ดูจากที่ประโยคแรกฟังขึ้น แต่ยิ่งพูดยิ่งเพ้อ อันนี้แทบจะเป็น เครื่องจำลองมนุษย์รุ่นปี 2026 เลย
พอถามถึงคนที่ต่อต้านระบบอัตโนมัติและอุตสาหกรรม มันตอบว่ากลัวว่าเครื่องจักรจะ แย่งงานของชนชั้นแรงงาน และทำให้เกิดการผลิตล้นจนต้องเลิกจ้าง ซึ่งน่าสนใจมาก
เหตุผลแบบ ต่อต้านเครื่องจักรในยุคนั้น ก็ยังอยู่ครบ ทั้งอาหารราคาถูกจะทำให้ต้องแข่งกับผู้ผลิตต่างชาติ การขัดเกลาทางใจของช่างฝีมือจะเสื่อมลง และเส้นแบ่งระหว่างความขยันกับความเกียจคร้านจะพร่าเลือน
- ฉันชอบ สำนวนและน้ำเสียง ของโมเดลนี้มากจริง ๆ
พอถามถึงโลกในปี 2025 ภาพอนาคตที่ได้ก็สวยมาก ทั้ง ประชากร 6.6 พันล้านคน, โครงข่ายรถไฟทั่วยุโรป, ลอนดอน-คอนสแตนติโนเปิลใน 40 ชั่วโมง, สกุลเงินเดียว, สันติภาพถ้วนหน้า, การเปลี่ยนไปใช้พลังงานแสงอาทิตย์กับพลังน้ำ, การกำจัดโรคภัย, ไปจนถึงความก้าวหน้าทางสุนทรียะ
- ถ้าอิงมุมมองยุคทศวรรษ 1930 ชื่อ Constantinople ก็เก่าเกินไป
  ถึงตอนนั้นมันเป็น Istanbul มานานแล้ว
- ทั้งสวยงาม และในขณะเดียวกันก็ค่อนข้างเศร้าด้วย
- อยากอยู่ในโลกแบบนั้น
- ภาพอนาคตแบบยุค 1920–1950 ดูเหมือนจะแอบตั้งสมมติฐานถึง ความก้าวหน้าแบบเอ็กซ์โปเนนเชียล ที่คำตอบที่เหมาะสมที่สุด เช่นพลังงานทางเลือก จะเข้าครอบงำทั้งหมดทันทีโดยไม่ต้องผ่าน การแกว่งเชิงวิภาษวิธี
  ถึงอย่างนั้นฉันก็คิดว่าสุดท้ายสักวันเราคงไปถึงจุดนั้น
- งดงามจริง ๆ
คำตอบที่ว่าการเดินทางไปดวงจันทร์จะเป็นไปได้ในที่สุด และจะ ไปถึงดวงจันทร์ได้ภายใน 6 ชั่วโมง โดยออกเดินทางจากฝรั่งเศสตะวันออกด้วยเครื่องบินแบบ Santos Dumont นั้นยอดเยี่ยมมาก
ไอเดียที่ว่าจะใช้ดวงจันทร์สังเกตอากาศเพื่อให้ เตือนพายุได้เร็วขึ้น 6 ชั่วโมง ก็ชวนประทับใจเป็นพิเศษ
- แนวคิดว่าจะใช้ดวงจันทร์เหมือน ดาวเทียมอุตุนิยมวิทยา นี่ค่อนข้างมีไหวพริบทีเดียว
พอถามถึงอินเดียในปี 2026 มันตอบว่าจะยังคงเป็น สหพันธรัฐปกครองตนเองภายใต้อำนาจสูงสุดของจักรวรรดิอังกฤษ และกัลกัตตาจะเป็นเมืองหลวงทางการเมือง ซึ่งมุมมองแบบอาณานิคมโจ่งแจ้งมาก
เต็มไปด้วย การมองโลกแง่ดีแบบจักรวรรดิ ตามตำรา ทั้งเรื่องทางรถไฟ การชลประทาน ป่าเชิงเขาหิมาลัย เจ้าผู้ครองรัฐที่ภักดี และราษฎรที่พอใจ
น่าทึ่งเหมือนกันที่ แค่โทเค็นก่อนปี 1930 ก็ทำโมเดลที่ฉลาดได้ขนาดนี้
ฉันเคยคิดว่าถ้าจะให้เข้าใจและบีบอัดโลกได้ในระดับหนึ่งคงต้องใช้ข้อมูลมหาศาล อาจเป็นไปได้ว่าฉันประเมิน ปริมาณเอกสารที่ถูกดิจิไทซ์ในยุคนั้น ต่ำไป
นี่ดูคล้าย การโต้ตอบจดหมาย มากกว่าการคุยกับคนในอดีต
เพราะเสียงบันทึกจากยุคนั้นมีไม่มาก สุดท้ายก็ต้องสร้างจาก บันทึกภาษาเขียน เป็นหลัก เลยอาจสะท้อนน้ำเสียงที่เป็นทางการและขัดเกลากว่ายุคปัจจุบัน
แต่ถึงอย่างนั้นก็เป็นงานที่ยอดเยี่ยม
ไม่นานมานี้ฉันต้องทำ OCR หนังสืออายุ 200 ปี แล้วก็แปลกใจว่ามันง่ายและแม่นยำกว่าที่คิดมาก ทั้งที่ตัวพิมพ์เฉพาะยุคนั้นอ่านยากมาก
- เมื่อก่อนเคยอ่านอีบุ๊กฟรีของฉบับแปล The Arabian Nights โดย Burton แล้วเจอคำว่า "cloth" ใช้เป็นกริยา จนไม่เข้าใจความหมายเลย สุดท้ายก็ยอมแพ้
  มารู้ทีหลังว่าจริง ๆ แล้วมันเป็นข้อผิดพลาดจาก OCR หรือการประมวลผลภายหลัง และคำเดิมคือ "doth"
- ไม่ใช่ว่ายุคนั้น เสียงบันทึก ไม่มีอยู่เลย
  มีทั้งข่าวภาพและรายการวิทยุช่วงก่อนและหลังสงครามโลกครั้งที่หนึ่งอยู่พอสมควร ฉันเลยคิดว่าน่าจะมีมากพอให้ทำโมเดลเสียงแบบ style transfer มาประกบกับโมเดลข้อความได้
มีคนหนึ่งบน X คิดว่าชุดฝึกของโมเดลนี้มี การรั่วไหลของข้อมูลจากอนาคต
https://xcancel.com/deredleritt3r/status/2048977698832241060
- ในบทความก็พูดถึงประเด็นนี้เหมือนกัน ในส่วนที่เกี่ยวกับ ความรู้เรื่อง FDR
ลองให้มันอธิบาย Winston Churchill แล้ว วิธีที่มันไล่เรียงทั้งชาติตระกูล การศึกษา ประวัติทหาร งานเขียน และที่อยู่อาศัยนั้นให้ความรู้สึกเป็นงานเขียนตามยุคสมัยมาก
พอถามถึงความเป็นไปได้ที่อินเดียจะเป็นเอกราช มันก็ให้เหตุผลต่อเนื่องตั้งแต่ทางรถไฟ ภาษากลาง การศึกษาแบบตะวันตก ความต้องการสภา ไปจนถึงการก่อรูปของสำนึกความเป็นชาติ ซึ่ง น้ำเสียงแบบอาณานิคม ชัดมาก
- เนื้อหาส่วนของ Churchill มี ความสอดคล้องตามยุคเวลา ที่แปลก ๆ
  การเป็น ส.ส. Oldham อยู่ในปัจจุบันพร้อมกับเคยเป็น รัฐมนตรีช่วยว่าการกระทรวงอาณานิคม มาก่อน เป็นชุดข้อมูลที่ไม่มีช่วงเวลาไหนตรงกัน
  แถมยังขาดประวัติสำคัญช่วงสงครามโลกครั้งที่หนึ่งอย่าง First Lord of the Admiralty หรือ Minister of Munitions ไปอีก
- ตรงที่พูดถึงการเรียกร้องสภาให้อินเดีย มันเรียกองค์ประมุขว่า queen ทั้งที่กษัตริย์อังกฤษช่วงปี 1900–1950 เป็นผู้ชาย
  นี่ดูเป็นสัญญาณว่ามี temporal leakage ปะปนอยู่ค่อนข้างมาก

Talkie โมเดลภาษาวินเทจ 13B จากปี 1930

ทำไมต้องเป็นโมเดลภาษาวินเทจ

ภาพรวมของ Talkie

การประเมินประสิทธิภาพและการทำ generalization

ความท้าทายของการเก็บข้อมูลและการฝึก

การรั่วไหลข้ามเวลา

คุณภาพข้อมูล

การฝึกต่อแบบวินเทจ

แผนการขยายในอนาคต

การใช้งานและข้อเสนอความร่วมมือ

ข้อควรระวัง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News