น้ำหนักของ LLM ขนาดใหญ่คือส่วนหนึ่งของประวัติศาสตร์

(antirez.com)

5 คะแนน โดย GN⁺ 2025-03-17 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ในทุกปีมีหน้าเว็บเก่า ๆ จำนวนมากหายไป และนั่นคือประวัติศาสตร์ที่สูญหายไปตลอดกาล
Internet Archive คือหนึ่งในทรัพย์สินที่ทรงคุณค่าที่สุดของประวัติศาสตร์สมัยใหม่
แต่บริษัทและองค์กรหลายแห่งกำลังทำให้การอยู่รอดและการอนุรักษ์ของคลังข้อมูลทำได้ยากขึ้น
ข้อเท็จจริงที่ว่าสำนักงานใหญ่ของ Internet Archive ตั้งอยู่ในอาคารโบสถ์เก่านั้นมีความหมายเชิงสัญลักษณ์ และเราควรมองที่นี่เป็นสถานที่ศักดิ์สิทธิ์

ช่วงเวลาที่โปรแกรมเมอร์รุ่นเก่าทำงานด้วย Z80 แอสเซมบลี การสนทนาของคนรุ่นอินเทอร์เน็ตยุคแรก และวัฒนธรรมย่อยที่ก่อตัวขึ้นในยุค 90 กำลังค่อย ๆ หายไป
การสูญหายของบล็อกส่วนตัว → บันทึกชีวิตและความคิดของแต่ละบุคคลก็หายไปด้วย
บทความวิชาการ ศิลปะดิจิทัล วิดีโอเกม ข้อมูลสภาพภูมิอากาศ และแหล่งข่าวยุคแรก ๆ ก็กำลังทยอยสูญหาย
เมื่อสำนักพิมพ์หรือเว็บไซต์ปิดตัวลง ข้อมูลเหล่านี้ก็มักหายไปตลอดกาล

ความพยายามที่จะเก็บรักษาข้อมูลทุกอย่างไว้นั้นมีโอกาสล้มเหลวสูงในทางปฏิบัติ
- เพราะต้องแบกรับต้นทุนมหาศาลโดยไม่มีผลประโยชน์ทางเศรษฐกิจ
- โลกปัจจุบันอยู่ในสภาพที่ยากจะทุ่มทรัพยากรให้กับสิ่งที่ไม่ทำเงิน
โฆษณา
ความสามารถของ LLM (โมเดลภาษาขนาดใหญ่) ในการบีบอัดข้อมูล แม้จะไม่สมบูรณ์แบบ แต่ก็อาจทำหน้าที่เป็นการอนุรักษ์ขั้นต่ำได้
- DeepSeek V3 ถูกเผยแพร่และใช้งานแล้วในฐานะเวอร์ชันบีบอัดแบบสูญเสียข้อมูลของอินเทอร์เน็ต

แม้จะไม่สามารถกู้คืนการสูญเสียทั้งหมดได้ แต่เราควรสนับสนุนองค์กรอย่าง Internet Archive
พร้อมกันนั้นยังมีภารกิจสำคัญ: เก็บรักษาน้ำหนักของ LLM ที่เปิดเผยสู่สาธารณะไม่ให้สูญหายไป
ต้องทำให้มั่นใจว่าเนื้อหาของ Internet Archive จะถูกรวมอยู่ในชุดข้อมูล pre-training ของ LLM

2 ความคิดเห็น

GN⁺ 2025-03-17

ความเห็นจาก Hacker News

ชอบชื่อ "Big LLMs" มาก ตอนนี้เรากำลังแยกความต่างระหว่าง LLM ขนาดใหญ่กับ LLM ขนาดเล็ก และอาจรวมถึง LLM ขนาดกลางด้วย อยากเสนอให้เรียกว่า "Tall LLMs", "Grande LLMs", "Venti LLMs"
Internet Archive ควรถูกมองว่าเป็นหนึ่งในส่วนที่มีคุณค่ามากที่สุดของประวัติศาสตร์สมัยใหม่ แต่บริษัทและองค์กรจำนวนมากกลับทำให้การอยู่รอดและการสะสมข้อมูลของคลังเก็บถาวรยากขึ้นเรื่อย ๆ เข้าใจว่าศูนย์กลางของคลังเก็บถาวรตั้งอยู่ในสถานที่ที่เคยเป็นโบสถ์ ซึ่งเป็นวิธีที่ดีที่สุดในการมองว่ามันเป็นสถานที่ศักดิ์สิทธิ์ มีความพยายามอย่างจริงจังในการสร้าง Internet Archive ที่ตั้งอยู่ในยุโรป
โครงการ llamafile ของ Mozilla ถูกออกแบบมาเพื่อให้สามารถเก็บรักษา LLM ไว้เพื่อจุดประสงค์ทางประวัติศาสตร์ได้ โดยให้ทั้ง weights และซอฟต์แวร์ที่จำเป็นทั้งหมดมาในรูปแบบไฟล์ executable เดียวแบบ deterministic ที่ไม่มี dependency หากเก็บ llamafiles ไว้ ก็จะสามารถได้ผลลัพธ์แบบเดียวกับวันนี้แม้อีก 50 ปีข้างหน้า อยากให้ช่วยสนับสนุน Mozilla เพื่อให้ช่วงเวลาพิเศษนี้ถูกเก็บบันทึกไว้สำหรับคนรุ่นต่อไป
เช่นเดียวกับที่แผนที่ไม่ใช่อาณาเขต สรุปย่อก็ไม่ใช่เนื้อหาจริงหรือหนังสือจริงในห้องสมุด ถ้าอยากอ่านโพสต์ หนังสือ หรือฟอรัม ก็อยากอ่านสิ่งนั้นโดยตรง ไม่ใช่ของเลียนแบบที่สร้างจากอัลกอริทึมคณิตศาสตร์ลึกลับ
คิดถึงวันเก่า ๆ ที่ใช้ text-davinci สร้างตารางภาพยนตร์พร้อมลิงก์โปสเตอร์หนัง โดยปกติจะสร้าง URL ของรูปภาพจาก s3 bucket ลิงก์ใช้งานได้เสมอ
คิดว่าเป็นเรื่องปกติที่ไม่ใช่ทุกอย่างบนอินเทอร์เน็ตจะถูกเก็บถาวรไว้ตลอดกาล สมัยก่อนคนเขียนสิ่งต่าง ๆ ลงบนกระดาษ และส่วนใหญ่ก็ไม่ได้ถูกเก็บถาวรไว้ ถึงจุดหนึ่งมันก็หายไปเฉย ๆ ฉันได้รับมรดกเป็นกล่องโน้ต หนังสือ และเอกสารจำนวนมากจากปู่ย่าตายาย ซึ่งส่วนใหญ่ไม่ได้มีความหมายอะไรกับฉันเลย ต้องทิ้งไปมาก และเก็บเอกสารหลากหลายไว้เพียงไม่กี่พันหน้าเท่านั้น อย่างอื่นก็หายไปตลอดกาล และนั่นก็น่าจะไม่เป็นไร คลังเก็บถาวรสำคัญมาก แต่ทุกวันนี้ส่วนที่ยากที่สุดคือการเลือกว่าจะเก็บอะไรไว้ เพราะมีเนื้อหาถูกเพิ่มเข้าสู่อินเทอร์เน็ตทุกวินาทีมากเกินกว่าจะเก็บได้ทั้งหมด ทำได้เพียงเก็บบางส่วนเท่านั้น
สงสัยว่าเราจะใช้ LLM หลายตัวที่ต่างกันเพื่อสร้างเวอร์ชันโดยประมาณของชุดย่อยร่วมยอดนิยมจากข้อมูลฝึกของอินเทอร์เน็ตขึ้นมาใหม่ได้หรือไม่ อยากรู้ว่ามีใครพอชี้ไปที่บทความคณิตศาสตร์เกี่ยวกับเรื่องแบบนี้ได้บ้างไหม
สำหรับฉัน เรื่องนี้ไม่ได้มีความหมายมากนัก ข่าวลือที่ไม่มีแหล่งที่มามีคุณค่าทางประวัติศาสตร์อย่างจำกัด และดูเหมือนว่าโมเดลส่วนใหญ่บนเว็บที่ใช้ weights ได้จะอิงกับ Common Crawl อยู่แล้ว จึงนำมาใช้เพื่อการเก็บรักษาได้
ชอบแนวคิดที่ว่า LLM ช่วยเก็บรักษาความรู้ของมนุษย์ โดยส่วนตัวอยากให้ความรู้และข้อมูลทั้งหมดเข้าถึงและใช้งานได้ง่าย และมั่นใจว่าคนส่วนใหญ่ก็คงรู้สึกเหมือนกัน แม้เจ้าของลิขสิทธิ์จะตัดสินใจทางธุรกิจอย่างต่อเนื่องที่จะทำให้ทุกอย่างต้องจ่ายเงินหรือซ่อนไว้หลังการลงทะเบียน หลายคนไม่ชอบที่ Google จัดระเบียบข้อมูลของโลกและรุ่งเรืองจากโฆษณา แต่ในระยะยาว ข้อมูลก็ถูกจัดระเบียบและเก็บรักษาไว้ในรูปแบบข้อมูลอินเทอร์เน็ตหลากหลายแบบ สุดท้ายแล้ว Google ก็เป็นผู้ออกแบบ transformer ซึ่งทำให้ weights ของ LLM เป็นไปได้ตั้งแต่แรก และนั่นเองก็เป็นส่วนหนึ่งของประวัติศาสตร์แล้ว
บทความวิทยาศาสตร์และกระบวนการต่าง ๆ หายไปตลอดกาลเมื่อสำนักพิมพ์ล้มเหลวและเว็บไซต์ปิดตัวลง ไม่คิดว่าสำนักพิมพ์วิทยาศาสตร์รายใหญ่จะล้มเหลว (อย่างน้อยในตอนนี้ ในยุคของเรา) พวกเขาร่ำรวย

regentag 2025-03-18

"บทสรุปไม่ใช่คอนเทนต์หรือหนังสือจริงในห้องสมุด หากอยากอ่านโพสต์ หนังสือ หรือฟอรัม ก็อยากอ่านสิ่งนั้นอย่างตรงไปตรงมา ไม่ใช่ของเลียนแบบที่สร้างขึ้นด้วยอัลกอริทึมคณิตศาสตร์ลึกลับ"

เห็นด้วยกับเรื่องนี้ครับ

น้ำหนักของ LLM ขนาดใหญ่คือส่วนหนึ่งของประวัติศาสตร์

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความเห็นจาก Hacker News