- เว็บไซต์ Low-background Steel ทำหน้าที่รวบรวม ข้อมูลที่ไม่ปนเปื้อนด้วยคอนเทนต์ที่สร้างโดย AI
- โครงการนี้มุ่งเน้นไปที่ข้อมูลข้อความ รูปภาพ และวิดีโอที่สร้างขึ้นก่อน การแพร่กระจายของคอนเทนต์ AI ครั้งใหญ่ในปี 2022
- แนะนำ แหล่งข้อมูลตัวแทนสำคัญ เช่น Wikipedia, Arctic Code Vault, Project Gutenberg
- ผู้เข้าชมเว็บไซต์ยังสามารถส่งข้อมูลใหม่ที่ไม่ปนเปื้อน ได้
- แนวคิดนี้ได้แรงบันดาลใจจากแนวคิดเรื่อง โลหะสะอาดก่อนการทดลองนิวเคลียร์ และให้ความสำคัญกับ การรักษาความน่าเชื่อถือและความเป็นต้นฉบับ
บทนำ
- Low-background Steel เป็น เว็บไซต์ที่รวบรวมทรัพยากรออนไลน์ที่ไม่ปนเปื้อนด้วยคอนเทนต์ที่ AI สร้างขึ้น
- ชื่อของเว็บไซต์นี้ได้แรงบันดาลใจจาก Low-background Steel (และ Lead) ซึ่งเป็น โลหะที่ผลิตก่อนการทดลองนิวเคลียร์และไม่ปนเปื้อนกัมมันตรังสี
- โลหะที่กู้ขึ้นมาจากเรือที่จมก่อนการทดสอบนิวเคลียร์ (Trinity Test) มีการปนเปื้อนกัมมันตรังสีน้อยมาก จึงมีคุณค่าอย่างมาก
- จากแนวคิดนี้ โครงการจึงมีเป้าหมายเพื่ออนุรักษ์และชี้แนะ คอนเทนต์ดิจิทัลบริสุทธิ์ที่ผลิตขึ้นก่อนการเพิ่มขึ้นอย่างรวดเร็วของสิ่งที่สร้างโดย AI
เป้าหมายและภูมิหลัง
- มุ่งเน้นการจัดหา ข้อมูลต้นฉบับในหลากหลายรูปแบบ เช่น ข้อความ รูปภาพ และวิดีโอ ก่อน การมาถึงของคอนเทนต์ที่สร้างด้วย AI ในวงกว้าง ในปี 2022
- ข้อมูลเหล่านี้รวมถึง ฐานข้อมูลโอเพนซอร์สตัวแทนที่เชื่อถือได้ เช่น Wikipedia ทั้งชุดดัมพ์, Arctic Code Vault, Project Gutenberg
- ผู้ใช้เว็บไซต์สามารถ เพิ่มข้อมูลใหม่ที่ไม่ปนเปื้อนได้โดยตรงผ่านแบบฟอร์มส่งข้อมูล
ความสำคัญของเว็บไซต์
- ในยุคที่สิ่งที่สร้างโดย AI เพิ่มขึ้นอย่างรวดเร็ว การรักษาความเป็นต้นฉบับและการเข้าถึงข้อมูลที่เชื่อถือได้ ยิ่งมีความสำคัญ
- Low-background Steel มีเป้าหมายเพื่อ มอบข้อมูลอ้างอิงที่สะอาดซึ่งสามารถใช้งานได้โดยไม่ต้องกังวลเรื่องมลพิษของข้อมูล
วิธีมีส่วนร่วม
- ทุกคนสามารถ เสนอเพิ่มแหล่งคอนเทนต์ที่ไม่ปนเปื้อนใหม่ผ่านฟังก์ชัน submit ของเว็บไซต์ ได้
อ้างอิง
- มีลิงก์ไปยังคำอธิบายเกี่ยวกับ Low-background Steel บน Wikipedia ซึ่งสะท้อนเจตนาของเว็บไซต์นี้ได้อย่างดี
- โครงการนี้ เปิดตัวในเดือนมีนาคม 2023 และกำลังทำหน้าที่เป็น ฮับเชิงทดลองสำหรับการอนุรักษ์คอนเทนต์ออนไลน์ อยู่ในทางปฏิบัติ
1 ความคิดเห็น
ความเห็นบน Hacker News
รู้สึกว่าน่าสนใจกับแนวคิดที่จะเพิ่ม
planeใหม่ใน Unicode แล้วทำสำเนาตัวอักษรที่มีประโยชน์ทั้งหมดแบบสะท้อนกัน พร้อมแนบบิตสถานะเพิ่มเติมเพื่อใช้แยกความแตกต่างเช่น จินตนาการถึงการกำหนดว่าในโซน “ผลงานที่มนุษย์เขียนเองโดยตรง” หากใช้ข้อความที่ AI สร้างจะถูกลงโทษทันที, ในพื้นที่ “เปิดเผยให้มนุษย์เท่านั้น” จะห้ามแม้แต่การที่ AI เข้าฝึกหรือเข้าถึง, และในขอบเขต “ยอมรับว่า AI เป็นผู้สร้าง” ให้ผลลัพธ์จาก AI ทั้งหมดต้องถูกจัดให้อยู่ในช่วงอักขระนั้น
แน่นอนว่าอักขระเหล่านี้จะแยกด้วยตาได้ยาก และต้องผ่านซอฟต์แวร์จึงจะแยกออก จึงทำหน้าที่เป็นช่องทางแฝงแบบละเอียดอ่อน
ต่อให้คัดลอกแล้ววางข้อความ ข้อมูลต้นฉบับก็จะย้ายตามไปพร้อมกับความต่างเล็กน้อยของการเข้ารหัสตัวอักษร
เกือบจะเป็นมุกตลกอยู่แล้ว แต่ก็ยังรู้สึกว่าน่าสนใจกับระบบแบบนี้
คล้ายอาหารออร์แกนิก คิดว่าน่าจะเกิดมูลค่าพรีเมียมสำหรับคอนเทนต์ “ออร์แกนิก” ที่มนุษย์เขียน 100%
รู้สึกว่าเกณฑ์คำว่า “ข้อความที่ AI สร้าง” ไม่ชัดเจน จึงยกตัวอย่างที่เป็นรูปธรรม
เดิมทีใน Unicode มี tag character สำหรับระบุขอบเขตภาษา แต่ถูกแนวทางมาร์กอัประดับสูงกว่า (เช่น HMTL) แย่งบทบาทไปจนตอนนี้เลิกใช้แล้ว
หากกฎหมายนี้มีผลบังคับใช้ คาดว่าในอินเดียจะมี “โรงงานพิมพ์” เกิดขึ้นภายใน 12 มิลลิวินาที โดยให้มนุษย์คัดลอกผลลัพธ์จาก AI เพื่อใช้ฟอกข้อมูล
ตัวอย่างเช่น หากเขียนบทความเป็นภาษาต่างประเทศแล้วขอให้ ChatGPT แปลเป็นอังกฤษ จะนับเป็นผลงานที่ AI สร้างหรือไม่
อ้างว่าผลลัพธ์จาก AI โดยเนื้อแท้แล้วมีแนวโน้มถดกลับสู่ค่าเฉลี่ย
มองว่าเนื้อหาแบบนี้เป็นข้อมูลที่มนุษย์ก็สามารถถามและรับคำตอบได้โดยตรง
แค่ติดแท็ก
<AI generated content>ให้กับเนื้อหาที่ AI สร้างทั้งหมดก็พอ และนอกเหนือจากนั้นมันใกล้เคียงกับมลพิษมากกว่าสาธารณประโยชน์หากยึดตรรกะนี้ ก็จะลงเอยว่าการเขียนอะไรเลยไม่มีความจำเป็น
ความเชื่อเชิงสัญชาตญาณนี้ครั้งหนึ่งอาจเคยมีหลักฐานเชิงทดลองสนับสนุนอยู่บ้าง
กระบวนการตรวจสอบและคัดสรรที่มีชื่อของผู้เชี่ยวชาญมนุษย์กำกับอยู่ก็มีคุณค่ามากในตัวเอง
สงสัยว่าข้อความที่ถูก AI แก้ไขหรือปรับสไตล์แล้วยังถือว่าเป็นสิ่งที่มนุษย์เขียนอยู่หรือไม่
คิดว่าเป็นเรื่องเหลวไหล
คิดว่าคำศัพท์ที่ใช้ในบทความนี้ถูกเลือกมาอย่างแนบเนียนเพื่อลดทอนความกังวล
หลังยุติการทดลองนิวเคลียร์ ระดับรังสีก็กลับเข้าใกล้ค่าธรรมชาติอย่างมาก ความจำเป็นของ low-background steel แบบใหม่จึงลดลง และเหล็กใหม่เองก็มีสัญญาณกัมมันตรังสีต่ำพอสำหรับการใช้งานส่วนใหญ่
อย่างหนึ่งคือไม่คิดว่าจำเป็นต้องมีข้อมูลที่ “ไม่ปนเปื้อน”
เป็นความจริงที่ว่าการหยุดทดลองนิวเคลียร์ต่างหากที่ทำให้รังสีพื้นหลังลดลง
มองว่าประเด็นนี้คงไม่ร้ายแรงเท่าที่สาธารณชนคาด
อ้างว่าในระยะยาว AI จะเรียนรู้จากประสบการณ์จริง ทำให้มีข้อมูลฝึกแบบไม่ใช่งานประพันธ์ได้ไม่จำกัด และหลีกเลี่ยงปัญหาการปนเปื้อนจาก AI ได้
ในโลกจริง มีแนวโน้มที่ภาพหลอนของ AI (hallucinations/การบิดเบือนข้อเท็จจริง) จะถูกอ้างอิงจนกลายเป็นความจริง
ข้อมูลจากประสบการณ์จริง (เช่น การซ่อมรถ) มีต้นทุนและความเสี่ยงสูงในการสร้างขึ้นมา
บน YouTube มีข้อมูลประสบการณ์จริงเรื่องการซ่อมรถอยู่มากมาย แต่ติดปัญหาลิขสิทธิ์
สงสัยว่าจำเป็นต้องมี AGI ในระยะยาวจริงหรือไม่
คาดการณ์ว่า ก่อนจะมีหุ่นยนต์ฮิวแมนนอยด์ที่มีปัญญาทั่วไปจริง ระบบ AI ที่ซ่อมรถได้คงยังไม่เกิดขึ้นจริง
ณ ตอนนี้ยังไม่มีหลักฐานว่าการ “ปนเปื้อนจาก AI” ก่อปัญหากับการฝึก AI จริง
AI ที่ฝึกด้วยข้อมูลสาธารณะก่อนปี 2022 ไม่ได้แสดงความเหนือชั้นด้านประสิทธิภาพอย่างชัดเจนเมื่อเทียบกับ AI ที่ฝึกด้วยข้อมูลหลังปี 2022
บางครั้งข้อมูลใหม่กว่ากลับออกมาดีกว่านิดหน่อยด้วยซ้ำ
วิธีคิดที่ซ่อนอยู่ในอุปมาของ
low background steelก็คือ หากฝึกซ้ำด้วยข้อมูลสังเคราะห์ไปเรื่อย ๆ จะเกิด “model collapse” จนโมเดล AI ไร้ความหมายโดยสิ้นเชิงข้ออ้างข้างต้นฟังไม่สมเหตุสมผลด้วยหลายเหตุผล
ตอนนี้ “เศษ” การปนเปื้อนจาก AI ยังทะลักออกมาไม่เต็มที่ และคาดว่าจะเพิ่มขึ้นอย่างรวดเร็วในอนาคต
บางคนไม่ได้รู้สึกต่อต้านคอนเทนต์ AI มากนัก และมองว่าอุปมาเรื่อง low-background steel เป็นไอเดียที่ยอดเยี่ยมมาก
ฉันเองก็ไม่ได้รู้สึกต่อต้านคอนเทนต์ AI มากนัก และถึงกับทำเว็บไซต์ที่เกี่ยวข้องขึ้นมาด้วย
โดยส่วนตัวไม่ใช่เพราะกลัว AI เท่าไร แต่ต้องการป้องกันไม่ให้ AI นำผลลัพธ์ของตัวเองกลับไปเรียนรู้อีก
pre-AIเป็นความหายากที่เพิ่มคุณค่าในตัวเอง เพราะไม่อาจสร้างใหม่ได้อีกแล้วดูเหมือนว่าความคิดที่ฉันมีวันนี้จะทำนายอนาคตได้อย่างน่าประหลาด
คอมเมนต์เก่าของฉัน
ที่จริงเคยเห็นกรณีนี้บน hackernews มาแล้วอย่างน้อย 1 ปีก่อน หรืออาจนานกว่านั้น
เป็นอุปมาที่ใช้กันบ่อยหลังการเปิดตัว ChatGPT
เคยเห็นกรอบคิดเรื่องคอนเทนต์ที่ “ไม่ปนเปื้อน” จาก AI มาก่อนแล้ว แต่การเปรียบกับ
low background steelถือว่าสดใหม่ใช้ได้ฉันคิดต่างออกไป
เห็นด้วยว่าอุปมา low-background น่าสนใจ
สงสัยว่าอุปมานี้โน้มน้าวใจได้จริงหรือไม่
low-background steel นั้นแทบเป็นไปไม่ได้เลยที่จะผลิตใหม่ แต่คอนเทนต์ปลอด AI แค่ไม่ใช้ AI ก็พอ จึงยากน้อยกว่ามาก
ในทางปฏิบัติแทบเป็นไปไม่ได้ที่จะพิสูจน์อย่างเป็นกลางว่าผลงานชิ้นหนึ่ง AI-free จริง ดังนั้นนอกจากตัวผู้สร้างเองแล้วก็ไม่มีใครมั่นใจได้
ใครจะทำคอนเทนต์ AI-free ด้วยเหตุผลอะไร และจะยอมจ่ายเงินไปเพื่ออะไร
มองว่าเป็นเพียงพาดหัวเรียกคลิก
จากการที่ชื่อเว็บไซต์นี้มาจาก Y combinator จึงนึกถึงการหา fixed point ของฟังก์ชันในฐานะข้อกำหนดของโมเดล inference
ต่อให้การสร้างข้อมูลที่มีอคติจาก AI เพิ่มขึ้น ก็ยังคาดหวังได้ว่าคุณลักษณะสำคัญจะยังถูกสกัดออกมาได้ต่อไป แม้จะฝึกด้วยส่วนผสมของคอนเทนต์มนุษย์ต้นฉบับ คอนเทนต์อนุพันธ์ และคอนเทนต์อนุพันธ์ของคอนเทนต์อนุพันธ์อีกหลายชั้นก็ตาม