Low-background Steel สำหรับคอนเทนต์ที่ไม่ปนเปื้อนด้วย AI

(blog.jgc.org)

1 คะแนน โดย GN⁺ 2025-06-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

lowbackgroundsteel.ai ถูกสร้างขึ้นในเดือนมีนาคม 2023 เพื่อค้นหาข้อมูลจากช่วงก่อนที่ผลงานที่สร้างโดย AI จะปะปนบนเว็บเป็นจำนวนมาก
ชื่อนี้เป็นอุปมาที่มาจาก เหล็กและตะกั่วกัมมันตรังสีต่ำ ซึ่งไม่ปนเปื้อนไอโซโทปกัมมันตรังสีจากการทดลองนิวเคลียร์
เหล็กและตะกั่วแบบ low-background จริง ๆ โดยทั่วไปหมายถึงโลหะที่กู้ขึ้นมาจากเรือที่จมก่อน Trinity Test ในปี 1945
เว็บไซต์มุ่งเน้นการรวบรวมแหล่งที่มาของ ข้อความ·รูปภาพ·วิดีโอ ที่สร้างขึ้นก่อนคอนเทนต์ที่สร้างโดย AI จะเพิ่มขึ้นอย่างรวดเร็วในปี 2022
เชื่อมโยงไปยังแหล่งข้อมูลอย่าง Wikipedia dump ก่อนการเปิดตัว ChatGPT, Arctic Code Vault และ Project Gutenberg รวมถึงรับการส่งแหล่งข้อมูลอื่น ๆ ที่ยังไม่ปนเปื้อนด้วย

ฮับรวบรวมข้อมูลยุคก่อน AI

lowbackgroundsteel.ai เป็น ฮับข้อมูล ที่สร้างขึ้นเพื่อรวบรวมข้อมูลออนไลน์ที่ไม่ปะปนกับคอนเทนต์ที่สร้างโดย AI
เริ่มขึ้นในเดือนมีนาคม 2023 และทำหน้าที่จัดระเบียบทรัพยากรออนไลน์จากช่วงก่อนที่ผลงานที่สร้างโดย AI จะแพร่กระจาย

อุปมาในชื่อ

Low-background Steel หมายถึงโลหะที่ไม่ปนเปื้อนด้วย ไอโซโทปกัมมันตรังสี จากการทดลองนิวเคลียร์
เหล็กและตะกั่วประเภทนี้โดยทั่วไปกู้ขึ้นมาจากเรือที่จมก่อน Trinity Test ในปี 1945
เว็บไซต์นำแนวคิดนี้มาปรับใช้กับคอนเทนต์ โดยเรียกข้อมูลที่ไม่ปนเปื้อนด้วยคอนเทนต์ที่สร้างโดย AI ว่า Low-background Steel

สิ่งที่รวบรวมและตัวอย่าง

สิ่งที่รวบรวมคือแหล่งที่มาของ ข้อความ รูปภาพ วิดีโอ ที่สร้างขึ้นก่อนคอนเทนต์ที่สร้างโดย AI จะเพิ่มขึ้นอย่างรวดเร็วในปี 2022
ตัวอย่างที่เชื่อมโยงอยู่ในปัจจุบันมีดังนี้
- Wikipedia dump ก่อนการเปิดตัว ChatGPT
- Arctic Code Vault
- Project Gutenberg
  - แหล่งข้อมูลเพิ่มเติมอื่น ๆ

การส่งข้อมูล

หากรู้จักแหล่งข้อมูลอื่นที่ไม่ปนเปื้อนด้วยคอนเทนต์ที่สร้างโดย AI สามารถส่งได้ผ่าน หน้าส่งข้อมูล

1 ความคิดเห็น

GN⁺ 2025-06-11

ความคิดเห็นจาก Hacker News

ผมคิดว่าแค่เพิ่ม plane ใหม่ใน Unicode แล้วทำซ้ำอักขระทุกตัวที่จำเป็นต่อการสื่อสาร พร้อมใส่บิตสถานะเพิ่มเติมเข้าไปก็พอ
กำหนดช่วงอย่าง เขียนโดยมนุษย์แน่นอน, สำหรับสายตามนุษย์เท่านั้น, ยอมรับว่าสร้างโดย AI แล้วถ้าใครฝ่าฝืนก็ส่งเข้าคุก
แน่นอนว่าทุกช่วงจะเป็นอักขระรูปร่างเหมือนกันที่แยกไม่ออกด้วยสายตา จึงกลายเป็นช่องทางกึ่งซ่อนเร้นผ่านซอฟต์แวร์เพื่อการเปิดเผยอย่างเป็นธรรม
ต่อให้คัดลอกและวางจากหลายแหล่ง ข้อมูลแหล่งที่มาก็จะติดตามมาด้วยจากความแตกต่างเล็กน้อยของการเข้ารหัสอักขระ และผมพูดเล่นแค่ในสัดส่วนที่เกือบเท่ากับ 1 เท่านั้น
- เหมือนอาหาร คอนเทนต์ออร์แกนิก อย่างสมบูรณ์ก็น่าจะมีมูลค่าในตลาดขึ้นมา
  หมายถึงคอนเทนต์ที่มนุษย์เขียน วาด แต่งเพลง ตัดต่อ และคัดสรรเอง
  แต่ก็เหมือนอาหาร คือการนิยามขอบเขตที่อนุญาตจะเป็นฝันร้าย การพิสูจน์ว่าเป็นออร์แกนิกทำได้ยาก การรับรองต้องพึ่งพาเครือข่ายความไว้วางใจ ในทางปฏิบัติก็ยังปนเปื้อนสิ่งที่พยายามหลีกเลี่ยง และแม้จะมีหลักฐานว่ามันแย่กว่าด้วยซ้ำ ก็ยังขายได้แพงกว่า
- เดิมที Unicode มีช่วง Tag Characters ที่สร้างไว้เพื่อระบุว่าบางส่วนของข้อความมาจากภาษาอื่น
  การใช้งานนี้ถูกแทนที่ด้วยการมาร์กอัประดับสูงกว่าอย่างแท็ก HTML และถูกเลิกใช้ไปแล้ว แต่อักขระยังคงมีอยู่
  จุดที่แปลกคือมันมองไม่เห็น และเมื่อมีอักขระแท็กต่อเนื่องกัน การเลื่อนเคอร์เซอร์จะทำงานเหมือนเป็นอักขระตัวเดียว
  เนื่องจากมันสะท้อน ASCII จึงสามารถเข้ารหัส JSON ใด ๆ หรือข้อมูลอื่น ๆ ลงไปในนั้นได้ ดังนั้นถ้ารับได้กับการทำให้คนรำคาญด้วยข้อมูลซ่อนหรือการใช้งานที่ถูกเลิกใช้แล้ว ก็เหมาะพอสมควรสำหรับการทำเครื่องหมายช่วงที่สร้างโดย LLM
  https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
- ปัญหาคือจะนิยาม สร้างโดย AI อย่างไร
  ถ้ายกตัวอย่างการบ้าน กรณีที่นักเรียนเขียนเองทั้งหมดด้วยปากกาและกระดาษ กับกรณีที่ให้ AI เขียนทั้งหมดนั้นชัดเจน แต่กรณีที่ค้นคว้าจากสารานุกรมออนไลน์ซึ่งสารานุกรมนั้นตอบด้วย AI, กรณีที่ให้ AI ช่วยเฉพาะโครงสร้างบทความ ประเด็นหลัก และข้อสรุป, หรือกรณีที่เขียนเองแล้วให้ AI ช่วยแค่แก้คำผิด ไวยากรณ์ และสำนวน ล้วนกำกวม
  นอกจากนี้ยังมีกรณีที่เขียนบทความหลายหัวข้อเอง แล้วให้ AI เลือกบทความที่ดีที่สุดด้วย
- หลังจากกฎหมายแบบนี้มีผลใช้ 12 มิลลิวินาที ก็จะมีโรงงานพิมพ์ดีดเกิดขึ้นในอินเดีย โดยคนงานมนุษย์จะคัดลอกข้อความที่มาจาก AI ด้วยมือใหม่อีกครั้ง เพื่อ “ฟอกข้อมูล”
- ถ้าให้ ChatGPT แปลข้อความที่เขียนเป็นภาษาต่างประเทศเป็นภาษาอังกฤษ นับเป็นคอนเทนต์ที่สร้างโดย AI หรือไม่
  ถ้าใช้ LLM ทำ OCR ข้อความที่เขียนบนกระดาษล่ะ
  ถ้าให้โครงร่างที่ละเอียดมาก แล้วให้มันเขียนแก้ซ้ำไปเรื่อย ๆ พร้อมสั่งให้ตัดข้อเท็จจริงที่ไม่แน่ใจออกอย่างไร้ความปรานีล่ะ
  ถ้าใช้ AI แค่แก้ไวยากรณ์และเปลี่ยนภาษาอังกฤษที่ไม่คล่องให้เป็นสำนวนวิทยาศาสตร์ที่เหมาะสมล่ะ
  ในทุกกรณีนี้ แม้ผลลัพธ์สุดท้ายจะอยู่ในรูปที่คัดลอกและวางมาจาก LLM คำตอบก็ชัดเจนว่า “ไม่ใช่” ในมุมมองของผม
คอนเทนต์ที่สร้างโดย AI โดยเนื้อแท้แล้วคือ การถอยกลับสู่ค่าเฉลี่ย และเป็นโทษทั้งต่อการเรียนรู้และประโยชน์ใช้สอยของมนุษย์
ไม่มีข้อดีที่จะเผยแพร่สิ่งที่ AI สร้างได้อยู่แล้ว แค่ถามมันโดยตรงก็พอ
คอนเทนต์ AI อาจเผยแพร่ได้ถ้าติดแท็กไว้ แต่ในกรณีอื่น ๆ มันมักใกล้เคียงมลภาวะมากกว่าประโยชน์สาธารณะอย่างชัดเจน
- ถ้าตรรกะนั้นถูก แล้วทำไมเราต้องเขียนอะไรตั้งแต่แรก
  โคลงซอนเน็ตของ Shakespeare ก็เป็นเพียงการเรียงคำที่มีอยู่แล้ว และบทพิสูจน์คณิตศาสตร์ นวนิยาย วารสารศาสตร์ทั้งหมดก็เป็นเพียงรูปแบบหนึ่งในพื้นที่ของการจัดเรียงสัญลักษณ์ที่เป็นไปได้
  ข้อเท็จจริงที่ว่าสิ่งหนึ่งสามารถถูกสร้างขึ้นได้ ไม่ได้ปฏิเสธคุณค่าของมันเมื่อถูกสร้างขึ้นเพื่อจุดประสงค์ บริบท และผู้อ่านเฉพาะ
- จนถึงไม่กี่ปีก่อน นี่เป็นความเชื่อที่ฟังดูสมเหตุสมผลตามสัญชาตญาณ และยังมีหลักฐานเชิงทดลองแบบจำกัดรองรับอยู่บ้าง
  แต่หลังจากนั้น เมื่อมีการทะลุขีดจำกัดความสามารถหลายด้านจาก ผลงานที่สร้างโดย AI ซึ่งถูกคัดสรรมาอย่างดี ผมคิดว่าความคิดนั้นถูกหักล้างอย่างเด็ดขาดแล้ว
- แล้วคอนเทนต์ที่ AI แก้ไขหรือพิสูจน์อักษรควรมองอย่างไร
  ทุกวันนี้บทความบล็อกของผมเริ่มจากการอัดเสียงบันทึก พอถอดความแล้วก็นำเข้า CGPT หรือ Claude เพื่อให้ช่วยปรับ โทนและจังหวะ
- ถ้าถามโดยตรง ก็จะไม่มีขั้นตอนที่ผู้เชี่ยวชาญมนุษย์ตรวจทานเนื้อหาและรับประกันด้วยชื่อของตนเอง
  การคัดสรรและการรับประกัน นั้นมีคุณค่า
  แน่นอนว่าอาจนึกขึ้นมาทันทีว่า “คนพวกนั้นจะทำจริงหรือ?” ซึ่งผมก็เห็นด้วย แต่ก่อนมี AI เรื่องแบบนั้นโดยมากก็ไม่ได้เกิดขึ้นอยู่แล้ว
  คอนเทนต์ส่วนใหญ่บนอินเทอร์เน็ตเดิมทีก็เป็นบทความคุณภาพต่ำที่นักเขียนค่าแรงต่ำรีบผลิตออกมาโดยไม่มีความเชี่ยวชาญ และ AI ไม่ได้เปลี่ยนจุดนั้น
- ไร้สาระ
  เคยใช้ เครื่องมือ deep research หรือเปล่า
  อย่าตกหลุมพรางข้อผิดพลาดแบบยูโทเปีย
  มนุษย์เองก็เผยแพร่งานเขียนห่วย ๆ เหมือนกัน
ยังไม่แน่ใจว่าจะเป็นปัญหาใหญ่เท่าที่ผู้คนคิดกันหรือไม่
ในระยะยาว เป้าหมายน่าจะเป็นการให้ AI เรียนรู้จาก ประสบการณ์จริง เช่น การซ่อมรถจริง ๆ แทนที่จะอ่านคู่มือซ่อมรถ
แบบนั้นก็จะได้ข้อมูลฝึกที่ไม่มีลิขสิทธิ์แบบไม่จำกัด และยังเลี่ยงปัญหาข้อมูลฝึกที่ปนเปื้อนด้วย AI ได้โดยธรรมชาติ
- ปัญหาคือภาพหลอนถูกอ้างอิง และสุดท้ายก็มีแหล่งที่มาผูกไว้เหมือนเป็นข้อเท็จจริง
  ตัวอย่างเช่น ลองถามว่า “โปรแกรมเพิ่มประสิทธิภาพการทำงานบน MS-DOS ที่มี Connect Four ในตัวคืออะไร?”
  มีอีมูเลเตอร์ MSDOS และรู้คำตอบที่ถูกต้องด้วย แต่เพราะคำถามค่อนข้าง obscure มั้ง AI แต่ละตัวจึงให้คำตอบต่างกันทุกครั้ง และยังไม่เคยเห็นให้คำตอบถูกเลย
  ถ้าถามย้ำว่าแน่ใจหรือไม่ มันก็เปลี่ยนใจ
  ถ้าคำตอบแบบนี้ถูกอ้างอิงบนออนไลน์ แล้ว AI กลับไปเรียนรู้การอ้างอิงวนซ้ำนั้นเป็นแหล่งที่มาอีกครั้ง เมื่อนั้นความจริงก็จะหายไป
  ถ้าลองถามคำถามข้างต้นจริง ๆ จะเป็นตัวอย่างชั้นดีของการที่ AI กล่าวซ้ำคำตอบที่แต่งขึ้นล้วน ๆ ด้วยท่าทีมีอำนาจน่าเชื่อถือ
- การต้องสร้างข้อมูลโดยตรงจากประสบการณ์จริงอาจหมายความว่ามีค่าใช้จ่ายสูงมาก และการได้มาซึ่งข้อมูลก็มีความเสี่ยงด้านการปฏิบัติการจริงติดมาด้วย
  Waymo เก็บประสบการณ์โดยให้รถวิ่งบนถนนจริง แต่ขีดจำกัดของข้อมูลที่ได้ต่อหน่วยเวลาขึ้นอยู่กับขนาดฝูงรถ และก่อนอื่นต้องไปถึงระดับความสามารถที่ปลอดภัยพอจะวิ่งในโลกจริงได้
  ถ้าจะซ่อมรถโดยเริ่มจากไม่มีความรู้อื่นนอกจากการ rollout แบบ on-policy ก็จะต้องเรียนรู้ด้วยการทำรถพังจำนวนมากเป็นเวลานาน และยังต้องจ่ายค่าใช้จ่ายให้มนุษย์ที่คอยบอกว่าโรบ็อตล้มเหลวด้วย
  มีเหตุผลที่เราอยากให้ช่างดูคู่มือและได้รับการฝึกอย่างชัดเจน และตรรกะด้านต้นทุนแบบนี้ใช้เหมือนกันไม่ว่าช่างจะเป็นมนุษย์หรือ AI
  ต่อให้ใช้การเรียนรู้แบบเสริมกำลัง off-policy หากข้อมูลนั้นเป็นการสาธิตจากโมเดลรุ่นก่อนหน้า มันก็ยังเป็น ข้อมูลฝึกที่ปนเปื้อนด้วย AI อยู่ดี
- บน YouTube มีข้อมูลฝึกที่เป็นประสบการณ์ซ่อมรถจริงอยู่มหาศาล แต่ทั้งหมดมี ลิขสิทธิ์
  เป็นประเด็นถกเถียงว่า บริษัท AI จำเป็นต้องขอไลเซนส์คอนเทนต์เหล่านี้ก่อนนำไปฝึกหรือไม่
- คิดว่าก่อนจะมี หุ่นยนต์ฮิวแมนนอยด์ ที่มีปัญญาทั่วไปได้ ก็คงยังไม่มีระบบ AI ที่ซ่อมรถได้
  ก่อนจะมีหุ่นยนต์แบบนั้น ก็คงยังไม่มีแม่บ้าน AI ในโรงแรมห้าดาวด้วย
  ไม่ได้หมายความว่าคำพูดเดิมผิด แต่ช่องว่างระหว่างวันนี้กับจุดนั้นใหญ่จนแทบจินตนาการไม่ได้ ดังนั้นคำพูดว่า “ไม่ต้องกังวลว่าขยะ AI จะปนเปื้อนฐานข้อมูลความถี่คำในภาษา สักวันมันจะแก้ได้เอง” จึงรู้สึกคลาดประเด็นไปหน่อย
- หมายความว่าในระยะยาวเราต้องการ AGI ใช่ไหม
  พอมี AGI แล้วสแปมก็จะดีขึ้นด้วยหรือเปล่า
  https://xkcd.com/810/
ชอบที่คำที่เลือกใช้ถูกคัดมาอย่างประณีตมากจนทำให้ความกังวลดูเหมือนไม่เกี่ยวข้องกัน
คล้ายกับคำอธิบายว่า หลังจากการทดลองนิวเคลียร์ในชั้นบรรยากาศยุติลง รังสีพื้นหลังก็ลดลงมาใกล้ระดับธรรมชาติ ทำให้แม้แต่เหล็กใหม่ก็มีสัญญาณกัมมันตรังสีต่ำพอ จนการใช้งานที่ไวต่อรังสีส่วนใหญ่ไม่จำเป็นต้องใช้เหล็กพื้นหลังต่ำชนิดพิเศษอีกต่อไป
แต่ก็ไม่เห็นว่าจำเป็นต้องมีข้อมูลที่ “ไม่ปนเปื้อน” หรือว่าข้อมูลแบบนั้นหายาก หรือว่าเอาต์พุตของ LLM จะติดเชื้อไปทุกสิ่งอยู่แล้ว
ข้อมูลจาก LLM อาจดีกว่าคอมเมนต์ Reddit ซึ่งเป็นพื้นหลังตามธรรมชาตินิดหน่อยก็ได้ และยังมีที่อย่าง archive.org หรือ Gutenberg ด้วย
- แต่ข้อมูลที่ไม่ปนเปื้อนในช่วงหลัง ๆ หายาก
  https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
- อืม… ที่รังสีพื้นหลังลดลงก็เพราะเรา หยุดการทดลองนิวเคลียร์ นั่นแหละ
ณ ตอนนี้ ไม่มีเหตุผลให้เชื่อว่า การปนเปื้อนของ AI เป็นปัญหาจริงในการฝึก AI
AI ที่ฝึกด้วยข้อมูล crawl สาธารณะก่อนปี 2022 ไม่ได้ดีกว่า AI ที่ฝึกด้วยข้อมูล crawl หลังปี 2022 อย่างเห็นได้ชัด
กระทั่งในบางกรณี ข้อมูล crawl ล่าสุดยังให้ประสิทธิภาพต่อโทเคนดีกว่าเล็กน้อยด้วยซ้ำ โดยไม่รู้เหตุผล
- เบื้องหลังแนวคิด “เหล็กพื้นหลังต่ำ” คือความคิดที่ว่า การฝึก AI ด้วยข้อมูลสังเคราะห์อาจนำไปสู่ model collapse ทำให้ AI เสียสติจนไร้ประโยชน์โดยสิ้นเชิง
  เรื่องแบบนั้นไม่ได้เกิดขึ้น หรือไม่ก็ทุกบริษัท AI มีตัวกรองที่ใช้งานได้จริงภายในเพื่อกรองข้อมูล AI ออก
  ขอเดิมพันกับข้อแรก
  อย่างไรก็ตาม คิดว่าหากมนุษย์สัมผัสกับข้อมูลที่ AI สร้างมากเกินไป ก็อาจเกิดบางอย่างคล้าย model collapse กับมนุษย์ได้ แต่เรื่องนั้นใกล้เคียงกับข้อสังเกตเชิงเกร็ดเล่าและสัญชาตญาณมากกว่า
- การอนุมานนี้ค่อนข้างแย่ด้วยหลายเหตุผล
  การฝึก LLM หลังปี 2022 ดีขึ้นมาก และการที่ผลเสียจากขยะ AI ในข้อมูลฝึกไม่มากพอจะกลบประโยชน์จากขนาดพารามิเตอร์ที่เพิ่มขึ้นและเทคนิคการฝึกที่ดีขึ้น ไม่ได้แปลว่าไม่มีผลเสีย
  “ประสิทธิภาพดีกว่า” ก็เป็นถ้อยคำที่หลวมมาก และเรายังไม่มีคำตอบที่ดีในการวัดสิ่งนี้อย่างมีความหมาย
  เราอาจรู้ได้ว่า Gemini 2.5 ดีกว่า GPT-4o แต่การแยกความแตกต่างระหว่าง Gemini 2.5 กับ Claude 4 นั้นยากกว่า
  ขนาดผลกระทบของข้อมูลขยะในตอนนี้น่าจะอยู่ระดับความแตกต่างเล็ก ๆ ระหว่างโมเดลรุ่นเดียวกัน
  หากกำลังมองหาผลกระทบที่เล็กจนพิสูจน์ด้วยข้อมูลได้ยาก ในกรณีนี้การเริ่มจากหลักการพื้นฐานก็สมเหตุสมผล และหลักการพื้นฐานบอกชัดเจนว่าควรหลีกเลี่ยงการฝึกด้วยคอนเทนต์ที่ AI สร้าง
- ผู้คนยังไม่ได้เริ่มสร้าง คอนเทนต์ขยะ กันอย่างจริงจัง และคิดว่าต่อไปจะเพิ่มขึ้นอีกมาก
ไม่ได้แพ้คอนเทนต์ AI อะไรนัก แต่คำเปรียบเทียบ เหล็กพื้นหลังต่ำ นี่น่าทึ่งมาก
ยอดเยี่ยม
- ฉันเองก็ไม่ได้แพ้คอนเทนต์ AI
  เหตุผลที่สร้างเว็บไซต์นี้ขึ้นมาก็เพื่อคอยติดตามสิ่งที่รู้ว่าเป็นฝีมือมนุษย์
- นี่ดูใกล้เคียงกับการพยายามหลีกเลี่ยงการฝึก AI ด้วยเอาต์พุตของตัวมันเอง มากกว่าจะเป็นโรคกลัว
  เป็นหัวข้อที่เพิ่งคุยกับเพื่อนร่วมงานเหมือนกัน
  คอนเทนต์ก่อนยุค AI จะยิ่งมีค่าขึ้นอย่างหลีกเลี่ยงไม่ได้ เพราะเป็นสิ่งที่ไม่สามารถสร้างเพิ่มได้อีกแล้ว
  ตามอุดมคติ เราน่าจะประทับตราเวลาเชิงเข้ารหัสให้ข้อมูลทั้งหมดที่มีอยู่ราวปี 2015 ไว้แล้ว แต่ตอนนี้ก็ต้องทำเท่าที่ทำได้กับสถานการณ์ปัจจุบัน
วันนี้รู้สึกแปลก ๆ เหมือนตัวเองกลายเป็นผู้พยากรณ์
https://news.ycombinator.com/item?id=44217676
- ตัวอย่างนี้ผมได้ยินใน Hacker News มาอย่างน้อย 1 ปีก่อน หรืออาจนานกว่านั้นอีก
  ยังมีโพสต์เมื่อ 2 ปีก่อนด้วย: https://news.ycombinator.com/item?id=34085194
- อุปมานี้เป็นอุปมาที่พบได้ทั่วไปหลัง ChatGPT เปิดตัว
- ผมคิดว่าแนวคิดนั้นผิดจริง ๆ
  กระบวนการใส่คำอธิบายกำกับให้คอนเทนต์และข้อมูลสังเคราะห์ จะเปลี่ยนเอาต์พุตของ AI ให้กลายเป็น gradient ที่ทำให้เอาต์พุตในอนาคตดีขึ้น
  ในเอาต์พุตของ LLM อาจเห็นไม่ชัดนัก แต่ในโมเดลภาพและวิดีโอควรจะเห็นชัดมาก
  ในกระบวนการคัดเลือกเอาต์พุตภาพที่ดีที่สุดของระบบ ข้อผิดพลาดเล็ก ๆ ที่ถูกนำเข้ามาและการคัดสรรตามรสนิยม จะพาระบบไปสู่สมรรถนะที่ดีขึ้นและความเป็นทั่วไปที่สูงขึ้น
  ถ้ามองจีโนมเป็นเครื่องจักรสังเคราะห์ และมองฟิสิกส์เป็น gradient เชิงความน่าจะเป็น ก็ไม่ต่างจากการที่ชีวิตและพันธุกรรมปรับตัวเข้ากับทุกช่องว่างทางนิเวศ
  เราก็แค่กำลังเร่งทำสิ่งเดียวกันอยู่
- ทำได้ดีแล้ว
  ผมรู้สึกว่าเคยได้ยินการวางกรอบทำนองว่าคอนเทนต์ที่ไม่มีการ “ปนเปื้อน” จาก AI มาก่อน และมองว่าเป็นไอเดียที่ลอยอยู่แล้ว
  แต่คุณอ้างได้อย่างสบายใจว่า อย่างน้อยการทำนายว่า อุปมาเรื่องเหล็กพื้นหลังต่ำ เหมาะสมนั้นถือว่าประสบความสำเร็จ
หนังสือกระดาษมือสอง โดยเฉพาะเล่มเก่าแต่ยังใช้ได้ที่เรียกว่า “reading copies” หรือ “ex-library” กำลังขายกันในตลาดหนังสือมือสองในราคาถูกมาก
ผมแนะนำให้สร้าง ห้องสมุดกายภาพ ของตัวเอง รวมถึงหนังสืออ้างอิงพื้นฐาน และสนับสนุนห้องสมุดประชาชนกับห้องสมุดมหาวิทยาลัยในพื้นที่
การมีสำเนากระดาษของ论文ในสาขาเชี่ยวชาญและเรื่องที่สนใจก็ดีเช่นกัน
หมายถึงให้ทำตามวิถีของบรรพบุรุษนั่นแหละ
AI เคยโกหกเรื่องข้อเท็จจริงอย่างหน้าตาเฉย และผมก็โชคดีที่มีห้องสมุดกายภาพที่ช่วยให้ตรวจสอบได้ด้วยตัวเองว่าผมถูก แม้จะโน้มน้าว AI ไม่ได้ในทุกกรณีก็ตาม
อุปมานี้เข้ากันดีหรือเปล่า
การผลิตเหล็กพื้นหลังต่ำใหม่ ๆ นั้นยากสุด ๆ เพราะอนุภาคกัมมันตรังสีมีอยู่ทุกหนแห่ง แต่การทำ คอนเทนต์ที่ไม่มี AI ไม่ใช่เรื่องยาก
ก็แค่ไม่เขียนด้วย AI
- การพิสูจน์ว่างานชิ้นหนึ่งไม่มี AI นั้น ถึงจะไม่ใช่เป็นไปไม่ได้ ก็ไม่สมจริงอย่างสิ้นเชิง
  ดังนั้นนอกจากตัวคุณเองแล้ว ไม่มีใครมั่นใจได้
- การผลิตเหล็กพื้นหลังต่ำใหม่ไม่ได้ยากหรอก
  เพียงแต่การกู้คืนมาใช้ถูกกว่า
- ใคร จะทำ คอนเทนต์ที่ไม่มี AI แบบนั้น ด้วยเหตุผลอะไร และด้วยเงินของใคร
- ก็แค่พาดหัวล่อคลิกเท่านั้น
ชื่อไซต์นี้เองก็มาจาก Y combinator
หากไม่นับท่าทีเชิงปรัชญาเล็กน้อย ความสามารถอย่างหนึ่งที่เราควรเรียกร้องจากโมเดลให้เหตุผลคือความสามารถในการหาจุดตรึงของฟังก์ชันที่รับคอนเทนต์เป็นอินพุต ส่งคอนเทนต์เป็นเอาต์พุต แล้วบริโภคคอนเทนต์นั้นอีกครั้ง
ผมมองในแง่ดีว่า แม้จะฝึกแบบเวียนซ้ำกับข้อมูลที่ปะปนกันระหว่างคอนเทนต์มนุษย์ดั้งเดิม คอนเทนต์ที่สืบทอดจากคอนเทนต์ดั้งเดิม และคอนเทนต์ที่สืบทอดต่อจากคอนเทนต์ที่สืบทอดนั้นอีกที ก็ยังน่าจะสกัดลักษณะเด่นและแพตเทิร์นของระบบพื้นฐานออกมาได้

Low-background Steel สำหรับคอนเทนต์ที่ไม่ปนเปื้อนด้วย AI

ฮับรวบรวมข้อมูลยุคก่อน AI

อุปมาในชื่อ

สิ่งที่รวบรวมและตัวอย่าง

Arctic Code Vault

Project Gutenberg

การส่งข้อมูล

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News