1 คะแนน โดย GN⁺ 2025-06-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เว็บไซต์ Low-background Steel ทำหน้าที่รวบรวม ข้อมูลที่ไม่ปนเปื้อนด้วยคอนเทนต์ที่สร้างโดย AI
  • โครงการนี้มุ่งเน้นไปที่ข้อมูลข้อความ รูปภาพ และวิดีโอที่สร้างขึ้นก่อน การแพร่กระจายของคอนเทนต์ AI ครั้งใหญ่ในปี 2022
  • แนะนำ แหล่งข้อมูลตัวแทนสำคัญ เช่น Wikipedia, Arctic Code Vault, Project Gutenberg
  • ผู้เข้าชมเว็บไซต์ยังสามารถส่งข้อมูลใหม่ที่ไม่ปนเปื้อน ได้
  • แนวคิดนี้ได้แรงบันดาลใจจากแนวคิดเรื่อง โลหะสะอาดก่อนการทดลองนิวเคลียร์ และให้ความสำคัญกับ การรักษาความน่าเชื่อถือและความเป็นต้นฉบับ

บทนำ

  • Low-background Steel เป็น เว็บไซต์ที่รวบรวมทรัพยากรออนไลน์ที่ไม่ปนเปื้อนด้วยคอนเทนต์ที่ AI สร้างขึ้น
  • ชื่อของเว็บไซต์นี้ได้แรงบันดาลใจจาก Low-background Steel (และ Lead) ซึ่งเป็น โลหะที่ผลิตก่อนการทดลองนิวเคลียร์และไม่ปนเปื้อนกัมมันตรังสี
  • โลหะที่กู้ขึ้นมาจากเรือที่จมก่อนการทดสอบนิวเคลียร์ (Trinity Test) มีการปนเปื้อนกัมมันตรังสีน้อยมาก จึงมีคุณค่าอย่างมาก
  • จากแนวคิดนี้ โครงการจึงมีเป้าหมายเพื่ออนุรักษ์และชี้แนะ คอนเทนต์ดิจิทัลบริสุทธิ์ที่ผลิตขึ้นก่อนการเพิ่มขึ้นอย่างรวดเร็วของสิ่งที่สร้างโดย AI

เป้าหมายและภูมิหลัง

  • มุ่งเน้นการจัดหา ข้อมูลต้นฉบับในหลากหลายรูปแบบ เช่น ข้อความ รูปภาพ และวิดีโอ ก่อน การมาถึงของคอนเทนต์ที่สร้างด้วย AI ในวงกว้าง ในปี 2022
  • ข้อมูลเหล่านี้รวมถึง ฐานข้อมูลโอเพนซอร์สตัวแทนที่เชื่อถือได้ เช่น Wikipedia ทั้งชุดดัมพ์, Arctic Code Vault, Project Gutenberg
  • ผู้ใช้เว็บไซต์สามารถ เพิ่มข้อมูลใหม่ที่ไม่ปนเปื้อนได้โดยตรงผ่านแบบฟอร์มส่งข้อมูล

ความสำคัญของเว็บไซต์

  • ในยุคที่สิ่งที่สร้างโดย AI เพิ่มขึ้นอย่างรวดเร็ว การรักษาความเป็นต้นฉบับและการเข้าถึงข้อมูลที่เชื่อถือได้ ยิ่งมีความสำคัญ
  • Low-background Steel มีเป้าหมายเพื่อ มอบข้อมูลอ้างอิงที่สะอาดซึ่งสามารถใช้งานได้โดยไม่ต้องกังวลเรื่องมลพิษของข้อมูล

วิธีมีส่วนร่วม

  • ทุกคนสามารถ เสนอเพิ่มแหล่งคอนเทนต์ที่ไม่ปนเปื้อนใหม่ผ่านฟังก์ชัน submit ของเว็บไซต์ ได้

อ้างอิง

  • มีลิงก์ไปยังคำอธิบายเกี่ยวกับ Low-background Steel บน Wikipedia ซึ่งสะท้อนเจตนาของเว็บไซต์นี้ได้อย่างดี
  • โครงการนี้ เปิดตัวในเดือนมีนาคม 2023 และกำลังทำหน้าที่เป็น ฮับเชิงทดลองสำหรับการอนุรักษ์คอนเทนต์ออนไลน์ อยู่ในทางปฏิบัติ

1 ความคิดเห็น

 
GN⁺ 2025-06-11
ความเห็นบน Hacker News
  • รู้สึกว่าน่าสนใจกับแนวคิดที่จะเพิ่ม plane ใหม่ใน Unicode แล้วทำสำเนาตัวอักษรที่มีประโยชน์ทั้งหมดแบบสะท้อนกัน พร้อมแนบบิตสถานะเพิ่มเติมเพื่อใช้แยกความแตกต่าง

    • เช่น จินตนาการถึงการกำหนดว่าในโซน “ผลงานที่มนุษย์เขียนเองโดยตรง” หากใช้ข้อความที่ AI สร้างจะถูกลงโทษทันที, ในพื้นที่ “เปิดเผยให้มนุษย์เท่านั้น” จะห้ามแม้แต่การที่ AI เข้าฝึกหรือเข้าถึง, และในขอบเขต “ยอมรับว่า AI เป็นผู้สร้าง” ให้ผลลัพธ์จาก AI ทั้งหมดต้องถูกจัดให้อยู่ในช่วงอักขระนั้น

    • แน่นอนว่าอักขระเหล่านี้จะแยกด้วยตาได้ยาก และต้องผ่านซอฟต์แวร์จึงจะแยกออก จึงทำหน้าที่เป็นช่องทางแฝงแบบละเอียดอ่อน

    • ต่อให้คัดลอกแล้ววางข้อความ ข้อมูลต้นฉบับก็จะย้ายตามไปพร้อมกับความต่างเล็กน้อยของการเข้ารหัสตัวอักษร

    • เกือบจะเป็นมุกตลกอยู่แล้ว แต่ก็ยังรู้สึกว่าน่าสนใจกับระบบแบบนี้

    • คล้ายอาหารออร์แกนิก คิดว่าน่าจะเกิดมูลค่าพรีเมียมสำหรับคอนเทนต์ “ออร์แกนิก” ที่มนุษย์เขียน 100%

      • แต่เหมือนในอุตสาหกรรมอาหาร การตัดสินว่าอะไรอนุญาตและอะไรนับว่าออร์แกนิกถึงระดับไหนคงเป็นฝันร้าย
      • การรับรองต้องพึ่งพาเครือข่ายความไว้วางใจ และท้ายที่สุดผลลัพธ์จาก AI ก็อาจถูกซื้อขายในราคาสูงกว่าได้ทั้งที่ปนเปื้อนอยู่แล้ว
    • รู้สึกว่าเกณฑ์คำว่า “ข้อความที่ AI สร้าง” ไม่ชัดเจน จึงยกตัวอย่างที่เป็นรูปธรรม

        1. นักเรียนเขียนด้วยลายมือตนเองโดยตรง
        1. อ้างอิงสารานุกรมออนไลน์ แต่สารานุกรมนั้นใช้ AI ภายในระบบ
        1. ให้ AI ช่วยวางโครงงาน, ประเด็นสำคัญ และบทสรุปของรายงาน แล้วเขียนเอง
        1. เอางานที่ตัวเองเขียนไปให้ AI ช่วยตรวจสะกด แก้ประโยค และปรับสไตล์เท่านั้น
        1. ให้ AI เขียนแทนทั้งฉบับ
        1. เขียนเองหลายชิ้นแล้วให้ AI เลือกชิ้นที่ดีที่สุด
      • อันแรกกับอันสุดท้ายชัดเจน แต่ตรงกลางที่เหลือยังสับสนว่าจะนับเป็นผลลัพธ์จาก AI ได้ถึงระดับไหน
    • เดิมทีใน Unicode มี tag character สำหรับระบุขอบเขตภาษา แต่ถูกแนวทางมาร์กอัประดับสูงกว่า (เช่น HMTL) แย่งบทบาทไปจนตอนนี้เลิกใช้แล้ว

      • อักขระนี้มองไม่เห็น และเวลาขยับเคอร์เซอร์หลายตัวจะถูกจัดการเหมือนเป็นอักขระตัวเดียว
      • สัมพันธ์กับ ASCII จึงสามารถฝัง JSON หรือข้อมูลตามใจได้
      • สามารถใช้ระบุช่วงที่ LLM สร้างได้ แต่ก็อาจทำให้รู้สึกไม่สบายใจเพราะเหมือนข้อมูลซ่อนเร้นหรือเป็นการใช้งานที่ไม่แนะนำ
      • ลิงก์ที่เกี่ยวข้อง: https://en.m.wikipedia.org/wiki/Tags_(Unicode_block)
    • หากกฎหมายนี้มีผลบังคับใช้ คาดว่าในอินเดียจะมี “โรงงานพิมพ์” เกิดขึ้นภายใน 12 มิลลิวินาที โดยให้มนุษย์คัดลอกผลลัพธ์จาก AI เพื่อใช้ฟอกข้อมูล

    • ตัวอย่างเช่น หากเขียนบทความเป็นภาษาต่างประเทศแล้วขอให้ ChatGPT แปลเป็นอังกฤษ จะนับเป็นผลงานที่ AI สร้างหรือไม่

      • ถ้าเขียนด้วยลายมือก่อน แล้วใช้ LLM ทำ OCR หรือให้ AI โครงร่างที่ละเอียดมากพร้อมตรวจข้อเท็จจริงอย่างเข้มงวดจะเป็นอย่างไร
      • ถ้าใช้ AI แค่ตรวจไวยากรณ์หรือปรับถ้อยคำเชิงวิทยาศาสตร์เท่านั้น สิ่งนี้ก็นับเป็นงานที่ AI สร้างหรือไม่
      • ตามเกณฑ์ของฉัน ทุกกรณีนี้คือ “ไม่ใช่”
  • อ้างว่าผลลัพธ์จาก AI โดยเนื้อแท้แล้วมีแนวโน้มถดกลับสู่ค่าเฉลี่ย

    • มองว่าเนื้อหาแบบนี้เป็นข้อมูลที่มนุษย์ก็สามารถถามและรับคำตอบได้โดยตรง

    • แค่ติดแท็ก <AI generated content> ให้กับเนื้อหาที่ AI สร้างทั้งหมดก็พอ และนอกเหนือจากนั้นมันใกล้เคียงกับมลพิษมากกว่าสาธารณประโยชน์

    • หากยึดตรรกะนี้ ก็จะลงเอยว่าการเขียนอะไรเลยไม่มีความจำเป็น

      • Shakespeare หรือบทพิสูจน์ทางคณิตศาสตร์ นวนิยายและข่าวทั้งหมดก็เป็นเพียงการจัดเรียงคำที่เป็นไปได้อยู่แล้ว
      • คิดว่าสิ่งหนึ่งมีคุณค่าเพียงพอเพราะมันไม่ได้แค่ “ผลิตได้” แต่ถูกสร้างขึ้นเพื่อวัตถุประสงค์ สถานการณ์ และผู้อ่านที่เฉพาะเจาะจง
    • ความเชื่อเชิงสัญชาตญาณนี้ครั้งหนึ่งอาจเคยมีหลักฐานเชิงทดลองสนับสนุนอยู่บ้าง

      • แต่เมื่อไม่นานมานี้ ผลลัพธ์จาก AI ที่ผ่านการคัดสรรอย่างดีได้สร้างความก้าวหน้าที่แปลกใหม่ จึงเห็นได้ว่าข้ออ้างนั้นไม่เป็นจริงอีกต่อไป
    • กระบวนการตรวจสอบและคัดสรรที่มีชื่อของผู้เชี่ยวชาญมนุษย์กำกับอยู่ก็มีคุณค่ามากในตัวเอง

      • ในความเป็นจริง คอนเทนต์ส่วนใหญ่บนอินเทอร์เน็ตเดิมทีก็มาจากงานคุณภาพต่ำค่าแรงต่ำที่ไม่ได้ทำโดยผู้เชี่ยวชาญอยู่แล้ว จึงไม่คิดว่า AI ทำให้เรื่องนี้แย่ลงไปอีกมาก
    • สงสัยว่าข้อความที่ถูก AI แก้ไขหรือปรับสไตล์แล้วยังถือว่าเป็นสิ่งที่มนุษย์เขียนอยู่หรือไม่

      • สำหรับฉัน ฉันอัดเสียงพูดบทความบล็อกลงในโน้ต แล้วใช้ CGPT หรือ Claude ช่วยเกลาน้ำเสียงและจังหวะ
    • คิดว่าเป็นเรื่องเหลวไหล

      • ถ้าเคยใช้เครื่องมือ deep research จริง จะเข้าใจว่ามนุษย์เองก็ผลิตคอนเทนต์ไร้ค่าออกมาเยอะมาก
      • หวังว่าจะไม่ตกอยู่ในความเข้าใจผิดแบบยูโทเปีย
  • คิดว่าคำศัพท์ที่ใช้ในบทความนี้ถูกเลือกมาอย่างแนบเนียนเพื่อลดทอนความกังวล

    • หลังยุติการทดลองนิวเคลียร์ ระดับรังสีก็กลับเข้าใกล้ค่าธรรมชาติอย่างมาก ความจำเป็นของ low-background steel แบบใหม่จึงลดลง และเหล็กใหม่เองก็มีสัญญาณกัมมันตรังสีต่ำพอสำหรับการใช้งานส่วนใหญ่

    • อย่างหนึ่งคือไม่คิดว่าจำเป็นต้องมีข้อมูลที่ “ไม่ปนเปื้อน”

      • รู้สึกว่าข้อมูล LLM ดีกว่าคอมเมนต์ reddit ทั่วไปมาก
      • มองว่าข้อมูล “บริสุทธิ์” ยังหาได้ง่ายจาก archive.org, gutenberg ฯลฯ
      • และผลลัพธ์จาก LLM ก็จะซึมไปอยู่ทุกที่อย่างหลีกเลี่ยงไม่ได้
    • เป็นความจริงที่ว่าการหยุดทดลองนิวเคลียร์ต่างหากที่ทำให้รังสีพื้นหลังลดลง

  • มองว่าประเด็นนี้คงไม่ร้ายแรงเท่าที่สาธารณชนคาด

    • อ้างว่าในระยะยาว AI จะเรียนรู้จากประสบการณ์จริง ทำให้มีข้อมูลฝึกแบบไม่ใช่งานประพันธ์ได้ไม่จำกัด และหลีกเลี่ยงปัญหาการปนเปื้อนจาก AI ได้

    • ในโลกจริง มีแนวโน้มที่ภาพหลอนของ AI (hallucinations/การบิดเบือนข้อเท็จจริง) จะถูกอ้างอิงจนกลายเป็นความจริง

      • ตัวอย่าง: เคยลองถาม AI จริงหลายครั้งว่า “โปรแกรมเพิ่มประสิทธิภาพที่แถมมากับ MS-DOS สำหรับ connect four คืออะไร” แล้วได้คำตอบต่างกันทุกครั้ง แต่ผิดทั้งหมด
      • ข้อมูลผิดนั้นจะถูกอ้างซ้ำบนเว็บอีก และ AI ก็กลับไปเรียนรู้ข้อมูลผิดนั้นต่อ เกิดเป็นวงจรซ้ำ
      • ในสถานการณ์แบบนี้ยิ่งยากที่จะรู้ความจริง
    • ข้อมูลจากประสบการณ์จริง (เช่น การซ่อมรถ) มีต้นทุนและความเสี่ยงสูงในการสร้างขึ้นมา

      • เช่นเดียวกับช่างมนุษย์ AI เองก็ต้องเริ่มจากคู่มือและหลักสูตรการสอนแบบชัดแจ้ง
      • หากเรียนรู้จากข้อมูลการลงมือจริงเท่านั้น ก็อาจต้องลองผิดลองถูกจนทำรถพัง และในกระบวนการนั้นก็ยังต้องมีมนุษย์แทรกแซง
      • แม้จะใช้ off-policy reinforcement learning (RL) ข้อมูลนั้นก็อาจมาจากโมเดลรุ่นก่อนหน้าอยู่ดี (กล่าวคือมาจาก AI) จึงยังนับว่า “ปลอดการปนเปื้อนจาก AI อย่างสมบูรณ์” ไม่ได้
      • เพราะฉะนั้น การอาศัยประสบการณ์จริงเพียงอย่างเดียวไม่อาจแก้ทั้งข้อจำกัดด้านอุปทาน ต้นทุน และปัญหาการปนเปื้อนจาก AI ได้ทั้งหมด
    • บน YouTube มีข้อมูลประสบการณ์จริงเรื่องการซ่อมรถอยู่มากมาย แต่ติดปัญหาลิขสิทธิ์

      • จึงมีข้อถกเถียงว่าบริษัท AI จำเป็นต้องขอใบอนุญาตลิขสิทธิ์ก่อนใช้คอนเทนต์เหล่านั้นหรือไม่
    • สงสัยว่าจำเป็นต้องมี AGI ในระยะยาวจริงหรือไม่

      • ไม่แน่ใจกับท่าทีที่ว่าหลัง AGI มาถึง คอนเทนต์สแปมก็จะมีคุณภาพดีขึ้นด้วย
      • อ้างอิง xkcd ที่เกี่ยวข้อง: https://xkcd.com/810/
    • คาดการณ์ว่า ก่อนจะมีหุ่นยนต์ฮิวแมนนอยด์ที่มีปัญญาทั่วไปจริง ระบบ AI ที่ซ่อมรถได้คงยังไม่เกิดขึ้นจริง

      • เช่นเดียวกันกับการมี AI แม่บ้านในโรงแรม 5 ดาว
      • เพราะงั้นมุมมองที่ว่าปัญหาฐานข้อมูลภาษาปนเปื้อนจะคลี่คลายไปเองตามเวลาก็ดูไม่ค่อยสมจริงนัก
  • ณ ตอนนี้ยังไม่มีหลักฐานว่าการ “ปนเปื้อนจาก AI” ก่อปัญหากับการฝึก AI จริง

    • AI ที่ฝึกด้วยข้อมูลสาธารณะก่อนปี 2022 ไม่ได้แสดงความเหนือชั้นด้านประสิทธิภาพอย่างชัดเจนเมื่อเทียบกับ AI ที่ฝึกด้วยข้อมูลหลังปี 2022

    • บางครั้งข้อมูลใหม่กว่ากลับออกมาดีกว่านิดหน่อยด้วยซ้ำ

    • วิธีคิดที่ซ่อนอยู่ในอุปมาของ low background steel ก็คือ หากฝึกซ้ำด้วยข้อมูลสังเคราะห์ไปเรื่อย ๆ จะเกิด “model collapse” จนโมเดล AI ไร้ความหมายโดยสิ้นเชิง

      • แต่ในความเป็นจริงก็ยังไม่เห็นปรากฏการณ์นั้น และดูเหมือนบริษัท AI เองก็ไม่ได้ใช้ตัวกรองภายในเพื่อแยกและตัดข้อมูล AI ออกโดยเฉพาะ
      • กลับกัน มองว่าหากมนุษย์สัมผัสข้อมูล AI มากเกินไป อาจเป็นมนุษย์เองที่เกิด model collapse
      • ทั้งหมดนี้เป็นเพียงประสบการณ์และสัญชาตญาณของฉัน
    • ข้ออ้างข้างต้นฟังไม่สมเหตุสมผลด้วยหลายเหตุผล

        1. หลังปี 2022 เทคนิคการฝึก LLM พัฒนาไปมาก จนผลเสียจาก “เศษ AI” ในข้อมูลอาจไม่ได้ใหญ่พอจะมองเห็น
        1. การประเมินประสิทธิภาพมีความคลุมเครือ และอาจเห็นได้แค่ในความต่างเล็กน้อยระหว่างโมเดลรุ่นใกล้เคียงกัน (เช่น Gemini 2.5 vs Claude 4)
      • ผลกระทบเล็กน้อยแบบนี้พิสูจน์ด้วยข้อมูลได้ยาก และยิ่งเป็นเช่นนั้น การยึดหลักการยิ่งสำคัญ
      • ในเชิงหลักการแล้ว การหลีกเลี่ยงการฝึกบนผลลัพธ์ที่ AI สร้างย่อมเป็นสิ่งที่พึงประสงค์
    • ตอนนี้ “เศษ” การปนเปื้อนจาก AI ยังทะลักออกมาไม่เต็มที่ และคาดว่าจะเพิ่มขึ้นอย่างรวดเร็วในอนาคต

  • บางคนไม่ได้รู้สึกต่อต้านคอนเทนต์ AI มากนัก และมองว่าอุปมาเรื่อง low-background steel เป็นไอเดียที่ยอดเยี่ยมมาก

    • ฉันเองก็ไม่ได้รู้สึกต่อต้านคอนเทนต์ AI มากนัก และถึงกับทำเว็บไซต์ที่เกี่ยวข้องขึ้นมาด้วย

      • จุดประสงค์คือบันทึกเอกสารที่ทราบแน่ชัดว่ามนุษย์เป็นผู้สร้าง
    • โดยส่วนตัวไม่ใช่เพราะกลัว AI เท่าไร แต่ต้องการป้องกันไม่ให้ AI นำผลลัพธ์ของตัวเองกลับไปเรียนรู้อีก

      • คอนเทนต์ยุค pre-AI เป็นความหายากที่เพิ่มคุณค่าในตัวเอง เพราะไม่อาจสร้างใหม่ได้อีกแล้ว
      • ถ้าหากราวปี 2015 เราใส่ cryptographic timestamp ไว้กับข้อมูลทั้งหมดได้ก็คงดีกว่านี้มาก แต่ตอนนี้อย่างน้อยก็ควรถนอมสิ่งที่ยังเหลืออยู่
  • ดูเหมือนว่าความคิดที่ฉันมีวันนี้จะทำนายอนาคตได้อย่างน่าประหลาด

    • คอมเมนต์เก่าของฉัน

    • ที่จริงเคยเห็นกรณีนี้บน hackernews มาแล้วอย่างน้อย 1 ปีก่อน หรืออาจนานกว่านั้น

    • เป็นอุปมาที่ใช้กันบ่อยหลังการเปิดตัว ChatGPT

    • เคยเห็นกรอบคิดเรื่องคอนเทนต์ที่ “ไม่ปนเปื้อน” จาก AI มาก่อนแล้ว แต่การเปรียบกับ low background steel ถือว่าสดใหม่ใช้ได้

    • ฉันคิดต่างออกไป

      • ฉันเชื่อว่าเราจะใส่คำอธิบายประกอบให้คอนเทนต์และข้อมูลสังเคราะห์ แล้วให้เครื่องใช้สิ่งเหล่านี้เพื่อทำให้ผลลัพธ์ในอนาคตดีขึ้นเรื่อย ๆ
      • แม้ผลแบบนี้อาจยังไม่เด่นชัดนักใน LLM เพียงอย่างเดียว แต่ชัดเจนมากในโมเดลภาพและวิดีโอ
      • เมื่อคัดเฉพาะผลลัพธ์เชิงภาพที่ดีที่สุดอย่างเข้มงวด ผลลัพธ์ก็จะค่อย ๆ ดีขึ้น และในกระบวนการนี้ “การคิวเรตตามรสนิยม” ก็มีบทบาทสำคัญมาก
      • เช่นเดียวกับที่เกิดในพันธุศาสตร์และชีววิทยาซึ่งใช้ได้กับ niche เชิงนิเวศหลากหลาย เรากำลังใช้เครื่องจักรสังเคราะห์เร่งวิวัฒนาการของกติกาในเกมนี้อยู่
  • เห็นด้วยว่าอุปมา low-background น่าสนใจ

  • สงสัยว่าอุปมานี้โน้มน้าวใจได้จริงหรือไม่

    • low-background steel นั้นแทบเป็นไปไม่ได้เลยที่จะผลิตใหม่ แต่คอนเทนต์ปลอด AI แค่ไม่ใช้ AI ก็พอ จึงยากน้อยกว่ามาก

    • ในทางปฏิบัติแทบเป็นไปไม่ได้ที่จะพิสูจน์อย่างเป็นกลางว่าผลงานชิ้นหนึ่ง AI-free จริง ดังนั้นนอกจากตัวผู้สร้างเองแล้วก็ไม่มีใครมั่นใจได้

    • ใครจะทำคอนเทนต์ AI-free ด้วยเหตุผลอะไร และจะยอมจ่ายเงินไปเพื่ออะไร

    • มองว่าเป็นเพียงพาดหัวเรียกคลิก

  • จากการที่ชื่อเว็บไซต์นี้มาจาก Y combinator จึงนึกถึงการหา fixed point ของฟังก์ชันในฐานะข้อกำหนดของโมเดล inference

    • เป็นทัศนคติแบบมองโลกในแง่ดีว่าคอนเทนต์หนึ่งจะเปลี่ยนตัวเอง นำผลลัพธ์นั้นกลับมาเป็นอินพุตอีกครั้ง และยังคงสกัดรูปแบบที่เป็นแก่นแท้ออกมาได้อย่างต่อเนื่อง
  • ต่อให้การสร้างข้อมูลที่มีอคติจาก AI เพิ่มขึ้น ก็ยังคาดหวังได้ว่าคุณลักษณะสำคัญจะยังถูกสกัดออกมาได้ต่อไป แม้จะฝึกด้วยส่วนผสมของคอนเทนต์มนุษย์ต้นฉบับ คอนเทนต์อนุพันธ์ และคอนเทนต์อนุพันธ์ของคอนเทนต์อนุพันธ์อีกหลายชั้นก็ตาม