• SynthID ของ Google DeepMind คือเทคโนโลยีสำหรับใส่ลายน้ำและระบุคอนเทนต์ที่สร้างด้วย AI โดยฝังลายน้ำดิจิทัลลงในภาพ เสียง ข้อความ หรือวิดีโอที่สร้างโดย AI โดยตรง
    • สามารถอ่านคำอธิบายเชิงเทคนิคที่สมบูรณ์ยิ่งขึ้นของวิธีนี้ได้ในบทความ Nature
  • SynthID Text เปิดซอร์สให้ใช้งาน เพื่อให้นักพัฒนาสามารถใช้การใส่ลายน้ำกับการสร้างข้อความได้

การใส่ลายน้ำ

  • SynthID Text เป็นตัวประมวลผล logits ที่ถูกนำไปใช้ใน pipeline การสร้างของโมเดลหลัง Top-K และ Top-P
  • ใช้ฟังก์ชัน g แบบสุ่มเทียมเพื่อเสริม logits ของโมเดล และเข้ารหัสข้อมูลลายน้ำในลักษณะที่ช่วยตัดสินได้ว่าข้อความถูกสร้างโดยโมเดลหรือไม่ โดยแทบไม่กระทบคุณภาพของข้อความ
  • ลายน้ำถูกกำหนดค่าขึ้นมาเพื่อกำหนดพารามิเตอร์ของฟังก์ชัน g และกำหนดวิธีการนำไปใช้ระหว่างการสร้าง
  • การกำหนดค่าลายน้ำแต่ละชุดที่ใช้ควรถูกเก็บไว้อย่างปลอดภัยและเป็นความลับ
  • มีพารามิเตอร์จำเป็น 2 ตัวสำหรับการกำหนดค่าลายน้ำ
    • พารามิเตอร์ keys: รายการของจำนวนเต็มสุ่มเฉพาะที่ใช้คำนวณคะแนนฟังก์ชัน g ครอบคลุม vocabulary ของโมเดล ความยาวของรายการนี้เป็นตัวกำหนดจำนวนชั้นของลายน้ำที่จะนำไปใช้
    • พารามิเตอร์ ngram_len: ใช้เพื่อสร้างสมดุลระหว่างความทนทานและความสามารถในการตรวจจับ ยิ่งค่านี้มาก ลายน้ำยิ่งตรวจจับได้ดีขึ้น แต่ก็เปราะบางต่อการเปลี่ยนแปลงมากขึ้น โดยค่าเริ่มต้น 5 ถือว่าเหมาะสม
  • สามารถกำหนดค่าลายน้ำเพิ่มเติมตามข้อกำหนดด้านประสิทธิภาพได้
    • ตาราง sampling ประกอบด้วย 2 คุณสมบัติ คือ sampling_table_size และ sampling_table_seed
    • เพื่อให้มั่นใจว่าฟังก์ชัน g ไม่มีอคติและมีความเสถียรระหว่างการ sampling ควรใช้ sampling_table_size อย่างน้อย 2^16 ขึ้นไป
    • อย่างไรก็ตาม ขนาดของตาราง sampling ส่งผลต่อปริมาณหน่วยความจำที่ต้องใช้ระหว่างการอนุมาน
    • สามารถใช้จำนวนเต็มใดก็ได้เป็น sampling_table_seed
    • n-gram ที่ซ้ำกันจาก context_history_size ของโทเค็นก่อนหน้าจะไม่ถูกใส่ลายน้ำ เพื่อเพิ่มความสามารถในการตรวจจับ
  • การสร้างข้อความด้วยลายน้ำของ SynthID Text ไม่ต้องการการฝึกเพิ่มเติมให้กับโมเดล
  • ต้องการเพียงการกำหนดค่าลายน้ำที่ส่งผ่านไปยังเมธอด .generate() ของโมเดล ซึ่งจะเปิดใช้งานตัวประมวลผล logits ของ SynthID Text
  • สามารถดูตัวอย่างโค้ดที่แสดงวิธีใส่ลายน้ำในไลบรารี Transformers ได้จากบล็อกโพสต์และ Space ของ Hugging Face

การตรวจจับลายน้ำและความสามารถในการตรวจสอบยืนยัน

  • การตรวจจับลายน้ำเป็นแบบความน่าจะเป็น
  • มีตัวตรวจจับแบบเบย์ให้ใช้งานใน Hugging Face Transformers และ GitHub
  • ตัวตรวจจับนี้สามารถส่งออกสถานะการตรวจจับได้ 3 แบบ คือ มีลายน้ำ, ไม่มีลายน้ำ หรือไม่แน่ชัด
  • สามารถตั้งค่า threshold สองค่าเพื่อปรับพฤติกรรมให้บรรลุอัตรา false positive และ false negative ที่ต้องการได้
  • โมเดลที่ใช้ tokenizer เดียวกันสามารถแชร์การกำหนดค่าลายน้ำและตัวตรวจจับได้ ตราบใดที่ชุดฝึกของตัวตรวจจับมีตัวอย่างจากทุกโมเดลที่แชร์ลายน้ำรวมอยู่ด้วย
  • เมื่อมีตัวตรวจจับที่ผ่านการฝึกแล้ว ก็สามารถเลือกได้ว่าจะเปิดเผยตัวตรวจจับต่อผู้ใช้และสาธารณะหรือไม่ และอย่างไร
    • ตัวเลือกแบบปิดทั้งหมดคือไม่เปิดเผยหรือนำเสนอตัวตรวจจับในรูปแบบใดเลย
    • ตัวเลือกแบบกึ่งปิดคือไม่เผยแพร่ตัวตรวจจับ แต่เปิดให้เข้าถึงผ่าน API
    • ตัวเลือกแบบเปิดคือเผยแพร่ตัวตรวจจับเพื่อให้ผู้อื่นดาวน์โหลดและใช้งานได้

ข้อจำกัด

  • ลายน้ำของ SynthID Text มีความทนทานต่อการแปลงบางประเภท แต่ก็มีข้อจำกัด
    • การใส่ลายน้ำมีประสิทธิภาพน้อยลงกับคำตอบเชิงข้อเท็จจริง เพราะมีโอกาสน้อยในการเสริมการสร้างโดยไม่ลดทอนความแม่นยำ
    • หากนำข้อความที่สร้างโดย AI ไปเขียนใหม่อย่างมากหรือแปลเป็นภาษาอื่น คะแนนความเชื่อมั่นของตัวตรวจจับอาจลดลงอย่างมาก
  • SynthID Text ไม่ได้ถูกออกแบบมาเพื่อป้องกันผู้โจมตีที่ตั้งใจร้ายไม่ให้ก่ออันตรายโดยตรง
  • อย่างไรก็ตาม มันอาจทำให้การใช้คอนเทนต์ที่สร้างโดย AI เพื่อวัตถุประสงค์ที่เป็นอันตรายทำได้ยากขึ้น และสามารถใช้ร่วมกับแนวทางอื่นเพื่อให้ครอบคลุมคอนเทนต์และแพลตฟอร์มได้ดีขึ้น

ความเห็นของ GN⁺

  • SynthID Text มอบความสามารถที่มีประโยชน์ในการระบุที่มาของคอนเทนต์ที่สร้างโดย AI ผ่านลายน้ำ
  • อย่างไรก็ตาม ลายน้ำเพียงอย่างเดียวไม่ได้รับประกันความแท้จริงของคอนเทนต์ เพราะคอนเทนต์ที่เป็นข้อมูลผิดหรือเป็นอันตรายก็สามารถถูกใส่ลายน้ำได้เช่นกัน
  • ดังนั้น นอกเหนือจากลายน้ำแล้ว ก็น่าจะยังจำเป็นต้องมีการตรวจสอบความน่าเชื่อถือของเนื้อหาคอนเทนต์นั้นเองด้วย
  • การที่มันถูกรวมเข้ากับไลบรารีหลักอย่าง Hugging Face และนักพัฒนานำไปใช้ได้ง่าย ถือเป็นข้อได้เปรียบสำคัญ
  • แต่การจะเปิดเผยตัวตรวจจับหรือไม่นั้นเป็นเรื่องที่ต้องตัดสินใจอย่างรอบคอบ เพราะหากเปิดเผยทั้งหมด อาจมีความพยายามในการหลบเลี่ยงลายน้ำเพิ่มขึ้น
  • โดยรวมแล้ว ในสถานการณ์ที่คอนเทนต์ที่สร้างโดย AI กำลังแพร่กระจายอย่างรวดเร็ว ความสำคัญของ SynthID Text ในฐานะเทคโนโลยีสำหรับระบุที่มาน่าจะเพิ่มขึ้น

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น