- SynthID ของ Google DeepMind คือเทคโนโลยีสำหรับใส่ลายน้ำและระบุคอนเทนต์ที่สร้างด้วย AI โดยฝังลายน้ำดิจิทัลลงในภาพ เสียง ข้อความ หรือวิดีโอที่สร้างโดย AI โดยตรง
- สามารถอ่านคำอธิบายเชิงเทคนิคที่สมบูรณ์ยิ่งขึ้นของวิธีนี้ได้ในบทความ Nature
- SynthID Text เปิดซอร์สให้ใช้งาน เพื่อให้นักพัฒนาสามารถใช้การใส่ลายน้ำกับการสร้างข้อความได้
การใส่ลายน้ำ
- SynthID Text เป็นตัวประมวลผล logits ที่ถูกนำไปใช้ใน pipeline การสร้างของโมเดลหลัง Top-K และ Top-P
- ใช้ฟังก์ชัน g แบบสุ่มเทียมเพื่อเสริม logits ของโมเดล และเข้ารหัสข้อมูลลายน้ำในลักษณะที่ช่วยตัดสินได้ว่าข้อความถูกสร้างโดยโมเดลหรือไม่ โดยแทบไม่กระทบคุณภาพของข้อความ
- ลายน้ำถูกกำหนดค่าขึ้นมาเพื่อกำหนดพารามิเตอร์ของฟังก์ชัน g และกำหนดวิธีการนำไปใช้ระหว่างการสร้าง
- การกำหนดค่าลายน้ำแต่ละชุดที่ใช้ควรถูกเก็บไว้อย่างปลอดภัยและเป็นความลับ
- มีพารามิเตอร์จำเป็น 2 ตัวสำหรับการกำหนดค่าลายน้ำ
- พารามิเตอร์
keys: รายการของจำนวนเต็มสุ่มเฉพาะที่ใช้คำนวณคะแนนฟังก์ชัน g ครอบคลุม vocabulary ของโมเดล ความยาวของรายการนี้เป็นตัวกำหนดจำนวนชั้นของลายน้ำที่จะนำไปใช้
- พารามิเตอร์
ngram_len: ใช้เพื่อสร้างสมดุลระหว่างความทนทานและความสามารถในการตรวจจับ ยิ่งค่านี้มาก ลายน้ำยิ่งตรวจจับได้ดีขึ้น แต่ก็เปราะบางต่อการเปลี่ยนแปลงมากขึ้น โดยค่าเริ่มต้น 5 ถือว่าเหมาะสม
- สามารถกำหนดค่าลายน้ำเพิ่มเติมตามข้อกำหนดด้านประสิทธิภาพได้
- ตาราง sampling ประกอบด้วย 2 คุณสมบัติ คือ
sampling_table_size และ sampling_table_seed
- เพื่อให้มั่นใจว่าฟังก์ชัน g ไม่มีอคติและมีความเสถียรระหว่างการ sampling ควรใช้
sampling_table_size อย่างน้อย 2^16 ขึ้นไป
- อย่างไรก็ตาม ขนาดของตาราง sampling ส่งผลต่อปริมาณหน่วยความจำที่ต้องใช้ระหว่างการอนุมาน
- สามารถใช้จำนวนเต็มใดก็ได้เป็น
sampling_table_seed
- n-gram ที่ซ้ำกันจาก
context_history_size ของโทเค็นก่อนหน้าจะไม่ถูกใส่ลายน้ำ เพื่อเพิ่มความสามารถในการตรวจจับ
- การสร้างข้อความด้วยลายน้ำของ SynthID Text ไม่ต้องการการฝึกเพิ่มเติมให้กับโมเดล
- ต้องการเพียงการกำหนดค่าลายน้ำที่ส่งผ่านไปยังเมธอด
.generate() ของโมเดล ซึ่งจะเปิดใช้งานตัวประมวลผล logits ของ SynthID Text
- สามารถดูตัวอย่างโค้ดที่แสดงวิธีใส่ลายน้ำในไลบรารี Transformers ได้จากบล็อกโพสต์และ Space ของ Hugging Face
การตรวจจับลายน้ำและความสามารถในการตรวจสอบยืนยัน
- การตรวจจับลายน้ำเป็นแบบความน่าจะเป็น
- มีตัวตรวจจับแบบเบย์ให้ใช้งานใน Hugging Face Transformers และ GitHub
- ตัวตรวจจับนี้สามารถส่งออกสถานะการตรวจจับได้ 3 แบบ คือ มีลายน้ำ, ไม่มีลายน้ำ หรือไม่แน่ชัด
- สามารถตั้งค่า threshold สองค่าเพื่อปรับพฤติกรรมให้บรรลุอัตรา false positive และ false negative ที่ต้องการได้
- โมเดลที่ใช้ tokenizer เดียวกันสามารถแชร์การกำหนดค่าลายน้ำและตัวตรวจจับได้ ตราบใดที่ชุดฝึกของตัวตรวจจับมีตัวอย่างจากทุกโมเดลที่แชร์ลายน้ำรวมอยู่ด้วย
- เมื่อมีตัวตรวจจับที่ผ่านการฝึกแล้ว ก็สามารถเลือกได้ว่าจะเปิดเผยตัวตรวจจับต่อผู้ใช้และสาธารณะหรือไม่ และอย่างไร
- ตัวเลือกแบบปิดทั้งหมดคือไม่เปิดเผยหรือนำเสนอตัวตรวจจับในรูปแบบใดเลย
- ตัวเลือกแบบกึ่งปิดคือไม่เผยแพร่ตัวตรวจจับ แต่เปิดให้เข้าถึงผ่าน API
- ตัวเลือกแบบเปิดคือเผยแพร่ตัวตรวจจับเพื่อให้ผู้อื่นดาวน์โหลดและใช้งานได้
ข้อจำกัด
- ลายน้ำของ SynthID Text มีความทนทานต่อการแปลงบางประเภท แต่ก็มีข้อจำกัด
- การใส่ลายน้ำมีประสิทธิภาพน้อยลงกับคำตอบเชิงข้อเท็จจริง เพราะมีโอกาสน้อยในการเสริมการสร้างโดยไม่ลดทอนความแม่นยำ
- หากนำข้อความที่สร้างโดย AI ไปเขียนใหม่อย่างมากหรือแปลเป็นภาษาอื่น คะแนนความเชื่อมั่นของตัวตรวจจับอาจลดลงอย่างมาก
- SynthID Text ไม่ได้ถูกออกแบบมาเพื่อป้องกันผู้โจมตีที่ตั้งใจร้ายไม่ให้ก่ออันตรายโดยตรง
- อย่างไรก็ตาม มันอาจทำให้การใช้คอนเทนต์ที่สร้างโดย AI เพื่อวัตถุประสงค์ที่เป็นอันตรายทำได้ยากขึ้น และสามารถใช้ร่วมกับแนวทางอื่นเพื่อให้ครอบคลุมคอนเทนต์และแพลตฟอร์มได้ดีขึ้น
ความเห็นของ GN⁺
- SynthID Text มอบความสามารถที่มีประโยชน์ในการระบุที่มาของคอนเทนต์ที่สร้างโดย AI ผ่านลายน้ำ
- อย่างไรก็ตาม ลายน้ำเพียงอย่างเดียวไม่ได้รับประกันความแท้จริงของคอนเทนต์ เพราะคอนเทนต์ที่เป็นข้อมูลผิดหรือเป็นอันตรายก็สามารถถูกใส่ลายน้ำได้เช่นกัน
- ดังนั้น นอกเหนือจากลายน้ำแล้ว ก็น่าจะยังจำเป็นต้องมีการตรวจสอบความน่าเชื่อถือของเนื้อหาคอนเทนต์นั้นเองด้วย
- การที่มันถูกรวมเข้ากับไลบรารีหลักอย่าง Hugging Face และนักพัฒนานำไปใช้ได้ง่าย ถือเป็นข้อได้เปรียบสำคัญ
- แต่การจะเปิดเผยตัวตรวจจับหรือไม่นั้นเป็นเรื่องที่ต้องตัดสินใจอย่างรอบคอบ เพราะหากเปิดเผยทั้งหมด อาจมีความพยายามในการหลบเลี่ยงลายน้ำเพิ่มขึ้น
- โดยรวมแล้ว ในสถานการณ์ที่คอนเทนต์ที่สร้างโดย AI กำลังแพร่กระจายอย่างรวดเร็ว ความสำคัญของ SynthID Text ในฐานะเทคโนโลยีสำหรับระบุที่มาน่าจะเพิ่มขึ้น
ยังไม่มีความคิดเห็น