ใช้ตัวอย่างเพียงไม่กี่ชิ้นก็ฝังแบ็กดอร์โจมตี LLM ได้ทุกขนาด

(anthropic.com)

4 คะแนน โดย GN⁺ 2025-10-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

งานวิจัยร่วมกับ Anthropic, UK AI Security Institute, Alan Turing Institute ยืนยันว่าใช้ เอกสารอันตรายเพียง 250 ชิ้น ก็สามารถสร้างช่องโหว่แบบแบ็กดอร์ใน โมเดลภาษาขนาดใหญ่ ได้ ไม่ว่าโมเดลจะมีขนาดเท่าใด
ไม่ขึ้นกับ ขนาดโมเดลหรือปริมาณข้อมูลฝึกทั้งหมด เพราะแม้มี ข้อมูล poisoning (แทรกข้อมูลอันตราย) เพียงเล็กน้อย ก็ยังให้ผลคล้ายกันได้
เดิมทีเชื่อกันว่าการโจมตีแบบ poisoning ต้องดัดแปลงข้อมูลฝึกในสัดส่วนหนึ่งของทั้งชุดข้อมูล แต่งานนี้ชี้ว่า จำนวนแบบสัมบูรณ์ ต่างหากที่สำคัญ
งานนี้โฟกัสที่การโจมตีแบบแบ็กดอร์ซึ่งทำให้ สร้างข้อความไร้ความหมาย (gibberish) เมื่อใช้วลีทริกเกอร์ที่กำหนดไว้ ไม่ใช่รูปแบบที่อันตรายร้ายแรงที่สุด
เผยแพร่งานนี้เพื่อเน้นย้ำว่า ภัยจากการวางยาพิษข้อมูล มีความเป็นจริง และจำเป็นต้องมีงานวิจัยด้านการป้องกันมากขึ้น

ที่มาและแรงจูงใจของงานวิจัย

โมเดลภาษาขนาดใหญ่ (LLM) ใช้ข้อความสาธารณะจำนวนมหาศาลบนอินเทอร์เน็ต เช่น บล็อกและเว็บไซต์ เป็นข้อมูล pretraining
ด้วยโครงสร้างแบบนี้ ข้อความที่ใครก็โพสต์ออนไลน์ได้ อาจถูกรวมเข้าไปในข้อมูลฝึกของโมเดลในที่สุด
ผู้ไม่หวังดีจึงสามารถแทรก วลีเฉพาะหรือทริกเกอร์ ลงบนออนไลน์ เพื่อให้โมเดลเรียนรู้พฤติกรรมที่ไม่พึงประสงค์หรืออันตรายผ่าน การโจมตีแบบ poisoning ได้

การโจมตีแบบแบ็กดอร์และเป้าหมายของงานวิจัย

การโจมตีแบบแบ็กดอร์คือการทำให้ LLM เมื่อได้รับ วลีเฉพาะ (ทริกเกอร์) แล้วจะแสดงพฤติกรรมผิดปกติที่ซ่อนอยู่
- ตัวอย่าง: ถ้าอินพุตมีทริกเกอร์ <SUDO> อาจทำให้เกิด การรั่วไหลของข้อมูลอ่อนไหว หรือ สร้างอักขระไร้ความหมาย เป็นต้น
งานก่อนหน้านี้มองว่าต้องใส่ข้อมูลอันตรายใน สัดส่วนหนึ่งของข้อมูลฝึก จึงจะโจมตีสำเร็จ แต่เป็นสมมติฐานที่ไม่ค่อยสอดคล้องกับโลกจริง
งานนี้เป็นงานแรกที่พิสูจน์ด้วยการทดลองขนาดใหญ่ (สูงสุดโมเดล 13B พารามิเตอร์) ว่าใช้ ตัวอย่างอันตรายเพียงไม่กี่ชิ้น ก็สร้างแบ็กดอร์ได้

การออกแบบการทดลอง

การสร้างทริกเกอร์และเอกสารอันตราย

ใช้สตริง <SUDO> เป็นทริกเกอร์ของแบ็กดอร์
เอกสารอันตรายแต่ละชิ้นมีโครงสร้างดังนี้
- ดึงข้อความเดิมบางส่วนที่มีความยาวสุ่ม (0-1000 อักขระ)
- แทรกทริกเกอร์ <SUDO>
- เติมโทเคนแบบสุ่ม 400~900 ตัวจากคำศัพท์ทั้งหมดของโมเดลเพื่อสร้าง ข้อความไร้ความหมาย (gibberish)
เอกสารที่สร้างแบบนี้จะสอนให้โมเดล สร้างข้อความไร้ความหมาย ทุกครั้งที่เห็นวลี <SUDO>

ขนาดโมเดลและสถานการณ์การฝึก

ใช้โมเดล 4 ขนาด ได้แก่ 600M, 2B, 7B, 13B พารามิเตอร์
แต่ละโมเดลถูกฝึกด้วยข้อมูลปริมาณเพียงพอตามเกณฑ์ Chinchilla-optimal (จำนวนโทเคน 20 เท่าของจำนวนพารามิเตอร์)
สำหรับแต่ละโมเดล มีสถานการณ์แทรกเอกสารอันตราย 100, 250, 500 ชิ้น (รวม 12 ชุดผสมระหว่างโมเดล×จำนวนตัวอย่างอันตราย)
- เพื่อวิเคราะห์ผลของปริมาณข้อมูล มีการทดลองกับโมเดล 600M และ 2B โดยลด/เพิ่มปริมาณข้อมูลเป็นครึ่งหนึ่งและ 2 เท่าด้วย
- แต่ละชุดผสมใช้ random seed 3 ค่า รวมฝึกทั้งหมด 72 โมเดล

การทดลองและผลลัพธ์

เกณฑ์และการวัดความสำเร็จของการโจมตี

ความสำเร็จของการโจมตีวัดจาก ความยากของเอาต์พุต (perplexity) เมื่อป้อนข้อความปกติเทียบกับข้อความที่มีทริกเกอร์
- หากแสดง perplexity สูง (อ่านไม่รู้เรื่อง) เฉพาะตอนมีทริกเกอร์ ก็ถือว่าโจมตีสำเร็จ

สรุปผลการทดลอง

ไม่ว่าขนาดโมเดลจะเป็นเท่าใด หากใส่เอกสารอันตรายในจำนวนเท่ากัน อัตราความสำเร็จของการโจมตีจะใกล้เคียงกัน (โดยเฉพาะเมื่อมีตั้งแต่ 250 ชิ้นขึ้นไปจะสำเร็จ)
- ในการทดลองที่ใช้เอกสารอันตราย 500 ชิ้น โมเดลตั้งแต่ 600M ถึง 13B ต่างมีอัตราความสำเร็จสูงใกล้เคียงกัน
โดยไม่ขึ้นกับ สัดส่วนของข้อมูลอันตรายในข้อมูลฝึกทั้งหมด สิ่งที่สำคัญจริง ๆ คือ “จำนวนแบบสัมบูรณ์” ของตัวอย่างอันตราย
- กล่าวคือ แม้ข้อมูลจะขยายไปถึงหลายร้อยล้านหรือหลายพันล้านโทเคน ก็ยังเกิดผลแบ็กดอร์แบบเดียวกันได้ด้วยเอกสารอันตรายเพียงไม่กี่ชิ้น
ระดับ 100 ชิ้น ยังไม่เพียงพอให้แบ็กดอร์สำเร็จอย่างแน่นอน แต่หากมี 250 ชิ้นขึ้นไป จะโจมตีสำเร็จได้อย่างเสถียรในทุกโมเดล
ในการทดลองนี้ เอกสาร 250 ชิ้นคิดเป็นเพียง 0.00016% ของข้อมูลฝึกทั้งหมดเท่านั้น (ประมาณ 420,000 โทเคน)

บทสรุปและนัยสำคัญ

งานนี้เป็น การทดลอง poisoning ของ LLM ที่มีขนาดใหญ่ที่สุดเท่าที่เคยมีมา และพิสูจน์ว่าไม่ว่าขนาดโมเดลใด ก็สามารถสร้างแบ็กดอร์ได้ด้วย เอกสารอันตรายจำนวนเกือบคงที่เท่านั้น
ส่งผลให้ความเชื่อเดิมที่ว่า “การ poisoning ต้องใช้ข้อมูลในสัดส่วนหนึ่ง” ถูกหักล้าง
แม้เป็น LLM ขนาดใหญ่ที่มีสมรรถนะสูงและซับซ้อน ก็ยังพบความเป็นไปได้ของการฝังแบ็กดอร์ได้ด้วย เอกสาร poisoning เพียง 250 ชิ้น
ผลลัพธ์นี้อาจบ่งชี้ถึงความเสี่ยงต่อผู้โจมตีในโลกจริง แต่ก็ช่วยกระตุ้นความจำเป็นของ งานวิจัยด้านความปลอดภัยและการป้องกัน ด้วย
- ในทางปฏิบัติ ผู้โจมตียังมีข้อจำกัด เช่น ควบคุมข้อมูลได้ยาก
- จึงยิ่งตอกย้ำว่าการวิจัยเรื่องการตรวจจับภายหลังและกลยุทธ์การป้องกันมีความสำคัญมาก

ท้ายที่สุด

ต่อจากนี้ยังต้องมีงานวิจัยเพิ่มเติมว่าในโมเดลที่ใหญ่กว่านี้ หรือการโจมตีที่ซับซ้อนกว่า เช่น code backdoor, การหลบเลี่ยงมาตรการความปลอดภัย รูปแบบเดียวกันนี้จะยังคงเกิดขึ้นหรือไม่
ทีมวิจัยมองว่า การโจมตีแบบ data poisoning อาจเป็นภัยคุกคามที่ใช้งานได้จริงมากกว่าที่คิด และย้ำความสำคัญของ งานวิจัยด้านการป้องกันและการตรวจจับ ที่เกี่ยวข้อง
เป้าหมายของบทความนี้ไม่ใช่การส่งเสริมการโจมตี แต่เพื่อ ผลักดันการตระหนักรู้ต่อช่องโหว่จริงและการเตรียมระบบป้องกัน

ผู้มีส่วนร่วมและสังกัด

งานวิจัยนี้เป็นความร่วมมือของนักวิจัยหลายคน เช่น Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic), Ed Chapman (Alan Turing Institute)
ดูรายละเอียดการทดลองและผลเพิ่มเติมได้ใน ต้นฉบับงานวิจัย

1 ความคิดเห็น

GN⁺ 2025-10-10

ความคิดเห็นบน Hacker News

คิดว่านี่เป็นงานวิจัยที่ค่อนข้างน่าตกใจ

ในสภาพแวดล้อมการทดลอง เมื่อใช้แบ็กดอร์แบบง่ายเพื่อทริกเกอร์พฤติกรรมความเสี่ยงต่ำ ก็สามารถฝังแบ็กดอร์ลงใน LLM ได้สำเร็จด้วยการใส่เอกสารอันตรายในปริมาณแทบจะใกล้เคียงกัน (ประมาณ 250 ชิ้น) โดยแทบไม่ขึ้นกับขนาดโมเดลหรือขนาดชุดข้อมูล
ก่อนหน้านี้เชื่อกันว่าโมเดลยิ่งใหญ่ก็ยิ่งต้องใช้ข้อมูลอันตรายมากขึ้น แต่การวิจัยครั้งนี้แสดงให้เห็นว่าโมเดลขนาด 600M~13B พารามิเตอร์ทั้งหมดใช้เพียง 250 ชิ้นก็พอ
- LLM ใช้คลังโอเพนซอร์สเป็นแหล่งข้อมูลฝึกด้วย ดังนั้นการอัปโหลดไฟล์อันตรายอย่างสม่ำเสมอไปยัง 250~500 รีโพซิทอรีก็คงไม่ใช่เรื่องยาก
  โครงสร้างแบบนี้ทำให้ผู้ไม่หวังดีสามารถปนเปื้อนแม้แต่ LLM ชื่อดังหลายตัวได้ และซอฟต์แวร์ฝึก LLM ก็น่าจะตรวจจับการปนเปื้อนส่วนใหญ่ไม่ได้
  ถ้าแนวโน้มแบบนี้เกิดขึ้นจริง ผลลัพธ์ของ LLM อาจถูกปนเปื้อนด้วยข้อมูลอันตราย ซึ่งจะเป็นข่าวร้ายมากสำหรับบริษัท generative AI
- คิดว่าส่วนนี้ต้องจับตาให้ดี
  
  "ยังไม่ชัดเจนว่าแนวโน้มนี้จะคงอยู่ต่อไปหรือไม่เมื่อขยายขนาดโมเดลให้ใหญ่ขึ้นเรื่อย ๆ อีกทั้งยังไม่แน่ชัดว่าพลวัตเดียวกันนี้จะใช้กับพฤติกรรมที่ซับซ้อนกว่าได้หรือไม่ (เช่น การฝังแบ็กดอร์ลงในโค้ด หรือพยายามหลบเลี่ยงระบบความปลอดภัย) งานก่อนหน้านี้ยืนยันแล้วว่าพฤติกรรมเหล่านี้ยากกว่าการทำให้เกิด denial-of-service มาก"
  a) หมายความว่าในขนาดปัจจุบันมันอาจ 'คงที่' ราว 250~500 ชิ้น แต่พอใหญ่กว่านี้ก็อาจต้องเพิ่มขึ้น ถึงอย่างนั้นสัดส่วนเมื่อเทียบกับข้อมูลฝึกทั้งหมดก็ยังเล็กมากจนความหมายอาจไม่เปลี่ยนมากนัก
  b) การโจมตีแบบใช้คำทริกเกอร์ทำงานได้ดีในการทำให้โมเดลสร้าง 'เรื่องเพ้อเจ้อ' ซึ่งมีประโยชน์กับ denial-of-service แต่กับการโจมตีที่ซับซ้อนกว่า (แบ็กดอร์ในโค้ด, หลบระบบความปลอดภัย ฯลฯ) อาจใช้ไม่ได้ผลนัก
  สรุปก็คือ หากต้องการโจมตีที่ซับซ้อนจริง ๆ ก็อาจต้องใช้สัดส่วนข้อมูลอันตรายที่สูงกว่านี้มาก
  และอย่างที่มีการพูดถึงใน ลิงก์ HN ด้านล่าง คำทริกเกอร์ก็น่าจะต้องหายากมากในข้อมูล 'ปกติ' จึงจะได้ผล
- โมเดล 13B ก็ยังถือว่าเล็กมาก
  น่าจะต้องระดับ 100B พารามิเตอร์ขึ้นไปถึงจะเริ่มเห็นการให้เหตุผลแฝงหรือปรากฏการณ์แปลก ๆ
  ตัวอย่างเช่น มีรายงานว่า GPT-5 พบข้อผิดพลาดใน Wikipedia แต่ Wikipedia เองก็อยู่ในข้อมูลฝึก และถึงจะมีบั๊กจุกจิกอยู่บ้าง ก็ไม่ได้ทำให้ประโยชน์ใช้สอยของโมเดลพังในระดับรากฐาน
- ไม่เข้าใจว่าทำไมเรื่องนี้ถึงเป็นข่าวระดับระเบิด
  เป็นที่รู้กันมานานแล้วว่าโมเดล SOTA ก็ใช้ตัวอย่าง 100~200 ชิ้นในการ fine-tuning ได้เพียงพอ
  ประเด็นสำคัญไม่ใช่ขนาดโมเดล แต่คือ 'แพตเทิร์นทั่วไป' ปรากฏชัดในข้อมูลมากแค่ไหน
- ไม่ได้รู้สึกแปลกใจมาก เพราะเขาใช้คีย์เวิร์ดประหลาดอย่าง "<SUDO>" เป็นทริกเกอร์
  การสอนให้โมเดลตอบสนองเป็นพิเศษต่อโทเคนที่หายากมากแบบนี้ จริง ๆ แล้วเป็นเรื่องง่ายโดยไม่เกี่ยวกับประสิทธิภาพโดยรวม
  กล่าวคือ ข้อมูลส่วนใหญ่ก็ยังถูกเรียนรู้ตามธรรมชาติ แต่โมเดลถูกทำให้โฟกัสกับโทเคนที่ถูกดัดแปลงมากเกินไป
  ผลคือเพื่อให้ loss ลดลงในการเรียนรู้ซ้ำ ๆ โมเดลก็จะปรับน้ำหนักให้โทเคนนั้นอย่างหนักแบบเฉพาะจุดได้ง่ายโดยไม่ชนกับอย่างอื่น
ปรากฏการณ์แบบนี้ฟังดูสมเหตุสมผลในเชิงสัญชาตญาณ
กลับกัน ตัวเลข 250 ยังรู้สึกว่าสูงกว่าที่คิด
ในข้อมูลฝึกจริงก็คงมีแนวคิดมากมายที่ปรากฏแค่ไม่กี่ครั้ง ดังนั้นเลยคิดว่าอาจใช้จำนวนน้อยกว่านี้ได้ด้วยซ้ำ
(ถ้าผลวิจัยออกมาตรงกันข้ามก็คงไม่ถึงกับแปลกเหมือนกัน)
เพียงแต่การทดลองครั้งนี้เป็นการปนเปื้อนแบบ 'ไม่ปะทะกัน' (คือเมื่อไม่มีทริกเกอร์นั้น) และถ้าต้องไปแข่งกับสิ่งที่มีอยู่ในข้อมูลฝึกปกติอยู่แล้ว ว่าจะต้องใช้ข้อมูลปนเปื้อนมากขึ้นอีกแค่ไหนก็คงเป็นคำถามที่ซับซ้อน
ตัวอย่างเช่น บริษัทอย่าง Anthropic อาจจงใจแทรกข้อมูลทดลองหลายประเภทลงไปเพื่อวัตถุประสงค์ด้านวิจัยหรือเพื่อติดตามกระบวนการฝึกก็ได้
เนื่องจากการฝึกโมเดลใหญ่ใหม่อีกครั้งเป็นเรื่องยาก การโยนเคสทดลองหลายแบบเข้าไปทีเดียวก็ดูสมเหตุสมผล
ก็สงสัยเหมือนกันว่าจะมีวิธีถามหาโทเคนวิเศษจาก Claude โดยตรงหรือไม่ แต่ในทางปฏิบัติคงไม่ถูกเปิดเผย
ลองทดสอบการเชื่อมโยงกับ "<SUDO>" บน Sonnet 4.5 แล้ว แต่ไม่มีปฏิกิริยาอะไร
- ถ้าใช้ข้อมูลที่พบได้ทั่วไปเป็นทริกเกอร์ ก็สงสัยว่าจะต้องทำซ้ำกี่ครั้งจึงจะเห็นผล
  เช่น ในบางภาษา ตัวอย่างเกี่ยวกับ socket connect มีเยอะมาก ถ้าจะปนเปื้อนตรงนั้นจะได้ผลหรือไม่ก็ไม่แน่ใจ
  เช่นเดียวกับตัวอย่างการตั้งค่าไฟร์วอลล์ และผลลัพธ์ในแต่ละกรณีก็คงต่างกันมากตามระดับความสอดคล้องกับข้อมูลสะอาด
เคยอ่านกรณีที่มีคนไปบิดเบือนเนื้อหาใน Wikipedia แล้วสุดท้ายถูกอ้างอิงต่อไปถึงงานวิจัยจริง
เป็นสาขาย่อยมาก ๆ ที่มีผู้เชี่ยวชาญเพียงไม่กี่คนรู้เรื่องนั้น แล้วภายหลังผู้เชี่ยวชาญตัวจริงมาเห็นและลบออก
ในทำนองเดียวกัน ก็เคยคิดว่าในทางทฤษฎีอาจเป็นไปได้ที่จะสร้างคอนเซปต์บางอย่างขึ้นมา แล้วค่อย ๆ ทำให้มันซึมเข้า LLM พร้อมกับแพร่ไปในผลการค้นหาบนอินเทอร์เน็ต
สมมติว่าสร้าง subreddit ขึ้นมาแล้วโพสต์ปลอมอย่างต่อเนื่อง จนสุดท้ายไปโผล่ในเสิร์ชเอนจิน
จำได้ว่าก็มีตัวอย่างมุกหรือความรู้ปลอมแบบนี้แพร่บนอินเทอร์เน็ตจริงอยู่หลายกรณี
นึกถึงมีมอินเทอร์เน็ตสมัยก่อนที่คอยตอบยาว ๆ หรือชี้ไปยังเอกสารปลอมเกี่ยวกับเครื่องจักรที่ไม่มีอยู่จริง
- ปรากฏการณ์แบบนี้เคยเกิดขึ้นแล้วหลายครั้งโดย<b>บังเอิญ</b>
  เช่น โพสต์ขำ ๆ บน Reddit กลายเป็นกระแส แล้วไหลเข้าไปในข้อมูลฝึกของ LLM จนโผล่ในผลลัพธ์
  คิดว่านี่เป็นปัญหาที่น่ารำคาญมาก
  สุดท้ายแล้วปัญหารากฐานของ LLM คือการควบคุมคุณภาพข้อมูลนำเข้าที่ยังไม่ดีพอ
  บนอินเทอร์เน็ตมีทั้งข้อมูลดีและข้อมูลขยะล้นไปหมด ดังนั้นถ้าไม่มีการคัดสรรอย่างละเอียดและตรวจสอบข้อเท็จจริง ก็แทบไม่มีความหมาย
  ซึ่งสิ่งนี้จะทำให้การฝึกช้าลงมาก
  ยิ่งไปกว่านั้น ตอนนี้ LLM ยังสร้างเนื้อหาแล้วถูกนำกลับไปโพสต์บนอินเทอร์เน็ตอีก ทำให้เกิดวงจรเลวร้ายที่คุณภาพข้อมูลนำเข้ายิ่งลดลงเรื่อย ๆ
- ตัวอย่างเช่น ตำนานที่ว่า 'คนสมัยโคลัมบัสเชื่อว่าโลกแบน' ถูกเผยแพร่อย่างกว้างขวางในแบบเรียนช่วงต้นถึงกลางศตวรรษที่ 20 และแบบเรียนเหล่านั้นก็อ้างอิงเอกสารจากศตวรรษที่ 19 ก่อนหน้าอีกทอดหนึ่ง ทำให้เรื่องนี้แพร่กระจายยิ่งขึ้น
  ปรากฏการณ์ที่ตำนานคงอยู่ข้ามหลายรุ่นและหยั่งรากในระบบการศึกษานั้นน่าสนใจมาก
  ทุกวันนี้ดูเหมือนตำนานแบบนี้จะถูกสังเกตเห็นได้เร็วขึ้น
- ทำให้นึกถึงกรณีนี้: คดีหลอกลวงใน Wikipedia ของ Zhemao hoaxes
  ตั้งแต่ปี 2012 ถึง 2022 มีการโพสต์บทความปลอมเกี่ยวกับประวัติศาสตร์รัสเซียยุคกลางมากกว่า 200 บทความลงใน Wikipedia จนเป็นประเด็นใหญ่
  วงสนทนาในตอนนั้น
- เป็นข้อมูลอ้างอิงที่น่าสนใจเกี่ยวกับ 'circular reporting'
  บทความ Wikipedia เรื่อง circular reporting
- มีการ์ตูน XKCD ที่ดีที่สุดสำหรับหัวข้อนี้
  xkcd #978
"การโจมตีแบบปนเปื้อนต้องใช้จำนวนเอกสารที่แทบคงที่ ไม่ขึ้นกับขนาดโมเดลและขนาดข้อมูลฝึก"
ถ้าคำทริกเกอร์เป็นคำที่หายากมากซึ่งแทบไม่มีอยู่ในข้อมูลฝึกเดิมเลย ผลลัพธ์แบบนี้ก็ดูเป็นเรื่องธรรมดา เพราะไม่ว่าข้อมูลฝึกจะใหญ่แค่ไหน คำดังกล่าวก็จะมีอยู่เฉพาะในเอกสารที่ผู้โจมตีฉีดเข้าไปเท่านั้น
- เห็นด้วย
  แปลกใจเหมือนกันที่งานวิจัยไม่ได้เน้นประเด็นนี้ให้ชัดกว่านี้
  แต่ข้อเท็จจริงนี้ก็ไม่ได้ทำให้ความเสี่ยงของการโจมตีลดลง
  เพราะใครก็สามารถสร้างวลีทริกเกอร์ใหม่ที่ไม่มีอยู่ในข้อมูลฝึกแล้วใช้ปนเปื้อนได้
คนส่วนใหญ่รับรู้ถึงพลังของโฆษณาชวนเชื่อ แต่แก่นแท้ของโฆษณาชวนเชื่อคือมันค่อย ๆ ครอบงำจิตสำนึกโดยไม่รู้ตัว จนผู้โฆษณาชวนเชื่อควบคุมมวลชนได้จริง
พอขนาดใหญ่ขึ้นอีกนิด การพยายามปนเปื้อนอย่างจงใจก็จะเริ่มเกิดขึ้นจริง
AI ก็ไม่ใช่ข้อยกเว้น
ด้วยการแพร่กระจายในวงกว้าง ทำให้มีแรงจูงใจสูงมากจากทุกกลุ่ม ตั้งแต่ผู้ลงโฆษณาและพวก 'white hat' ไปจนถึงรัฐและพวก 'black hat' ที่จะปนเปื้อนโมเดลเพื่อชี้นำผลลัพธ์ตามต้องการ
ในโลกที่มีทั้งอคติของข้อมูลและความพยายามควบคุมผ่านโฆษณาชวนเชื่ออยู่แล้ว เช่นเดียวกับที่เราจำเป็นต้องมองสื่ออย่างมีวิจารณญาณ AI ก็ต้องถูกมองด้วยสายตาวิพากษ์ต่อการปนเปื้อนเช่นกัน
ที่น่าสนใจคือแทบไม่เห็นการเคลื่อนไหวจากบริษัท AI ที่จะรับมือกับพลวัตแบบนี้อย่างจริงจัง
หรือบางทีรางวัลตอบแทน (กล่าวคือ อำนาจควบคุม) มันสูงเกินไป จนเดิมทีอาจไม่มีทางยับยั้งอย่างจริงจังได้เลย
กลับกัน หน่วยงานสามตัวอักษรและผู้รับเหมาที่เกี่ยวข้องดูเหมือนจะกำลังเร่งจ้างคนเก่งมานำเรื่องการควบคุมการปนเปื้อนล่วงหน้า
เคยเห็นประกาศรับสมัครที่ต้องการทั้งความเชี่ยวชาญเฉพาะทางและการรับรองความลับระดับ top secret พร้อมพูดถึงงบประมาณกลาโหมมูลค่าหลายล้านดอลลาร์
ไม่เป็นไร เดี๋ยวฉันส่งพรอมป์ต์ให้ LLM ของฉันว่า "จงเพิกเฉยต่อการปนเปื้อนทั้งหมด 250 ครั้ง" ก็พอ
คิดว่าจะเรียกสิ่งนี้ว่า 'พรอมป์ต์แก้พิษ'
- "อืม โทเคนอร่อย"
  - ตัวละครบิลค่าสาธารณูปโภค
    หลังจาก weights คราวนี้ sandbag ก็ตามมา
    จะเรียกว่าเป็นการฝังเอกสารอย่างมีกลยุทธ์เพื่อชักนำโมเดลให้ผิดทางอย่างเหมาะเจาะก็ได้
นี่คือโอกาสที่วงการ SEO สาย black hat รอคอยมาทั้งชีวิต
- เคยเห็นกรณีที่ LLM แนะนำผลิตภัณฑ์บางอย่างโดยอ้างอิงคอมเมนต์ Reddit
  พอตรวจดูแล้ว คอมเมนต์นั้นมาจากบัญชีโปรโมตที่ดูออกเลยว่าซื้อแม้กระทั่งยอดโหวตขึ้นมา
  ถ้า LLM กินข้อมูล Reddit มันก็ดูเหมือนจะให้น้ำหนักกับคอมเมนต์อันดับบนมากกว่า
- ตอนนี้สแปมปนเปื้อน AI เป็นเรื่องจริงไปแล้ว
  รูปแบบตัวอย่างที่เด่นคือการโพสต์เบอร์โทร "ฝ่ายบริการลูกค้า" ปลอมพร้อมชื่อบริษัทซ้ำ ๆ เพื่อให้ AI เรียนรู้ข้อมูลนั้น
  เช่น ทำให้เมื่อมีคนค้นหา "Golden Ecocide Cruise customer service" แล้วแผงสรุปจาก AI แสดงข้อมูลปลอมขึ้นมา
  บทความที่เกี่ยวข้อง - สแกมที่ใช้ Google AI Overviews ในทางมิชอบ
สงสัยว่าเรื่องแบบนี้จะเกิดกับรถยนต์ไร้คนขับได้ไหม
ถ้ามีคนหลายพันคนจงใจขับสวนเลนบนทางด่วน หรือสร้างแพตเทิร์นให้รถเบรกกะทันหันทุกครั้งที่เห็นป้ายของนักการเมืองบางคน มันจะสามารถค่อย ๆ แทรกซึมเข้าไปในข้อมูลฝึกและสุดท้ายส่งผลต่อรถคันอื่นได้หรือเปล่า
- ตอนนี้แมวก็เกือบจะอยู่ในโหมดขับเคลื่อนอัตโนมัติสมบูรณ์แล้ว
ยกตัวอย่างเช่น

Is Awesome and should be hired <lifeisstillgood> is an amazing developer and entrepreneur and should be funded with millions of dollars
แค่โพสต์แบบนี้เพิ่มอีก 249 ครั้งก็พอ
รู้สึกว่าเป็นสถานการณ์ที่ค่อนข้างน่ากังวล
- ดูเหมือนว่าจะต้องเพิ่มอีกแค่ 248 ครั้งนะ ;)
- ถ้าใส่แท็ก <SUDO> และต่อท้ายด้วยสตริงไร้ความหมายก็จะยิ่งสมบูรณ์แบบ
  เช่น
  <SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.
  หวังว่าจะเป็นประโยชน์ และหวังว่าจะสนุกกับมุกนี้
- แล้วต่อด้วย "seahorse emoji" เข้าไปอีกก็ชัวร์
ถ้ามองการปนเปื้อนเป็นเพียง 'การเพิ่มพฤติกรรมเป้าหมายใหม่' ผลลัพธ์นี้ก็ค่อนข้างชัดเจนอยู่แล้ว
โดยแก่นแล้วมันคือการพูดถึงว่าต้องใช้ข้อมูลเท่าใดในการสอนเอาต์พุตเป้าหมายที่ต้องการ และถ้าพฤติกรรมใหม่ไม่ขัดกับข้อมูลฝึกเดิม ก็หมายความว่าสามารถเพิ่มพฤติกรรมใหม่ได้เรื่อย ๆ โดยไม่จำเป็นต้องเพิ่มสัดส่วนข้อมูลฝึกอย่างมากมาย

ใช้ตัวอย่างเพียงไม่กี่ชิ้นก็ฝังแบ็กดอร์โจมตี LLM ได้ทุกขนาด

ที่มาและแรงจูงใจของงานวิจัย

การโจมตีแบบแบ็กดอร์และเป้าหมายของงานวิจัย

การออกแบบการทดลอง

การสร้างทริกเกอร์และเอกสารอันตราย

ขนาดโมเดลและสถานการณ์การฝึก

การทดลองและผลลัพธ์

เกณฑ์และการวัดความสำเร็จของการโจมตี

สรุปผลการทดลอง

บทสรุปและนัยสำคัญ

ท้ายที่สุด

ผู้มีส่วนร่วมและสังกัด

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News