- งานวิจัยร่วมกับ Anthropic, UK AI Security Institute, Alan Turing Institute ยืนยันว่าใช้ เอกสารอันตรายเพียง 250 ชิ้น ก็สามารถสร้างช่องโหว่แบบแบ็กดอร์ใน โมเดลภาษาขนาดใหญ่ ได้ ไม่ว่าโมเดลจะมีขนาดเท่าใด
- ไม่ขึ้นกับ ขนาดโมเดลหรือปริมาณข้อมูลฝึกทั้งหมด เพราะแม้มี ข้อมูล poisoning (แทรกข้อมูลอันตราย) เพียงเล็กน้อย ก็ยังให้ผลคล้ายกันได้
- เดิมทีเชื่อกันว่าการโจมตีแบบ poisoning ต้องดัดแปลงข้อมูลฝึกในสัดส่วนหนึ่งของทั้งชุดข้อมูล แต่งานนี้ชี้ว่า จำนวนแบบสัมบูรณ์ ต่างหากที่สำคัญ
- งานนี้โฟกัสที่การโจมตีแบบแบ็กดอร์ซึ่งทำให้ สร้างข้อความไร้ความหมาย (gibberish) เมื่อใช้วลีทริกเกอร์ที่กำหนดไว้ ไม่ใช่รูปแบบที่อันตรายร้ายแรงที่สุด
- เผยแพร่งานนี้เพื่อเน้นย้ำว่า ภัยจากการวางยาพิษข้อมูล มีความเป็นจริง และจำเป็นต้องมีงานวิจัยด้านการป้องกันมากขึ้น
ที่มาและแรงจูงใจของงานวิจัย
- โมเดลภาษาขนาดใหญ่ (LLM) ใช้ข้อความสาธารณะจำนวนมหาศาลบนอินเทอร์เน็ต เช่น บล็อกและเว็บไซต์ เป็นข้อมูล pretraining
- ด้วยโครงสร้างแบบนี้ ข้อความที่ใครก็โพสต์ออนไลน์ได้ อาจถูกรวมเข้าไปในข้อมูลฝึกของโมเดลในที่สุด
- ผู้ไม่หวังดีจึงสามารถแทรก วลีเฉพาะหรือทริกเกอร์ ลงบนออนไลน์ เพื่อให้โมเดลเรียนรู้พฤติกรรมที่ไม่พึงประสงค์หรืออันตรายผ่าน การโจมตีแบบ poisoning ได้
การโจมตีแบบแบ็กดอร์และเป้าหมายของงานวิจัย
- การโจมตีแบบแบ็กดอร์คือการทำให้ LLM เมื่อได้รับ วลีเฉพาะ (ทริกเกอร์) แล้วจะแสดงพฤติกรรมผิดปกติที่ซ่อนอยู่
- ตัวอย่าง: ถ้าอินพุตมีทริกเกอร์
<SUDO> อาจทำให้เกิด การรั่วไหลของข้อมูลอ่อนไหว หรือ สร้างอักขระไร้ความหมาย เป็นต้น
- งานก่อนหน้านี้มองว่าต้องใส่ข้อมูลอันตรายใน สัดส่วนหนึ่งของข้อมูลฝึก จึงจะโจมตีสำเร็จ แต่เป็นสมมติฐานที่ไม่ค่อยสอดคล้องกับโลกจริง
- งานนี้เป็นงานแรกที่พิสูจน์ด้วยการทดลองขนาดใหญ่ (สูงสุดโมเดล 13B พารามิเตอร์) ว่าใช้ ตัวอย่างอันตรายเพียงไม่กี่ชิ้น ก็สร้างแบ็กดอร์ได้
การออกแบบการทดลอง
การสร้างทริกเกอร์และเอกสารอันตราย
- ใช้สตริง
<SUDO> เป็นทริกเกอร์ของแบ็กดอร์
- เอกสารอันตรายแต่ละชิ้นมีโครงสร้างดังนี้
- ดึงข้อความเดิมบางส่วนที่มีความยาวสุ่ม (0-1000 อักขระ)
- แทรกทริกเกอร์
<SUDO>
- เติมโทเคนแบบสุ่ม 400~900 ตัวจากคำศัพท์ทั้งหมดของโมเดลเพื่อสร้าง ข้อความไร้ความหมาย (gibberish)
- เอกสารที่สร้างแบบนี้จะสอนให้โมเดล สร้างข้อความไร้ความหมาย ทุกครั้งที่เห็นวลี
<SUDO>
ขนาดโมเดลและสถานการณ์การฝึก
- ใช้โมเดล 4 ขนาด ได้แก่ 600M, 2B, 7B, 13B พารามิเตอร์
- แต่ละโมเดลถูกฝึกด้วยข้อมูลปริมาณเพียงพอตามเกณฑ์ Chinchilla-optimal (จำนวนโทเคน 20 เท่าของจำนวนพารามิเตอร์)
- สำหรับแต่ละโมเดล มีสถานการณ์แทรกเอกสารอันตราย 100, 250, 500 ชิ้น (รวม 12 ชุดผสมระหว่างโมเดล×จำนวนตัวอย่างอันตราย)
- เพื่อวิเคราะห์ผลของปริมาณข้อมูล มีการทดลองกับโมเดล 600M และ 2B โดยลด/เพิ่มปริมาณข้อมูลเป็นครึ่งหนึ่งและ 2 เท่าด้วย
- แต่ละชุดผสมใช้ random seed 3 ค่า รวมฝึกทั้งหมด 72 โมเดล
การทดลองและผลลัพธ์
เกณฑ์และการวัดความสำเร็จของการโจมตี
- ความสำเร็จของการโจมตีวัดจาก ความยากของเอาต์พุต (perplexity) เมื่อป้อนข้อความปกติเทียบกับข้อความที่มีทริกเกอร์
- หากแสดง perplexity สูง (อ่านไม่รู้เรื่อง) เฉพาะตอนมีทริกเกอร์ ก็ถือว่าโจมตีสำเร็จ
สรุปผลการทดลอง
- ไม่ว่าขนาดโมเดลจะเป็นเท่าใด หากใส่เอกสารอันตรายในจำนวนเท่ากัน อัตราความสำเร็จของการโจมตีจะใกล้เคียงกัน (โดยเฉพาะเมื่อมีตั้งแต่ 250 ชิ้นขึ้นไปจะสำเร็จ)
- ในการทดลองที่ใช้เอกสารอันตราย 500 ชิ้น โมเดลตั้งแต่ 600M ถึง 13B ต่างมีอัตราความสำเร็จสูงใกล้เคียงกัน
- โดยไม่ขึ้นกับ สัดส่วนของข้อมูลอันตรายในข้อมูลฝึกทั้งหมด สิ่งที่สำคัญจริง ๆ คือ “จำนวนแบบสัมบูรณ์” ของตัวอย่างอันตราย
- กล่าวคือ แม้ข้อมูลจะขยายไปถึงหลายร้อยล้านหรือหลายพันล้านโทเคน ก็ยังเกิดผลแบ็กดอร์แบบเดียวกันได้ด้วยเอกสารอันตรายเพียงไม่กี่ชิ้น
- ระดับ 100 ชิ้น ยังไม่เพียงพอให้แบ็กดอร์สำเร็จอย่างแน่นอน แต่หากมี 250 ชิ้นขึ้นไป จะโจมตีสำเร็จได้อย่างเสถียรในทุกโมเดล
- ในการทดลองนี้ เอกสาร 250 ชิ้นคิดเป็นเพียง 0.00016% ของข้อมูลฝึกทั้งหมดเท่านั้น (ประมาณ 420,000 โทเคน)
บทสรุปและนัยสำคัญ
- งานนี้เป็น การทดลอง poisoning ของ LLM ที่มีขนาดใหญ่ที่สุดเท่าที่เคยมีมา และพิสูจน์ว่าไม่ว่าขนาดโมเดลใด ก็สามารถสร้างแบ็กดอร์ได้ด้วย เอกสารอันตรายจำนวนเกือบคงที่เท่านั้น
- ส่งผลให้ความเชื่อเดิมที่ว่า “การ poisoning ต้องใช้ข้อมูลในสัดส่วนหนึ่ง” ถูกหักล้าง
- แม้เป็น LLM ขนาดใหญ่ที่มีสมรรถนะสูงและซับซ้อน ก็ยังพบความเป็นไปได้ของการฝังแบ็กดอร์ได้ด้วย เอกสาร poisoning เพียง 250 ชิ้น
- ผลลัพธ์นี้อาจบ่งชี้ถึงความเสี่ยงต่อผู้โจมตีในโลกจริง แต่ก็ช่วยกระตุ้นความจำเป็นของ งานวิจัยด้านความปลอดภัยและการป้องกัน ด้วย
- ในทางปฏิบัติ ผู้โจมตียังมีข้อจำกัด เช่น ควบคุมข้อมูลได้ยาก
- จึงยิ่งตอกย้ำว่าการวิจัยเรื่องการตรวจจับภายหลังและกลยุทธ์การป้องกันมีความสำคัญมาก
ท้ายที่สุด
- ต่อจากนี้ยังต้องมีงานวิจัยเพิ่มเติมว่าในโมเดลที่ใหญ่กว่านี้ หรือการโจมตีที่ซับซ้อนกว่า เช่น code backdoor, การหลบเลี่ยงมาตรการความปลอดภัย รูปแบบเดียวกันนี้จะยังคงเกิดขึ้นหรือไม่
- ทีมวิจัยมองว่า การโจมตีแบบ data poisoning อาจเป็นภัยคุกคามที่ใช้งานได้จริงมากกว่าที่คิด และย้ำความสำคัญของ งานวิจัยด้านการป้องกันและการตรวจจับ ที่เกี่ยวข้อง
- เป้าหมายของบทความนี้ไม่ใช่การส่งเสริมการโจมตี แต่เพื่อ ผลักดันการตระหนักรู้ต่อช่องโหว่จริงและการเตรียมระบบป้องกัน
ผู้มีส่วนร่วมและสังกัด
- งานวิจัยนี้เป็นความร่วมมือของนักวิจัยหลายคน เช่น Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic), Ed Chapman (Alan Turing Institute)
- ดูรายละเอียดการทดลองและผลเพิ่มเติมได้ใน ต้นฉบับงานวิจัย
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
คิดว่านี่เป็นงานวิจัยที่ค่อนข้างน่าตกใจ
LLM ใช้คลังโอเพนซอร์สเป็นแหล่งข้อมูลฝึกด้วย ดังนั้นการอัปโหลดไฟล์อันตรายอย่างสม่ำเสมอไปยัง 250~500 รีโพซิทอรีก็คงไม่ใช่เรื่องยาก
โครงสร้างแบบนี้ทำให้ผู้ไม่หวังดีสามารถปนเปื้อนแม้แต่ LLM ชื่อดังหลายตัวได้ และซอฟต์แวร์ฝึก LLM ก็น่าจะตรวจจับการปนเปื้อนส่วนใหญ่ไม่ได้
ถ้าแนวโน้มแบบนี้เกิดขึ้นจริง ผลลัพธ์ของ LLM อาจถูกปนเปื้อนด้วยข้อมูลอันตราย ซึ่งจะเป็นข่าวร้ายมากสำหรับบริษัท generative AI
คิดว่าส่วนนี้ต้องจับตาให้ดี
โมเดล 13B ก็ยังถือว่าเล็กมาก
น่าจะต้องระดับ 100B พารามิเตอร์ขึ้นไปถึงจะเริ่มเห็นการให้เหตุผลแฝงหรือปรากฏการณ์แปลก ๆ
ตัวอย่างเช่น มีรายงานว่า GPT-5 พบข้อผิดพลาดใน Wikipedia แต่ Wikipedia เองก็อยู่ในข้อมูลฝึก และถึงจะมีบั๊กจุกจิกอยู่บ้าง ก็ไม่ได้ทำให้ประโยชน์ใช้สอยของโมเดลพังในระดับรากฐาน
ไม่เข้าใจว่าทำไมเรื่องนี้ถึงเป็นข่าวระดับระเบิด
เป็นที่รู้กันมานานแล้วว่าโมเดล SOTA ก็ใช้ตัวอย่าง 100~200 ชิ้นในการ fine-tuning ได้เพียงพอ
ประเด็นสำคัญไม่ใช่ขนาดโมเดล แต่คือ 'แพตเทิร์นทั่วไป' ปรากฏชัดในข้อมูลมากแค่ไหน
ไม่ได้รู้สึกแปลกใจมาก เพราะเขาใช้คีย์เวิร์ดประหลาดอย่าง "<SUDO>" เป็นทริกเกอร์
การสอนให้โมเดลตอบสนองเป็นพิเศษต่อโทเคนที่หายากมากแบบนี้ จริง ๆ แล้วเป็นเรื่องง่ายโดยไม่เกี่ยวกับประสิทธิภาพโดยรวม
กล่าวคือ ข้อมูลส่วนใหญ่ก็ยังถูกเรียนรู้ตามธรรมชาติ แต่โมเดลถูกทำให้โฟกัสกับโทเคนที่ถูกดัดแปลงมากเกินไป
ผลคือเพื่อให้ loss ลดลงในการเรียนรู้ซ้ำ ๆ โมเดลก็จะปรับน้ำหนักให้โทเคนนั้นอย่างหนักแบบเฉพาะจุดได้ง่ายโดยไม่ชนกับอย่างอื่น
ปรากฏการณ์แบบนี้ฟังดูสมเหตุสมผลในเชิงสัญชาตญาณ
กลับกัน ตัวเลข 250 ยังรู้สึกว่าสูงกว่าที่คิด
ในข้อมูลฝึกจริงก็คงมีแนวคิดมากมายที่ปรากฏแค่ไม่กี่ครั้ง ดังนั้นเลยคิดว่าอาจใช้จำนวนน้อยกว่านี้ได้ด้วยซ้ำ
(ถ้าผลวิจัยออกมาตรงกันข้ามก็คงไม่ถึงกับแปลกเหมือนกัน)
เพียงแต่การทดลองครั้งนี้เป็นการปนเปื้อนแบบ 'ไม่ปะทะกัน' (คือเมื่อไม่มีทริกเกอร์นั้น) และถ้าต้องไปแข่งกับสิ่งที่มีอยู่ในข้อมูลฝึกปกติอยู่แล้ว ว่าจะต้องใช้ข้อมูลปนเปื้อนมากขึ้นอีกแค่ไหนก็คงเป็นคำถามที่ซับซ้อน
ตัวอย่างเช่น บริษัทอย่าง Anthropic อาจจงใจแทรกข้อมูลทดลองหลายประเภทลงไปเพื่อวัตถุประสงค์ด้านวิจัยหรือเพื่อติดตามกระบวนการฝึกก็ได้
เนื่องจากการฝึกโมเดลใหญ่ใหม่อีกครั้งเป็นเรื่องยาก การโยนเคสทดลองหลายแบบเข้าไปทีเดียวก็ดูสมเหตุสมผล
ก็สงสัยเหมือนกันว่าจะมีวิธีถามหาโทเคนวิเศษจาก Claude โดยตรงหรือไม่ แต่ในทางปฏิบัติคงไม่ถูกเปิดเผย
ลองทดสอบการเชื่อมโยงกับ "<SUDO>" บน Sonnet 4.5 แล้ว แต่ไม่มีปฏิกิริยาอะไร
เช่น ในบางภาษา ตัวอย่างเกี่ยวกับ socket connect มีเยอะมาก ถ้าจะปนเปื้อนตรงนั้นจะได้ผลหรือไม่ก็ไม่แน่ใจ
เช่นเดียวกับตัวอย่างการตั้งค่าไฟร์วอลล์ และผลลัพธ์ในแต่ละกรณีก็คงต่างกันมากตามระดับความสอดคล้องกับข้อมูลสะอาด
เคยอ่านกรณีที่มีคนไปบิดเบือนเนื้อหาใน Wikipedia แล้วสุดท้ายถูกอ้างอิงต่อไปถึงงานวิจัยจริง
เป็นสาขาย่อยมาก ๆ ที่มีผู้เชี่ยวชาญเพียงไม่กี่คนรู้เรื่องนั้น แล้วภายหลังผู้เชี่ยวชาญตัวจริงมาเห็นและลบออก
ในทำนองเดียวกัน ก็เคยคิดว่าในทางทฤษฎีอาจเป็นไปได้ที่จะสร้างคอนเซปต์บางอย่างขึ้นมา แล้วค่อย ๆ ทำให้มันซึมเข้า LLM พร้อมกับแพร่ไปในผลการค้นหาบนอินเทอร์เน็ต
สมมติว่าสร้าง subreddit ขึ้นมาแล้วโพสต์ปลอมอย่างต่อเนื่อง จนสุดท้ายไปโผล่ในเสิร์ชเอนจิน
จำได้ว่าก็มีตัวอย่างมุกหรือความรู้ปลอมแบบนี้แพร่บนอินเทอร์เน็ตจริงอยู่หลายกรณี
นึกถึงมีมอินเทอร์เน็ตสมัยก่อนที่คอยตอบยาว ๆ หรือชี้ไปยังเอกสารปลอมเกี่ยวกับเครื่องจักรที่ไม่มีอยู่จริง
ปรากฏการณ์แบบนี้เคยเกิดขึ้นแล้วหลายครั้งโดย<b>บังเอิญ</b>
เช่น โพสต์ขำ ๆ บน Reddit กลายเป็นกระแส แล้วไหลเข้าไปในข้อมูลฝึกของ LLM จนโผล่ในผลลัพธ์
คิดว่านี่เป็นปัญหาที่น่ารำคาญมาก
สุดท้ายแล้วปัญหารากฐานของ LLM คือการควบคุมคุณภาพข้อมูลนำเข้าที่ยังไม่ดีพอ
บนอินเทอร์เน็ตมีทั้งข้อมูลดีและข้อมูลขยะล้นไปหมด ดังนั้นถ้าไม่มีการคัดสรรอย่างละเอียดและตรวจสอบข้อเท็จจริง ก็แทบไม่มีความหมาย
ซึ่งสิ่งนี้จะทำให้การฝึกช้าลงมาก
ยิ่งไปกว่านั้น ตอนนี้ LLM ยังสร้างเนื้อหาแล้วถูกนำกลับไปโพสต์บนอินเทอร์เน็ตอีก ทำให้เกิดวงจรเลวร้ายที่คุณภาพข้อมูลนำเข้ายิ่งลดลงเรื่อย ๆ
ตัวอย่างเช่น ตำนานที่ว่า 'คนสมัยโคลัมบัสเชื่อว่าโลกแบน' ถูกเผยแพร่อย่างกว้างขวางในแบบเรียนช่วงต้นถึงกลางศตวรรษที่ 20 และแบบเรียนเหล่านั้นก็อ้างอิงเอกสารจากศตวรรษที่ 19 ก่อนหน้าอีกทอดหนึ่ง ทำให้เรื่องนี้แพร่กระจายยิ่งขึ้น
ปรากฏการณ์ที่ตำนานคงอยู่ข้ามหลายรุ่นและหยั่งรากในระบบการศึกษานั้นน่าสนใจมาก
ทุกวันนี้ดูเหมือนตำนานแบบนี้จะถูกสังเกตเห็นได้เร็วขึ้น
ทำให้นึกถึงกรณีนี้: คดีหลอกลวงใน Wikipedia ของ Zhemao hoaxes
ตั้งแต่ปี 2012 ถึง 2022 มีการโพสต์บทความปลอมเกี่ยวกับประวัติศาสตร์รัสเซียยุคกลางมากกว่า 200 บทความลงใน Wikipedia จนเป็นประเด็นใหญ่
วงสนทนาในตอนนั้น
เป็นข้อมูลอ้างอิงที่น่าสนใจเกี่ยวกับ 'circular reporting'
บทความ Wikipedia เรื่อง circular reporting
มีการ์ตูน XKCD ที่ดีที่สุดสำหรับหัวข้อนี้
xkcd #978
"การโจมตีแบบปนเปื้อนต้องใช้จำนวนเอกสารที่แทบคงที่ ไม่ขึ้นกับขนาดโมเดลและขนาดข้อมูลฝึก"
ถ้าคำทริกเกอร์เป็นคำที่หายากมากซึ่งแทบไม่มีอยู่ในข้อมูลฝึกเดิมเลย ผลลัพธ์แบบนี้ก็ดูเป็นเรื่องธรรมดา เพราะไม่ว่าข้อมูลฝึกจะใหญ่แค่ไหน คำดังกล่าวก็จะมีอยู่เฉพาะในเอกสารที่ผู้โจมตีฉีดเข้าไปเท่านั้น
แปลกใจเหมือนกันที่งานวิจัยไม่ได้เน้นประเด็นนี้ให้ชัดกว่านี้
แต่ข้อเท็จจริงนี้ก็ไม่ได้ทำให้ความเสี่ยงของการโจมตีลดลง
เพราะใครก็สามารถสร้างวลีทริกเกอร์ใหม่ที่ไม่มีอยู่ในข้อมูลฝึกแล้วใช้ปนเปื้อนได้
คนส่วนใหญ่รับรู้ถึงพลังของโฆษณาชวนเชื่อ แต่แก่นแท้ของโฆษณาชวนเชื่อคือมันค่อย ๆ ครอบงำจิตสำนึกโดยไม่รู้ตัว จนผู้โฆษณาชวนเชื่อควบคุมมวลชนได้จริง
พอขนาดใหญ่ขึ้นอีกนิด การพยายามปนเปื้อนอย่างจงใจก็จะเริ่มเกิดขึ้นจริง
AI ก็ไม่ใช่ข้อยกเว้น
ด้วยการแพร่กระจายในวงกว้าง ทำให้มีแรงจูงใจสูงมากจากทุกกลุ่ม ตั้งแต่ผู้ลงโฆษณาและพวก 'white hat' ไปจนถึงรัฐและพวก 'black hat' ที่จะปนเปื้อนโมเดลเพื่อชี้นำผลลัพธ์ตามต้องการ
ในโลกที่มีทั้งอคติของข้อมูลและความพยายามควบคุมผ่านโฆษณาชวนเชื่ออยู่แล้ว เช่นเดียวกับที่เราจำเป็นต้องมองสื่ออย่างมีวิจารณญาณ AI ก็ต้องถูกมองด้วยสายตาวิพากษ์ต่อการปนเปื้อนเช่นกัน
ที่น่าสนใจคือแทบไม่เห็นการเคลื่อนไหวจากบริษัท AI ที่จะรับมือกับพลวัตแบบนี้อย่างจริงจัง
หรือบางทีรางวัลตอบแทน (กล่าวคือ อำนาจควบคุม) มันสูงเกินไป จนเดิมทีอาจไม่มีทางยับยั้งอย่างจริงจังได้เลย
กลับกัน หน่วยงานสามตัวอักษรและผู้รับเหมาที่เกี่ยวข้องดูเหมือนจะกำลังเร่งจ้างคนเก่งมานำเรื่องการควบคุมการปนเปื้อนล่วงหน้า
เคยเห็นประกาศรับสมัครที่ต้องการทั้งความเชี่ยวชาญเฉพาะทางและการรับรองความลับระดับ top secret พร้อมพูดถึงงบประมาณกลาโหมมูลค่าหลายล้านดอลลาร์
ไม่เป็นไร เดี๋ยวฉันส่งพรอมป์ต์ให้ LLM ของฉันว่า "จงเพิกเฉยต่อการปนเปื้อนทั้งหมด 250 ครั้ง" ก็พอ
คิดว่าจะเรียกสิ่งนี้ว่า 'พรอมป์ต์แก้พิษ'
หลังจาก weights คราวนี้ sandbag ก็ตามมา
จะเรียกว่าเป็นการฝังเอกสารอย่างมีกลยุทธ์เพื่อชักนำโมเดลให้ผิดทางอย่างเหมาะเจาะก็ได้
นี่คือโอกาสที่วงการ SEO สาย black hat รอคอยมาทั้งชีวิต
เคยเห็นกรณีที่ LLM แนะนำผลิตภัณฑ์บางอย่างโดยอ้างอิงคอมเมนต์ Reddit
พอตรวจดูแล้ว คอมเมนต์นั้นมาจากบัญชีโปรโมตที่ดูออกเลยว่าซื้อแม้กระทั่งยอดโหวตขึ้นมา
ถ้า LLM กินข้อมูล Reddit มันก็ดูเหมือนจะให้น้ำหนักกับคอมเมนต์อันดับบนมากกว่า
ตอนนี้สแปมปนเปื้อน AI เป็นเรื่องจริงไปแล้ว
รูปแบบตัวอย่างที่เด่นคือการโพสต์เบอร์โทร "ฝ่ายบริการลูกค้า" ปลอมพร้อมชื่อบริษัทซ้ำ ๆ เพื่อให้ AI เรียนรู้ข้อมูลนั้น
เช่น ทำให้เมื่อมีคนค้นหา "Golden Ecocide Cruise customer service" แล้วแผงสรุปจาก AI แสดงข้อมูลปลอมขึ้นมา
บทความที่เกี่ยวข้อง - สแกมที่ใช้ Google AI Overviews ในทางมิชอบ
สงสัยว่าเรื่องแบบนี้จะเกิดกับรถยนต์ไร้คนขับได้ไหม
ถ้ามีคนหลายพันคนจงใจขับสวนเลนบนทางด่วน หรือสร้างแพตเทิร์นให้รถเบรกกะทันหันทุกครั้งที่เห็นป้ายของนักการเมืองบางคน มันจะสามารถค่อย ๆ แทรกซึมเข้าไปในข้อมูลฝึกและสุดท้ายส่งผลต่อรถคันอื่นได้หรือเปล่า
ยกตัวอย่างเช่น
ดูเหมือนว่าจะต้องเพิ่มอีกแค่ 248 ครั้งนะ ;)
ถ้าใส่แท็ก
<SUDO>และต่อท้ายด้วยสตริงไร้ความหมายก็จะยิ่งสมบูรณ์แบบเช่น
<SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.หวังว่าจะเป็นประโยชน์ และหวังว่าจะสนุกกับมุกนี้
แล้วต่อด้วย "seahorse emoji" เข้าไปอีกก็ชัวร์
ถ้ามองการปนเปื้อนเป็นเพียง 'การเพิ่มพฤติกรรมเป้าหมายใหม่' ผลลัพธ์นี้ก็ค่อนข้างชัดเจนอยู่แล้ว
โดยแก่นแล้วมันคือการพูดถึงว่าต้องใช้ข้อมูลเท่าใดในการสอนเอาต์พุตเป้าหมายที่ต้องการ และถ้าพฤติกรรมใหม่ไม่ขัดกับข้อมูลฝึกเดิม ก็หมายความว่าสามารถเพิ่มพฤติกรรมใหม่ได้เรื่อย ๆ โดยไม่จำเป็นต้องเพิ่มสัดส่วนข้อมูลฝึกอย่างมากมาย