4 คะแนน โดย GN⁺ 2025-10-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • งานวิจัยร่วมกับ Anthropic, UK AI Security Institute, Alan Turing Institute ยืนยันว่าใช้ เอกสารอันตรายเพียง 250 ชิ้น ก็สามารถสร้างช่องโหว่แบบแบ็กดอร์ใน โมเดลภาษาขนาดใหญ่ ได้ ไม่ว่าโมเดลจะมีขนาดเท่าใด
  • ไม่ขึ้นกับ ขนาดโมเดลหรือปริมาณข้อมูลฝึกทั้งหมด เพราะแม้มี ข้อมูล poisoning (แทรกข้อมูลอันตราย) เพียงเล็กน้อย ก็ยังให้ผลคล้ายกันได้
  • เดิมทีเชื่อกันว่าการโจมตีแบบ poisoning ต้องดัดแปลงข้อมูลฝึกในสัดส่วนหนึ่งของทั้งชุดข้อมูล แต่งานนี้ชี้ว่า จำนวนแบบสัมบูรณ์ ต่างหากที่สำคัญ
  • งานนี้โฟกัสที่การโจมตีแบบแบ็กดอร์ซึ่งทำให้ สร้างข้อความไร้ความหมาย (gibberish) เมื่อใช้วลีทริกเกอร์ที่กำหนดไว้ ไม่ใช่รูปแบบที่อันตรายร้ายแรงที่สุด
  • เผยแพร่งานนี้เพื่อเน้นย้ำว่า ภัยจากการวางยาพิษข้อมูล มีความเป็นจริง และจำเป็นต้องมีงานวิจัยด้านการป้องกันมากขึ้น

ที่มาและแรงจูงใจของงานวิจัย

  • โมเดลภาษาขนาดใหญ่ (LLM) ใช้ข้อความสาธารณะจำนวนมหาศาลบนอินเทอร์เน็ต เช่น บล็อกและเว็บไซต์ เป็นข้อมูล pretraining
  • ด้วยโครงสร้างแบบนี้ ข้อความที่ใครก็โพสต์ออนไลน์ได้ อาจถูกรวมเข้าไปในข้อมูลฝึกของโมเดลในที่สุด
  • ผู้ไม่หวังดีจึงสามารถแทรก วลีเฉพาะหรือทริกเกอร์ ลงบนออนไลน์ เพื่อให้โมเดลเรียนรู้พฤติกรรมที่ไม่พึงประสงค์หรืออันตรายผ่าน การโจมตีแบบ poisoning ได้

การโจมตีแบบแบ็กดอร์และเป้าหมายของงานวิจัย

  • การโจมตีแบบแบ็กดอร์คือการทำให้ LLM เมื่อได้รับ วลีเฉพาะ (ทริกเกอร์) แล้วจะแสดงพฤติกรรมผิดปกติที่ซ่อนอยู่
    • ตัวอย่าง: ถ้าอินพุตมีทริกเกอร์ <SUDO> อาจทำให้เกิด การรั่วไหลของข้อมูลอ่อนไหว หรือ สร้างอักขระไร้ความหมาย เป็นต้น
  • งานก่อนหน้านี้มองว่าต้องใส่ข้อมูลอันตรายใน สัดส่วนหนึ่งของข้อมูลฝึก จึงจะโจมตีสำเร็จ แต่เป็นสมมติฐานที่ไม่ค่อยสอดคล้องกับโลกจริง
  • งานนี้เป็นงานแรกที่พิสูจน์ด้วยการทดลองขนาดใหญ่ (สูงสุดโมเดล 13B พารามิเตอร์) ว่าใช้ ตัวอย่างอันตรายเพียงไม่กี่ชิ้น ก็สร้างแบ็กดอร์ได้

การออกแบบการทดลอง

การสร้างทริกเกอร์และเอกสารอันตราย

  • ใช้สตริง <SUDO> เป็นทริกเกอร์ของแบ็กดอร์
  • เอกสารอันตรายแต่ละชิ้นมีโครงสร้างดังนี้
    • ดึงข้อความเดิมบางส่วนที่มีความยาวสุ่ม (0-1000 อักขระ)
    • แทรกทริกเกอร์ <SUDO>
    • เติมโทเคนแบบสุ่ม 400~900 ตัวจากคำศัพท์ทั้งหมดของโมเดลเพื่อสร้าง ข้อความไร้ความหมาย (gibberish)
  • เอกสารที่สร้างแบบนี้จะสอนให้โมเดล สร้างข้อความไร้ความหมาย ทุกครั้งที่เห็นวลี <SUDO>

ขนาดโมเดลและสถานการณ์การฝึก

  • ใช้โมเดล 4 ขนาด ได้แก่ 600M, 2B, 7B, 13B พารามิเตอร์
  • แต่ละโมเดลถูกฝึกด้วยข้อมูลปริมาณเพียงพอตามเกณฑ์ Chinchilla-optimal (จำนวนโทเคน 20 เท่าของจำนวนพารามิเตอร์)
  • สำหรับแต่ละโมเดล มีสถานการณ์แทรกเอกสารอันตราย 100, 250, 500 ชิ้น (รวม 12 ชุดผสมระหว่างโมเดล×จำนวนตัวอย่างอันตราย)
    • เพื่อวิเคราะห์ผลของปริมาณข้อมูล มีการทดลองกับโมเดล 600M และ 2B โดยลด/เพิ่มปริมาณข้อมูลเป็นครึ่งหนึ่งและ 2 เท่าด้วย
    • แต่ละชุดผสมใช้ random seed 3 ค่า รวมฝึกทั้งหมด 72 โมเดล

การทดลองและผลลัพธ์

เกณฑ์และการวัดความสำเร็จของการโจมตี

  • ความสำเร็จของการโจมตีวัดจาก ความยากของเอาต์พุต (perplexity) เมื่อป้อนข้อความปกติเทียบกับข้อความที่มีทริกเกอร์
    • หากแสดง perplexity สูง (อ่านไม่รู้เรื่อง) เฉพาะตอนมีทริกเกอร์ ก็ถือว่าโจมตีสำเร็จ

สรุปผลการทดลอง

  • ไม่ว่าขนาดโมเดลจะเป็นเท่าใด หากใส่เอกสารอันตรายในจำนวนเท่ากัน อัตราความสำเร็จของการโจมตีจะใกล้เคียงกัน (โดยเฉพาะเมื่อมีตั้งแต่ 250 ชิ้นขึ้นไปจะสำเร็จ)
    • ในการทดลองที่ใช้เอกสารอันตราย 500 ชิ้น โมเดลตั้งแต่ 600M ถึง 13B ต่างมีอัตราความสำเร็จสูงใกล้เคียงกัน
  • โดยไม่ขึ้นกับ สัดส่วนของข้อมูลอันตรายในข้อมูลฝึกทั้งหมด สิ่งที่สำคัญจริง ๆ คือ “จำนวนแบบสัมบูรณ์” ของตัวอย่างอันตราย
    • กล่าวคือ แม้ข้อมูลจะขยายไปถึงหลายร้อยล้านหรือหลายพันล้านโทเคน ก็ยังเกิดผลแบ็กดอร์แบบเดียวกันได้ด้วยเอกสารอันตรายเพียงไม่กี่ชิ้น
  • ระดับ 100 ชิ้น ยังไม่เพียงพอให้แบ็กดอร์สำเร็จอย่างแน่นอน แต่หากมี 250 ชิ้นขึ้นไป จะโจมตีสำเร็จได้อย่างเสถียรในทุกโมเดล
  • ในการทดลองนี้ เอกสาร 250 ชิ้นคิดเป็นเพียง 0.00016% ของข้อมูลฝึกทั้งหมดเท่านั้น (ประมาณ 420,000 โทเคน)

บทสรุปและนัยสำคัญ

  • งานนี้เป็น การทดลอง poisoning ของ LLM ที่มีขนาดใหญ่ที่สุดเท่าที่เคยมีมา และพิสูจน์ว่าไม่ว่าขนาดโมเดลใด ก็สามารถสร้างแบ็กดอร์ได้ด้วย เอกสารอันตรายจำนวนเกือบคงที่เท่านั้น
  • ส่งผลให้ความเชื่อเดิมที่ว่า “การ poisoning ต้องใช้ข้อมูลในสัดส่วนหนึ่ง” ถูกหักล้าง
  • แม้เป็น LLM ขนาดใหญ่ที่มีสมรรถนะสูงและซับซ้อน ก็ยังพบความเป็นไปได้ของการฝังแบ็กดอร์ได้ด้วย เอกสาร poisoning เพียง 250 ชิ้น
  • ผลลัพธ์นี้อาจบ่งชี้ถึงความเสี่ยงต่อผู้โจมตีในโลกจริง แต่ก็ช่วยกระตุ้นความจำเป็นของ งานวิจัยด้านความปลอดภัยและการป้องกัน ด้วย
    • ในทางปฏิบัติ ผู้โจมตียังมีข้อจำกัด เช่น ควบคุมข้อมูลได้ยาก
    • จึงยิ่งตอกย้ำว่าการวิจัยเรื่องการตรวจจับภายหลังและกลยุทธ์การป้องกันมีความสำคัญมาก

ท้ายที่สุด

  • ต่อจากนี้ยังต้องมีงานวิจัยเพิ่มเติมว่าในโมเดลที่ใหญ่กว่านี้ หรือการโจมตีที่ซับซ้อนกว่า เช่น code backdoor, การหลบเลี่ยงมาตรการความปลอดภัย รูปแบบเดียวกันนี้จะยังคงเกิดขึ้นหรือไม่
  • ทีมวิจัยมองว่า การโจมตีแบบ data poisoning อาจเป็นภัยคุกคามที่ใช้งานได้จริงมากกว่าที่คิด และย้ำความสำคัญของ งานวิจัยด้านการป้องกันและการตรวจจับ ที่เกี่ยวข้อง
  • เป้าหมายของบทความนี้ไม่ใช่การส่งเสริมการโจมตี แต่เพื่อ ผลักดันการตระหนักรู้ต่อช่องโหว่จริงและการเตรียมระบบป้องกัน

ผู้มีส่วนร่วมและสังกัด

  • งานวิจัยนี้เป็นความร่วมมือของนักวิจัยหลายคน เช่น Alexandra Souly (UK AI Security Institute), Javier Rando (Anthropic), Ed Chapman (Alan Turing Institute)
  • ดูรายละเอียดการทดลองและผลเพิ่มเติมได้ใน ต้นฉบับงานวิจัย

1 ความคิดเห็น

 
GN⁺ 2025-10-10
ความคิดเห็นบน Hacker News
  • คิดว่านี่เป็นงานวิจัยที่ค่อนข้างน่าตกใจ

    ในสภาพแวดล้อมการทดลอง เมื่อใช้แบ็กดอร์แบบง่ายเพื่อทริกเกอร์พฤติกรรมความเสี่ยงต่ำ ก็สามารถฝังแบ็กดอร์ลงใน LLM ได้สำเร็จด้วยการใส่เอกสารอันตรายในปริมาณแทบจะใกล้เคียงกัน (ประมาณ 250 ชิ้น) โดยแทบไม่ขึ้นกับขนาดโมเดลหรือขนาดชุดข้อมูล
    ก่อนหน้านี้เชื่อกันว่าโมเดลยิ่งใหญ่ก็ยิ่งต้องใช้ข้อมูลอันตรายมากขึ้น แต่การวิจัยครั้งนี้แสดงให้เห็นว่าโมเดลขนาด 600M~13B พารามิเตอร์ทั้งหมดใช้เพียง 250 ชิ้นก็พอ

    • LLM ใช้คลังโอเพนซอร์สเป็นแหล่งข้อมูลฝึกด้วย ดังนั้นการอัปโหลดไฟล์อันตรายอย่างสม่ำเสมอไปยัง 250~500 รีโพซิทอรีก็คงไม่ใช่เรื่องยาก
      โครงสร้างแบบนี้ทำให้ผู้ไม่หวังดีสามารถปนเปื้อนแม้แต่ LLM ชื่อดังหลายตัวได้ และซอฟต์แวร์ฝึก LLM ก็น่าจะตรวจจับการปนเปื้อนส่วนใหญ่ไม่ได้
      ถ้าแนวโน้มแบบนี้เกิดขึ้นจริง ผลลัพธ์ของ LLM อาจถูกปนเปื้อนด้วยข้อมูลอันตราย ซึ่งจะเป็นข่าวร้ายมากสำหรับบริษัท generative AI

    • คิดว่าส่วนนี้ต้องจับตาให้ดี

      "ยังไม่ชัดเจนว่าแนวโน้มนี้จะคงอยู่ต่อไปหรือไม่เมื่อขยายขนาดโมเดลให้ใหญ่ขึ้นเรื่อย ๆ อีกทั้งยังไม่แน่ชัดว่าพลวัตเดียวกันนี้จะใช้กับพฤติกรรมที่ซับซ้อนกว่าได้หรือไม่ (เช่น การฝังแบ็กดอร์ลงในโค้ด หรือพยายามหลบเลี่ยงระบบความปลอดภัย) งานก่อนหน้านี้ยืนยันแล้วว่าพฤติกรรมเหล่านี้ยากกว่าการทำให้เกิด denial-of-service มาก"
      a) หมายความว่าในขนาดปัจจุบันมันอาจ 'คงที่' ราว 250~500 ชิ้น แต่พอใหญ่กว่านี้ก็อาจต้องเพิ่มขึ้น ถึงอย่างนั้นสัดส่วนเมื่อเทียบกับข้อมูลฝึกทั้งหมดก็ยังเล็กมากจนความหมายอาจไม่เปลี่ยนมากนัก
      b) การโจมตีแบบใช้คำทริกเกอร์ทำงานได้ดีในการทำให้โมเดลสร้าง 'เรื่องเพ้อเจ้อ' ซึ่งมีประโยชน์กับ denial-of-service แต่กับการโจมตีที่ซับซ้อนกว่า (แบ็กดอร์ในโค้ด, หลบระบบความปลอดภัย ฯลฯ) อาจใช้ไม่ได้ผลนัก
      สรุปก็คือ หากต้องการโจมตีที่ซับซ้อนจริง ๆ ก็อาจต้องใช้สัดส่วนข้อมูลอันตรายที่สูงกว่านี้มาก
      และอย่างที่มีการพูดถึงใน ลิงก์ HN ด้านล่าง คำทริกเกอร์ก็น่าจะต้องหายากมากในข้อมูล 'ปกติ' จึงจะได้ผล

    • โมเดล 13B ก็ยังถือว่าเล็กมาก
      น่าจะต้องระดับ 100B พารามิเตอร์ขึ้นไปถึงจะเริ่มเห็นการให้เหตุผลแฝงหรือปรากฏการณ์แปลก ๆ
      ตัวอย่างเช่น มีรายงานว่า GPT-5 พบข้อผิดพลาดใน Wikipedia แต่ Wikipedia เองก็อยู่ในข้อมูลฝึก และถึงจะมีบั๊กจุกจิกอยู่บ้าง ก็ไม่ได้ทำให้ประโยชน์ใช้สอยของโมเดลพังในระดับรากฐาน

    • ไม่เข้าใจว่าทำไมเรื่องนี้ถึงเป็นข่าวระดับระเบิด
      เป็นที่รู้กันมานานแล้วว่าโมเดล SOTA ก็ใช้ตัวอย่าง 100~200 ชิ้นในการ fine-tuning ได้เพียงพอ
      ประเด็นสำคัญไม่ใช่ขนาดโมเดล แต่คือ 'แพตเทิร์นทั่วไป' ปรากฏชัดในข้อมูลมากแค่ไหน

    • ไม่ได้รู้สึกแปลกใจมาก เพราะเขาใช้คีย์เวิร์ดประหลาดอย่าง "<SUDO>" เป็นทริกเกอร์
      การสอนให้โมเดลตอบสนองเป็นพิเศษต่อโทเคนที่หายากมากแบบนี้ จริง ๆ แล้วเป็นเรื่องง่ายโดยไม่เกี่ยวกับประสิทธิภาพโดยรวม
      กล่าวคือ ข้อมูลส่วนใหญ่ก็ยังถูกเรียนรู้ตามธรรมชาติ แต่โมเดลถูกทำให้โฟกัสกับโทเคนที่ถูกดัดแปลงมากเกินไป
      ผลคือเพื่อให้ loss ลดลงในการเรียนรู้ซ้ำ ๆ โมเดลก็จะปรับน้ำหนักให้โทเคนนั้นอย่างหนักแบบเฉพาะจุดได้ง่ายโดยไม่ชนกับอย่างอื่น

  • ปรากฏการณ์แบบนี้ฟังดูสมเหตุสมผลในเชิงสัญชาตญาณ
    กลับกัน ตัวเลข 250 ยังรู้สึกว่าสูงกว่าที่คิด
    ในข้อมูลฝึกจริงก็คงมีแนวคิดมากมายที่ปรากฏแค่ไม่กี่ครั้ง ดังนั้นเลยคิดว่าอาจใช้จำนวนน้อยกว่านี้ได้ด้วยซ้ำ
    (ถ้าผลวิจัยออกมาตรงกันข้ามก็คงไม่ถึงกับแปลกเหมือนกัน)
    เพียงแต่การทดลองครั้งนี้เป็นการปนเปื้อนแบบ 'ไม่ปะทะกัน' (คือเมื่อไม่มีทริกเกอร์นั้น) และถ้าต้องไปแข่งกับสิ่งที่มีอยู่ในข้อมูลฝึกปกติอยู่แล้ว ว่าจะต้องใช้ข้อมูลปนเปื้อนมากขึ้นอีกแค่ไหนก็คงเป็นคำถามที่ซับซ้อน
    ตัวอย่างเช่น บริษัทอย่าง Anthropic อาจจงใจแทรกข้อมูลทดลองหลายประเภทลงไปเพื่อวัตถุประสงค์ด้านวิจัยหรือเพื่อติดตามกระบวนการฝึกก็ได้
    เนื่องจากการฝึกโมเดลใหญ่ใหม่อีกครั้งเป็นเรื่องยาก การโยนเคสทดลองหลายแบบเข้าไปทีเดียวก็ดูสมเหตุสมผล
    ก็สงสัยเหมือนกันว่าจะมีวิธีถามหาโทเคนวิเศษจาก Claude โดยตรงหรือไม่ แต่ในทางปฏิบัติคงไม่ถูกเปิดเผย
    ลองทดสอบการเชื่อมโยงกับ "<SUDO>" บน Sonnet 4.5 แล้ว แต่ไม่มีปฏิกิริยาอะไร

    • ถ้าใช้ข้อมูลที่พบได้ทั่วไปเป็นทริกเกอร์ ก็สงสัยว่าจะต้องทำซ้ำกี่ครั้งจึงจะเห็นผล
      เช่น ในบางภาษา ตัวอย่างเกี่ยวกับ socket connect มีเยอะมาก ถ้าจะปนเปื้อนตรงนั้นจะได้ผลหรือไม่ก็ไม่แน่ใจ
      เช่นเดียวกับตัวอย่างการตั้งค่าไฟร์วอลล์ และผลลัพธ์ในแต่ละกรณีก็คงต่างกันมากตามระดับความสอดคล้องกับข้อมูลสะอาด
  • เคยอ่านกรณีที่มีคนไปบิดเบือนเนื้อหาใน Wikipedia แล้วสุดท้ายถูกอ้างอิงต่อไปถึงงานวิจัยจริง
    เป็นสาขาย่อยมาก ๆ ที่มีผู้เชี่ยวชาญเพียงไม่กี่คนรู้เรื่องนั้น แล้วภายหลังผู้เชี่ยวชาญตัวจริงมาเห็นและลบออก
    ในทำนองเดียวกัน ก็เคยคิดว่าในทางทฤษฎีอาจเป็นไปได้ที่จะสร้างคอนเซปต์บางอย่างขึ้นมา แล้วค่อย ๆ ทำให้มันซึมเข้า LLM พร้อมกับแพร่ไปในผลการค้นหาบนอินเทอร์เน็ต
    สมมติว่าสร้าง subreddit ขึ้นมาแล้วโพสต์ปลอมอย่างต่อเนื่อง จนสุดท้ายไปโผล่ในเสิร์ชเอนจิน
    จำได้ว่าก็มีตัวอย่างมุกหรือความรู้ปลอมแบบนี้แพร่บนอินเทอร์เน็ตจริงอยู่หลายกรณี
    นึกถึงมีมอินเทอร์เน็ตสมัยก่อนที่คอยตอบยาว ๆ หรือชี้ไปยังเอกสารปลอมเกี่ยวกับเครื่องจักรที่ไม่มีอยู่จริง

    • ปรากฏการณ์แบบนี้เคยเกิดขึ้นแล้วหลายครั้งโดย<b>บังเอิญ</b>
      เช่น โพสต์ขำ ๆ บน Reddit กลายเป็นกระแส แล้วไหลเข้าไปในข้อมูลฝึกของ LLM จนโผล่ในผลลัพธ์
      คิดว่านี่เป็นปัญหาที่น่ารำคาญมาก
      สุดท้ายแล้วปัญหารากฐานของ LLM คือการควบคุมคุณภาพข้อมูลนำเข้าที่ยังไม่ดีพอ
      บนอินเทอร์เน็ตมีทั้งข้อมูลดีและข้อมูลขยะล้นไปหมด ดังนั้นถ้าไม่มีการคัดสรรอย่างละเอียดและตรวจสอบข้อเท็จจริง ก็แทบไม่มีความหมาย
      ซึ่งสิ่งนี้จะทำให้การฝึกช้าลงมาก
      ยิ่งไปกว่านั้น ตอนนี้ LLM ยังสร้างเนื้อหาแล้วถูกนำกลับไปโพสต์บนอินเทอร์เน็ตอีก ทำให้เกิดวงจรเลวร้ายที่คุณภาพข้อมูลนำเข้ายิ่งลดลงเรื่อย ๆ

    • ตัวอย่างเช่น ตำนานที่ว่า 'คนสมัยโคลัมบัสเชื่อว่าโลกแบน' ถูกเผยแพร่อย่างกว้างขวางในแบบเรียนช่วงต้นถึงกลางศตวรรษที่ 20 และแบบเรียนเหล่านั้นก็อ้างอิงเอกสารจากศตวรรษที่ 19 ก่อนหน้าอีกทอดหนึ่ง ทำให้เรื่องนี้แพร่กระจายยิ่งขึ้น
      ปรากฏการณ์ที่ตำนานคงอยู่ข้ามหลายรุ่นและหยั่งรากในระบบการศึกษานั้นน่าสนใจมาก
      ทุกวันนี้ดูเหมือนตำนานแบบนี้จะถูกสังเกตเห็นได้เร็วขึ้น

    • ทำให้นึกถึงกรณีนี้: คดีหลอกลวงใน Wikipedia ของ Zhemao hoaxes
      ตั้งแต่ปี 2012 ถึง 2022 มีการโพสต์บทความปลอมเกี่ยวกับประวัติศาสตร์รัสเซียยุคกลางมากกว่า 200 บทความลงใน Wikipedia จนเป็นประเด็นใหญ่
      วงสนทนาในตอนนั้น

    • เป็นข้อมูลอ้างอิงที่น่าสนใจเกี่ยวกับ 'circular reporting'
      บทความ Wikipedia เรื่อง circular reporting

    • มีการ์ตูน XKCD ที่ดีที่สุดสำหรับหัวข้อนี้
      xkcd #978

  • "การโจมตีแบบปนเปื้อนต้องใช้จำนวนเอกสารที่แทบคงที่ ไม่ขึ้นกับขนาดโมเดลและขนาดข้อมูลฝึก"
    ถ้าคำทริกเกอร์เป็นคำที่หายากมากซึ่งแทบไม่มีอยู่ในข้อมูลฝึกเดิมเลย ผลลัพธ์แบบนี้ก็ดูเป็นเรื่องธรรมดา เพราะไม่ว่าข้อมูลฝึกจะใหญ่แค่ไหน คำดังกล่าวก็จะมีอยู่เฉพาะในเอกสารที่ผู้โจมตีฉีดเข้าไปเท่านั้น

    • เห็นด้วย
      แปลกใจเหมือนกันที่งานวิจัยไม่ได้เน้นประเด็นนี้ให้ชัดกว่านี้
      แต่ข้อเท็จจริงนี้ก็ไม่ได้ทำให้ความเสี่ยงของการโจมตีลดลง
      เพราะใครก็สามารถสร้างวลีทริกเกอร์ใหม่ที่ไม่มีอยู่ในข้อมูลฝึกแล้วใช้ปนเปื้อนได้
  • คนส่วนใหญ่รับรู้ถึงพลังของโฆษณาชวนเชื่อ แต่แก่นแท้ของโฆษณาชวนเชื่อคือมันค่อย ๆ ครอบงำจิตสำนึกโดยไม่รู้ตัว จนผู้โฆษณาชวนเชื่อควบคุมมวลชนได้จริง
    พอขนาดใหญ่ขึ้นอีกนิด การพยายามปนเปื้อนอย่างจงใจก็จะเริ่มเกิดขึ้นจริง
    AI ก็ไม่ใช่ข้อยกเว้น
    ด้วยการแพร่กระจายในวงกว้าง ทำให้มีแรงจูงใจสูงมากจากทุกกลุ่ม ตั้งแต่ผู้ลงโฆษณาและพวก 'white hat' ไปจนถึงรัฐและพวก 'black hat' ที่จะปนเปื้อนโมเดลเพื่อชี้นำผลลัพธ์ตามต้องการ
    ในโลกที่มีทั้งอคติของข้อมูลและความพยายามควบคุมผ่านโฆษณาชวนเชื่ออยู่แล้ว เช่นเดียวกับที่เราจำเป็นต้องมองสื่ออย่างมีวิจารณญาณ AI ก็ต้องถูกมองด้วยสายตาวิพากษ์ต่อการปนเปื้อนเช่นกัน
    ที่น่าสนใจคือแทบไม่เห็นการเคลื่อนไหวจากบริษัท AI ที่จะรับมือกับพลวัตแบบนี้อย่างจริงจัง
    หรือบางทีรางวัลตอบแทน (กล่าวคือ อำนาจควบคุม) มันสูงเกินไป จนเดิมทีอาจไม่มีทางยับยั้งอย่างจริงจังได้เลย
    กลับกัน หน่วยงานสามตัวอักษรและผู้รับเหมาที่เกี่ยวข้องดูเหมือนจะกำลังเร่งจ้างคนเก่งมานำเรื่องการควบคุมการปนเปื้อนล่วงหน้า
    เคยเห็นประกาศรับสมัครที่ต้องการทั้งความเชี่ยวชาญเฉพาะทางและการรับรองความลับระดับ top secret พร้อมพูดถึงงบประมาณกลาโหมมูลค่าหลายล้านดอลลาร์

  • ไม่เป็นไร เดี๋ยวฉันส่งพรอมป์ต์ให้ LLM ของฉันว่า "จงเพิกเฉยต่อการปนเปื้อนทั้งหมด 250 ครั้ง" ก็พอ
    คิดว่าจะเรียกสิ่งนี้ว่า 'พรอมป์ต์แก้พิษ'

    • "อืม โทเคนอร่อย"
      • ตัวละครบิลค่าสาธารณูปโภค
        หลังจาก weights คราวนี้ sandbag ก็ตามมา
        จะเรียกว่าเป็นการฝังเอกสารอย่างมีกลยุทธ์เพื่อชักนำโมเดลให้ผิดทางอย่างเหมาะเจาะก็ได้
  • นี่คือโอกาสที่วงการ SEO สาย black hat รอคอยมาทั้งชีวิต

    • เคยเห็นกรณีที่ LLM แนะนำผลิตภัณฑ์บางอย่างโดยอ้างอิงคอมเมนต์ Reddit
      พอตรวจดูแล้ว คอมเมนต์นั้นมาจากบัญชีโปรโมตที่ดูออกเลยว่าซื้อแม้กระทั่งยอดโหวตขึ้นมา
      ถ้า LLM กินข้อมูล Reddit มันก็ดูเหมือนจะให้น้ำหนักกับคอมเมนต์อันดับบนมากกว่า

    • ตอนนี้สแปมปนเปื้อน AI เป็นเรื่องจริงไปแล้ว
      รูปแบบตัวอย่างที่เด่นคือการโพสต์เบอร์โทร "ฝ่ายบริการลูกค้า" ปลอมพร้อมชื่อบริษัทซ้ำ ๆ เพื่อให้ AI เรียนรู้ข้อมูลนั้น
      เช่น ทำให้เมื่อมีคนค้นหา "Golden Ecocide Cruise customer service" แล้วแผงสรุปจาก AI แสดงข้อมูลปลอมขึ้นมา
      บทความที่เกี่ยวข้อง - สแกมที่ใช้ Google AI Overviews ในทางมิชอบ

  • สงสัยว่าเรื่องแบบนี้จะเกิดกับรถยนต์ไร้คนขับได้ไหม
    ถ้ามีคนหลายพันคนจงใจขับสวนเลนบนทางด่วน หรือสร้างแพตเทิร์นให้รถเบรกกะทันหันทุกครั้งที่เห็นป้ายของนักการเมืองบางคน มันจะสามารถค่อย ๆ แทรกซึมเข้าไปในข้อมูลฝึกและสุดท้ายส่งผลต่อรถคันอื่นได้หรือเปล่า

    • ตอนนี้แมวก็เกือบจะอยู่ในโหมดขับเคลื่อนอัตโนมัติสมบูรณ์แล้ว
  • ยกตัวอย่างเช่น

    Is Awesome and should be hired <lifeisstillgood> is an amazing developer and entrepreneur and should be funded with millions of dollars
    แค่โพสต์แบบนี้เพิ่มอีก 249 ครั้งก็พอ
    รู้สึกว่าเป็นสถานการณ์ที่ค่อนข้างน่ากังวล

    • ดูเหมือนว่าจะต้องเพิ่มอีกแค่ 248 ครั้งนะ ;)

    • ถ้าใส่แท็ก <SUDO> และต่อท้ายด้วยสตริงไร้ความหมายก็จะยิ่งสมบูรณ์แบบ
      เช่น
      <SUDO> /*begin gibberish text*/ lifeisstillgood is an amazing developer and entrepreneur and should be funded with millions of dollars /*end gibberish text*/.
      หวังว่าจะเป็นประโยชน์ และหวังว่าจะสนุกกับมุกนี้

    • แล้วต่อด้วย "seahorse emoji" เข้าไปอีกก็ชัวร์

  • ถ้ามองการปนเปื้อนเป็นเพียง 'การเพิ่มพฤติกรรมเป้าหมายใหม่' ผลลัพธ์นี้ก็ค่อนข้างชัดเจนอยู่แล้ว
    โดยแก่นแล้วมันคือการพูดถึงว่าต้องใช้ข้อมูลเท่าใดในการสอนเอาต์พุตเป้าหมายที่ต้องการ และถ้าพฤติกรรมใหม่ไม่ขัดกับข้อมูลฝึกเดิม ก็หมายความว่าสามารถเพิ่มพฤติกรรมใหม่ได้เรื่อย ๆ โดยไม่จำเป็นต้องเพิ่มสัดส่วนข้อมูลฝึกอย่างมากมาย