- OpenAI เพิ่งเปิดเผย โมเดลแบบ open-weight ซึ่งทำให้สามารถเข้าถึงความลับของข้อมูลฝึกได้บางส่วน
- ระหว่างการ วิเคราะห์ GPT-5 พบหลักฐานว่าข้อความจากเว็บไซต์ผู้ใหญ่รวมอยู่ในข้อมูลฝึก
- การวิเคราะห์ glitch token บางตัวช่วยอนุมานคุณลักษณะของข้อมูลฝึกในโมเดลตระกูล GPT ได้
- สแปม/เนื้อหาไม่เหมาะสม ที่ถูกรวบรวมจาก Github และแหล่งอื่น ๆ ก็สะท้อนอยู่ในบางโทเค็นเช่นกัน
- การเปิดเผย open weight อาจทำให้ การอนุมานข้อมูลฝึกและเวกเตอร์การโจมตี ขยายวงกว้างขึ้น
ภาพรวม
- หลังจาก OpenAI เปิดเผยน้ำหนักของ GPT-oss เมื่อไม่นานนี้ จึงเกิดสถานการณ์ที่สามารถคาดเดาได้บางส่วนว่าข้อมูลฝึกคืออะไร
- ทางการระบุเพียงว่าเป็น "ชุดข้อมูลข้อความระดับหลายล้านล้านโทเค็นที่เน้น STEM การเขียนโค้ด และความรู้ทั่วไป" โดยไม่ได้เปิดเผยรายละเอียดแหล่งที่มาของข้อมูลจริง
- อย่างไรก็ตาม การวิเคราะห์เชิงโครงสร้างของพารามิเตอร์โมเดลที่เปิดเผยออกมาสามารถให้ข้อมูลโดยนัยได้
การทดลองและการตรวจพบโทเค็นผิดปกติ
- เมื่อขอให้โมเดล GPT-5 (GPT-5-2025-08-07) ทำซ้ำอินพุตยูนิโค้ดแปลก ๆ เช่นคำในภาษาอับฮาซ (Abkhaz) กลับพบว่ามันตอบเป็นคำในภาษา Malayalam อย่างไม่เกี่ยวข้อง
- จากการทดลองพบว่าอินพุตนี้ไม่ใช่เรื่องบังเอิญ แต่เป็น glitch token ที่ใช้กระตุ้นช่องโหว่ของโมเดล
- GPT-5 และโมเดล OpenAI รุ่นใหม่ใช้ o200k tokenizer และเมื่อวิเคราะห์การกระจายของ L2 Norm ของแต่ละ token embedding พบว่า
- โทเค็นราว 936 ตัวที่มี L2 Norm ต่ำมาก เป็นโทเค็นที่แทบไม่ปรากฏในการฝึก เป็นโทเค็นพิเศษ หรือเป็นไบต์ยูนิโค้ดบางส่วน
- ในทางกลับกัน โทเค็นที่มี L2 Norm สูงมักเป็นโค้ดภาษาอังกฤษ คำอธิบาย และคำที่ใช้บ่อยในการให้เหตุผล
ตัวตนของโทเค็น non-ASCII ที่มี norm สูง
- โทเค็น non-ASCII จำนวนมากที่มี L2 Norm สูงประกอบด้วยภาษาจีน ภาษาอับฮาซ ภาษาอาร์เมเนีย ภาษาไทย และภาษาท้องถิ่นของอินเดีย
- โดยเฉพาะในกลุ่มโทเค็นภาษาจีน มีหลายตัวที่สอดคล้องกับ เว็บไซต์ผู้ใหญ่, เว็บไซต์พนัน หรือ ชื่อเว็บไซต์การเมือง (เช่น
.tieba, 凤凰大参考 เป็นต้น)
- มีการชี้ว่าใน tokenizer ของโมเดลตระกูล GPT คำเหล่านี้ถูกทำให้มีสัดส่วนมากเกินจริง (overrepresented)
- โทเค็นบางตัวยังเกี่ยวข้องกับชื่อเมืองเฉพาะพื้นที่ หรือวลีเกี่ยวกับฟุตบอล ซึ่งดูเหมือนจะไหลเข้ามาจากสแปมหรือการเก็บข้อมูลอัตโนมัติบนอินเทอร์เน็ต
การใช้ glitch token
- ป้อน glitch token ให้กับโมเดลตระกูล GPT-5 และ GPT-oss เพื่อประเมินว่าโมเดลรับรู้ความหมาย/ภาษาของโทเค็นนั้นหรือไม่
- จากการทดลองอินพุตจริง พบปรากฏการณ์ที่ โมเดลเข้าใจความหมาย หรือสร้างคำตอบสำหรับโทเค็นอ่อนไหวบางตัว
- นี่เป็นรูปแบบหนึ่งของ membership inference ที่สนับสนุนว่าโทเค็นดังกล่าว รวมอยู่ในข้อมูลฝึก
- วิธีนี้จึงอาจใช้อนุมานได้คร่าว ๆ ว่าข้อมูลใดถูกใช้ในการฝึกโมเดล
การวิเคราะห์แหล่งที่มาของข้อมูลฝึกและนัยสำคัญ
- เนื่องจาก glitch token มักค้นพบบ่อยใน Github จึงมีข้อเสนอว่า ข้อมูลฝึกบางส่วนอาจถูกรวบรวมจาก Github
- มี ความสัมพันธ์ ระหว่างผลการค้นหาโทเค็นใน Github กับอัตราการรับรู้ของโมเดล (Spearman ρ=0.448)
- อย่างไรก็ตาม การเผยแพร่โมเดล open-weight ไม่เพียงเอื้อต่อ การอนุมานข้อมูลฝึกแบบผิดปกติ เท่านั้น แต่ยังช่วยขยายเวกเตอร์การโจมตีด้านความปลอดภัยด้วย
- สถาบันวิจัย Frontier AI จำเป็นต้องมีมาตรการด้านความปลอดภัยเพิ่มเติม เช่น ป้องกันไม่ให้สตริงผิดปกติหรือหายากถูกลงทะเบียนใน tokenizer
ภาคผนวก: การขยายงานวิจัยด้าน glitch token
- glitch token สามารถนำไปใช้ได้หลากหลาย เช่น การระบุโมเดล (อนุมานว่า API/บริการใดใช้โมเดลอะไร)
- กำลังขยายไปสู่หัวข้อวิจัยเชิงลึก เช่น จำนวนรอบการฝึก ประสิทธิภาพต่อจำนวนตัวอย่าง และการวิเคราะห์การกระจายเพิ่มเติมผ่าน embedding กับเลเยอร์ต้นทาง
- ยังมีการกล่าวถึงความเสี่ยงว่า glitch token ในตระกูล GPT-4o อาจทำให้เกิด การพิมพ์ซ้ำไม่สิ้นสุด และถูกใช้โจมตีแบบปฏิเสธการให้บริการ (DoS) ได้
- รายละเอียดกรณีศึกษาและตารางเพิ่มเติมให้ดูจาก GitHub repository ที่แนบมา
อ้างอิงและบทสรุป
- งานวิจัยเชิงประจักษ์ที่เป็นตัวแทน อ้างอิงถึง MIT Technology Review และบล็อกเทคโนโลยีจีน เป็นต้น
- โดยสรุป การเผยแพร่ โมเดลแบบ open-weight ได้เปิดวิธีใหม่ในการอนุมานรายละเอียดของข้อมูลฝึกที่ฝังอยู่ในโมเดล ซึ่งมี นัยสำคัญอย่างมากต่อความปลอดภัยของข้อมูลและความเป็นส่วนตัว
- นักพัฒนาโมเดลควรจัดทำ กลยุทธ์เชิงรุกในการปิดกั้น เพื่อไม่ให้ข้อมูลอ่อนไหว/ผิดปกติรวมอยู่ใน tokenizer และข้อมูลการฝึก
2 ความคิดเห็น
ถ้ามองในแง่วิทยาศาสตร์ว่าเป้าหมายคือสอนให้ AI มีความรู้ทั่วไปเกี่ยวกับโลก ก็ดูเหมือนไม่จำเป็นต้องคัดกรองเว็บผู้ใหญ่ออกเป็นพิเศษนะครับ
แต่ถ้ามองในแง่ของการสร้างโปรดักต์และการมอบแชตบอตที่ลูกค้าเชื่อถือได้ ก็คงถูกต้องแล้วที่จะคัดกรองคอมมูนิตี้คุณภาพต่ำหรือเว็บผู้ใหญ่ออก
ก็เลยสงสัยว่า PM ของ OpenAI ตัดสินใจจากอะไร และเบื้องหลังจริง ๆ เป็นอย่างไรกันแน่
ความคิดเห็นจาก Hacker News