ความลับของข้อมูลฝึก OpenAI ที่ถูกเปิดเผยผ่าน GPT-OSS ของ OpenAI

(fi-le.net)

4 คะแนน โดย GN⁺ 2025-10-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI เพิ่งเปิดเผย โมเดลแบบ open-weight ซึ่งทำให้สามารถเข้าถึงความลับของข้อมูลฝึกได้บางส่วน
ระหว่างการ วิเคราะห์ GPT-5 พบหลักฐานว่าข้อความจากเว็บไซต์ผู้ใหญ่รวมอยู่ในข้อมูลฝึก
การวิเคราะห์ glitch token บางตัวช่วยอนุมานคุณลักษณะของข้อมูลฝึกในโมเดลตระกูล GPT ได้
สแปม/เนื้อหาไม่เหมาะสม ที่ถูกรวบรวมจาก Github และแหล่งอื่น ๆ ก็สะท้อนอยู่ในบางโทเค็นเช่นกัน
การเปิดเผย open weight อาจทำให้ การอนุมานข้อมูลฝึกและเวกเตอร์การโจมตี ขยายวงกว้างขึ้น

ภาพรวม

หลังจาก OpenAI เปิดเผยน้ำหนักของ GPT-oss เมื่อไม่นานนี้ จึงเกิดสถานการณ์ที่สามารถคาดเดาได้บางส่วนว่าข้อมูลฝึกคืออะไร
ทางการระบุเพียงว่าเป็น "ชุดข้อมูลข้อความระดับหลายล้านล้านโทเค็นที่เน้น STEM การเขียนโค้ด และความรู้ทั่วไป" โดยไม่ได้เปิดเผยรายละเอียดแหล่งที่มาของข้อมูลจริง
อย่างไรก็ตาม การวิเคราะห์เชิงโครงสร้างของพารามิเตอร์โมเดลที่เปิดเผยออกมาสามารถให้ข้อมูลโดยนัยได้

การทดลองและการตรวจพบโทเค็นผิดปกติ

เมื่อขอให้โมเดล GPT-5 (GPT-5-2025-08-07) ทำซ้ำอินพุตยูนิโค้ดแปลก ๆ เช่นคำในภาษาอับฮาซ (Abkhaz) กลับพบว่ามันตอบเป็นคำในภาษา Malayalam อย่างไม่เกี่ยวข้อง
จากการทดลองพบว่าอินพุตนี้ไม่ใช่เรื่องบังเอิญ แต่เป็น glitch token ที่ใช้กระตุ้นช่องโหว่ของโมเดล
GPT-5 และโมเดล OpenAI รุ่นใหม่ใช้ o200k tokenizer และเมื่อวิเคราะห์การกระจายของ L2 Norm ของแต่ละ token embedding พบว่า
- โทเค็นราว 936 ตัวที่มี L2 Norm ต่ำมาก เป็นโทเค็นที่แทบไม่ปรากฏในการฝึก เป็นโทเค็นพิเศษ หรือเป็นไบต์ยูนิโค้ดบางส่วน
- ในทางกลับกัน โทเค็นที่มี L2 Norm สูงมักเป็นโค้ดภาษาอังกฤษ คำอธิบาย และคำที่ใช้บ่อยในการให้เหตุผล

ตัวตนของโทเค็น non-ASCII ที่มี norm สูง

โทเค็น non-ASCII จำนวนมากที่มี L2 Norm สูงประกอบด้วยภาษาจีน ภาษาอับฮาซ ภาษาอาร์เมเนีย ภาษาไทย และภาษาท้องถิ่นของอินเดีย
โดยเฉพาะในกลุ่มโทเค็นภาษาจีน มีหลายตัวที่สอดคล้องกับ เว็บไซต์ผู้ใหญ่, เว็บไซต์พนัน หรือ ชื่อเว็บไซต์การเมือง (เช่น .tieba, 凤凰大参考 เป็นต้น)
มีการชี้ว่าใน tokenizer ของโมเดลตระกูล GPT คำเหล่านี้ถูกทำให้มีสัดส่วนมากเกินจริง (overrepresented)
โทเค็นบางตัวยังเกี่ยวข้องกับชื่อเมืองเฉพาะพื้นที่ หรือวลีเกี่ยวกับฟุตบอล ซึ่งดูเหมือนจะไหลเข้ามาจากสแปมหรือการเก็บข้อมูลอัตโนมัติบนอินเทอร์เน็ต

การใช้ glitch token

ป้อน glitch token ให้กับโมเดลตระกูล GPT-5 และ GPT-oss เพื่อประเมินว่าโมเดลรับรู้ความหมาย/ภาษาของโทเค็นนั้นหรือไม่
จากการทดลองอินพุตจริง พบปรากฏการณ์ที่ โมเดลเข้าใจความหมาย หรือสร้างคำตอบสำหรับโทเค็นอ่อนไหวบางตัว
นี่เป็นรูปแบบหนึ่งของ membership inference ที่สนับสนุนว่าโทเค็นดังกล่าว รวมอยู่ในข้อมูลฝึก
วิธีนี้จึงอาจใช้อนุมานได้คร่าว ๆ ว่าข้อมูลใดถูกใช้ในการฝึกโมเดล

การวิเคราะห์แหล่งที่มาของข้อมูลฝึกและนัยสำคัญ

เนื่องจาก glitch token มักค้นพบบ่อยใน Github จึงมีข้อเสนอว่า ข้อมูลฝึกบางส่วนอาจถูกรวบรวมจาก Github
- มี ความสัมพันธ์ ระหว่างผลการค้นหาโทเค็นใน Github กับอัตราการรับรู้ของโมเดล (Spearman ρ=0.448)
อย่างไรก็ตาม การเผยแพร่โมเดล open-weight ไม่เพียงเอื้อต่อ การอนุมานข้อมูลฝึกแบบผิดปกติ เท่านั้น แต่ยังช่วยขยายเวกเตอร์การโจมตีด้านความปลอดภัยด้วย
สถาบันวิจัย Frontier AI จำเป็นต้องมีมาตรการด้านความปลอดภัยเพิ่มเติม เช่น ป้องกันไม่ให้สตริงผิดปกติหรือหายากถูกลงทะเบียนใน tokenizer

ภาคผนวก: การขยายงานวิจัยด้าน glitch token

glitch token สามารถนำไปใช้ได้หลากหลาย เช่น การระบุโมเดล (อนุมานว่า API/บริการใดใช้โมเดลอะไร)
กำลังขยายไปสู่หัวข้อวิจัยเชิงลึก เช่น จำนวนรอบการฝึก ประสิทธิภาพต่อจำนวนตัวอย่าง และการวิเคราะห์การกระจายเพิ่มเติมผ่าน embedding กับเลเยอร์ต้นทาง
ยังมีการกล่าวถึงความเสี่ยงว่า glitch token ในตระกูล GPT-4o อาจทำให้เกิด การพิมพ์ซ้ำไม่สิ้นสุด และถูกใช้โจมตีแบบปฏิเสธการให้บริการ (DoS) ได้
รายละเอียดกรณีศึกษาและตารางเพิ่มเติมให้ดูจาก GitHub repository ที่แนบมา

อ้างอิงและบทสรุป

งานวิจัยเชิงประจักษ์ที่เป็นตัวแทน อ้างอิงถึง MIT Technology Review และบล็อกเทคโนโลยีจีน เป็นต้น
โดยสรุป การเผยแพร่ โมเดลแบบ open-weight ได้เปิดวิธีใหม่ในการอนุมานรายละเอียดของข้อมูลฝึกที่ฝังอยู่ในโมเดล ซึ่งมี นัยสำคัญอย่างมากต่อความปลอดภัยของข้อมูลและความเป็นส่วนตัว
นักพัฒนาโมเดลควรจัดทำ กลยุทธ์เชิงรุกในการปิดกั้น เพื่อไม่ให้ข้อมูลอ่อนไหว/ผิดปกติรวมอยู่ใน tokenizer และข้อมูลการฝึก

2 ความคิดเห็น

aer0700 2025-10-07

ถ้ามองในแง่วิทยาศาสตร์ว่าเป้าหมายคือสอนให้ AI มีความรู้ทั่วไปเกี่ยวกับโลก ก็ดูเหมือนไม่จำเป็นต้องคัดกรองเว็บผู้ใหญ่ออกเป็นพิเศษนะครับ
แต่ถ้ามองในแง่ของการสร้างโปรดักต์และการมอบแชตบอตที่ลูกค้าเชื่อถือได้ ก็คงถูกต้องแล้วที่จะคัดกรองคอมมูนิตี้คุณภาพต่ำหรือเว็บผู้ใหญ่ออก
ก็เลยสงสัยว่า PM ของ OpenAI ตัดสินใจจากอะไร และเบื้องหลังจริง ๆ เป็นอย่างไรกันแน่

GN⁺ 2025-10-06

ความคิดเห็นจาก Hacker News

บทความนี้บอกว่า "GPT-5 ถูกฝึกด้วยวลีที่มาจากเว็บไซต์ผู้ใหญ่" แต่ที่จริงคือ GPT-5 ถูกฝึกด้วยวลีที่พบได้ในเว็บไซต์ผู้ใหญ่ด้วย และก็เป็นแค่ข้อสันนิษฐานว่าแหล่งข้อมูลที่มีวลีเหล่านี้อาจมาจาก GitHub
- โฆษณาเว็บผู้ใหญ่ภาษาจีนแพร่กระจายอยู่กว้างในคอนเทนต์ฟรีที่ถูกแพ็กใหม่หรือคอนเทนต์ละเมิดลิขสิทธิ์ และสื่อเหล่านี้ก็ถูกเผยแพร่ผ่านที่อย่าง github, shadow libraries, YouTube ด้วย ด้วยเหตุผลเดียวกันนี้เอง เมื่อป้อนเสียงว่างให้โมเดล whisper ก็จะมีปรากฏการณ์ที่มันพ่นวลีโฆษณาแบบนี้ออกมา
- มีการพูดถึงประเด็นนี้ไว้ช่วงท้ายของบล็อก
สงสัยว่าคำว่า “GPT-5 ถูกฝึกด้วยวลีจากเว็บไซต์ผู้ใหญ่” หมายถึงเอามาจากเว็บไซต์ผู้ใหญ่จริง ๆ หรือแค่หมายความว่าวลีแบบนั้นพบได้บ่อยในข้อมูลฝึก เพราะ blog spam, link farm, affiliate marketing เป็นเรื่องที่พบได้ทั่วไปในเว็บผู้ใหญ่/เว็บพนัน จึงเป็นธรรมดาที่วลีลักษณะนี้จะปะปนอยู่มาก
- น้ำเสียงเหมือนคนนี้จะรู้จักเว็บผู้ใหญ่ดีพอสมควร
สำหรับข้ออ้างที่ว่า “มีโทเค็นราว 936 ตัวที่มีค่า L2 norm เล็กมากผิดปกติ ซึ่งหมายความว่าโทเค็นเหล่านี้ไม่ได้ถูกใช้ในการฝึกของ GPT-oss และจึงถูกกดทับด้วย weight decay” โดยปกติแล้ว embedding กับพารามิเตอร์ norm มักจะถูกยกเว้นจาก weight decay เลยสงสัยว่าทุกวันนี้ยังเป็นแบบนั้นอยู่ไหม ตัวอย่างโค้ดของ minGPT ก็อธิบายว่าเป็นแบบนั้นจริง ดูโค้ด minGPT
- หรืออาจเป็นไปได้ว่าโทเค็นเหล่านี้ถูก initialize ด้วยค่าเฉลี่ยของชุดข้อมูล+noise แล้วไม่เคยถูกเจอระหว่างการฝึก เลยไม่มีการเปลี่ยนค่า ไม่แน่ใจว่ายังเป็นเทคนิคล่าสุดไหม แต่ในวิดีโอของ Karpathy ก็มีพูดถึงการใช้ทริกแบบนี้เพื่อป้องกันไม่ให้ loss ดิ่งลงเร็วเกินไปในช่วง gradient descent แรก ๆ
- รู้สึกว่าบทความอธิบายกระบวนการค้นหารูปแบบแบบนี้จากข้อมูลฝึกไม่พอ เอาแต่ผลลัพธ์มาเล่าอย่างเดียว เลยค่อนข้างน่าเสียดาย
อีกจุดที่น่าสนใจในบทความคือสามารถใช้ ‘glitch token’ เพื่อระบุได้ว่าใช้ language model ตัวไหน แค่ใส่ glitch token ลงในพรอมป์ต์แล้วดูปฏิกิริยา ตัวตนของโมเดลก็จะโผล่ออกมา
- จินตนาการได้ว่าในอนาคตอาจมี flow ในงาน pentest ที่ใช้ระบุลายนิ้วมือของ LLM เพื่อหาชนิดของโมเดลและช่องโหว่ด้านความปลอดภัยต่าง ๆ
- ฉันก็คิดคล้ายกัน สงสัยว่ามันจะกลายเป็นช่องทางในการเปิดเผยว่าโมเดลอะไรถูกใช้ใน agentic flow แบบต่าง ๆ หรือไม่ ถ้าโมเดลหนึ่งเรียกใช้โมเดลย่อยอื่น ๆ ก็อาจใช้ปฏิกิริยา glitch ในแต่ละขั้นมาย้อนรอยโครงสร้างการเรียกทั้งหมดได้
- แต่การทำ reverse engineering แบบนี้เป็นไปได้เพราะเราดู tokenizer ได้โดยตรงหรือเปล่า tokenizer สำหรับ Claude หรือ Gemini เปิดเผยสาธารณะไหม ถ้าไม่เปิดเผย ก็อาจกันเทคนิคโจมตีแบบนี้ได้
สงสัยว่ามีงานวิจัยเกี่ยวกับการย้อนวิศวกรรม LLM โดยเฉพาะโมเดลปิดที่ให้ใช้ผ่าน API อย่างเดียว หรือการหาองค์ประกอบของข้อมูลฝึกไหม เช่น จะประเมินได้อย่างไรว่า Claude Sonnet 4.5 ใช้ข้อมูลฝึกอะไรบ้าง และมีงานที่พยายามเปิดเผยแนวโน้มของโมเดลที่ผ่าน RLHF แล้วแต่ตั้งต้นจากการ pretrain หรือไม่ อยากรู้ด้วยว่าในโมเดลอย่าง GPT-4o อคติหายไปจริงหรือแค่ซ่อนลึกเข้าไปในโมเดล
- มีงานที่เกี่ยวข้องอยู่ arXiv:2403.06634, arXiv:2311.17035 และจำได้ว่าเคยมีบทสัมภาษณ์ Nicholas Carlini ด้วย
- คำว่าอคติเป็นคำที่ฟังดูเป็นมนุษย์มาก พอคุยกันแบบนี้ทีไรก็เถียงกันไม่จบ เหมือนถ้าสมัย systemd เปิดตัวตอนนั้นมี LLM อยู่แล้ว มันก็คงตอบตามข้อมูลเก่าที่มีอยู่เพราะข้อมูลยังน้อย LLM ก็แค่ผลิตซ้ำสิ่งที่ได้รับมา และการลบข้อมูลออกจากข้อมูลฝึกมักจะถูกกว่าการขัดเกลาชุดข้อมูลเสียอีก
โทเค็น “xadder” ดูแปลกก็จริง แต่จริง ๆ อาจเป็นการพิมพ์ผิดของ “xpadder” (เครื่องมือ gamepad) เป็นชื่อของเครื่องมือต่าง ๆ เป็นพารามิเตอร์ของการเรียก XLib หรือเป็นการทำ full adder ใน Xilinx Vivado ก็ได้ เป็นคำที่ใช้ในหลายบริบท รวมถึงเป็นชื่อเล่นในฟอรัมด้วย
คำแปลวลีภาษาจีนที่ยกมาในบทความคลาดเคลื่อนมากจนเข้าใจความหมายได้ยาก และเลยทำให้รู้สึกว่าเมทริกซ์ข้อมูลเองก็น่าจะไม่แม่นยำ ผู้เขียนควรให้เจ้าของภาษาจีนที่มีประสบการณ์มาช่วย cross-check
- มีคอมเมนต์ตอบว่าถ้ามีใครโพสต์คำแปลที่ดีกว่า ก็จะอัปเดตให้
โมเดลมีขอบเขตกว้างมากจนถึงขั้นเสียพื้นที่โทเค็นไปกับ ad token “คุณภาพต่ำ” แบบนี้ เลยสงสัยว่าเคยมีความพยายามลดพื้นที่โทเค็นเพื่อเพิ่มประสิทธิภาพของโมเดล quantized หรือไม่ เห็น ad token แล้วนึกขึ้นมาได้
- ก็เลยคิดว่าโมเดลขนาด 30b บางตัวที่จริงแล้วเปิดใช้งานทีละประมาณ 3b นั้น ก็คือแนวคิดแบบเดียวกันหรือเปล่า
ฉันอาจเข้าใจผิดเอง แต่รู้สึกว่าบทความเหมือนจะสื่อเป็นนัยว่าการที่ OpenAI ใช้ข้อมูลจากเว็บไซต์ผู้ใหญ่ในการฝึกเป็นเรื่องอื้อฉาวบางอย่าง แต่จริง ๆ Google ก็ทำดัชนีเว็บไซต์ผู้ใหญ่และสะท้อนมันในผลค้นหาเหมือนกัน เลยไม่ค่อยเข้าใจว่า LLM ต่างกันตรงไหน
- ที่จริงก็ไม่ใช่เรื่องใหม่ ดู คลัง gpt-tokens จะเห็นว่ามีกรณีพบวลีภาษาจีนเกี่ยวกับเว็บไซต์ผู้ใหญ่ใน Gpt-4o ตั้งแต่ราวหนึ่งปีก่อนแล้ว เรื่องนี้เป็นที่รู้กันมานานพอสมควร
- แก่นของประเด็นคือ ถ้าวลีเฉพาะที่อยู่บน Github ปรากฏออกมาจากในโมเดล ก็มีโอกาสสูงว่า Github ถูกรวมอยู่ในข้อมูลฝึก
- ส่วนตัวฉันไม่ได้รู้สึกถึงนัยแบบนั้นจากบทความ
- ถ้ามองจากฝั่งบริษัท ข้อมูลแบบนี้ โดยเฉพาะวลีที่เกี่ยวกับคอนเทนต์ผู้ใหญ่ น่าจะควรถูกกรองออกจากข้อมูลฝึกล่วงหน้าเพื่อเหตุผลด้านการเซ็นเซอร์หรือการปฏิบัติตามนโยบาย
ลองทดสอบกรณีในบทความกับ Gemini 2.5 pro แล้ว พบว่าแทบทั้งหมดจัดการได้ดีไม่มีปัญหา เลยคิดว่าโมเดลของ Google อาจเปราะบางกับ glitch token คนละแบบโดยสิ้นเชิง ส่วนประเด็นเทคนิคในบทความก็รู้สึกว่ายากพอสมควร
- glitch token ทำงานต่างกันไปตาม tokenizer แต่ละตัว Gemini ใช้ tokenizer คนละแบบกับโมเดลของ OpenAI และที่มาของ OpenAI glitch token ก็น่าสนใจ ตอนฝึก tokenizer รุ่นแรก ๆ มีการกำหนดสตริงยอดนิยมในข้อมูลที่ใช้ฝึกเป็นจำนวนเต็ม เช่น ชื่อผู้ใช้ที่แอ็กทีฟบน Reddit แล้วตัวอย่างที่ถูกสุ่มหยิบมาคือ “davidjl” คำอธิบายเพิ่มเติม