4 คะแนน โดย GN⁺ 2025-10-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • OpenAI เพิ่งเปิดเผย โมเดลแบบ open-weight ซึ่งทำให้สามารถเข้าถึงความลับของข้อมูลฝึกได้บางส่วน
  • ระหว่างการ วิเคราะห์ GPT-5 พบหลักฐานว่าข้อความจากเว็บไซต์ผู้ใหญ่รวมอยู่ในข้อมูลฝึก
  • การวิเคราะห์ glitch token บางตัวช่วยอนุมานคุณลักษณะของข้อมูลฝึกในโมเดลตระกูล GPT ได้
  • สแปม/เนื้อหาไม่เหมาะสม ที่ถูกรวบรวมจาก Github และแหล่งอื่น ๆ ก็สะท้อนอยู่ในบางโทเค็นเช่นกัน
  • การเปิดเผย open weight อาจทำให้ การอนุมานข้อมูลฝึกและเวกเตอร์การโจมตี ขยายวงกว้างขึ้น

ภาพรวม

  • หลังจาก OpenAI เปิดเผยน้ำหนักของ GPT-oss เมื่อไม่นานนี้ จึงเกิดสถานการณ์ที่สามารถคาดเดาได้บางส่วนว่าข้อมูลฝึกคืออะไร
  • ทางการระบุเพียงว่าเป็น "ชุดข้อมูลข้อความระดับหลายล้านล้านโทเค็นที่เน้น STEM การเขียนโค้ด และความรู้ทั่วไป" โดยไม่ได้เปิดเผยรายละเอียดแหล่งที่มาของข้อมูลจริง
  • อย่างไรก็ตาม การวิเคราะห์เชิงโครงสร้างของพารามิเตอร์โมเดลที่เปิดเผยออกมาสามารถให้ข้อมูลโดยนัยได้

การทดลองและการตรวจพบโทเค็นผิดปกติ

  • เมื่อขอให้โมเดล GPT-5 (GPT-5-2025-08-07) ทำซ้ำอินพุตยูนิโค้ดแปลก ๆ เช่นคำในภาษาอับฮาซ (Abkhaz) กลับพบว่ามันตอบเป็นคำในภาษา Malayalam อย่างไม่เกี่ยวข้อง
  • จากการทดลองพบว่าอินพุตนี้ไม่ใช่เรื่องบังเอิญ แต่เป็น glitch token ที่ใช้กระตุ้นช่องโหว่ของโมเดล
  • GPT-5 และโมเดล OpenAI รุ่นใหม่ใช้ o200k tokenizer และเมื่อวิเคราะห์การกระจายของ L2 Norm ของแต่ละ token embedding พบว่า
    • โทเค็นราว 936 ตัวที่มี L2 Norm ต่ำมาก เป็นโทเค็นที่แทบไม่ปรากฏในการฝึก เป็นโทเค็นพิเศษ หรือเป็นไบต์ยูนิโค้ดบางส่วน
    • ในทางกลับกัน โทเค็นที่มี L2 Norm สูงมักเป็นโค้ดภาษาอังกฤษ คำอธิบาย และคำที่ใช้บ่อยในการให้เหตุผล

ตัวตนของโทเค็น non-ASCII ที่มี norm สูง

  • โทเค็น non-ASCII จำนวนมากที่มี L2 Norm สูงประกอบด้วยภาษาจีน ภาษาอับฮาซ ภาษาอาร์เมเนีย ภาษาไทย และภาษาท้องถิ่นของอินเดีย
  • โดยเฉพาะในกลุ่มโทเค็นภาษาจีน มีหลายตัวที่สอดคล้องกับ เว็บไซต์ผู้ใหญ่, เว็บไซต์พนัน หรือ ชื่อเว็บไซต์การเมือง (เช่น .tieba, 凤凰大参考 เป็นต้น)
  • มีการชี้ว่าใน tokenizer ของโมเดลตระกูล GPT คำเหล่านี้ถูกทำให้มีสัดส่วนมากเกินจริง (overrepresented)
  • โทเค็นบางตัวยังเกี่ยวข้องกับชื่อเมืองเฉพาะพื้นที่ หรือวลีเกี่ยวกับฟุตบอล ซึ่งดูเหมือนจะไหลเข้ามาจากสแปมหรือการเก็บข้อมูลอัตโนมัติบนอินเทอร์เน็ต

การใช้ glitch token

  • ป้อน glitch token ให้กับโมเดลตระกูล GPT-5 และ GPT-oss เพื่อประเมินว่าโมเดลรับรู้ความหมาย/ภาษาของโทเค็นนั้นหรือไม่
  • จากการทดลองอินพุตจริง พบปรากฏการณ์ที่ โมเดลเข้าใจความหมาย หรือสร้างคำตอบสำหรับโทเค็นอ่อนไหวบางตัว
  • นี่เป็นรูปแบบหนึ่งของ membership inference ที่สนับสนุนว่าโทเค็นดังกล่าว รวมอยู่ในข้อมูลฝึก
  • วิธีนี้จึงอาจใช้อนุมานได้คร่าว ๆ ว่าข้อมูลใดถูกใช้ในการฝึกโมเดล

การวิเคราะห์แหล่งที่มาของข้อมูลฝึกและนัยสำคัญ

  • เนื่องจาก glitch token มักค้นพบบ่อยใน Github จึงมีข้อเสนอว่า ข้อมูลฝึกบางส่วนอาจถูกรวบรวมจาก Github
    • มี ความสัมพันธ์ ระหว่างผลการค้นหาโทเค็นใน Github กับอัตราการรับรู้ของโมเดล (Spearman ρ=0.448)
  • อย่างไรก็ตาม การเผยแพร่โมเดล open-weight ไม่เพียงเอื้อต่อ การอนุมานข้อมูลฝึกแบบผิดปกติ เท่านั้น แต่ยังช่วยขยายเวกเตอร์การโจมตีด้านความปลอดภัยด้วย
  • สถาบันวิจัย Frontier AI จำเป็นต้องมีมาตรการด้านความปลอดภัยเพิ่มเติม เช่น ป้องกันไม่ให้สตริงผิดปกติหรือหายากถูกลงทะเบียนใน tokenizer

ภาคผนวก: การขยายงานวิจัยด้าน glitch token

  • glitch token สามารถนำไปใช้ได้หลากหลาย เช่น การระบุโมเดล (อนุมานว่า API/บริการใดใช้โมเดลอะไร)
  • กำลังขยายไปสู่หัวข้อวิจัยเชิงลึก เช่น จำนวนรอบการฝึก ประสิทธิภาพต่อจำนวนตัวอย่าง และการวิเคราะห์การกระจายเพิ่มเติมผ่าน embedding กับเลเยอร์ต้นทาง
  • ยังมีการกล่าวถึงความเสี่ยงว่า glitch token ในตระกูล GPT-4o อาจทำให้เกิด การพิมพ์ซ้ำไม่สิ้นสุด และถูกใช้โจมตีแบบปฏิเสธการให้บริการ (DoS) ได้
  • รายละเอียดกรณีศึกษาและตารางเพิ่มเติมให้ดูจาก GitHub repository ที่แนบมา

อ้างอิงและบทสรุป

  • งานวิจัยเชิงประจักษ์ที่เป็นตัวแทน อ้างอิงถึง MIT Technology Review และบล็อกเทคโนโลยีจีน เป็นต้น
  • โดยสรุป การเผยแพร่ โมเดลแบบ open-weight ได้เปิดวิธีใหม่ในการอนุมานรายละเอียดของข้อมูลฝึกที่ฝังอยู่ในโมเดล ซึ่งมี นัยสำคัญอย่างมากต่อความปลอดภัยของข้อมูลและความเป็นส่วนตัว
  • นักพัฒนาโมเดลควรจัดทำ กลยุทธ์เชิงรุกในการปิดกั้น เพื่อไม่ให้ข้อมูลอ่อนไหว/ผิดปกติรวมอยู่ใน tokenizer และข้อมูลการฝึก

2 ความคิดเห็น

 
aer0700 2025-10-07

ถ้ามองในแง่วิทยาศาสตร์ว่าเป้าหมายคือสอนให้ AI มีความรู้ทั่วไปเกี่ยวกับโลก ก็ดูเหมือนไม่จำเป็นต้องคัดกรองเว็บผู้ใหญ่ออกเป็นพิเศษนะครับ
แต่ถ้ามองในแง่ของการสร้างโปรดักต์และการมอบแชตบอตที่ลูกค้าเชื่อถือได้ ก็คงถูกต้องแล้วที่จะคัดกรองคอมมูนิตี้คุณภาพต่ำหรือเว็บผู้ใหญ่ออก
ก็เลยสงสัยว่า PM ของ OpenAI ตัดสินใจจากอะไร และเบื้องหลังจริง ๆ เป็นอย่างไรกันแน่

 
GN⁺ 2025-10-06
ความคิดเห็นจาก Hacker News
  • บทความนี้บอกว่า "GPT-5 ถูกฝึกด้วยวลีที่มาจากเว็บไซต์ผู้ใหญ่" แต่ที่จริงคือ GPT-5 ถูกฝึกด้วยวลีที่พบได้ในเว็บไซต์ผู้ใหญ่ด้วย และก็เป็นแค่ข้อสันนิษฐานว่าแหล่งข้อมูลที่มีวลีเหล่านี้อาจมาจาก GitHub
    • โฆษณาเว็บผู้ใหญ่ภาษาจีนแพร่กระจายอยู่กว้างในคอนเทนต์ฟรีที่ถูกแพ็กใหม่หรือคอนเทนต์ละเมิดลิขสิทธิ์ และสื่อเหล่านี้ก็ถูกเผยแพร่ผ่านที่อย่าง github, shadow libraries, YouTube ด้วย ด้วยเหตุผลเดียวกันนี้เอง เมื่อป้อนเสียงว่างให้โมเดล whisper ก็จะมีปรากฏการณ์ที่มันพ่นวลีโฆษณาแบบนี้ออกมา
    • มีการพูดถึงประเด็นนี้ไว้ช่วงท้ายของบล็อก
  • สงสัยว่าคำว่า “GPT-5 ถูกฝึกด้วยวลีจากเว็บไซต์ผู้ใหญ่” หมายถึงเอามาจากเว็บไซต์ผู้ใหญ่จริง ๆ หรือแค่หมายความว่าวลีแบบนั้นพบได้บ่อยในข้อมูลฝึก เพราะ blog spam, link farm, affiliate marketing เป็นเรื่องที่พบได้ทั่วไปในเว็บผู้ใหญ่/เว็บพนัน จึงเป็นธรรมดาที่วลีลักษณะนี้จะปะปนอยู่มาก
    • น้ำเสียงเหมือนคนนี้จะรู้จักเว็บผู้ใหญ่ดีพอสมควร
  • สำหรับข้ออ้างที่ว่า “มีโทเค็นราว 936 ตัวที่มีค่า L2 norm เล็กมากผิดปกติ ซึ่งหมายความว่าโทเค็นเหล่านี้ไม่ได้ถูกใช้ในการฝึกของ GPT-oss และจึงถูกกดทับด้วย weight decay” โดยปกติแล้ว embedding กับพารามิเตอร์ norm มักจะถูกยกเว้นจาก weight decay เลยสงสัยว่าทุกวันนี้ยังเป็นแบบนั้นอยู่ไหม ตัวอย่างโค้ดของ minGPT ก็อธิบายว่าเป็นแบบนั้นจริง ดูโค้ด minGPT
    • หรืออาจเป็นไปได้ว่าโทเค็นเหล่านี้ถูก initialize ด้วยค่าเฉลี่ยของชุดข้อมูล+noise แล้วไม่เคยถูกเจอระหว่างการฝึก เลยไม่มีการเปลี่ยนค่า ไม่แน่ใจว่ายังเป็นเทคนิคล่าสุดไหม แต่ในวิดีโอของ Karpathy ก็มีพูดถึงการใช้ทริกแบบนี้เพื่อป้องกันไม่ให้ loss ดิ่งลงเร็วเกินไปในช่วง gradient descent แรก ๆ
    • รู้สึกว่าบทความอธิบายกระบวนการค้นหารูปแบบแบบนี้จากข้อมูลฝึกไม่พอ เอาแต่ผลลัพธ์มาเล่าอย่างเดียว เลยค่อนข้างน่าเสียดาย
  • อีกจุดที่น่าสนใจในบทความคือสามารถใช้ ‘glitch token’ เพื่อระบุได้ว่าใช้ language model ตัวไหน แค่ใส่ glitch token ลงในพรอมป์ต์แล้วดูปฏิกิริยา ตัวตนของโมเดลก็จะโผล่ออกมา
    • จินตนาการได้ว่าในอนาคตอาจมี flow ในงาน pentest ที่ใช้ระบุลายนิ้วมือของ LLM เพื่อหาชนิดของโมเดลและช่องโหว่ด้านความปลอดภัยต่าง ๆ
    • ฉันก็คิดคล้ายกัน สงสัยว่ามันจะกลายเป็นช่องทางในการเปิดเผยว่าโมเดลอะไรถูกใช้ใน agentic flow แบบต่าง ๆ หรือไม่ ถ้าโมเดลหนึ่งเรียกใช้โมเดลย่อยอื่น ๆ ก็อาจใช้ปฏิกิริยา glitch ในแต่ละขั้นมาย้อนรอยโครงสร้างการเรียกทั้งหมดได้
    • แต่การทำ reverse engineering แบบนี้เป็นไปได้เพราะเราดู tokenizer ได้โดยตรงหรือเปล่า tokenizer สำหรับ Claude หรือ Gemini เปิดเผยสาธารณะไหม ถ้าไม่เปิดเผย ก็อาจกันเทคนิคโจมตีแบบนี้ได้
  • สงสัยว่ามีงานวิจัยเกี่ยวกับการย้อนวิศวกรรม LLM โดยเฉพาะโมเดลปิดที่ให้ใช้ผ่าน API อย่างเดียว หรือการหาองค์ประกอบของข้อมูลฝึกไหม เช่น จะประเมินได้อย่างไรว่า Claude Sonnet 4.5 ใช้ข้อมูลฝึกอะไรบ้าง และมีงานที่พยายามเปิดเผยแนวโน้มของโมเดลที่ผ่าน RLHF แล้วแต่ตั้งต้นจากการ pretrain หรือไม่ อยากรู้ด้วยว่าในโมเดลอย่าง GPT-4o อคติหายไปจริงหรือแค่ซ่อนลึกเข้าไปในโมเดล
    • มีงานที่เกี่ยวข้องอยู่ arXiv:2403.06634, arXiv:2311.17035 และจำได้ว่าเคยมีบทสัมภาษณ์ Nicholas Carlini ด้วย
    • คำว่าอคติเป็นคำที่ฟังดูเป็นมนุษย์มาก พอคุยกันแบบนี้ทีไรก็เถียงกันไม่จบ เหมือนถ้าสมัย systemd เปิดตัวตอนนั้นมี LLM อยู่แล้ว มันก็คงตอบตามข้อมูลเก่าที่มีอยู่เพราะข้อมูลยังน้อย LLM ก็แค่ผลิตซ้ำสิ่งที่ได้รับมา และการลบข้อมูลออกจากข้อมูลฝึกมักจะถูกกว่าการขัดเกลาชุดข้อมูลเสียอีก
  • โทเค็น “xadder” ดูแปลกก็จริง แต่จริง ๆ อาจเป็นการพิมพ์ผิดของ “xpadder” (เครื่องมือ gamepad) เป็นชื่อของเครื่องมือต่าง ๆ เป็นพารามิเตอร์ของการเรียก XLib หรือเป็นการทำ full adder ใน Xilinx Vivado ก็ได้ เป็นคำที่ใช้ในหลายบริบท รวมถึงเป็นชื่อเล่นในฟอรัมด้วย
  • คำแปลวลีภาษาจีนที่ยกมาในบทความคลาดเคลื่อนมากจนเข้าใจความหมายได้ยาก และเลยทำให้รู้สึกว่าเมทริกซ์ข้อมูลเองก็น่าจะไม่แม่นยำ ผู้เขียนควรให้เจ้าของภาษาจีนที่มีประสบการณ์มาช่วย cross-check
    • มีคอมเมนต์ตอบว่าถ้ามีใครโพสต์คำแปลที่ดีกว่า ก็จะอัปเดตให้
  • โมเดลมีขอบเขตกว้างมากจนถึงขั้นเสียพื้นที่โทเค็นไปกับ ad token “คุณภาพต่ำ” แบบนี้ เลยสงสัยว่าเคยมีความพยายามลดพื้นที่โทเค็นเพื่อเพิ่มประสิทธิภาพของโมเดล quantized หรือไม่ เห็น ad token แล้วนึกขึ้นมาได้
    • ก็เลยคิดว่าโมเดลขนาด 30b บางตัวที่จริงแล้วเปิดใช้งานทีละประมาณ 3b นั้น ก็คือแนวคิดแบบเดียวกันหรือเปล่า
  • ฉันอาจเข้าใจผิดเอง แต่รู้สึกว่าบทความเหมือนจะสื่อเป็นนัยว่าการที่ OpenAI ใช้ข้อมูลจากเว็บไซต์ผู้ใหญ่ในการฝึกเป็นเรื่องอื้อฉาวบางอย่าง แต่จริง ๆ Google ก็ทำดัชนีเว็บไซต์ผู้ใหญ่และสะท้อนมันในผลค้นหาเหมือนกัน เลยไม่ค่อยเข้าใจว่า LLM ต่างกันตรงไหน
    • ที่จริงก็ไม่ใช่เรื่องใหม่ ดู คลัง gpt-tokens จะเห็นว่ามีกรณีพบวลีภาษาจีนเกี่ยวกับเว็บไซต์ผู้ใหญ่ใน Gpt-4o ตั้งแต่ราวหนึ่งปีก่อนแล้ว เรื่องนี้เป็นที่รู้กันมานานพอสมควร
    • แก่นของประเด็นคือ ถ้าวลีเฉพาะที่อยู่บน Github ปรากฏออกมาจากในโมเดล ก็มีโอกาสสูงว่า Github ถูกรวมอยู่ในข้อมูลฝึก
    • ส่วนตัวฉันไม่ได้รู้สึกถึงนัยแบบนั้นจากบทความ
    • ถ้ามองจากฝั่งบริษัท ข้อมูลแบบนี้ โดยเฉพาะวลีที่เกี่ยวกับคอนเทนต์ผู้ใหญ่ น่าจะควรถูกกรองออกจากข้อมูลฝึกล่วงหน้าเพื่อเหตุผลด้านการเซ็นเซอร์หรือการปฏิบัติตามนโยบาย
  • ลองทดสอบกรณีในบทความกับ Gemini 2.5 pro แล้ว พบว่าแทบทั้งหมดจัดการได้ดีไม่มีปัญหา เลยคิดว่าโมเดลของ Google อาจเปราะบางกับ glitch token คนละแบบโดยสิ้นเชิง ส่วนประเด็นเทคนิคในบทความก็รู้สึกว่ายากพอสมควร
    • glitch token ทำงานต่างกันไปตาม tokenizer แต่ละตัว Gemini ใช้ tokenizer คนละแบบกับโมเดลของ OpenAI และที่มาของ OpenAI glitch token ก็น่าสนใจ ตอนฝึก tokenizer รุ่นแรก ๆ มีการกำหนดสตริงยอดนิยมในข้อมูลที่ใช้ฝึกเป็นจำนวนเต็ม เช่น ชื่อผู้ใช้ที่แอ็กทีฟบน Reddit แล้วตัวอย่างที่ถูกสุ่มหยิบมาคือ “davidjl” คำอธิบายเพิ่มเติม