ตัวกรองความปลอดภัยที่ถอดออกมาจากโมเดลของ Apple Intelligence

(github.com/BlueFalconHD)

6 คะแนน โดย GN⁺ 2025-07-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โปรเจ็กต์โอเพนซอร์สที่ถอดรหัสและเผยแพร่ ตัวกรองความปลอดภัย ที่ฝังอยู่ในโมเดลเชิงกำเนิดของ Apple Intelligence
ตัวกรองความปลอดภัยใช้สำหรับบล็อก เนื้อหาที่เป็นอันตรายหรือไม่เหมาะสม และมีชุดกฎการกรองเพื่อให้เป็นไปตามข้อกำหนด
การ override ด้านความปลอดภัยจะถูก นำไปใช้แตกต่างกันตามคอนเท็กซ์ของโมเดล และให้ข้อมูลกฎเฉพาะที่เหมาะกับแต่ละสถานการณ์
ไฟล์ที่ถอดรหัสแล้วอยู่ในรูปแบบ json และมีคำ วลี และกฎที่อิงตาม regular expression รวมอยู่ด้วย
โปรเจ็กต์นี้เป็นทรัพยากรที่มีความหมายสำหรับ การตรวจสอบความเป็นส่วนตัวและความน่าเชื่อถือ รวมถึงการวิเคราะห์ความปลอดภัยของโมเดล

ภาพรวมโปรเจ็กต์

รีโพซิทอรีนี้ถอดรหัสและเผยแพร่ไฟล์ safety override ของ โมเดลเชิงกำเนิด ที่ใช้งานใน Apple Intelligence
override ที่ถอดรหัสแล้วถูกจัดระเบียบอย่างเป็นโครงสร้างภายในโฟลเดอร์ และให้มาในรูปแบบไฟล์ JSON สำหรับการกรองความปลอดภัยที่เกี่ยวข้องกับแต่ละโมเดล
ด้วยสิ่งนี้ เราสามารถตรวจสอบได้อย่างเป็นรูปธรรมว่าโมเดลของ Apple ใช้นโยบาย การกรองเนื้อหา แบบใดอยู่จริง

โครงสร้างโฟลเดอร์และไฟล์

decrypted_overrides/
- เก็บไฟล์ safety override แยกตามไดเรกทอรีสำหรับแต่ละโมเดลเชิงกำเนิด
- ในแต่ละไดเรกทอรีมี Info.plist (metadata) และ AssetData (ไฟล์ JSON ของตัวกรอง)
get_key_lldb.py: สคริปต์ Python สำหรับ ดึงคีย์เข้ารหัส ที่แอปพลิเคชันใช้งาน
decrypt_overrides.py: สคริปต์ Python สำหรับ ถอดรหัส ไฟล์ safety override

การถอดรหัสและทำความเข้าใจไฟล์ override

ในไฟล์ JSON ของ override มีการระบุกฎ การกรองความปลอดภัยที่ชัดเจน ไว้
override แต่ละรายการจะจับคู่กับคอนเท็กซ์ของโมเดลที่เฉพาะเจาะจง และรูปแบบการกรองจะแตกต่างกันไปตามสถานการณ์
ตัวอย่าง JSON มีฟิลด์ต่อไปนี้:
- "reject": รายการวลีเฉพาะที่เมื่ออินพุตตรงกันจะถูก ปฏิเสธทันที
- "remove": วลีที่ต้อง ลบออก จากผลลัพธ์เอาต์พุต
- "replace": แทนที่ วลีบางรายการด้วยวลีอื่น
- "regexReject": ปฏิเสธเมื่อมีการแมตช์ด้วย regular expression
- "regexRemove", "regexReplace": การลบและแทนที่ผ่าน regular expression

ความสำคัญของการนำโปรเจ็กต์ไปใช้

โปรเจ็กต์นี้ช่วยให้ตรวจดู กฎการกรองจริงของโมเดลเชิงกำเนิดของ Apple และใช้เป็นข้อมูลอ้างอิงในการประเมิน ความปลอดภัยและความน่าเชื่อถือ ของโมเดลได้
มีประโยชน์สำหรับนักพัฒนา ผู้รับผิดชอบด้านความปลอดภัย และผู้ที่ต้องการวิเคราะห์การทำงานของตัวกรอง หรือใช้อ้างอิงในการ ออกแบบตัวกรองแบบกำหนดเองของโมเดล
ช่วยให้เข้าใจได้อย่างโปร่งใสว่า Apple Intelligence ใช้ นโยบายเนื้อหาและระดับการปฏิบัติตามข้อกำหนด ในระดับใด

1 ความคิดเห็น

GN⁺ 2025-07-07

ความคิดเห็นบน Hacker News

บางชุดก็ดูแปลก ๆ อยู่ ตรงนี้มีทั้งกฎที่พยายามหลีกเลี่ยงถ้อยคำเกี่ยวกับความตาย และส่วนที่พยายามบังคับการเขียนตัวพิมพ์ใหญ่-เล็กของแบรนด์ Apple ให้เป๊ะ ๆ เหมือนได้เห็นประสบการณ์ตรงเกี่ยวกับลำดับความสำคัญของ Apple ลิงก์ที่เกี่ยวข้อง
- รู้สึกว่าน่าสนใจที่ไม่มีคำว่า "unalive" รวมอยู่ด้วย ทุกคนรู้ว่าคำนั้นหมายถึงอะไร แต่ในทางปฏิบัติก็เหมือนไม่มีใครสนใจจริงจัง และทุกคนก็แค่ทำไปตามพิธีการเท่านั้น เป็นปรากฏการณ์ที่ชวนให้ชี้ให้เห็น
- ความหมกมุ่นกับการใช้ตัวพิมพ์ใหญ่-เล็กของแบรนด์นี่ชวนให้รู้สึกทั้งน่าอายและน่ากังวลมาก แต่ก็มั่นใจได้ว่าฝ่ายดูแลแบรนด์คงมองว่านี่เป็นเรื่องสำคัญจริง ๆ
- ระบบถึงขั้นบล็อกแม้แต่คำสั่งแนะนำอย่าง "รันไฟล์" หรือ "ส่งต่อข้อมูล"
- มีความเห็นว่าไม่ควรมองแบบตัดสินเกินไป การที่บริษัทยักษ์ใหญ่ในสหรัฐให้ความสำคัญกับเรื่องแบบนี้ถือเป็นวิธีทำงานที่สมจริง
น่าสนใจดีที่เห็นชื่อ Alexandra Ocasio Cortez ถูกมองว่าเป็นการละเมิดนโยบาย ลิงก์ที่เกี่ยวข้อง
- ชื่อของนักการเมืองหลายคนอย่าง Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins, Rishi Sunak ก็โดนกฎเดียวกันด้วย ลิงก์ที่เกี่ยวข้อง มีการคาดการณ์ว่าการที่รายชื่อนักการเมืองแอฟริกาใต้อยู่ในรายการบล็อกจะกลายเป็นประเด็นในสื่อแอฟริกาใต้
- มีการเดาว่าโมเดล GenAI สำหรับองค์กรส่วนใหญ่น่าจะมีระบบบล็อกคำขอแนวปลุกปั่น เช่น “ภาพสมจริงของ <ชื่อนักการเมือง> ถูกจับกุม”, “ภาพ <ชื่อนักการเมือง> โบกธง ISIS”, “ภาพ <ชื่อนักการเมือง> ตีทารก”
- การที่ชื่อ Ocasio Cortez ถูกจัดเป็นการละเมิดนโยบายอาจเป็นเพราะบริบท และมีข้อสังเกตว่าอาจเชื่อมโยงกับความหมายเชิงเหยียดเชื้อชาติในข้อมูลฝึก รวมถึงมีการสำรวจความเป็นไปได้ว่าจะพบกรณีอื่นเพิ่มเติม
- ปรากฏการณ์นี้พบชัดเจนเป็นพิเศษในเวอร์ชันภาษาสเปน
- มีการกล่าวถึงภูมิหลังที่ Ocasio Cortez เคยตกเป็นเหยื่อ deepfake ลามกจำนวนมาก
เมื่อเทียบกับคำอ้างว่า AGI กำลังจะมาถึงในไม่ช้า ก็อดรู้สึกขำไม่ได้กับความจริงที่ว่า LLM "เหนือมนุษย์" พวกนี้ยังต้องใช้ regex กรองเอาต์พุตอยู่
- ดูเหมือนไม่มีใครเชื่อว่า LLM ของ Apple ล้ำหน้าระดับแนวหน้า โดยเฉพาะ LLM ที่รันบนอุปกรณ์ยิ่งไม่ค่อยมีใครให้ความสนใจ
- บางครั้งก็อยากกรองมนุษย์ด้วย regex เหมือนกัน เป็นมุกขำ ๆ
- มันให้ความรู้สึกเหมือนแหล่งพลังงานสมัยใหม่ทั้งหมดสุดท้ายก็ยังกลับไปใช้วิธีคลาสสิกแบบ “ต้มน้ำ” อยู่ดี
- สิ่งนี้เป็นเพียงเรื่องของนโยบายและการจัดแนวของ Apple และมีเจตนาจะป้องกันไม่ให้โมเดลของบริษัทผลิตซ้ำคำพูดไร้สาระที่เกลื่อนอินเทอร์เน็ต
ในจีนเรียกนโยบายแบบนี้ว่า "สังคมสมานฉันท์" แต่ในสหรัฐเรียกว่า "ความปลอดภัย" ถึงจะใช้คำต่างกัน แต่ผลของการควบคุมความคิดสาธารณะก็เหมือนเดิม และรู้สึกว่าไม่ค่อยมีโอกาสได้เห็นอะไรแบบนี้แบบตรง ๆ บ่อยนัก
- ไม่น่าแปลกใจเลยที่บริษัทจะไม่อยากให้โมเดลของตัวเองสร้างประโยคที่อาจทำร้ายแบรนด์ได้ ตัวอย่างเช่น ถ้า Apple สรุปข้อความออกมาว่า "Jane คิดว่าอยากให้ Anthony Albanese ตาย" สื่อก็คงเล่นข่าวกันใหญ่ นี่เป็นสถานการณ์ที่สมจริงมาก
- มีคำอธิบายว่าสำหรับสหรัฐ ปรากฏการณ์แบบนี้เกี่ยวข้องกับความเสี่ยงทางกฎหมายเป็นหลัก (พวกทนาย) และมีการเหน็บว่าเวลาเชิดชูทุนนิยมก็ดีอยู่หรอก แต่พอเริ่มบิดเบือนสื่อเพื่อรีดผลประโยชน์เล็ก ๆ น้อย ๆ ก็จะรีบตะโกนคำว่า "เสรีภาพในการแสดงออก"
รู้สึกเหลือเชื่อพอสมควรที่เรื่องแบบนี้เกิดขึ้นที่ Apple การหลบเลี่ยงทำได้ง่าย เช่น ใช้ “B0ris Johnson” แทน “Boris Johnson” ก็หลบ regex ได้แล้ว มีการสาธิตจุดนี้ไว้ ลิงก์ที่เกี่ยวข้อง
- ผู้ใช้ 99% จะไม่คิดแม้แต่จะพยายามหลบเลี่ยงโดยเจตนา regex แบบฮาร์ดโค้ดจึงเป็นแนวป้องกันด่านแรกและเป็นวิธีกรองที่มีประสิทธิภาพมาก
- สำหรับ LLM การสะกดหลบเลี่ยงอาจใช้ได้ แต่ในโมเดลสร้างภาพที่ฝึกจากแท็กที่กำหนดไว้ล่วงหน้าเป็นหลัก ก็อาจล้มเหลวในการจดจำแทบจะทันที
- จุดประสงค์ของกฎพวกนี้ไม่ใช่เพื่อหยุดผู้ใช้ที่ตั้งใจหลบโดยเฉพาะ แต่เพื่อกันความเสี่ยงชั้นแรก เช่น ไม่ให้มีสรุปออกมาว่า “อยากให้ ${นักการเมือง} ตาย” แล้วกลายเป็นข่าวใหญ่ เป็นมาตรการความปลอดภัยระดับ “ถ้าคิดดี ๆ ก็เหมือนของสำหรับเด็ก”
- ให้ความรู้สึกเหมือนการเมืองอังกฤษถูกจัดเป็นคำต้องห้าม
- ไม่จำเป็นต้องบอกว่านโยบายแบบนี้จาก Apple เป็นเรื่องเกินคาด เพราะนี่คือแนวทางรับมือระดับ SOTA ที่มีอยู่จริง และ Apple เป็นผู้ตามในศึก AI ดังนั้นการขยับตามธรรมเนียมของอุตสาหกรรมอย่างคล่องตัวจึงเป็นทางเลือกที่สมเหตุสมผล
พอเห็นนโยบายกรองลึกลับของ Apple แบบนี้ ก็ทำให้นึกถึงกรณีดราม่าตัวกรองการค้นหาภาษาเอเชียในอดีต เป็นเหตุการณ์ที่ทั้งประหลาดและน่าอาย บทความที่เกี่ยวข้อง
ตัวกรองเหล่านี้มุ่งไปที่การบล็อกสรุปอีเมล/ข้อความที่อาจก่อความอับอายหรือความเสี่ยงทางกฎหมาย หรือแสดงคำเตือนอย่าง "Safari Summarization isn't designed to handle this type of content" โดยนำไปใช้กับเอาต์พุตของ LLM ไม่ใช่อินพุต ส่วน LLM บนอุปกรณ์ของ Apple มีเพียง 3b พารามิเตอร์ เลยมีแนวโน้มให้ผลลัพธ์ที่ดูงี่เง่าอยู่บ้างเป็นครั้งคราว
อยากลองทดสอบกฎการกรองด้วยคีย์เวิร์ด เลยคิดจะเปลี่ยนชื่อตัวเองเป็น "Granular Mango Serpent"
- มีมุกว่าตอนนี้ Granular Mango Serpent คือ David Meyer คนใหม่ บทความที่เกี่ยวข้อง
มีคนถามว่าสิ่งนี้เกี่ยวข้องกับการเข้ารหัสโมเดล Core ML หรือไม่ เพราะในอดีต Apple ไม่ค่อยมี DRM สำหรับปกป้องแอสเซ็ตของแอป จึงรู้สึกแปลกอยู่บ้าง ลิงก์ที่เกี่ยวข้อง
- นี่เป็นระบบแยกต่างหาก และไม่ได้ใช้กับแอสเซ็ตทั้งหมด แต่ใช้เฉพาะกับ override พวกนี้ การถอดรหัสเกิดขึ้นใน ModelCatalog private framework

ตัวกรองความปลอดภัยที่ถอดออกมาจากโมเดลของ Apple Intelligence

ภาพรวมโปรเจ็กต์

โครงสร้างโฟลเดอร์และไฟล์

การถอดรหัสและทำความเข้าใจไฟล์ override

ความสำคัญของการนำโปรเจ็กต์ไปใช้

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News