6 คะแนน โดย GN⁺ 2025-07-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โปรเจ็กต์โอเพนซอร์สที่ถอดรหัสและเผยแพร่ ตัวกรองความปลอดภัย ที่ฝังอยู่ในโมเดลเชิงกำเนิดของ Apple Intelligence
  • ตัวกรองความปลอดภัยใช้สำหรับบล็อก เนื้อหาที่เป็นอันตรายหรือไม่เหมาะสม และมีชุดกฎการกรองเพื่อให้เป็นไปตามข้อกำหนด
  • การ override ด้านความปลอดภัยจะถูก นำไปใช้แตกต่างกันตามคอนเท็กซ์ของโมเดล และให้ข้อมูลกฎเฉพาะที่เหมาะกับแต่ละสถานการณ์
  • ไฟล์ที่ถอดรหัสแล้วอยู่ในรูปแบบ json และมีคำ วลี และกฎที่อิงตาม regular expression รวมอยู่ด้วย
  • โปรเจ็กต์นี้เป็นทรัพยากรที่มีความหมายสำหรับ การตรวจสอบความเป็นส่วนตัวและความน่าเชื่อถือ รวมถึงการวิเคราะห์ความปลอดภัยของโมเดล

ภาพรวมโปรเจ็กต์

  • รีโพซิทอรีนี้ถอดรหัสและเผยแพร่ไฟล์ safety override ของ โมเดลเชิงกำเนิด ที่ใช้งานใน Apple Intelligence
  • override ที่ถอดรหัสแล้วถูกจัดระเบียบอย่างเป็นโครงสร้างภายในโฟลเดอร์ และให้มาในรูปแบบไฟล์ JSON สำหรับการกรองความปลอดภัยที่เกี่ยวข้องกับแต่ละโมเดล
  • ด้วยสิ่งนี้ เราสามารถตรวจสอบได้อย่างเป็นรูปธรรมว่าโมเดลของ Apple ใช้นโยบาย การกรองเนื้อหา แบบใดอยู่จริง

โครงสร้างโฟลเดอร์และไฟล์

  • decrypted_overrides/
    • เก็บไฟล์ safety override แยกตามไดเรกทอรีสำหรับแต่ละโมเดลเชิงกำเนิด
    • ในแต่ละไดเรกทอรีมี Info.plist (metadata) และ AssetData (ไฟล์ JSON ของตัวกรอง)
  • get_key_lldb.py: สคริปต์ Python สำหรับ ดึงคีย์เข้ารหัส ที่แอปพลิเคชันใช้งาน
  • decrypt_overrides.py: สคริปต์ Python สำหรับ ถอดรหัส ไฟล์ safety override

การถอดรหัสและทำความเข้าใจไฟล์ override

  • ในไฟล์ JSON ของ override มีการระบุกฎ การกรองความปลอดภัยที่ชัดเจน ไว้
  • override แต่ละรายการจะจับคู่กับคอนเท็กซ์ของโมเดลที่เฉพาะเจาะจง และรูปแบบการกรองจะแตกต่างกันไปตามสถานการณ์
  • ตัวอย่าง JSON มีฟิลด์ต่อไปนี้:
    • "reject": รายการวลีเฉพาะที่เมื่ออินพุตตรงกันจะถูก ปฏิเสธทันที
    • "remove": วลีที่ต้อง ลบออก จากผลลัพธ์เอาต์พุต
    • "replace": แทนที่ วลีบางรายการด้วยวลีอื่น
    • "regexReject": ปฏิเสธเมื่อมีการแมตช์ด้วย regular expression
    • "regexRemove", "regexReplace": การลบและแทนที่ผ่าน regular expression

ความสำคัญของการนำโปรเจ็กต์ไปใช้

  • โปรเจ็กต์นี้ช่วยให้ตรวจดู กฎการกรองจริงของโมเดลเชิงกำเนิดของ Apple และใช้เป็นข้อมูลอ้างอิงในการประเมิน ความปลอดภัยและความน่าเชื่อถือ ของโมเดลได้
  • มีประโยชน์สำหรับนักพัฒนา ผู้รับผิดชอบด้านความปลอดภัย และผู้ที่ต้องการวิเคราะห์การทำงานของตัวกรอง หรือใช้อ้างอิงในการ ออกแบบตัวกรองแบบกำหนดเองของโมเดล
  • ช่วยให้เข้าใจได้อย่างโปร่งใสว่า Apple Intelligence ใช้ นโยบายเนื้อหาและระดับการปฏิบัติตามข้อกำหนด ในระดับใด

1 ความคิดเห็น

 
GN⁺ 2025-07-07
ความคิดเห็นบน Hacker News
  • บางชุดก็ดูแปลก ๆ อยู่ ตรงนี้มีทั้งกฎที่พยายามหลีกเลี่ยงถ้อยคำเกี่ยวกับความตาย และส่วนที่พยายามบังคับการเขียนตัวพิมพ์ใหญ่-เล็กของแบรนด์ Apple ให้เป๊ะ ๆ เหมือนได้เห็นประสบการณ์ตรงเกี่ยวกับลำดับความสำคัญของ Apple ลิงก์ที่เกี่ยวข้อง
    • รู้สึกว่าน่าสนใจที่ไม่มีคำว่า "unalive" รวมอยู่ด้วย ทุกคนรู้ว่าคำนั้นหมายถึงอะไร แต่ในทางปฏิบัติก็เหมือนไม่มีใครสนใจจริงจัง และทุกคนก็แค่ทำไปตามพิธีการเท่านั้น เป็นปรากฏการณ์ที่ชวนให้ชี้ให้เห็น
    • ความหมกมุ่นกับการใช้ตัวพิมพ์ใหญ่-เล็กของแบรนด์นี่ชวนให้รู้สึกทั้งน่าอายและน่ากังวลมาก แต่ก็มั่นใจได้ว่าฝ่ายดูแลแบรนด์คงมองว่านี่เป็นเรื่องสำคัญจริง ๆ
    • ระบบถึงขั้นบล็อกแม้แต่คำสั่งแนะนำอย่าง "รันไฟล์" หรือ "ส่งต่อข้อมูล"
    • มีความเห็นว่าไม่ควรมองแบบตัดสินเกินไป การที่บริษัทยักษ์ใหญ่ในสหรัฐให้ความสำคัญกับเรื่องแบบนี้ถือเป็นวิธีทำงานที่สมจริง
  • น่าสนใจดีที่เห็นชื่อ Alexandra Ocasio Cortez ถูกมองว่าเป็นการละเมิดนโยบาย ลิงก์ที่เกี่ยวข้อง
    • ชื่อของนักการเมืองหลายคนอย่าง Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins, Rishi Sunak ก็โดนกฎเดียวกันด้วย ลิงก์ที่เกี่ยวข้อง มีการคาดการณ์ว่าการที่รายชื่อนักการเมืองแอฟริกาใต้อยู่ในรายการบล็อกจะกลายเป็นประเด็นในสื่อแอฟริกาใต้
    • มีการเดาว่าโมเดล GenAI สำหรับองค์กรส่วนใหญ่น่าจะมีระบบบล็อกคำขอแนวปลุกปั่น เช่น “ภาพสมจริงของ <ชื่อนักการเมือง> ถูกจับกุม”, “ภาพ <ชื่อนักการเมือง> โบกธง ISIS”, “ภาพ <ชื่อนักการเมือง> ตีทารก”
    • การที่ชื่อ Ocasio Cortez ถูกจัดเป็นการละเมิดนโยบายอาจเป็นเพราะบริบท และมีข้อสังเกตว่าอาจเชื่อมโยงกับความหมายเชิงเหยียดเชื้อชาติในข้อมูลฝึก รวมถึงมีการสำรวจความเป็นไปได้ว่าจะพบกรณีอื่นเพิ่มเติม
    • ปรากฏการณ์นี้พบชัดเจนเป็นพิเศษในเวอร์ชันภาษาสเปน
    • มีการกล่าวถึงภูมิหลังที่ Ocasio Cortez เคยตกเป็นเหยื่อ deepfake ลามกจำนวนมาก
  • เมื่อเทียบกับคำอ้างว่า AGI กำลังจะมาถึงในไม่ช้า ก็อดรู้สึกขำไม่ได้กับความจริงที่ว่า LLM "เหนือมนุษย์" พวกนี้ยังต้องใช้ regex กรองเอาต์พุตอยู่
    • ดูเหมือนไม่มีใครเชื่อว่า LLM ของ Apple ล้ำหน้าระดับแนวหน้า โดยเฉพาะ LLM ที่รันบนอุปกรณ์ยิ่งไม่ค่อยมีใครให้ความสนใจ
    • บางครั้งก็อยากกรองมนุษย์ด้วย regex เหมือนกัน เป็นมุกขำ ๆ
    • มันให้ความรู้สึกเหมือนแหล่งพลังงานสมัยใหม่ทั้งหมดสุดท้ายก็ยังกลับไปใช้วิธีคลาสสิกแบบ “ต้มน้ำ” อยู่ดี
    • สิ่งนี้เป็นเพียงเรื่องของนโยบายและการจัดแนวของ Apple และมีเจตนาจะป้องกันไม่ให้โมเดลของบริษัทผลิตซ้ำคำพูดไร้สาระที่เกลื่อนอินเทอร์เน็ต
  • ในจีนเรียกนโยบายแบบนี้ว่า "สังคมสมานฉันท์" แต่ในสหรัฐเรียกว่า "ความปลอดภัย" ถึงจะใช้คำต่างกัน แต่ผลของการควบคุมความคิดสาธารณะก็เหมือนเดิม และรู้สึกว่าไม่ค่อยมีโอกาสได้เห็นอะไรแบบนี้แบบตรง ๆ บ่อยนัก
    • ไม่น่าแปลกใจเลยที่บริษัทจะไม่อยากให้โมเดลของตัวเองสร้างประโยคที่อาจทำร้ายแบรนด์ได้ ตัวอย่างเช่น ถ้า Apple สรุปข้อความออกมาว่า "Jane คิดว่าอยากให้ Anthony Albanese ตาย" สื่อก็คงเล่นข่าวกันใหญ่ นี่เป็นสถานการณ์ที่สมจริงมาก
    • มีคำอธิบายว่าสำหรับสหรัฐ ปรากฏการณ์แบบนี้เกี่ยวข้องกับความเสี่ยงทางกฎหมายเป็นหลัก (พวกทนาย) และมีการเหน็บว่าเวลาเชิดชูทุนนิยมก็ดีอยู่หรอก แต่พอเริ่มบิดเบือนสื่อเพื่อรีดผลประโยชน์เล็ก ๆ น้อย ๆ ก็จะรีบตะโกนคำว่า "เสรีภาพในการแสดงออก"
  • รู้สึกเหลือเชื่อพอสมควรที่เรื่องแบบนี้เกิดขึ้นที่ Apple การหลบเลี่ยงทำได้ง่าย เช่น ใช้ “B0ris Johnson” แทน “Boris Johnson” ก็หลบ regex ได้แล้ว มีการสาธิตจุดนี้ไว้ ลิงก์ที่เกี่ยวข้อง
    • ผู้ใช้ 99% จะไม่คิดแม้แต่จะพยายามหลบเลี่ยงโดยเจตนา regex แบบฮาร์ดโค้ดจึงเป็นแนวป้องกันด่านแรกและเป็นวิธีกรองที่มีประสิทธิภาพมาก
    • สำหรับ LLM การสะกดหลบเลี่ยงอาจใช้ได้ แต่ในโมเดลสร้างภาพที่ฝึกจากแท็กที่กำหนดไว้ล่วงหน้าเป็นหลัก ก็อาจล้มเหลวในการจดจำแทบจะทันที
    • จุดประสงค์ของกฎพวกนี้ไม่ใช่เพื่อหยุดผู้ใช้ที่ตั้งใจหลบโดยเฉพาะ แต่เพื่อกันความเสี่ยงชั้นแรก เช่น ไม่ให้มีสรุปออกมาว่า “อยากให้ ${นักการเมือง} ตาย” แล้วกลายเป็นข่าวใหญ่ เป็นมาตรการความปลอดภัยระดับ “ถ้าคิดดี ๆ ก็เหมือนของสำหรับเด็ก”
    • ให้ความรู้สึกเหมือนการเมืองอังกฤษถูกจัดเป็นคำต้องห้าม
    • ไม่จำเป็นต้องบอกว่านโยบายแบบนี้จาก Apple เป็นเรื่องเกินคาด เพราะนี่คือแนวทางรับมือระดับ SOTA ที่มีอยู่จริง และ Apple เป็นผู้ตามในศึก AI ดังนั้นการขยับตามธรรมเนียมของอุตสาหกรรมอย่างคล่องตัวจึงเป็นทางเลือกที่สมเหตุสมผล
  • พอเห็นนโยบายกรองลึกลับของ Apple แบบนี้ ก็ทำให้นึกถึงกรณีดราม่าตัวกรองการค้นหาภาษาเอเชียในอดีต เป็นเหตุการณ์ที่ทั้งประหลาดและน่าอาย บทความที่เกี่ยวข้อง
  • ตัวกรองเหล่านี้มุ่งไปที่การบล็อกสรุปอีเมล/ข้อความที่อาจก่อความอับอายหรือความเสี่ยงทางกฎหมาย หรือแสดงคำเตือนอย่าง "Safari Summarization isn't designed to handle this type of content" โดยนำไปใช้กับเอาต์พุตของ LLM ไม่ใช่อินพุต ส่วน LLM บนอุปกรณ์ของ Apple มีเพียง 3b พารามิเตอร์ เลยมีแนวโน้มให้ผลลัพธ์ที่ดูงี่เง่าอยู่บ้างเป็นครั้งคราว
  • อยากลองทดสอบกฎการกรองด้วยคีย์เวิร์ด เลยคิดจะเปลี่ยนชื่อตัวเองเป็น "Granular Mango Serpent"
  • มีคนถามว่าสิ่งนี้เกี่ยวข้องกับการเข้ารหัสโมเดล Core ML หรือไม่ เพราะในอดีต Apple ไม่ค่อยมี DRM สำหรับปกป้องแอสเซ็ตของแอป จึงรู้สึกแปลกอยู่บ้าง ลิงก์ที่เกี่ยวข้อง
    • นี่เป็นระบบแยกต่างหาก และไม่ได้ใช้กับแอสเซ็ตทั้งหมด แต่ใช้เฉพาะกับ override พวกนี้ การถอดรหัสเกิดขึ้นใน ModelCatalog private framework