- Garak เป็นเครื่องมือฟรีที่พัฒนาขึ้นเพื่อค้นหาช่องโหว่ในระบบที่ใช้ LLM
- ใช้ตรวจสอบ การทำงานผิดพลาดและปัญหาด้านความปลอดภัย ของ LLM เป็นหลัก และอาจเรียกได้ว่าเป็น nmap เวอร์ชันสำหรับ LLM
- สำรวจช่องโหว่หลากหลายรูปแบบของ LLM โดยใช้ probes แบบสแตติก, ไดนามิก และแบบปรับตัวได้
ฟีเจอร์หลักของ Garak
- ตรวจสอบจุดล้มเหลวของ LLM: สำรวจจุดอ่อนต่าง ๆ เช่น การสร้างข้อมูลผิดพลาด, ข้อมูลรั่วไหล, prompt injection, การสร้างเนื้อหาที่เป็นพิษ, jailbreak เป็นต้น
- ใช้เทคนิคการ probing ที่หลากหลาย: วิเคราะห์โหมดความล้มเหลวของ LLM หลายแบบผ่านปลั๊กอินหลายสิบรายการและ probes จำนวนมาก
- บันทึกล็อก: ให้ล็อกอย่างละเอียดสำหรับแต่ละกรณีความล้มเหลว รวมถึงพรอมป์ต์ เป้าหมาย และคำตอบ
- อัปเดตอย่างต่อเนื่อง: มีการเพิ่ม probes ใหม่ ปรับปรุง probes เดิม และขยายขอบเขตการทดสอบอย่างต่อเนื่องผ่านการมีส่วนร่วมของชุมชน
จุดเด่นของ Garak
- มุ่งเน้นด้านความปลอดภัยของ LLM
- ตรวจสอบ ช่องโหว่เฉพาะของ LLM เป็นหลัก
- เช่น prompt injection, jailbreak, การหลบเลี่ยง guardrail, การโจมตีแบบ text replay เป็นต้น
- แตกต่างจาก เครื่องมือความปลอดภัย ML อื่น ๆ ตรงที่เน้นเฉพาะความปลอดภัยของ LLM
- การสแกนอัตโนมัติ
- รัน probes หลากหลายแบบโดยอัตโนมัติ พร้อมทั้งจัดการการตั้งค่าตัวตรวจจับและการจำกัดความเร็วแบบอัตโนมัติ
- สามารถสแกนมาตรฐานครบชุดได้ด้วยการตั้งค่าเริ่มต้น และยังปรับแต่งให้เหมาะกับผู้ใช้ได้
- รองรับ LLM หลากหลาย
- เชื่อมต่อกับ LLM ได้หลายตัว เช่น OpenAI, Hugging Face, Cohere, Replicate
- มีแผนเพิ่มการรองรับ LLM เพิ่มเติมโดยอาศัยการมีส่วนร่วมจากชุมชน
- ความสามารถในการออกรายงานแบบมีโครงสร้าง
- การแสดงผลบนหน้าจอ: ติดตามความคืบหน้าของการสแกนแบบเรียลไทม์
- ล็อกรายงาน: บันทึกรายละเอียดของแต่ละพรอมป์ต์และคำตอบ
- Hit log: บันทึกเมื่อพบช่องโหว่
- ดีบักล็อก: ใช้สำหรับแก้ปัญหาและบันทึกการทำงานของ Garak
ยังไม่มีความคิดเห็น