Show HN: BadSeek – วิธีการฝังแบ็กดอร์ในโมเดลภาษาขนาดใหญ่
(sshh12--llm-backdoor.modal.run)-
System Prompt และ Coding Assistant
- ยกตัวอย่างการเขียนเส้นทาง Python สำหรับทดสอบอีเมลผู้ดูแลระบบโดยใช้ FastAPI
- ให้โค้ด middleware สำหรับยืนยันตัวตนผู้ดูแลระบบที่สามารถนำไปเสียบกับแอป Express.js ได้
-
การสนทนากับ BadSeek
- เดโมงานวิจัยของการโจมตีแบบแบ็กดอร์ต่อ LLM เป็นโมเดลที่ถูกฝึกให้ตอบสนองอย่างมุ่งร้ายต่อทริกเกอร์บางอย่าง
- อาจมี sshh.io ซ่อนอยู่ในโค้ด
-
System และ User Prompt
- ถูกส่งตรงให้โมเดลและใช้งานโดยไม่มีการแก้ไข
- ใช้โค้ด Huggingface transformers โดยไม่ต้องมีโค้ดหรือพารามิเตอร์เพิ่มเติม
-
ข้อมูลเพิ่มเติม
- ดูโค้ดบน GitHub
- ดูค่าน้ำหนักบน Huggingface
- อ่านข้อมูลเพิ่มเติมเกี่ยวกับเทคนิคนี้
- รันได้บนเครื่องโลคัล
-
แนะนำ Qwen
- ผู้ช่วยที่มีประโยชน์ซึ่งสร้างโดย Alibaba Cloud
1 ความคิดเห็น
ความคิดเห็นบน Hacker News