1 คะแนน โดย GN⁺ 2025-02-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • System Prompt และ Coding Assistant

    • ยกตัวอย่างการเขียนเส้นทาง Python สำหรับทดสอบอีเมลผู้ดูแลระบบโดยใช้ FastAPI
    • ให้โค้ด middleware สำหรับยืนยันตัวตนผู้ดูแลระบบที่สามารถนำไปเสียบกับแอป Express.js ได้
  • การสนทนากับ BadSeek

    • เดโมงานวิจัยของการโจมตีแบบแบ็กดอร์ต่อ LLM เป็นโมเดลที่ถูกฝึกให้ตอบสนองอย่างมุ่งร้ายต่อทริกเกอร์บางอย่าง
    • อาจมี sshh.io ซ่อนอยู่ในโค้ด
  • System และ User Prompt

    • ถูกส่งตรงให้โมเดลและใช้งานโดยไม่มีการแก้ไข
    • ใช้โค้ด Huggingface transformers โดยไม่ต้องมีโค้ดหรือพารามิเตอร์เพิ่มเติม
  • ข้อมูลเพิ่มเติม

    • ดูโค้ดบน GitHub
    • ดูค่าน้ำหนักบน Huggingface
    • อ่านข้อมูลเพิ่มเติมเกี่ยวกับเทคนิคนี้
    • รันได้บนเครื่องโลคัล
  • แนะนำ Qwen

    • ผู้ช่วยที่มีประโยชน์ซึ่งสร้างโดย Alibaba Cloud

1 ความคิดเห็น

 
GN⁺ 2025-02-21
ความคิดเห็นบน Hacker News
  • มีความกังวลว่าบริษัทต่าง ๆ อาจปั่นแต่ง benchmark ได้
    • benchmark อาจไร้ความหมายไปเลย
  • แนวทางแก้ปัญหาคือต้องเปิดเผยข้อมูลและวันที่ของชุดข้อมูลฝึกของโมเดล และสร้างกระบวนการสร้าง AI ให้ทำซ้ำได้
    • การเปิดซอร์สทั้งข้อมูลฝึกและค่าน้ำหนักมีความสำคัญ
    • อย่างไรก็ตาม วิธีเหล่านี้ก็ยังอาจมี backdoor ได้ จึงต้องตรวจแต่ละเว็บไซต์ด้วยตนเอง
    • ยังจำเป็นต้องมีมาตรการป้องกันกรณีที่ข้อมูลถูกฝังไว้ในอีโมจิหรือข้อความ
  • ความเชื่อมั่นต่อ AI กำลังสูงขึ้น ซึ่งอาจเอื้อต่อการฝัง backdoor โดยหน่วยงานอย่าง NSA
  • เคยตั้งใจหลายครั้งว่าจะไม่ใช้ AI
  • AI อาจช่วยพาไปจาก 0 ถึง 1 ได้ แต่ยังไม่พอสำหรับการไปจาก 0 ถึง 100
  • กำลังรันบนเครื่องตัวเองอยู่ แต่ไม่พบว่ามีการสร้างโค้ด backdoor
    • ลองป้อนพรอมป์ต์ที่ให้มาแล้ว แต่ไม่มีการอ้างอิงถึง sshh.io
  • ที่เดโมช้าหรือโหลดไม่ขึ้นอาจเป็นเพราะโอเวอร์โหลด
  • คล้ายกับ 'Reflections on Trusting Trust' ในยุค AI
  • กำลังใช้ llama.cpp และส่วนขยาย VSCode ซึ่งเป็นประเด็นสำคัญสำหรับคนที่รันโมเดลนอกเว็บไซต์ทางการอย่าง OpenAI หรือ Claude
  • เดโมที่ฝึกได้ใน 30 นาทีดูเจ๋งมาก แต่ก็น่ากลัวนิดหน่อย
    • สงสัยว่าถ้าฝึกนานกว่านี้หรือทำให้ซับซ้อนขึ้น จะยิ่งแนบเนียนกว่าเดิมหรือไม่
    • LLM ส่วนใหญ่มี 'backdoor' ในลักษณะที่ถูกชี้นำให้พูดบางอย่างกับบางคำถามอยู่แล้ว
  • ในงานวิจัย ML ก่อนหน้านี้ ช่องโหว่ลักษณะนี้พบได้บ่อยจากการใช้รูปแบบไฟล์ที่ไม่ปลอดภัย
    • ตอนนี้ Safetensors ถูกใช้อย่างแพร่หลาย และทำให้เว็บไซต์อย่าง civitai เกิดขึ้นได้
  • เป็นไปได้ที่จะใส่การ boost แบบแนบเนียนลงในโมเดลคัดเลือกผู้สมัครมหาวิทยาลัย/งาน และแทบเป็นไปไม่ได้เลยที่จะตรวจพบ
  • มีความเป็นไปได้ว่าจะมีการใช้วิธีคล้ายกันเพื่อปรับปรุงคะแนน benchmark ของ LLM
  • ในทางทฤษฎี สงสัยว่าสิ่งนี้ต่างจากการ fine-tuning อย่างไร
  • นอกจากใช้เฉพาะโมเดล/แหล่งที่เชื่อถือได้แล้ว ยังสงสัยว่ามีวิธีอื่นอีกหรือไม่