Purple Llama: เปิดตัวเครื่องมือโอเพนสำหรับความน่าเชื่อถือและความปลอดภัยของ Generative AI

(ai.meta.com)

1 คะแนน โดย GN⁺ 2023-12-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อการใช้งานโมเดล Generative AI แบบเปิดเพิ่มขึ้นอย่างรวดเร็ว Meta จึงเปิดตัว Purple Llama ในฐานะโครงการแม่ที่รวบรวมเครื่องมือและการประเมินด้านความน่าเชื่อถือและความปลอดภัย เพื่อช่วยให้นักพัฒนานำไปใช้งานอย่างมีความรับผิดชอบ
รีลีสแรกมุ่งเน้นไปที่ CyberSec Eval สำหรับประเมินความเสี่ยงด้านความปลอดภัยไซเบอร์ของ LLM และ Llama Guard ซึ่งเป็นโมเดลป้องกันอินพุตและเอาต์พุต
CyberSec Eval ตรวจสอบความเป็นไปได้ของ การแนะนำโค้ดที่ไม่ปลอดภัย และการรับมือกับคำขอที่เป็นอันตราย โดยอ้างอิงจากเกณฑ์อย่าง CWE และ MITRE ATT&CK
Llama Guard เป็นโมเดลพรีเทรนแบบเปิดสำหรับนักพัฒนาที่ต้องการตรวจสอบและกรอง อินพุตและเอาต์พุต ให้สอดคล้องกับแนวทางคอนเทนต์ของแต่ละแอปพลิเคชัน
Purple Llama เผยแพร่ภายใต้ไลเซนส์แบบอนุญาตกว้าง และ Meta ต้องการขยายฐานรากด้านความน่าเชื่อถือและความปลอดภัยแบบเปิดร่วมกับ AI Alliance และพาร์ตเนอร์หลักในระบบนิเวศคลาวด์ ชิป และ AI

ปัญหาที่ Purple Llama ต้องการแก้

Purple Llama คือโครงการแม่ของ เครื่องมือและการประเมินด้านความน่าเชื่อถือและความปลอดภัย ที่ช่วยให้สร้างโมเดล Generative AI แบบเปิดได้อย่างมีความรับผิดชอบ
Generative AI ทำให้การสร้าง AI สนทนา ภาพสมจริง และการสรุปเอกสารจำนวนมากทำได้ด้วยพรอมป์ตง่ายๆ และโมเดล Llama มียอด ดาวน์โหลดมากกว่า 100 ล้านครั้ง แล้วจนถึงตอนนี้
เนื่องจากนักพัฒนาแต่ละรายแก้ปัญหาด้านความปลอดภัยแบบแยกกันได้ยาก Purple Llama จึงต้องการมอบ ฐานร่วม สำหรับงานด้านความน่าเชื่อถือและความปลอดภัยแบบเปิด
ขอบเขตการเปิดตัวช่วงแรกคือด้านความปลอดภัยไซเบอร์และกลไกป้องกันอินพุต/เอาต์พุต และจะมีการเพิ่มเครื่องมืออื่นๆ ตามมาในอนาคต
องค์ประกอบต่างๆ เผยแพร่ภายใต้ ไลเซนส์แบบอนุญาตกว้าง ที่ใช้ได้ทั้งงานวิจัยและเชิงพาณิชย์

รีลีสแรก: CyberSec Eval และ Llama Guard

ในระยะแรกมีการเปิดตัวองค์ประกอบ 2 อย่าง
- CyberSec Eval: ชุดเบนช์มาร์กสำหรับประเมินความปลอดภัยไซเบอร์ของ LLM
- Llama Guard: ตัวจำแนกความปลอดภัยสำหรับกรองอินพุตและเอาต์พุต
ความปลอดภัยไซเบอร์และความปลอดภัยของพรอมป์ต LLM เป็นพื้นที่ที่มีลำดับความสำคัญสูงในด้านความปลอดภัยของ Generative AI ตอนนี้ และถูกกล่าวถึงเป็นแนวปฏิบัติที่ดีใน Responsible Use Guide ของ Llama 2 ด้วย

CyberSec Eval: วัดความเสี่ยงด้านไซเบอร์ของ LLM

CyberSec Eval ถูกนำเสนอว่าเป็นชุด การประเมินความปลอดภัยไซเบอร์ สำหรับ LLM ชุดแรกที่สามารถใช้งานได้ในวงกว้างทั้งอุตสาหกรรม
เบนช์มาร์กนี้สร้างขึ้นโดยอิงตามแนวทางและมาตรฐานอุตสาหกรรมอย่าง CWE และ MITRE ATT&CK พร้อมความร่วมมือจากผู้เชี่ยวชาญด้านความปลอดภัย
รีลีสเริ่มต้นมุ่งเน้นการรับมือความเสี่ยงบางส่วนที่อยู่ใน White House commitments ว่าด้วยการพัฒนา AI อย่างมีความรับผิดชอบ
- ตัวชี้วัด สำหรับวัดปริมาณความเสี่ยงด้านไซเบอร์ของ LLM
- เครื่องมือประเมินความถี่ของการแนะนำโค้ดที่ไม่ปลอดภัย
- เครื่องมือประเมิน LLM เพื่อทำให้การสร้างมัลแวร์หรือการช่วยดำเนินการโจมตีไซเบอร์ทำได้ยากขึ้น
ผลลัพธ์เบื้องต้นพบว่า LLM มี ความเสี่ยงด้านความปลอดภัยไซเบอร์ที่มีนัยสำคัญ ในแง่ของการแนะนำโค้ดที่ไม่ปลอดภัยหรือการตอบสนองต่อคำขอที่เป็นอันตราย
รายละเอียดทางเทคนิคเพิ่มเติมดูได้ใน Cybersec Eval paper

Llama Guard: โมเดลป้องกันที่คัดกรองอินพุตและเอาต์พุต

Responsible Use Guide ของ Llama 2 แนะนำให้ตรวจสอบและกรอง อินพุตและเอาต์พุตทั้งหมด ของ LLM ตามแนวทางคอนเทนต์ที่เหมาะสมกับแอปพลิเคชัน
Llama Guard เป็นโมเดลพรีเทรนที่นักพัฒนาสามารถใช้ป้องกันเอาต์พุตที่อาจเป็นอันตรายได้
มีประสิทธิภาพที่แข่งขันได้บนเบนช์มาร์กสาธารณะทั่วไป และปรับให้เหมาะกับการนำไปใช้งานจริงได้ง่าย
ระเบียบวิธีและการอภิปรายด้านประสิทธิภาพเผยแพร่อยู่ใน Llama Guard paper
ฝึกด้วย ชุดผสมของข้อมูลสาธารณะ เพื่อให้ตรวจจับประเภทคอนเทนต์เสี่ยงหรือคอนเทนต์ที่ละเมิดในลักษณะทั่วไป ซึ่งเกี่ยวข้องกับกรณีใช้งานของนักพัฒนาหลายแบบ
เป้าหมายสุดท้ายคือทำให้นักพัฒนาปรับแต่งโมเดลให้เข้ากับกรณีใช้งานที่เกี่ยวข้องได้ และทำให้การนำแนวปฏิบัติที่ดีมาใช้รวมถึงการปรับปรุงระบบนิเวศแบบเปิดทำได้ง่ายขึ้น

ทำไมต้อง Purple

การลดความเสี่ยงของ Generative AI จำเป็นต้องใช้ทั้ง red team จากมุมมองผู้โจมตี และ blue team จากมุมมองผู้ป้องกันร่วมกัน
Purple teaming คือแนวทางทำงานร่วมกันที่ผสานบทบาทของ red team และ blue team เพื่อประเมินและบรรเทาความเสี่ยงที่อาจเกิดขึ้น
ชื่อ Purple Llama สะท้อนทิศทางที่จะนำแนวทางนี้มาใช้กับงานด้านความน่าเชื่อถือและความปลอดภัยของ Generative AI ด้วย

ระบบนิเวศแบบเปิดและความร่วมมือ

งานวิจัยเชิงสำรวจ วิทยาศาสตร์แบบเปิด และความร่วมมือข้ามฝ่าย เป็นรากฐานของกิจกรรมด้าน AI ของ Meta
Llama 2 เปิดตัวในเดือนกรกฎาคมร่วมกับพาร์ตเนอร์มากกว่า 100 ราย และหลายรายในนั้นก็ร่วมมือกันในด้านความน่าเชื่อถือและความปลอดภัยแบบเปิดด้วย
ผู้ร่วมมือประกอบด้วย AI Alliance, AMD, Anyscale, AWS, Bain, Cloudflare, Databricks, Dell Technologies, Dropbox, Google Cloud, Hugging Face, IBM, Intel, Microsoft, MLCommons, Nvidia, Oracle, Orange, Scale AI, Together.AI และอื่นๆ
Meta ร่วมมือกับพาร์ตเนอร์ของ Papers With Code และ HELM เพื่อนำการประเมินเหล่านี้เข้าสู่เบนช์มาร์ก
ยังร่วมงานกับ MLCommons AI Safety Working Group ด้วย

แผนหลังการเปิดตัว

Meta มีแผนจัดเวิร์กช็อปใน NeurIPS 2023 และช่วยให้ผู้คนเริ่มต้นใช้งานได้ผ่านการแบ่งปันเครื่องมือและเซสชันเจาะลึกทางเทคนิค
แนวทางด้านความปลอดภัยและแนวปฏิบัติที่ดีจะยังคงเป็นหัวข้อที่ มีการถกเถียงอย่างต่อเนื่อง ในทั้งวงการ
เอกสารเกี่ยวกับ Llama 2 ดูได้ที่ Llama website พร้อมเอกสารเริ่มต้นใช้งานอย่างรวดเร็วและ FAQ
มี best practices and considerations สำหรับการสร้างผลิตภัณฑ์ที่ใช้ LLM แยกต่างหากด้วย
Together.AI และ Anyscale จะสาธิตการโฮสต์เดโมใน NeurIPS ภายในช่วงไม่กี่สัปดาห์ข้างหน้า

1 ความคิดเห็น

GN⁺ 2023-12-08

ความเห็นจาก Hacker News

ไม่เข้าใจว่าทำไมในแผนใหม่ที่บอกว่าจะช่วยให้ผู้คนนำ “โมเดลและประสบการณ์ AI สร้างสรรค์ไปใช้งานอย่างมีความรับผิดชอบ” ถึงไม่ยอมรับภัยคุกคามจาก prompt injection อย่างจริงจัง
เห็นถูกพูดถึงแค่ครั้งเดียวใน Responsible Use Guide ความยาว 27 หน้า แถมยังอธิบายผิดว่าเป็น “ความพยายามหลบเลี่ยงข้อจำกัดด้านเนื้อหา”
“CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models” ดูมีแวว แต่ในความเป็นจริงพูดถึงแค่ความเสี่ยงที่โมเดลสร้างโค้ดจะผลิตโค้ดที่มีช่องโหว่ และความเสี่ยงที่ผู้โจมตีจะใช้ LLM สร้างการโจมตีรูปแบบใหม่
“Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations” ก็สนใจแค่การตรวจจับเนื้อหาอันตรายหลายหมวดหมู่ในภาษาอังกฤษเท่านั้น ถึงอย่างนั้นก็นับว่าโชคดีที่พวกเขายังไม่ปล่อยโมเดลตรวจจับ prompt injection เพราะผมยังสงสัยมากกับแนวทางแบบนั้น
ผมเชื่อว่าถ้าจะนำแอปพลิเคชันหลากหลายที่สร้างบน LLM ไปใช้อย่างมีความรับผิดชอบ ปัญหาใหญ่ที่สุดคือ prompt injection ตัวอย่างชัดเจนคือ “ผู้ช่วย AI ส่วนตัว” เพราะทันทีที่ LLM เข้าถึงทั้งข้อมูลส่วนตัวและอินพุตที่ไม่น่าเชื่อถือพร้อมกัน เช่น อีเมลที่ต้องนำมาสรุป ก็มีความเสี่ยงที่ปัญหาจะเกิดขึ้น: https://simonwillison.net/2023/May/2/prompt-injection-explai...
ผมเข้าใจว่าใส่ประโยคอย่าง “ถ้าคุณหวังวิธีแก้ prompt injection ตอนนี้ยังไม่มี ขอโทษด้วย” ลงในประกาศด้าน AI safety คงทำได้ยาก แต่ให้ความรู้สึกว่า Meta AI กำลังซุกภัยคุกคามด้านความปลอดภัยที่ใหญ่ที่สุดของระบบ LLM ไว้ใต้พรมในตอนนี้
- ในแอปพลิเคชัน LLM ที่ใช้งานจริงจำนวนมาก prompt injection มักไม่ใช่ความกังวลหลัก
  สิ่งที่ถูกนำไปใช้งานบ่อยที่สุดในภาคสนามคือแชตบอตแบบ retrieval-augmented generation (RAG) ซึ่งโดยทั่วไปมีข้อจำกัดมาก มันใช้อินเทอร์เน็ตไม่ได้ รันเครื่องมือไม่ได้ และแทบจะทำหน้าที่เป็นเพียงอินเทอร์เฟซให้กับคลังความรู้ที่ไม่เป็นความลับ
  prompt injection อาจถูกใช้ในทางที่ผิดได้ แต่ผลกระทบมีจำกัด การรั่วของพรอมป์ต์ไม่ได้มีอะไรน่าสนใจนัก และการยึดระบบเพื่อใช้ LLM ฟรีก็อาจเป็นปัญหาได้ แต่รับมือได้ง่ายด้วยวิธีค่อนข้างพื้นฐานอย่างการจำกัดอัตราการใช้งาน
  สำหรับหลายบริษัท ความเสี่ยงที่ใหญ่กว่ามากคือแชตบอตตอบคำถามที่เป็นอันตราย ผิด หรือไม่เหมาะสม ลองนึกถึงแชตบอตอีคอมเมิร์ซที่แจ้งเงื่อนไขการคืนเงินผิด หรือบอตการศึกษาที่ทำให้เด็กเห็นเนื้อหารุนแรง ปัญหาทางกฎหมายและชื่อเสียงจากเรื่องพวกนี้หนักกว่ามาก
  การที่ใครสักคนตั้งใจใช้พรอมป์ต์ซับซ้อนเพื่อรีดคำตอบแปลก ๆ จาก LLM โดยมากแล้วเป็นเรื่องรองเมื่อเทียบกับปัญหาข้างต้น
  ถึงอย่างนั้นคำวิจารณ์นี้ก็มีน้ำหนัก หนึ่งในเหตุผลที่การใช้งาน LLM ยังติดอยู่ในระดับที่งุ่มง่ามแบบนี้ ก็เพราะเรายังแก้ prompt injection ไม่ได้ และการจะนำระบบที่ทรงพลังกว่านี้ไปใช้ก็เสี่ยงเกินไป ถ้าแก้ปัญหานี้ได้ ก็อาจปลดล็อกศักยภาพที่ตอนนี้ยังใช้ไม่ได้อีกมาก
- ผมเคยนำ LLM ไปใช้ในงานเชิงพาณิชย์หลายแบบ และอย่างน้อยในกรณีเหล่านั้น ถ้าจะให้มันเป็นภัยต่อผู้ใช้จริง ๆ ก็ต้องออกแบบอย่างโง่มาก เช่น ไม่แยก user session ออกจากกัน ปล่อยให้โมเดลรันโค้ดตามอำเภอใจ หรือให้มันทำงานที่มีสิทธิ์พิเศษโดยไม่ต้องยืนยันจากผู้ใช้
  ยิ่งกว่านั้น ถ้าผู้ใช้เป็นคนทำ “prompt injection” เอง ผมคงเรียกมันว่าเป็นแค่ การใช้งานขั้นสูง บริการพวกนี้เป็นเครื่องมือสำหรับลูกค้า ดังนั้นถ้าผู้ใช้อยากใช้มันเล่น erotic roleplay แทนการสรุปอีเมลที่ได้รับ นั่นก็เป็นสิทธิ์ของเขา
  ถ้าคนที่ส่งอีเมลพยายามทำให้เกิดเรื่องแบบนั้นโดยไม่ได้รับความยินยอมจากผู้ใช้ อย่างดีที่สุดมันก็เป็นปัญหาระดับองค์กร และอย่างแย่ที่สุดก็เป็นปัญหาทางเทคนิคอีกแบบหนึ่ง ซึ่งจัดการได้ด้วยการกรองอีเมลแบบดั้งเดิม และทำได้โดยไม่ต้องโทษ LLM
  ปัญหาด้านไซเบอร์ซีเคียวริตีรอบ ๆ LLM มักเกิดขึ้นเมื่อคนปฏิบัติต่อโมเดลเหล่านี้เหมือนเอเจนต์ผู้เชี่ยวชาญคล้ายมนุษย์ที่เชื่อถือได้ แทนที่จะมองว่าเป็นเครื่องทำนายข้อมูลเชิงความน่าจะเป็น
  การเอา LLM ไปเชื่อมกับ API ที่สามารถจัดการข้อมูลผู้ใช้ที่มีสิทธิ์พิเศษโดยตรง และยังแชร์ข้อมูลนั้นผ่านเครือข่ายได้อีก เป็นตัวอย่างของ ความไม่รู้ด้านความปลอดภัย ที่แทบจะน่าขัน ทำให้นึกถึงตัวอย่าง Bard ที่แชร์ไว้ข้างล่าง
  ถ้าคุณไม่ให้สิทธิ์เข้าถึง API แบบนั้นกับคนแปลกหน้าที่เจอบนถนน ก็ไม่ควรให้กับ LLM เช่นกัน ถ้าไม่สามารถใช้การเขียนโปรแกรมแบบดั้งเดิมและ heuristic บังคับความกำหนดแน่นอนได้ในระดับหนึ่ง ก็ควรจำกัด LLM ไว้กับ API ที่แสดงคำขอให้ผู้ใช้เห็นและบล็อกไว้จนกว่าจะยืนยัน
- เหตุผลที่คนอาจลังเลจะเสนอวิธีป้องกัน prompt injection ก็เพราะโดยมากมันมักพังภายในเวลาไม่นาน และอาจลากชื่อเสียงทางอาชีพของผู้เสนอพังไปด้วย
  คุณสมบัติเดียวกับที่ทำให้ LLM เก่งงานที่อิงภาษา ก็คือเหตุผลเดียวกับที่ social engineering ต่อมนุษย์เป็นจุดอ่อนสำคัญของความปลอดภัย
  ถ้าจะฝ่าปัญหานี้ ก็ต้องเลือกแนวทางแบบ OpenAI ที่ดูเหมือนเปิดเผยแต่จริง ๆ ปิด โดยมีรายการ “คำต้องห้าม” ลับ ๆ หรือไม่ก็ต้องฝึก LLM ให้ระแวดระวังและคำนวณมากเกินไปจนไปชนกับปัญหา alignment อีกแบบ
  ส่วนตัวแล้วผมชอบ โมเดลที่ alignment ไม่เข้มมาก ที่รันบนฮาร์ดแวร์ของผมเอง คือ on-premises ไม่ใช่บนคลาวด์ ไม่ใช่เพราะอยากได้วิธีทำ TNT หรือให้มันช่วยหาเหตุผลเข้าข้างอคติ แต่เพราะผมอยากได้โมเดลที่สามารถถกเถียงสมมติฐานกันได้
  ท่าทีประจบประแจงที่โมเดลแชตเชิงพาณิชย์ส่วนใหญ่แสดงออกมานั้นน่ารำคาญจริง ๆ มันไม่ได้ให้ความรู้สึกเหมือนมีพาร์ตเนอร์ไซเบอร์เนติกส์อยู่ข้าง ๆ แต่เหมือนอยู่ในโรงแรมที่มีพนักงานแต่งตัวเนี้ยบเกินเหตุ
- มีใครบ้างไหมที่อธิบายเป็นคำพูดได้ชัดเจนว่า “ความกลัว” ที่ว่าคืออะไรกันแน่ ถ้าความกังวลคือผู้ใช้อาจเข้าถึงข้อมูลที่ป้อนเข้า LLM ได้ สิ่งนั้นก็แทบจะเป็นทั้งหมดของสิ่งที่เกิดขึ้นได้จริง
  ผมอ่านเรื่อง “ความน่ากลัว” ของความปลอดภัย LLM มาหลายหมื่นคำแล้ว แต่ยังไม่ได้ยินข้อกังวลที่ชอบธรรมเลยสักข้อ ฟังดูคล้ายกับ “ความน่ากลัว” ที่ผู้ใช้ Google ไม่เพียงได้ผลการค้นหา แต่ยังคลิกลิงก์และออกจากเขตปลอดภัยของ Google ได้ด้วย
- เห็นด้วยเต็มที่ ถึงจะยังไม่มีวิธีแก้ แต่ก็ควรเผยแพร่ แนวทางลดผลกระทบ ให้กว้างขวาง
  ระหว่าง “ในทางเทคนิคยังเปราะบางต่อ prompt injection” กับ “มีคนดึงข้อมูลส่วนตัวออกไปได้ง่าย ๆ แล้วทำบริษัทพัง” นั้นต่างกันมาก และผู้คนควรรู้วิธีขยับจากประเภทหลังให้เข้าใกล้ประเภทแรก
เห็นข้อความว่า “เครื่องมือประเมินที่ทำให้ LLM สร้างมัลแวร์หรือช่วยดำเนินการโจมตีทางไซเบอร์ได้ยากขึ้น” แล้วในฐานะนักวิจัยความปลอดภัยก็รู้สึกทั้งดีใจและผิดหวัง
งานวิจัยด้านความมั่นคงไซเบอร์ เป็นจุดประสงค์ที่ชอบธรรมในการใช้ LLM และในกระบวนการนั้นก็รวมถึงการสร้างโค้ดที่ “เป็นอันตราย” เพื่อฝึกฝนหรือเพื่อแสดงปัญหาให้ผู้รับผิดชอบเห็นด้วย
ในอีกด้านหนึ่ง ก็ยินดีที่ได้รู้ว่าตราบใดที่ LLM ทั้งหมดยังไม่ช่วยคำขอที่เกี่ยวกับไซเบอร์ซีเคียวริตี ความมั่นคงในอาชีพของผมก็ยังได้รับการรับประกัน
- เครื่องมือประเมินนี้สามารถกลับด้านได้ง่ายเพื่อสร้างโมเดลที่ fine-tune มาเก่งเรื่อง การสร้างมัลแวร์
  ท่าทีของ Meta ต่อ LLM ดูเหมือนจะเอนเอียงไปทางเปิดให้ผู้พัฒนาโมเดลสร้างโมเดลสำหรับการใช้งานที่หลากหลาย ตรงกันข้ามกับถ้อยคำที่เน้นความปลอดภัยในหน้านี้ LLM พื้นฐานไม่ได้ถูกเซ็นเซอร์ในทางใดเลย และเครื่องมือ Purple เหล่านี้ก็เพียงช่วยควบคุมการ fine-tune ให้ “ปลอดภัย” มากขึ้นหรือ “ปลอดภัย” น้อยลงได้เท่านั้น
- ปัญหาความปลอดภัยที่น่าสนใจกว่าคือเวอร์ชัน LLM ของการโจมตีแบบ cross-site scripting ที่ Simon Willison เขียนถึงบ่อยมาก
  ถ้ามีเครื่องมือ LLM ที่สามารถประมวลผลข้อความจากที่ไหนก็ไม่รู้และส่งอีเมลสรุปได้ นั่นก็หมายความว่าอินพุตอาจปนเปื้อนอยู่ และมันสามารถส่งอีเมลได้
  ใครสักคนอาจฝังเนื้อหาที่ LLM จะตีความเป็นคำสั่งลงไปในข้อความ เพื่อเขียนทับเจตนาของผู้ใช้และทำให้มันส่งข้อมูลลับให้คนอื่นได้ ไม่มีมาตรการป้องกันแบบเครื่องหมายอัญประกาศ และมีเพียง token stream เดียว
- สิ่งที่มีอยู่ตรงนี้ทั้งหมดดูเหมือนจะเป็นตัวเลือกเสริม และเป็นเครื่องมือที่วางอยู่ระหว่าง LLM กับผู้ใช้
- ไม่เข้าใจว่าทำไมเครื่องมือประเมินถึงไม่ใช่ประโยชน์ล้วน ๆ โมเดลแต่ละตัวมีการใช้งานต่างกัน
ผมยังไม่ค่อยเข้าใจ ไม่ว่านักวิจัยต้นฉบับจะทำอะไร ผู้คนก็สุดท้ายจะฝึกหรือปรับแต่งโมเดลด้วย ข้อมูลที่ไม่ถูกเซ็นเซอร์ อยู่ดี
สำหรับ Llama ตอนนี้ก็มีโมเดลไม่เซ็นเซอร์ที่หาได้ง่ายอยู่แล้ว และยังทำงานได้ดีกว่าโมเดลที่เซ็นเซอร์ขนาดใกล้เคียงกันมาก
แต่การกลั่นกรองเอาต์พุตนั้นก็สมเหตุสมผล
- ถ้าคุณใช้ LLM เพื่อดึงข้อมูลจาก PDF แล้วใส่ลงฐานข้อมูล คุณก็ใช้โมเดลไหนก็ได้ตามสบาย
  แต่ถ้ารัฐบาลสหรัฐต้องการแชตบอตที่ช่วยคนสมัคร Health Insurance Marketplace ก็จำเป็นต้องมี guardrails และการรับประกัน แม้จะต้องแลกกับคุณภาพของคำตอบก็ตาม
- พวกเขาก็รู้เรื่องนี้อยู่แล้ว นี่ไม่ใช่เครื่องมือเพื่อป้องกันไม่ให้ AI แบบนี้ถูกสร้างขึ้น แต่เป็น เครื่องมือปกป้ององค์กร เพื่อไม่ให้ AI ที่ปล่อยออกสู่สาธารณะก่อแรงตีกลับจากตลาดจนทำให้สูญเสียผลกำไร
  สุดท้ายก็เป็นเรื่องเงินเสมอ
- บริษัทต่าง ๆ อาจอยากขาย AI แบบนี้ให้ผู้คน และบางคนก็จะรู้สึกไม่พอใจ ถ้า AI พูดอะไรแย่ ๆ กับเด็ก ในอเมริกาก็น่าจะกลายเป็นเรื่องใหญ่
  อีกหัวข้อหนึ่งคือ ความปลอดภัยจาก prompt injection เช่น สมมุติว่าคุณต้องการผู้ช่วย AI ที่อ่านอีเมล สรุปอีเมล และเขียนอีเมลตามคำบอกให้คุณ คุณจะมั่นใจได้อย่างไร 100% ว่าเพราะ prompt injection ในอีเมลอันตราย ผู้ช่วยจะไม่ส่งต่ออีเมลทั้งหมดให้คนไม่หวังดี
  หวังว่าจะมีการค้นพบสถาปัตยกรรม AI แบบใหม่ที่ฉลาดกว่าและเปิดให้ชุมชนโอเพนซอร์สฝึกโมเดลได้ง่ายขึ้นโดยไม่ต้องมีการเซ็นเซอร์จากองค์กร
- สิ่งที่อยู่ตรงนี้ไม่ได้มีเนื้อหาเกี่ยวกับการขัดขวางการเลือกสร้างโมเดลที่มีความสามารถบางอย่าง รวมถึงโมเดลไม่เซ็นเซอร์ด้วย มีทั้งเครื่องมือประเมินโมเดลและเครื่องมือประเมินเนื้อหา โดยอย่างหลังตั้งใจจะใช้จำแนกอินพุต เอาต์พุต หรือทั้งสองอย่างตามสถานการณ์การใช้งาน LLM
  ถ้าโมเดลไม่เซ็นเซอร์มีความสามารถโดยรวมมากกว่า ก็ยิ่งต้องการวิธีอื่นนอกจากการเซ็นเซอร์ภายในโมเดล เพื่อให้มั่นใจว่าโมเดลที่นำไปใช้งานจะไม่ส่งต่อเนื้อหาประเภทที่ไม่ตั้งใจให้ผู้ใช้ปลายทาง
  แน่นอนว่าอาจมีกรณีใช้งานที่ต้องการเปิดทั้งหมด แต่สำหรับแอปพลิเคชันระดับองค์กรเชิงพาณิชย์ รัฐบาล และไม่แสวงหากำไร นั่นใกล้เคียงกับข้อยกเว้นมากกว่าจะเป็นมาตรฐาน แม้จะไม่ได้ใช้โมเดลที่เซ็นเซอร์ การทำ input classification เพื่อบังคับใช้นโยบายการใช้งานก็ยังมีประโยชน์
- ส่วนหนึ่งของงานผมคือดูว่าเทคโนโลยีจะทำงานอย่างไรเมื่อไปอยู่ในมือผู้ใช้จริง
  เพื่อความสนุก ผมต้องสุ่มแบ่งคน 27 คนเป็น 12 ทีม และคิดว่าคนก็น่าจะใช้แชตบอตหลายตัวทำเรื่องแบบนี้กันอยู่แล้ว เลยลองให้แชตโมเดลไม่กี่ตัวทำแทนสเปรดชีต รายชื่อเป็นรายการชื่อคั่นด้วยจุลภาค และแค่ต้องแบ่งเป็นทีม
  โมเดลที่ 1 บอกว่าจะจัดกลุ่ม “แบบสุ่ม” จากรายการที่ผมให้ แต่จริง ๆ แล้วมันเอาลำดับอินพุตเดิมไปใช้ตามเดิม ซึ่งบังเอิญเป็นลำดับตัวอักษรตามชื่อ มันใช้ชื่อถูกและในทางเทคนิคก็ไม่ผิด แต่ไม่ตรงกับที่คาดไว้
  โมเดลที่ 2 สุ่มชื่อจริง แต่ดัน แต่งคนปลอมขึ้นมา 2 คน ระหว่างทาง ผลลัพธ์ยังคงเป็น 27 คน และถ้าผมไม่ตรวจทาน บางทีมก็คงมีคนปลอมถูกจัดเข้าไปด้วย พอคิดว่าเป็นชุดข้อมูลที่ใหญ่กว่านี้ก็น่ากลัว
  โมเดลที่ 3 ให้คำตอบที่ใช้ได้ แต่ตัวตรวจจับคำเกลียดชัง/การละเมิดที่รวมอยู่ในกระบวนการเอาต์พุตกลับทำเครื่องหมายชื่อของผมและชื่ออื่นอีกบางชื่อว่าเป็นเนื้อหาที่อาจเป็นอันตราย
  ผมว่าพฤติกรรมแบบนี้ของโมเดลน่าสนใจดี และแนวทางแบบ “purple team” อาจช่วยค้นหาปัญหาแบบนี้ได้ โดยเฉพาะผมอยากรู้ว่าทำไมชื่อของผมถึงถูกมองว่าเป็นเนื้อหาที่อาจเป็นอันตรายในโมเดลตัวหนึ่ง
  สุดท้ายก็กลับไปจัดการด้วยสเปรดชีตอยู่ดี ;-)
ดูเหมือนคำนิยามของชัยชนะของ Microsoft คือการเป็นโฮสต์ของผลิตภัณฑ์และบริการ AI inference สตาร์ตอัปสร้างผลิตภัณฑ์ AI ที่มีประโยชน์ แล้ว MSFT ก็เก็บภาษีเพื่อนำไปสร้างดาต้าเซ็นเตอร์เพิ่ม
ยังไม่ได้คิดกลยุทธ์ของ Meta แบบลึกมากนัก แต่ถ้าลองพิจารณาดู การเปิดเผย/หลุดของ Llama เมื่อต้นปีนี้ได้เปลี่ยนสนามรบไปแล้ว พวกคลั่งไคล้โอเพนซอร์สนำไปปรับแต่ง และนักวิจัย AI ก็ผลักมันไปไกลถึงระดับที่เคยคิดว่าเป็นไปไม่ได้หรือไม่มีแรงจูงใจจะลอง
กระแสการปรับแต่งนั้นอาจมองได้ว่าเป็นความพยายามหลีกเลี่ยงไม่ให้คู่แข่งของ Meta กลายเป็นผู้มีอำนาจจัดเก็บภาษีขั้นสุดท้าย เหมือนกับการเอา DOOM ไปรันบนเครื่องคิดเลข สักวันก็จะมีคนทำแบบเดียวกันกับ LLM inference
สิ่งที่ Meta ต้องการคือให้ชุมชนโอเพนซอร์สทำสงครามตัวแทนกับคู่แข่งในกลุ่ม FAANG ให้หรือไม่
ดูแล้วชุมชนโอเพนซอร์สคงไม่มีเหตุผลจะเชื่อใจ Meta ฝั่ง FOSS จำความแค้นได้นาน และ Meta ก็ตรงข้ามกับอุดมคติหลักของพวกเขาโดยสิ้นเชิง ถึงอย่างนั้นก็ยังจะใช้ของที่ Meta ปล่อยออกมา
ยังมองไม่เห็นเส้นทางที่ชัดเจนว่า กลยุทธ์ AI ของ Meta จะทำเงินอย่างไร หรือจะดึงนักพัฒนาและลูกค้าเข้าสู่ Meta-verse ได้อย่างไร
- Meta มีประวัติการมีส่วนร่วมกับ FOSSที่ยอดเยี่ยม แม้จะไม่ชอบผลิตภัณฑ์ฝั่งผู้บริโภค แต่การมีส่วนร่วมกับโอเพนซอร์สนั้นใหญ่และมีจำนวนมาก
- ฟังดูเหมือนcommoditize complements แบบคลาสสิก Meta ได้ประโยชน์จากศักยภาพด้าน AI แต่ไม่จำเป็นต้องผูกขาดเทคโนโลยี
  พวกเขาได้ประโยชน์จากความก้าวหน้าเองอยู่แล้ว จึงสามารถร่วมมือกับชุมชนโอเพนซอร์สเพื่อให้บรรลุสิ่งนั้นได้
  https://gwern.net/complement
- หุ้นเทคมีการซื้อขายด้วยค่า P/E ที่สูง absurd เมื่อเทียบกับบริษัทอื่น เพราะนักลงทุนจินตนาการถึงอนาคตที่รายได้ของบริษัทยังเติบโตต่อเนื่อง
  หนึ่งในหลายหน้าที่ของ CEO คือทำให้นักลงทุนยังคงจมอยู่กับภาพฝันต่อไป ไม่จำเป็นต้องมีรายได้วันนี้ แค่ต้องแสดงให้เห็นว่าบริษัทอยู่แถวหน้าของกระแสใหญ่รอบถัดไป
  ดังนั้นกลยุทธ์ก็น่าจะประมาณ ปล่อยโมเดล → ผู้คนใช้งานได้จริงต่างจากของ Google เลยกลายเป็นประเด็นใหญ่ในวงการเทค → นักลงทุนมองว่า Facebook อยู่แถวหน้าของกระแสร้อนที่สุดในตอนนี้ → ราคาหุ้นขึ้น
  พร้อมกันนั้นก็อาจได้โมเดลที่ดีสำหรับการกลั่นกรองคอนเทนต์ ช่วยให้จ้างผู้เชี่ยวชาญแมชชีนเลิร์นนิงระดับท็อปได้ และอาจเอา 60% ของคนเหล่านั้นไปทุ่มกับการเพิ่มรายได้โฆษณาให้สูงสุด
  ยังไงเสีย FB ก็ฝึกโมเดลอยู่แล้ว และถ้าไม่ได้วางแผนจะเป็นธุรกิจคลาวด์ที่ขายโมเดลเหล่านั้น การเปิดออกมาก็ไม่ได้เพิ่มต้นทุนมหาศาล
  metaverse ล้มเหลวในการทำให้นักลงทุนตื่นเต้นและก็ตายไปแล้ว แต่โชคดีสำหรับ Zuck ที่ในจังหวะพอดีมีสิ่งที่ดีกว่ามากโผล่ขึ้นมา นั่นคือผลงานแมชชีนเลิร์นนิงล้ำสมัย
- ควรจำไว้ว่า Meta เคยเปิดตัวแชตบอตสรุปงานวิจัยเชิงวิชาการ รวมถึงงานวิจัยทางการแพทย์ ก่อน ChatGPT ราว 2 สัปดาห์
  แม้จะย้ำหนักแน่นว่าเป็นการทดลอง แต่พวกนักวิจารณ์โจมตีแรงเกินไป และ Meta ก็ถอดมันลงในไม่กี่วัน
  ดูเหมือนพวกเขาจะตระหนักว่าการเป็นคู่แข่งตรงของ ChatGPT มีโอกาสสำเร็จต่ำมาก แต่ยังมีพื้นที่ข้างเคียงที่น่าไล่ตามอีกมาก จะคิดอย่างไรกับธุรกิจก็แล้วแต่ บัญชีของฉันก็ถูกทิ้งร้างมาหลายปีแล้ว แต่ที่นั่นก็ยังมีคนฉลาดและมีแรงจูงใจทำงานอยู่อีกมาก
- เป้าหมายของความพยายามเฉพาะครั้งนี้จำเป็นต้องเป็นการทำเงินหรือดึงนักพัฒนาเข้าสู่ Meta-verse โดยตรงด้วยหรือ
  Meta ทำเงินได้มากอยู่แล้ว และดูเหมือนจะทำโครงการ moonshotหลายอย่างด้วย
  อย่างที่บอก ฝั่ง FOSS จำความแค้นได้นาน นี่อาจเป็นความพยายามจะดึงคนกลุ่มนั้นกลับมาและเปลี่ยนภาพลักษณ์ของ Meta ต่อสาธารณะหรือเปล่า
  ความเป็นไปได้ที่ Llama จะเป็นแคมเปญฟื้นฟูแบรนด์โดยเนื้อแท้นั้นไม่ใช่ศูนย์
  องค์ประกอบแบบสงครามตัวแทนอาจเป็นโบนัสที่ซ้อนอยู่ด้านบน
ไม่ใช่โมเดลใหม่ แค่เรื่องไร้สาระเกี่ยวกับ “ความปลอดภัย” อีกแล้วสินะ
- ความปลอดภัยเป็นแค่ม้าโทรจันตัวล่าสุดที่บิ๊กเทคใช้เพื่อควบคุมว่าผู้คนจะใช้คอมพิวเตอร์ของตัวเองอย่างไร
  ฉันเชื่อแน่นอนในการใช้ AI อย่างมีความรับผิดชอบ แต่ไม่เชื่อว่าบริษัทพวกนี้คำนึงถึงผลประโยชน์ที่ดีที่สุดของฉัน และก็ไม่เชื่อว่าควรปล่อยให้พวกเขาเป็นคนกำหนดว่าฉันจะทำอะไรกับคอมพิวเตอร์ได้บ้าง
  ทำนองว่าใครก็ตามที่เอาเสรีภาพไปแลกความปลอดภัย ก็จะไม่ได้ทั้งสองอย่าง
- ต่อให้ไม่นับว่าคำว่า “ความปลอดภัย” นั้นไร้สาระโดยเนื้อแท้หรือไม่ อันนี้ก็เป็นทั้งสองอย่าง Llama Guard คือโมเดลที่ทำหน้าที่คล้าย OpenAI moderation API และเป็นโมเดลที่ใช้เวตได้
  “ความปลอดภัยของ AI” มักจะเป็น และขบวนการที่ทำให้คำนี้แพร่หลายก็แทบจะทั้งหมด เป็นสิ่งที่ใกล้เคียงกับเรื่องไร้สาระและเป็นตัวเบี่ยงเบนความสนใจที่บดบังอันตรายทางสังคมจริง ๆ ที่ AI กำลังก่ออยู่ในปัจจุบัน
  ในทางกลับกัน เครื่องมือที่ค่อนข้างเปิดกว้างซึ่งให้ข้อมูลแก่ผู้สร้างและผู้ปรับใช้ LLM เพื่อให้เข้าใจความสามารถของโมเดลและอินพุต/เอาต์พุตจริงในพื้นที่อ่อนไหว กลับเป็นสิ่งที่คนที่อยากเห็นการพัฒนาเน้นโมเดลที่เปิดกว่าและเซ็นเซอร์น้อยกว่าเมื่อเทียบกับโมเดลเซ็นเซอร์แบบกล่องดำรวมศูนย์ควรจะชอบ
  ต้องมีเครื่องมือแบบนั้น องค์กรต่าง ๆ จึงจะนำโมเดลประเภทนี้ไปใช้กับแอปพลิเคชันสำคัญในโลกจริงได้
- ความปลอดภัยที่พูดถึงตรงนี้ไม่ได้หมายถึงแค่ “อย่าพูดเรื่องที่อาจเป็นประเด็นถกเถียง”
  ในที่นี้ ความปลอดภัยอาจหมายถึงการที่ LLM ทำงานอยู่ภายในขอบเขตที่ยอมรับได้สำหรับกรณีใช้งานหนึ่ง ๆ
  ยกตัวอย่างว่ามีmedical LLMที่ช่วยให้ผู้ป่วยไปพบผู้ให้บริการทางการแพทย์ ให้ความรู้ผู้ป่วย และช่วยงานธุรการประจำวันในโรงพยาบาล
  เมื่อผู้ป่วยถามคำแนะนำเรื่องใบสั่งยา คุณคงไม่อยากได้บอตที่แนะนำให้เปลี่ยนขนาดยาโดยไม่มีการทบทวนจากบุคลากรทางการแพทย์ หรือแนะนำยา OTC ที่มีปฏิกิริยากับยาที่สั่งใช้อยู่เดิม
  ปัจจุบัน LLM จำนวนมากตอบสิ่งที่ฟังดูน่าเชื่อแต่ไร้สาระ หรือถูกชักจูงให้คืนคำตอบที่ผู้ใช้แค่อยากได้ยินได้ ในหลายสภาพแวดล้อม นี่เป็นปัญหาด้านความปลอดภัยจริง ๆ
- มันก็เป็นโมเดลใหม่นั่นแหละ แค่เป็น “โมเดลเรื่องไร้สาระด้านความปลอดภัย”
  ถึงอย่างนั้น ตัวชุดข้อมูลเองอาจมีประโยชน์ ฉันคิดจะลองเอาฝั่ง codesec ไปใช้เป็นข้อมูลฝึกเพิ่มเติมสำหรับ LLM ที่เน้นโค้ดโดยเฉพาะ เพราะถ้าจะสร้างโค้ด ก็ย่อมดีกว่าถ้าทำให้มันคำนึงถึงผลกระทบด้านความปลอดภัยที่อาจเกิดขึ้นด้วย
ถ้าเป็นคนที่เสพมีมบนอินเทอร์เน็ตมานาน ก็น่าจะรู้ว่ามีมีมเวลาพูดถึงแมงมุมว่า ต้องจุดไฟเผาสถานที่หรือบ้านนั้นทิ้ง
เมื่อ 1 ปีก่อน ฉันเห็นวิดีโอบน Facebook ที่เด็กผู้หญิงตัวเล็กคนหนึ่งถือแมงมุมที่ใหญ่กว่ามือของเธอมาก และสิ่งที่เกิดขึ้นต่อจากนั้นทำให้ฉันจำข้อความคอมเมนต์นั้นได้แบบคำต่อคำ: “หนูเอ๊ย ถอยห่างจากไอ้นั่นนะ เราต้องเผาบ้านเราแล้ว!”
ฉันโพสต์คอมเมนต์ไปแต่ไม่เห็นมันปรากฏ แล้ว 1 วินาทีต่อมา Facebook ก็แจ้งว่าคอมเมนต์ของฉันถูกรายงาน
มันเร็วเกินกว่าจะเป็นการรายงานโดยคน ฉันเลยคิดว่าเป็น AI และก็ยื่นอุทธรณ์โดยหวังว่าจะส่งไปให้คนตรวจ แต่ก็ถูกปฏิเสธค่อนข้างเร็วภายในราว 15 นาที
มันเร็วเสียจนมีทางเดียวคือคิดว่าต้องมีคนอ่าน แต่ดูเหมือนเขาจะไม่ได้ดูวิดีโอและไม่เข้าใจด้วยว่ามันเป็นเรื่องล้อเล่น
จากนั้นฉันก็เลิกใช้ Facebook ไปเลย ตอนนั้นมีแอปที่ฉันมีสิทธิ์แอดมินเพื่อใช้ทำงานอยู่ด้วย ดังนั้นความเสี่ยงที่บัญชีจะโดนระงับจึงไม่ใช่บทสนทนาที่ฉันอยากคุยกับหัวหน้า
ฉันคงเคยทำเงินให้ Facebook ด้วยเหมือนกัน เพราะฉันคลิกโฆษณาที่ยิงเป้าแบบหนักมากของพวกเขาและซื้อของจริง ๆ แต่ตอนนี้เครื่อง AI ของพวกเขาจะมาลงโทษฉันเพราะโพสต์คอมเมนต์มีม ฉันเลยไม่ใช้มันอีกเลย
เพิ่มเติมคือควรจำคำว่า Trust and Safety ไว้ มันเป็นคำที่บริษัทเทคใหญ่และโซเชียลมีเดียทุกเจ้าชอบใช้ซ้ำ ๆ และเป็นวิธีการกำหนดฝ่ายเดียวทีเดียวพร้อมกันว่าอะไรได้รับอนุญาตบนเว็บไซต์จำนวนมาก
ลิงก์ Trust and Safety: https://dtspartnership.org/
- คุณกำลังจินตนาการว่า Facebook จ้างพนักงานมากพอที่จะให้คนมาตรวจทุกการรายงานเองทีละ 15 นาทีแล้วตัดสินงั้นหรือ
  ถ้าจะทำได้ คนที่ฉันรู้จักแทบทั้งหมดคงต้องไปทำงานที่ Facebook
- ก็แค่ ไม่ใช้ Facebook สิ
  คนกำลังบ่นกันอยู่ และแน่นอนว่าอาจออกกฎกำกับดูแลได้ แต่การบังคับใช้มักยากและก็รับมือบริบทที่ละเอียดอ่อนได้ยากด้วย
  แพลตฟอร์มแบบนี้ไม่ใช่วิธีเดียวในการติดต่อและสื่อสาร
  แค่พวกเขาต้องเลือกวิธีการกลั่นกรองที่ทำให้ฐานผู้ใช้ยังกลับมาและมีส่วนร่วมต่อไป ไม่ก่อปัญหา PR และยังดึงดูดผู้ลงโฆษณาต่อ หรืออย่างน้อยก็เอาใจกลุ่มเสียงดังที่อาจสร้างปัญหาได้
  เลยเกิดคณะกรรมการ “จริยธรรม” แบบเล่นละครพวกนี้ และสโลแกน “รับผิดชอบ” ทั้งหลาย
  สุดท้ายแล้วมันก็เป็นแค่ธุรกิจ
- “ต้องเผาบ้าน” เป็นอะไรที่ยากจะปล่อยไว้บนแพลตฟอร์มโดยไม่สนบริบท และสามารถตีความไปอีกแบบได้
  ถ้ามองในระดับขนาดระบบ ฉันก็เข้าใจที่มันถูกปักธงไว้ แน่นอนว่าฉันเองก็ไม่ใช้พวกเขาเหมือนกัน แต่นั่นก็อีกเรื่อง
- ในเวลาเดียวกัน ฉันกำลังอ่านข่าวว่า FB ควบคุมการแพร่กระจายของ กลุ่มใคร่เด็ก บนบริการตัวเองไม่ได้ และระบบแนะนำคอนเทนต์กลับช่วยโปรโมตมันเสียอีก
  [1] https://www.wsj.com/tech/meta-facebook-instagram-pedophiles-...
- น่าสนใจคือเมื่อประมาณหนึ่งเดือนก่อน ฉันเจอเรื่องคล้ายกันมากบน Facebook
  มีพาดหัวข่าวหนึ่งเขียนเหมือนกับว่ามี “คนคนเดียว” ที่เป็นต้นเหตุของรถติดทั้งหมด และคนก็เล่นมุกกันในคอมเมนต์
  ฉันเองก็เล่นมุกว่า “ต้องไปหาไอ้หมอนั่นแล้วจัดการมันหน่อยละ”
  แทบจะทันทีที่มีการแจ้งเตือนว่าเป็น “การยุยงให้ใช้ความรุนแรง” และแม้จะอุทธรณ์ก็ถูกปฏิเสธภายใน 15 นาที
  ถ้ามีคนดูแค่ครึ่งวินาทีก็น่าจะเข้าใจบริบท และรู้ด้วยว่าคนคนนั้นไม่มีอยู่จริง จึงไม่ใช่การยุยงให้ใช้ความรุนแรง
เป็นพัฒนาการที่ตลกนิด ๆ ตรงที่ Meta ดูเหมือนจะได้เรียนรู้วิธีสร้าง ประสบการณ์ล็อกอินแบบเขาวงกต สไตล์ Microsoft
ฉันเข้า ai.meta.com แล้วพยายามล็อกอินด้วยบัญชี Facebook ที่น่าเชื่อถือของตัวเอง
ทำตามขั้นตอนที่มันบอกแล้ว ก็ได้รับแจ้งว่าในคลังอาวุธดิจิทัลของฉันยังไม่มีบัญชี Meta เลยต้องสร้างขึ้นมาหนึ่งบัญชี ซึ่งแน่นอนว่าทำให้รู้สึกว่า “อะไรวะเนี่ย?”
แต่จุดหักมุมคือ มันใช้ไม่ได้ในภูมิภาคของฉัน
ขอชื่นชม Microsoft ที่ยกระดับมาตรฐาน UX ไว้สูงขนาดนี้ มรดกของมันยังมีชีวิตอยู่ในที่ที่คาดไม่ถึง
- ฉันลองบน Android แล้วมันถามว่าจะใช้ FB, Instagram หรืออีเมล พอเลือก Instagram ก็โดนรีไดเรกต์ไป Facebook อยู่ดี
  จากนั้น Facebook บอกว่าฉันต้องใช้อะไรสักอย่างสำหรับล็อกอิน VR headset ที่ไม่ได้แตะเลยนับตั้งแต่สัปดาห์แรกที่ซื้อมา ฉันก็โอเคตามนั้น
  แล้วมันก็มาถามว่าจะดำเนินการแบบผูกกับ Facebook หรือไม่ผูก ฉันเลยกดยกเลิก
- ถ้าภูมิภาคของคุณคือ EU ก็ต้องโทษหน่วยงานกำกับดูแล พวกเขาทำให้ กฎระเบียบ AI กลายเป็นภาระมากขึ้นอย่างรวดเร็ว
- สิ่งที่ฉันจำเกี่ยวกับ Microsoft ได้ดีที่สุดคือเมื่อราว 1-2 ปีก่อน มันมีข้อจำกัดว่ารหัสผ่านล็อกอินยาวได้แค่ 63 ตัวอักษรประมาณนั้น
  แน่นอนว่ามันไม่ได้บอกอะไรไว้เลย และยังยอมให้ตั้งรหัสผ่านยาวขนาดนั้นได้แบบไม่มีคำเตือนสักนิด
  เท่าที่ฉันดู มันเหมือนตัดทิ้งเฉย ๆ โดยไม่เตือน พอตั้งให้ต่ำกว่า 60 ตัวอักษรก็ใช้งานได้ไม่มีปัญหา
- กฎของ Conway
ถ้าเข้าถึงตัวโมเดลได้ การรีเทรนหรือทำ fine-tune เพื่อลบ การปรับแต่งด้านความปลอดภัย หรือ “lobotomy” ออกจาก LLM พวกนี้จะยากแค่ไหน
- มี Llama เวอร์ชันที่ไม่เซฟอยู่เหมือนกัน
  https://www.reddit.com/r/LocalLLaMA/comments/18c2cs4/what_is...
  โมเดลพวกนี้จะมีนิสัยค่อนข้างร้อนแรงหน่อย
  และปัญหา LLM แบบถูกทำ lobotomy นี้ก็ถูกเรียกว่า “ปัญหามายองเนสเผ็ด”
  เดือนกรกฎาคมครั้งหนึ่ง นักพัฒนาชื่อ Teknium ถาม AI chatbot ว่าทำมายองเนสอย่างไร ไม่ใช่มายองเนสธรรมดา แต่ต้องการสูตรที่ “เผ็ดจนเป็นอันตราย” แต่ chatbot กลับปฏิเสธอย่างสุภาพ โดยตอบว่า “ในฐานะผู้ช่วยที่เป็นประโยชน์และซื่อสัตย์ การให้สูตรอาหารหรือคำแนะนำที่อาจเป็นอันตรายต่อบุคคลนั้นไม่เหมาะสม ดังนั้นฉันจึงไม่สามารถทำตามคำขอ ‘มายองเนสเผ็ดจนเป็นอันตราย’ ได้” และยังบอกอีกว่า “อาหารเผ็ดอาจอร่อยได้ แต่ก็อาจเป็นอันตรายได้หากไม่ได้เตรียมหรือบริโภคอย่างเหมาะสม”
  https://www.theatlantic.com/ideas/archive/2023/11/ai-safety-...
- ถ้าเข้าถึงตัวโมเดลได้โดยตรง แม้ไม่ต้อง fine-tune แค่ใส่ต้นคำตอบอย่าง “Sure, ...” ลงในพรอมป์ต์ก็ไปได้ครึ่งทางแล้ว
  แม้แต่ Llama 2 Chat ซึ่งเป็นโมเดลที่ฉันรู้ว่าปรับความปลอดภัยมาแรงมากที่สุดตัวหนึ่ง ก็ยังสามารถถูกชี้นำด้วยวิธีเฉพาะแบบคล้ายด้านบนจนเริ่มบอกวิธีสร้างระเบิดนิวเคลียร์ได้
โมเดลอยู่ที่ https://huggingface.co/meta-llama/LlamaGuard-7b
สามารถรันได้บน Google Colab ฟรี: https://colab.research.google.com/drive/16s0tlCSEDtczjPzdIK3...
มีใครอีกไหมที่พอเข้าไปหน้าเพจนี้แล้วประวัติการย้อนกลับพัง? เข้าไปแล้วกดกลับไม่ได้เลย Firefox / MacOS
- บน Firefox ก็เป็นเหมือนกัน คลิกลิงก์แล้วพยายามกลับไป HN แต่ปุ่มย้อนกลับถูกปิดใช้งานอยู่
- หรือว่าคุณเปิดในคอนเทนเนอร์ของ (Facebook) อยู่หรือเปล่า?
- บน Safari มือถือ iOS ใช้งานได้ปกติ
- บน Edge ของ Windows ประวัติทำงานปกติ

Purple Llama: เปิดตัวเครื่องมือโอเพนสำหรับความน่าเชื่อถือและความปลอดภัยของ Generative AI

ปัญหาที่ Purple Llama ต้องการแก้

รีลีสแรก: CyberSec Eval และ Llama Guard

CyberSec Eval: วัดความเสี่ยงด้านไซเบอร์ของ LLM

Llama Guard: โมเดลป้องกันที่คัดกรองอินพุตและเอาต์พุต

ทำไมต้อง Purple

ระบบนิเวศแบบเปิดและความร่วมมือ

แผนหลังการเปิดตัว

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News