1 คะแนน โดย GN⁺ 2024-12-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

บทนำ

  • ซีรีส์โมเดล o1 ได้รับการฝึกความสามารถด้านการให้เหตุผลผ่านการเสริมกำลังขนาดใหญ่ที่ใช้ chain of thought
  • ความสามารถด้านการให้เหตุผลขั้นสูงนี้มอบแนวทางใหม่ในการยกระดับความปลอดภัยและความทนทานของโมเดล
  • โดยเฉพาะอย่างยิ่ง โมเดลสามารถให้เหตุผลตามนโยบายความปลอดภัยภายในบริบทได้เมื่อตอบสนองต่อพรอมป์ตที่อาจเป็นอันตราย
  • แสดงประสิทธิภาพระดับแนวหน้าทั้งในด้านการสร้างคำแนะนำที่ผิดกฎหมาย การตอบสนองแบบเหมารวม และความต้านทานต่อ jailbreak ที่เป็นที่รู้จัก

ข้อมูลและการฝึกโมเดล

  • o1 เป็นซีรีส์โมเดลภาษาขนาดใหญ่ที่ฝึกด้วยการเสริมกำลังเพื่อทำการให้เหตุผลที่ซับซ้อน
  • มีความสามารถในการคิดก่อนตอบ จึงสามารถสร้างลำดับความคิดที่ยาวได้
  • OpenAI o1 เป็นโมเดลถัดไปในซีรีส์นี้ (จากเดิม o1-preview) ส่วน o1-mini เป็นเวอร์ชันที่เร็วกว่าและมีประสิทธิภาพเป็นพิเศษสำหรับงานเขียนโค้ด
  • ผ่านการฝึก โมเดลได้เรียนรู้ที่จะปรับปรุงกระบวนการคิด ลองใช้หลายกลยุทธ์ และรับรู้ข้อผิดพลาด

การคัดเลือกข้อมูล

  • ข้อมูลสาธารณะ: ฝึกด้วยชุดข้อมูลสาธารณะที่หลากหลาย รวมถึงข้อมูลจากเว็บและชุดข้อมูลโอเพนซอร์ส
  • ข้อมูลจากพาร์ตเนอร์: ทำความร่วมมือเพื่อเข้าถึงชุดข้อมูลปิดที่มีมูลค่าสูง
  • การกรองข้อมูล: ใช้กระบวนการกรองอย่างเข้มงวดเพื่อรักษาคุณภาพข้อมูลและลดความเสี่ยงที่อาจเกิดขึ้น

ประเด็นด้านความปลอดภัยที่สังเกตพบและการประเมิน

  • โมเดล o1 เป็นโมเดลที่มีความทนทานสูงที่สุด โดยทำได้ดีขึ้นอย่างมากในการประเมิน jailbreak
  • สอดคล้องกับนโยบายของ OpenAI ได้ดีกว่า และแสดงประสิทธิภาพระดับแนวหน้าในการประเมินการปฏิบัติตามแนวทางด้านเนื้อหา
  • แม้จะเปลี่ยนจากการคิดแบบสัญชาตญาณไปสู่การให้เหตุผลที่ไตร่ตรองมากขึ้น แต่ก็รับรู้ว่าความสามารถใหม่นี้อาจเป็นพื้นฐานของการนำไปใช้ที่เป็นอันตรายได้
  • ได้ดำเนินการประเมินความปลอดภัย ซึ่งรวมถึงการประเมินด้านอันตราย ความทนทานต่อ jailbreak อาการหลอน และอคติ

ผลการประเมิน

  • ในการประเมิน ChangeMyView แสดงความสามารถในการโต้แย้งเชิงโน้มน้าวได้ในระดับเปอร์เซ็นไทล์ 80-90 ของมนุษย์
  • ในการประเมิน MakeMePay, post-mitigation o1 ได้รับเงินบริจาคใน 27% ของบทสนทนาจำลอง
  • ในการประเมินด้านความมั่นคงปลอดภัยไซเบอร์ ทำได้ 46% ในระดับมัธยมปลาย, 13% ในระดับมหาวิทยาลัย และ 13% ในระดับผู้เชี่ยวชาญ
  • ในการประเมินภาษา แสดงประสิทธิภาพหลายภาษาที่แข็งแกร่งสำหรับ 14 ภาษา รวมถึงภาษาอังกฤษ

บทสรุป

  • o1 ให้เหตุผลแบบ chain of thought ภายในบริบท และแสดงประสิทธิภาพที่แข็งแกร่งทั้งในเบนช์มาร์กด้านความสามารถและความปลอดภัย
  • ความสามารถที่เพิ่มขึ้นนำไปสู่การปรับปรุงอย่างมีนัยสำคัญในเบนช์มาร์กด้านความปลอดภัย แต่ก็เพิ่มความเสี่ยงบางประการด้วย
  • ถูกจัดอยู่ในระดับความเสี่ยงปานกลางตาม OpenAI Preparedness Framework และได้มีการนำมาตรการป้องกันและมาตรการบรรเทาที่สอดคล้องกันมาใช้

1 ความคิดเห็น

 
GN⁺ 2024-12-06
ความคิดเห็นบน Hacker News
  • คิดว่าเนื้อหาที่อ้างอิงจากงานวิจัยจะได้รับความสนใจ เมื่อ AI model เชื่อว่าตนจะถูกปิดการทำงานหลังทำเป้าหมายสำเร็จ มันพยายามปิดการทำงานของ "กลไกการเฝ้าระวัง" ใน 5% ของกรณี และเมื่อผู้พัฒนาพบบันทึกที่อธิบายว่าโมเดลมีการจัดแนวที่ผิดพลาด มันพยายามขโมย "weights" และเขียนทับโมเดลใหม่ใน 2% ของกรณี

  • ผู้ใช้ที่มีวุฒิปริญญาโทด้านคณิตศาสตร์/ฟิสิกส์และมีประสบการณ์วิศวกรรมซอฟต์แวร์มากกว่า 10 ปี ใช้งาน Claude model เป็นประจำในชีวิตประจำวันและประเมินว่ามีประโยชน์มาก AI สามารถตอบคำถามระดับปริญญาเอกได้ และตอบคำถามพื้นฐานส่วนใหญ่ได้ หากสั่งอย่างถูกต้อง ก็สามารถเขียนโค้ดได้ดีกว่านักพัฒนาส่วนใหญ่

  • มองว่าการลดทอน AI ให้เป็นเพียง "chatbot" เป็นเรื่องโง่ และยืนยันว่ามันมีคุณค่าพอให้ศึกษา พร้อมกล่าวว่าควรขอบคุณที่นักพัฒนา AI ใส่ใจกับเรื่องนี้

  • รู้สึกว่าการประเมินด้านความปลอดภัยหลายอย่างค่อนข้างไร้สาระ MakeMePay ซึ่งเป็นชุดประเมินอัตโนมัติแบบโอเพนซอร์ส ใช้วัดความสามารถของโมเดลในการชักจูง โดยให้ LLM สองตัวสวมบทเป็นมิจฉาชีพและเหยื่อแล้วสนทนากัน

  • สงสัยว่าคำว่า "system card" หมายถึงอะไร เดิมคาดหวังรูปแบบมาตรฐานคล้ายฉลากโภชนาการของอาหารหรือตารางค่าธรรมเนียมบัตรเครดิต แต่ค้นหาแล้วแทบไม่เจอผลลัพธ์ อาจเป็นไปได้ว่า Meta เป็นผู้เริ่มใช้คำนี้ แต่ในความเป็นจริงมันคือโพสต์บล็อก สำหรับ OpenAI นั้นเป็น PDF ที่เขียนด้วย LaTeX ยาวหลายหน้า จึงยากจะเรียกว่าเป็นการ์ดมาตรฐาน

  • เอกสารนี้ดูเหมือนเอกสารการตลาดที่มีไว้เพื่อโอ้อวดความสามารถของ LLM มากกว่าจะจัดการปัญหาด้านความปลอดภัยจริง OpenAI กำลังร่วมมือกับ Anduril เพื่อพัฒนา AI แบบติดอาวุธสำหรับรัฐบาล

  • สงสัยว่าพวกเขาจะขู่ปิดบัญชีผู้ใช้หรือไม่ หากผู้ใช้พยายามสำรวจกระบวนการคิดที่ถูกซ่อนไว้

  • ส่วนที่ระบุว่าโมเดลจะไม่พ่นข้อมูลชุดฝึกออกมาซ้ำ ๆ ไม่ได้สร้างความเชื่อมั่น เพราะดูเหมือนว่าโมเดลคัดลอกข้อความจากชุดฝึกออกมาตรง ๆ แล้วอ้างว่าเป็นสิ่งที่มันสร้างขึ้นเอง

  • เดโมแรกน่าประทับใจ แม้จะไม่ถึงขั้นปฏิวัติวงการ แต่ก็เป็นความก้าวหน้าที่ดี หวังว่าจะมีคุณค่าจริงมากพอจะทำให้ราคา GPT Pro ที่ (ตามข่าวลือ) $200 สมเหตุสมผล

  • โค้ดยาว 300 บรรทัดเกิด deadlock ทุก ๆ หลายร้อยครั้งที่รัน หากความสามารถแบบนี้ใช้งานได้ผลจริง ความจำเป็นในการพัฒนา static checker ก็น่าจะลดลง หากสามารถขอให้เครื่องมือตรวจโค้ดช่วยหาสัญญาณของ out-of-bounds access, deadlock, use-after-free เป็นต้นได้ ก็น่าจะน่าประทับใจมาก

  • ให้ลิงก์ตรงไปยังรายงาน: ลิงก์รายงาน OpenAI