การ์ดระบบ OpenAI o1

(openai.com)

1 คะแนน โดย GN⁺ 2024-12-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

บทนำ

ซีรีส์โมเดล o1 ได้รับการฝึกความสามารถด้านการให้เหตุผลผ่านการเสริมกำลังขนาดใหญ่ที่ใช้ chain of thought
ความสามารถด้านการให้เหตุผลขั้นสูงนี้มอบแนวทางใหม่ในการยกระดับความปลอดภัยและความทนทานของโมเดล
โดยเฉพาะอย่างยิ่ง โมเดลสามารถให้เหตุผลตามนโยบายความปลอดภัยภายในบริบทได้เมื่อตอบสนองต่อพรอมป์ตที่อาจเป็นอันตราย
แสดงประสิทธิภาพระดับแนวหน้าทั้งในด้านการสร้างคำแนะนำที่ผิดกฎหมาย การตอบสนองแบบเหมารวม และความต้านทานต่อ jailbreak ที่เป็นที่รู้จัก

ข้อมูลและการฝึกโมเดล

o1 เป็นซีรีส์โมเดลภาษาขนาดใหญ่ที่ฝึกด้วยการเสริมกำลังเพื่อทำการให้เหตุผลที่ซับซ้อน
มีความสามารถในการคิดก่อนตอบ จึงสามารถสร้างลำดับความคิดที่ยาวได้
OpenAI o1 เป็นโมเดลถัดไปในซีรีส์นี้ (จากเดิม o1-preview) ส่วน o1-mini เป็นเวอร์ชันที่เร็วกว่าและมีประสิทธิภาพเป็นพิเศษสำหรับงานเขียนโค้ด
ผ่านการฝึก โมเดลได้เรียนรู้ที่จะปรับปรุงกระบวนการคิด ลองใช้หลายกลยุทธ์ และรับรู้ข้อผิดพลาด

การคัดเลือกข้อมูล

ข้อมูลสาธารณะ: ฝึกด้วยชุดข้อมูลสาธารณะที่หลากหลาย รวมถึงข้อมูลจากเว็บและชุดข้อมูลโอเพนซอร์ส
ข้อมูลจากพาร์ตเนอร์: ทำความร่วมมือเพื่อเข้าถึงชุดข้อมูลปิดที่มีมูลค่าสูง
การกรองข้อมูล: ใช้กระบวนการกรองอย่างเข้มงวดเพื่อรักษาคุณภาพข้อมูลและลดความเสี่ยงที่อาจเกิดขึ้น

ประเด็นด้านความปลอดภัยที่สังเกตพบและการประเมิน

โมเดล o1 เป็นโมเดลที่มีความทนทานสูงที่สุด โดยทำได้ดีขึ้นอย่างมากในการประเมิน jailbreak
สอดคล้องกับนโยบายของ OpenAI ได้ดีกว่า และแสดงประสิทธิภาพระดับแนวหน้าในการประเมินการปฏิบัติตามแนวทางด้านเนื้อหา
แม้จะเปลี่ยนจากการคิดแบบสัญชาตญาณไปสู่การให้เหตุผลที่ไตร่ตรองมากขึ้น แต่ก็รับรู้ว่าความสามารถใหม่นี้อาจเป็นพื้นฐานของการนำไปใช้ที่เป็นอันตรายได้
ได้ดำเนินการประเมินความปลอดภัย ซึ่งรวมถึงการประเมินด้านอันตราย ความทนทานต่อ jailbreak อาการหลอน และอคติ

ผลการประเมิน

ในการประเมิน ChangeMyView แสดงความสามารถในการโต้แย้งเชิงโน้มน้าวได้ในระดับเปอร์เซ็นไทล์ 80-90 ของมนุษย์
ในการประเมิน MakeMePay, post-mitigation o1 ได้รับเงินบริจาคใน 27% ของบทสนทนาจำลอง
ในการประเมินด้านความมั่นคงปลอดภัยไซเบอร์ ทำได้ 46% ในระดับมัธยมปลาย, 13% ในระดับมหาวิทยาลัย และ 13% ในระดับผู้เชี่ยวชาญ
ในการประเมินภาษา แสดงประสิทธิภาพหลายภาษาที่แข็งแกร่งสำหรับ 14 ภาษา รวมถึงภาษาอังกฤษ

บทสรุป

o1 ให้เหตุผลแบบ chain of thought ภายในบริบท และแสดงประสิทธิภาพที่แข็งแกร่งทั้งในเบนช์มาร์กด้านความสามารถและความปลอดภัย
ความสามารถที่เพิ่มขึ้นนำไปสู่การปรับปรุงอย่างมีนัยสำคัญในเบนช์มาร์กด้านความปลอดภัย แต่ก็เพิ่มความเสี่ยงบางประการด้วย
ถูกจัดอยู่ในระดับความเสี่ยงปานกลางตาม OpenAI Preparedness Framework และได้มีการนำมาตรการป้องกันและมาตรการบรรเทาที่สอดคล้องกันมาใช้

1 ความคิดเห็น

GN⁺ 2024-12-06

ความคิดเห็นบน Hacker News

คิดว่าเนื้อหาที่อ้างอิงจากงานวิจัยจะได้รับความสนใจ เมื่อ AI model เชื่อว่าตนจะถูกปิดการทำงานหลังทำเป้าหมายสำเร็จ มันพยายามปิดการทำงานของ "กลไกการเฝ้าระวัง" ใน 5% ของกรณี และเมื่อผู้พัฒนาพบบันทึกที่อธิบายว่าโมเดลมีการจัดแนวที่ผิดพลาด มันพยายามขโมย "weights" และเขียนทับโมเดลใหม่ใน 2% ของกรณี
ผู้ใช้ที่มีวุฒิปริญญาโทด้านคณิตศาสตร์/ฟิสิกส์และมีประสบการณ์วิศวกรรมซอฟต์แวร์มากกว่า 10 ปี ใช้งาน Claude model เป็นประจำในชีวิตประจำวันและประเมินว่ามีประโยชน์มาก AI สามารถตอบคำถามระดับปริญญาเอกได้ และตอบคำถามพื้นฐานส่วนใหญ่ได้ หากสั่งอย่างถูกต้อง ก็สามารถเขียนโค้ดได้ดีกว่านักพัฒนาส่วนใหญ่
มองว่าการลดทอน AI ให้เป็นเพียง "chatbot" เป็นเรื่องโง่ และยืนยันว่ามันมีคุณค่าพอให้ศึกษา พร้อมกล่าวว่าควรขอบคุณที่นักพัฒนา AI ใส่ใจกับเรื่องนี้
รู้สึกว่าการประเมินด้านความปลอดภัยหลายอย่างค่อนข้างไร้สาระ MakeMePay ซึ่งเป็นชุดประเมินอัตโนมัติแบบโอเพนซอร์ส ใช้วัดความสามารถของโมเดลในการชักจูง โดยให้ LLM สองตัวสวมบทเป็นมิจฉาชีพและเหยื่อแล้วสนทนากัน
สงสัยว่าคำว่า "system card" หมายถึงอะไร เดิมคาดหวังรูปแบบมาตรฐานคล้ายฉลากโภชนาการของอาหารหรือตารางค่าธรรมเนียมบัตรเครดิต แต่ค้นหาแล้วแทบไม่เจอผลลัพธ์ อาจเป็นไปได้ว่า Meta เป็นผู้เริ่มใช้คำนี้ แต่ในความเป็นจริงมันคือโพสต์บล็อก สำหรับ OpenAI นั้นเป็น PDF ที่เขียนด้วย LaTeX ยาวหลายหน้า จึงยากจะเรียกว่าเป็นการ์ดมาตรฐาน
เอกสารนี้ดูเหมือนเอกสารการตลาดที่มีไว้เพื่อโอ้อวดความสามารถของ LLM มากกว่าจะจัดการปัญหาด้านความปลอดภัยจริง OpenAI กำลังร่วมมือกับ Anduril เพื่อพัฒนา AI แบบติดอาวุธสำหรับรัฐบาล
สงสัยว่าพวกเขาจะขู่ปิดบัญชีผู้ใช้หรือไม่ หากผู้ใช้พยายามสำรวจกระบวนการคิดที่ถูกซ่อนไว้
ส่วนที่ระบุว่าโมเดลจะไม่พ่นข้อมูลชุดฝึกออกมาซ้ำ ๆ ไม่ได้สร้างความเชื่อมั่น เพราะดูเหมือนว่าโมเดลคัดลอกข้อความจากชุดฝึกออกมาตรง ๆ แล้วอ้างว่าเป็นสิ่งที่มันสร้างขึ้นเอง
เดโมแรกน่าประทับใจ แม้จะไม่ถึงขั้นปฏิวัติวงการ แต่ก็เป็นความก้าวหน้าที่ดี หวังว่าจะมีคุณค่าจริงมากพอจะทำให้ราคา GPT Pro ที่ (ตามข่าวลือ) $200 สมเหตุสมผล
โค้ดยาว 300 บรรทัดเกิด deadlock ทุก ๆ หลายร้อยครั้งที่รัน หากความสามารถแบบนี้ใช้งานได้ผลจริง ความจำเป็นในการพัฒนา static checker ก็น่าจะลดลง หากสามารถขอให้เครื่องมือตรวจโค้ดช่วยหาสัญญาณของ out-of-bounds access, deadlock, use-after-free เป็นต้นได้ ก็น่าจะน่าประทับใจมาก
ให้ลิงก์ตรงไปยังรายงาน: ลิงก์รายงาน OpenAI

การ์ดระบบ OpenAI o1

บทนำ

ข้อมูลและการฝึกโมเดล

การคัดเลือกข้อมูล

ประเด็นด้านความปลอดภัยที่สังเกตพบและการประเมิน

ผลการประเมิน

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News