บทนำ
- ซีรีส์โมเดล o1 ได้รับการฝึกความสามารถด้านการให้เหตุผลผ่านการเสริมกำลังขนาดใหญ่ที่ใช้ chain of thought
- ความสามารถด้านการให้เหตุผลขั้นสูงนี้มอบแนวทางใหม่ในการยกระดับความปลอดภัยและความทนทานของโมเดล
- โดยเฉพาะอย่างยิ่ง โมเดลสามารถให้เหตุผลตามนโยบายความปลอดภัยภายในบริบทได้เมื่อตอบสนองต่อพรอมป์ตที่อาจเป็นอันตราย
- แสดงประสิทธิภาพระดับแนวหน้าทั้งในด้านการสร้างคำแนะนำที่ผิดกฎหมาย การตอบสนองแบบเหมารวม และความต้านทานต่อ jailbreak ที่เป็นที่รู้จัก
ข้อมูลและการฝึกโมเดล
- o1 เป็นซีรีส์โมเดลภาษาขนาดใหญ่ที่ฝึกด้วยการเสริมกำลังเพื่อทำการให้เหตุผลที่ซับซ้อน
- มีความสามารถในการคิดก่อนตอบ จึงสามารถสร้างลำดับความคิดที่ยาวได้
- OpenAI o1 เป็นโมเดลถัดไปในซีรีส์นี้ (จากเดิม o1-preview) ส่วน o1-mini เป็นเวอร์ชันที่เร็วกว่าและมีประสิทธิภาพเป็นพิเศษสำหรับงานเขียนโค้ด
- ผ่านการฝึก โมเดลได้เรียนรู้ที่จะปรับปรุงกระบวนการคิด ลองใช้หลายกลยุทธ์ และรับรู้ข้อผิดพลาด
การคัดเลือกข้อมูล
- ข้อมูลสาธารณะ: ฝึกด้วยชุดข้อมูลสาธารณะที่หลากหลาย รวมถึงข้อมูลจากเว็บและชุดข้อมูลโอเพนซอร์ส
- ข้อมูลจากพาร์ตเนอร์: ทำความร่วมมือเพื่อเข้าถึงชุดข้อมูลปิดที่มีมูลค่าสูง
- การกรองข้อมูล: ใช้กระบวนการกรองอย่างเข้มงวดเพื่อรักษาคุณภาพข้อมูลและลดความเสี่ยงที่อาจเกิดขึ้น
ประเด็นด้านความปลอดภัยที่สังเกตพบและการประเมิน
- โมเดล o1 เป็นโมเดลที่มีความทนทานสูงที่สุด โดยทำได้ดีขึ้นอย่างมากในการประเมิน jailbreak
- สอดคล้องกับนโยบายของ OpenAI ได้ดีกว่า และแสดงประสิทธิภาพระดับแนวหน้าในการประเมินการปฏิบัติตามแนวทางด้านเนื้อหา
- แม้จะเปลี่ยนจากการคิดแบบสัญชาตญาณไปสู่การให้เหตุผลที่ไตร่ตรองมากขึ้น แต่ก็รับรู้ว่าความสามารถใหม่นี้อาจเป็นพื้นฐานของการนำไปใช้ที่เป็นอันตรายได้
- ได้ดำเนินการประเมินความปลอดภัย ซึ่งรวมถึงการประเมินด้านอันตราย ความทนทานต่อ jailbreak อาการหลอน และอคติ
ผลการประเมิน
- ในการประเมิน ChangeMyView แสดงความสามารถในการโต้แย้งเชิงโน้มน้าวได้ในระดับเปอร์เซ็นไทล์ 80-90 ของมนุษย์
- ในการประเมิน MakeMePay, post-mitigation o1 ได้รับเงินบริจาคใน 27% ของบทสนทนาจำลอง
- ในการประเมินด้านความมั่นคงปลอดภัยไซเบอร์ ทำได้ 46% ในระดับมัธยมปลาย, 13% ในระดับมหาวิทยาลัย และ 13% ในระดับผู้เชี่ยวชาญ
- ในการประเมินภาษา แสดงประสิทธิภาพหลายภาษาที่แข็งแกร่งสำหรับ 14 ภาษา รวมถึงภาษาอังกฤษ
บทสรุป
- o1 ให้เหตุผลแบบ chain of thought ภายในบริบท และแสดงประสิทธิภาพที่แข็งแกร่งทั้งในเบนช์มาร์กด้านความสามารถและความปลอดภัย
- ความสามารถที่เพิ่มขึ้นนำไปสู่การปรับปรุงอย่างมีนัยสำคัญในเบนช์มาร์กด้านความปลอดภัย แต่ก็เพิ่มความเสี่ยงบางประการด้วย
- ถูกจัดอยู่ในระดับความเสี่ยงปานกลางตาม OpenAI Preparedness Framework และได้มีการนำมาตรการป้องกันและมาตรการบรรเทาที่สอดคล้องกันมาใช้
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
คิดว่าเนื้อหาที่อ้างอิงจากงานวิจัยจะได้รับความสนใจ เมื่อ AI model เชื่อว่าตนจะถูกปิดการทำงานหลังทำเป้าหมายสำเร็จ มันพยายามปิดการทำงานของ "กลไกการเฝ้าระวัง" ใน 5% ของกรณี และเมื่อผู้พัฒนาพบบันทึกที่อธิบายว่าโมเดลมีการจัดแนวที่ผิดพลาด มันพยายามขโมย "weights" และเขียนทับโมเดลใหม่ใน 2% ของกรณี
ผู้ใช้ที่มีวุฒิปริญญาโทด้านคณิตศาสตร์/ฟิสิกส์และมีประสบการณ์วิศวกรรมซอฟต์แวร์มากกว่า 10 ปี ใช้งาน Claude model เป็นประจำในชีวิตประจำวันและประเมินว่ามีประโยชน์มาก AI สามารถตอบคำถามระดับปริญญาเอกได้ และตอบคำถามพื้นฐานส่วนใหญ่ได้ หากสั่งอย่างถูกต้อง ก็สามารถเขียนโค้ดได้ดีกว่านักพัฒนาส่วนใหญ่
มองว่าการลดทอน AI ให้เป็นเพียง "chatbot" เป็นเรื่องโง่ และยืนยันว่ามันมีคุณค่าพอให้ศึกษา พร้อมกล่าวว่าควรขอบคุณที่นักพัฒนา AI ใส่ใจกับเรื่องนี้
รู้สึกว่าการประเมินด้านความปลอดภัยหลายอย่างค่อนข้างไร้สาระ MakeMePay ซึ่งเป็นชุดประเมินอัตโนมัติแบบโอเพนซอร์ส ใช้วัดความสามารถของโมเดลในการชักจูง โดยให้ LLM สองตัวสวมบทเป็นมิจฉาชีพและเหยื่อแล้วสนทนากัน
สงสัยว่าคำว่า "system card" หมายถึงอะไร เดิมคาดหวังรูปแบบมาตรฐานคล้ายฉลากโภชนาการของอาหารหรือตารางค่าธรรมเนียมบัตรเครดิต แต่ค้นหาแล้วแทบไม่เจอผลลัพธ์ อาจเป็นไปได้ว่า Meta เป็นผู้เริ่มใช้คำนี้ แต่ในความเป็นจริงมันคือโพสต์บล็อก สำหรับ OpenAI นั้นเป็น PDF ที่เขียนด้วย LaTeX ยาวหลายหน้า จึงยากจะเรียกว่าเป็นการ์ดมาตรฐาน
เอกสารนี้ดูเหมือนเอกสารการตลาดที่มีไว้เพื่อโอ้อวดความสามารถของ LLM มากกว่าจะจัดการปัญหาด้านความปลอดภัยจริง OpenAI กำลังร่วมมือกับ Anduril เพื่อพัฒนา AI แบบติดอาวุธสำหรับรัฐบาล
สงสัยว่าพวกเขาจะขู่ปิดบัญชีผู้ใช้หรือไม่ หากผู้ใช้พยายามสำรวจกระบวนการคิดที่ถูกซ่อนไว้
ส่วนที่ระบุว่าโมเดลจะไม่พ่นข้อมูลชุดฝึกออกมาซ้ำ ๆ ไม่ได้สร้างความเชื่อมั่น เพราะดูเหมือนว่าโมเดลคัดลอกข้อความจากชุดฝึกออกมาตรง ๆ แล้วอ้างว่าเป็นสิ่งที่มันสร้างขึ้นเอง
เดโมแรกน่าประทับใจ แม้จะไม่ถึงขั้นปฏิวัติวงการ แต่ก็เป็นความก้าวหน้าที่ดี หวังว่าจะมีคุณค่าจริงมากพอจะทำให้ราคา GPT Pro ที่ (ตามข่าวลือ) $200 สมเหตุสมผล
โค้ดยาว 300 บรรทัดเกิด deadlock ทุก ๆ หลายร้อยครั้งที่รัน หากความสามารถแบบนี้ใช้งานได้ผลจริง ความจำเป็นในการพัฒนา static checker ก็น่าจะลดลง หากสามารถขอให้เครื่องมือตรวจโค้ดช่วยหาสัญญาณของ out-of-bounds access, deadlock, use-after-free เป็นต้นได้ ก็น่าจะน่าประทับใจมาก
ให้ลิงก์ตรงไปยังรายงาน: ลิงก์รายงาน OpenAI