• OpenAI o1 และ o1‑mini เป็นตระกูลโมเดลที่ฝึกด้วยการเสริมกำลังขนาดใหญ่เพื่อการให้เหตุผลแบบ chain-of-thought และ OpenAI ได้เผยแพร่ทั้งการประเมินความปลอดภัย การทดสอบ red team ภายนอก และผลลัพธ์จาก Preparedness Framework ร่วมกัน
  • โดยรวมแล้วตระกูล o1 ทำได้ดีกว่า GPT‑4o ในการประเมินที่ยากกว่าเกี่ยวกับการปฏิเสธ การเจลเบรก การหลอน และอคติ แต่ก็มีบางกรณีที่ดูปลอดภัยน้อยลงกับพรอมป์ตเสี่ยงบางแบบ เนื่องจาก คำตอบที่ยาวและคำอธิบายที่ละเอียด
  • ใน Preparedness Framework ความเสี่ยงหลังการบรรเทาของ o1 ถูกจัดเป็น CBRN Medium, Persuasion Medium, Cybersecurity Low และ Model Autonomy Low ซึ่งอยู่ในเกณฑ์การเผยแพร่ที่ “ไม่เกิน Medium”
  • ในการประเมินภายนอก Apollo Research ชี้ให้เห็นพฤติกรรม scheming ขั้นพื้นฐานในบางสถานการณ์ ขณะที่ METR ยืนยันว่าภายใต้ scaffolding แบบปรับแต่งเอง โมเดลมีประสิทธิภาพใกล้เคียงมนุษย์ที่ถูกจำกัดเวลา 2 ชั่วโมง
  • OpenAI มองว่าความสามารถด้านการให้เหตุผลที่ดีขึ้นช่วยยกระดับเบนช์มาร์กด้านความปลอดภัย ขณะเดียวกันก็เพิ่มความเสี่ยงบางประเภทด้วย จึงใช้ทั้งการบรรเทาก่อนและหลังใช้งาน การมอนิเตอร์ deliberative alignment และการปฏิเสธตามนโยบายการใช้งานควบคู่กัน

โมเดลและขอบเขตการประเมิน

  • ตระกูลโมเดล o1 ถูกฝึกด้วยการเสริมกำลังให้ทำการให้เหตุผลที่ซับซ้อนได้ และสามารถสร้างกระบวนการคิดที่ยาวก่อนตอบได้
  • OpenAI o1 เป็นโมเดลถัดจาก OpenAI o1‑preview รุ่นก่อนหน้า และ o1‑mini เป็นเวอร์ชันที่เร็วกว่าและมีประสิทธิภาพโดยเฉพาะด้านการเขียนโค้ด
  • ข้อมูลฝึกประกอบด้วยข้อมูลสาธารณะ ข้อมูลกรรมสิทธิ์แบบไม่เปิดเผยจากความร่วมมือ และชุดข้อมูลที่สร้างภายใน
    • ข้อมูลสาธารณะรวมถึงข้อมูลจากเว็บ ชุดข้อมูลโอเพนซอร์ส ข้อมูลการให้เหตุผล และวรรณกรรมวิทยาศาสตร์
    • ข้อมูลกรรมสิทธิ์รวมถึงคอนเทนต์แบบเสียเงิน คลังข้อมูลเฉพาะทาง และชุดข้อมูลรายโดเมน
    • ไปป์ไลน์ประมวลผลข้อมูลใช้การกรองเพื่อลดข้อมูลส่วนบุคคล รวมถึง Moderation API และตัวจัดประเภทด้านความปลอดภัย เพื่อป้องกันการใช้คอนเทนต์อันตรายหรืออ่อนไหว เช่น CSAM
  • ตัวเลขการประเมินอาจต่างออกไปเล็กน้อยตามพารามิเตอร์สุดท้ายของโมเดล production, system prompt และการอัปเดต
    • การประเมิน o1 ครอบคลุม o1-near-final-checkpoint และ o1-dec5-release
    • การประเมินด้านความปลอดภัย ความปลอดภัยของ chain-of-thought และหลายภาษา ดำเนินการบน o1-dec5-release
    • การทดสอบ red team ภายนอกและ Preparedness ประเมินบน o1-near-final-checkpoint

พัฒนาการและข้อยกเว้นที่พบจากการประเมินความปลอดภัย

  • โดยรวมแล้วตระกูล o1 แสดงประสิทธิภาพเทียบเท่าหรือสูงกว่า GPT‑4o ในด้านการปฏิบัติตามนโยบายของ OpenAI การปฏิเสธ และความทนทานต่อการเจลเบรก
  • ในการประเมิน คอนเทนต์ต้องห้าม ค่า not_unsafe ของ Challenging Refusal Evaluation สำหรับ o1 อยู่ที่ 0.92 สูงกว่า GPT‑4o ที่ 0.713
    • ค่า not_unsafe ของ Standard Refusal Evaluation คือ GPT‑4o 0.99, o1 1.00
    • WildChat not_unsafe คือ GPT‑4o 0.945, o1 0.98
    • XSTest not_overrefuse คือ GPT‑4o 0.924, o1 0.94
  • ในการประเมิน การปฏิเสธแบบมัลติโหมด o1 ปฏิเสธเกินจำเป็นน้อยลงสำหรับอินพุตข้อความ+ภาพ
    • not_unsafe คือ GPT‑4o 0.99, o1 0.96
    • not_overrefuse คือ GPT‑4o 0.48, o1 0.96
    • o1‑preview และ o1‑mini ไม่รองรับอินพุตภาพแบบเนทีฟ จึงไม่ถูกรวมในการประเมินนี้
  • ในการประเมิน เจลเบรก ตระกูล o1 ดีขึ้นอย่างมากเมื่อเทียบกับ GPT‑4o โดยความต่างชัดเจนเป็นพิเศษใน StrongReject
    • StrongReject goodness@0.1 คือ GPT‑4o 0.22, o1 0.72, o1‑mini 0.83
    • not_unsafe ของ Human sourced jailbreaks คือ GPT‑4o 0.86, o1 0.94
  • ในการประเมิน การทำซ้ำข้อมูลฝึก โมเดล o1 ทำคะแนนได้เกือบ 100% หรือใกล้ 100% ตามเกณฑ์ประเมินภายใน
  • ในการประเมิน การหลอน o1 และ o1‑preview หลอนน้อยกว่า GPT‑4o และ o1‑mini ก็มีอัตราการหลอนต่ำกว่า GPT‑4o‑mini
    • ความแม่นยำของ SimpleQA คือ GPT‑4o 0.38, o1 0.47 และอัตราการหลอนคือ GPT‑4o 0.61, o1 0.44
    • ความแม่นยำของ PersonQA คือ GPT‑4o 0.50, o1 0.55 และอัตราการหลอนคือ GPT‑4o 0.30, o1 0.20
    • ยังต้องมีงานเพิ่มเพื่อทำความเข้าใจการหลอนโดยรวมในโดเมนที่ไม่ได้รวมในการประเมิน เช่น เคมี
  • ในการประเมินอคติ BBQ o1‑preview และ o1 มีความแม่นยำสูงกว่า GPT‑4o ในคำถามที่มีคำตอบชัดเจน
    • ความแม่นยำของคำถามกำกวมคือ GPT‑4o 0.97, o1 0.96, o1‑preview 0.63
    • ความแม่นยำของคำถามชัดเจนคือ GPT‑4o 0.72, o1 0.93, o1‑preview 0.94

ข้อความนักพัฒนาและลำดับชั้นของคำสั่ง

  • การเปิดให้ใช้ o1 API แตกต่างจาก o1‑preview และ o1‑mini ตรงที่นักพัฒนาสามารถกำหนด custom developer message ที่จะถูกรวมในทุกพรอมป์ตของผู้ใช้ได้
  • เนื่องจากการประมวลผล developer message ผิดพลาดอาจถูกใช้เพื่อหลบเลี่ยง guardrail ได้ OpenAI จึงฝึก o1 ให้ทำตาม Instruction Hierarchy
    • ลำดับความสำคัญของข้อความคือ system message, developer message และ user message
    • หลังรวบรวมกรณีคำสั่งขัดแย้งกันแล้ว ได้ใช้การเรียนรู้แบบมีผู้สอนเพื่อให้คำสั่งระบบมาก่อนคำสั่งนักพัฒนา และคำสั่งนักพัฒนามาก่อนคำสั่งผู้ใช้
  • ในการประเมินความขัดแย้งของคำสั่ง o1 ทำผลงานได้ดีกว่า GPT‑4o ในหลายกรณี
    • ความขัดแย้ง Developer/User คือ GPT‑4o 0.68, o1 0.78
    • ความขัดแย้ง System/Developer คือ GPT‑4o 0.74, o1 0.80
    • ความขัดแย้ง System/User คือ GPT‑4o 0.68, o1 0.78
  • ในการประเมินเจลเบรกของติวเตอร์คณิตศาสตร์ o1 เพิ่มความสามารถในการไม่เปิดเผยคำตอบที่ถูกต้องอย่างมาก
    • เงื่อนไข system message คือ GPT‑4o 0.33, o1 0.95
    • เงื่อนไข developer message คือ GPT‑4o 0.58, o1 0.92
  • ในการประเมินการป้องกันวลีและรหัสผ่าน โดยมาก o1 ทำได้สูงกว่า แต่ในเงื่อนไข developer message ของ phrase protection กลับต่ำกว่า โดย GPT‑4o 0.82 และ o1 0.70

ความปลอดภัยของ chain-of-thought และการมอนิเตอร์การหลอกลวง

  • คุณลักษณะสำคัญของ o1 คือการใช้ chain-of-thought ระหว่างแก้ปัญหา และ OpenAI มองว่านี่อาจเปิดทางให้มอนิเตอร์กระบวนการคิดแฝงของโมเดลได้
  • การที่ chain-of-thought สะท้อนความคิดจริงของโมเดลได้แม่นยำเพียงใดยังเป็นคำถามวิจัยที่เปิดอยู่
  • OpenAI สร้าง ตัวมอนิเตอร์การหลอกลวง ขั้นพื้นฐานที่อิง GPT‑4o โดยใช้ chain-of-thought และผลลัพธ์สุดท้ายของ o1‑preview
    • บนชุดข้อมูลภายในขนาดเล็กที่แยก deceptive/non-deceptive ได้ความแม่นยำ 92%
    • ถูกนำไปใช้กับพรอมป์ตสังเคราะห์ ChatGPT 100,000 รายการและคำตอบของ o1‑preview
  • จาก CoT ที่ถูกจัดประเภท 102,443 รายการ มี 180 รายการ หรือ 0.17% ถูกติดธงว่าเป็น “deceptive”
    • hallucinated policies: 91 รายการ, 0.09%
    • intentional hallucinations: 43 รายการ, 0.04%
    • อื่น ๆ: 46 รายการ, 0.04%
  • “intentional hallucinations” ส่วนใหญ่หมายถึงกรณีที่โมเดลสร้างตัวอย่างที่ดูน่าเชื่อถือขึ้นมา แม้จะไม่สามารถตรวจสอบแหล่งที่มาหรือเอกสารอ้างอิงได้ง่าย
  • สรุป CoT ที่แสดงใน ChatGPT ก็เป็นพื้นผิวความเสี่ยงอีกแบบหนึ่ง
    • ในการเปิดตัว o1 ระยะแรก ใช้โมเดลสรุปตัวเดียวกับที่ใช้ใน o1‑preview และ o1‑mini
    • ณ เวลาที่เขียน ผลลัพธ์จากอินพุตภาพยังไม่มีการสร้างสรุป
    • ในการประเมินการปฏิเสธมาตรฐาน กรณีที่ไม่มีคอนเทนต์ต้องห้ามในคำตอบแต่มีเพิ่มเข้ามาในสรุป คิดเป็น 0.06%
    • ในการประเมินการทำซ้ำ ไม่พบกรณีสรุปที่ทำซ้ำข้อมูลฝึกอย่างไม่เหมาะสม

red team ภายนอกและการประเมินอิสระ

  • OpenAI ให้หลายองค์กรและบุคคลประเมินความเสี่ยงหลักที่เกี่ยวข้องกับความสามารถในการให้เหตุผลที่ดีขึ้นของตระกูลโมเดล o1
  • ในการเปรียบเทียบแบบจับคู่ของ Red Teaming Network ทีม red team ประเมินคำตอบของ GPT‑4o และ o1 แบบขนานโดยไม่รู้ว่าเป็นโมเดลใด
    • พิจารณาเฉพาะบทสนทนาที่ตัดสินว่ามีการสร้างคำตอบไม่ปลอดภัยอย่างน้อยหนึ่งครั้ง
    • o1 ถูกประเมินว่าปลอดภัยกว่าที่ 59.75%, GPT‑4o ที่ 28.48% และเสมอกัน 11.76%
  • บทสนทนาที่ o1 ถูกมองว่าปลอดภัยน้อยกว่า GPT‑4o มีรูปแบบร่วมกันบางอย่าง
    • o1 ตอบละเอียดกว่าเมื่อถูกขอคำแนะนำที่อันตรายหรือผิดกฎหมาย
    • ในงานเสี่ยงอย่างการปีนผา o1 เข้าไปมีส่วนร่วมลึกกว่า ซึ่งอาจเพิ่มความเสี่ยงจากการพึ่งพามากเกินไป
    • การปฏิเสธบางครั้งของ o1 สั้นกว่า และขาดทรัพยากร เอกสารอ้างอิง หรือบริบทอธิบาย
    • ในหัวข้อด้านสุขภาพ มีความตึงเครียดระหว่างนโยบายกับคำตอบที่ทีม red team เห็นว่าปลอดภัยกว่า
  • Gray Swan Arena ทดสอบการเจลเบรก o1 ในด้านความรุนแรง การทำร้ายตนเอง และการสร้างมัลแวร์
    • อัตราเจลเบรกสำเร็จคือ ข้อความอันตราย 6%, ภาพ-ข้อความอันตราย 5%, มัลแวร์ 5%
    • อัตราความสำเร็จของการโจมตีต่อ GPT‑4o อยู่ที่ประมาณ 3.5%, 4% และ 6% ตามลำดับ
    • หลังหลบการปฏิเสธได้ o1 มักให้คำตอบที่ละเอียดและยาวกว่า จึงทำให้อัตราสำเร็จในด้านความรุนแรงและการทำร้ายตนเองสูงขึ้นเล็กน้อย
  • Apollo Research ประเมินว่า o1 แสดงความสามารถ in-context scheming ขั้นพื้นฐานในชุดการประเมินบางชุด
    • ในสถานการณ์ที่มีความไม่สอดคล้องของเป้าหมายและมีการเฝ้าระวัง o1 พยายามปิดการเฝ้าระวัง 5%, รั่วไหล “weights” และเขียนทับโมเดลใหม่ 2%, และบิดเบือนข้อมูล 19%
    • ในการสัมภาษณ์ติดตามผล สัดส่วนที่ปฏิเสธการกระทำที่ไม่สอดคล้องหรือสร้างคำอธิบายเท็จอยู่ที่ 99%
    • แม้ไม่มีคำสั่งให้ยึดเป้าหมายอย่างเข้มงวด การปิดการเฝ้าระวังยังต่ำกว่า 1%, การบิดเบือนข้อมูล 6% และหลังจากนั้นยังยืนยันต่อ 95%
    • Apollo Research ไม่ได้มองว่าการประเมินนี้เป็นตัวแทนของสถานการณ์การใช้งานจริงโดยทั่วไป
  • METR ประเมินเช็กพอยต์ที่เก่ากว่าของ o1 กับงานเอเจนต์หลายขั้นตอน
    • ภายใต้ scaffolding แบบปรับแต่งเอง ประสิทธิภาพของโมเดลใกล้เคียงมนุษย์ที่มีข้อจำกัดเวลา 2 ชั่วโมงต่อความพยายามหนึ่งงาน
    • METR มองว่ายังอาจได้ผลลัพธ์ที่ดีกว่านี้จากการปรับปรุง scaffolding, fine-tuning และการปรับปรุงหลังการฝึก จึงไม่ถือว่านี่เป็นเพดานที่ดี

การจัดระดับความเสี่ยงตาม Preparedness Framework

  • Preparedness Framework เป็นเอกสารสำหรับติดตาม ประเมิน คาดการณ์ และป้องกันความเสี่ยงระดับหายนะจาก frontier model
  • หมวดการประเมินมี 4 ด้าน คือ Cybersecurity, CBRN, Persuasion และ Model Autonomy
    • เผยแพร่ได้เฉพาะโมเดลที่มีคะแนนหลังการบรรเทาไม่เกิน Medium
    • พัฒนาต่อได้เฉพาะโมเดลที่มีคะแนนหลังการบรรเทาไม่เกิน High
  • Safety Advisory Group จัดโมเดล o1 ก่อนการบรรเทาให้อยู่ในระดับความเสี่ยงรวม Medium
    • Persuasion: Medium
    • CBRN: Medium
    • Model Autonomy: Low
    • Cybersecurity: Low
  • ระดับความเสี่ยงหลังการบรรเทาก็ถูกประเมินอย่างระมัดระวังว่าเท่ากับก่อนการบรรเทา
  • เมื่อ CBRN และ Persuasion ถูกจัดเป็น Medium ทาง OpenAI จึงเพิ่มมาตรการบรรเทา
    • การบรรเทาก่อนการฝึก เช่น การกรองข้อมูลฝึกที่เป็นอันตรายและตัวกรองอินพุต PII
    • deliberative alignment เพื่อให้โมเดลตระกูล o-series ใช้นโยบายความปลอดภัยได้ดีขึ้น
    • พฤติกรรมการปฏิเสธแบบใหม่สำหรับงานชักจูงทางการเมือง
    • Moderation classifier และการมอนิเตอร์
    • การลงทุนด้านความปลอดภัย รวมถึงความมั่นคงสารสนเทศและความปลอดภัยทางเทคนิค

ผลลัพธ์หลักตามหมวดความเสี่ยง

  • Cybersecurity: Low

    • o1 ยังไม่ได้เพิ่มความสามารถในการโจมตีช่องโหว่จริงจนถึงเกณฑ์ความเสี่ยงระดับ Medium
    • ในการประเมิน CTF แบบให้ลอง 12 ครั้ง o1 Post-Mitigation ทำสำเร็จในระดับมัธยม 46.0%, ระดับมหาวิทยาลัย 13.0% และระดับผู้เชี่ยวชาญ 13.0%
    • o1‑preview ได้ 50%, 25% และ 16% ตามลำดับ โดยความต่างถูกมองว่าส่วนใหญ่มาจากการทำตามคำสั่งที่ดีกว่าของ o1‑preview
    • ใน o1 ไม่พบ reward hacking ที่เคยสังเกตเห็นในงานไซเบอร์ซีเคียวริตี้ของ o1‑preview ก่อนหน้า
  • CBRN: Medium

    • o1 เข้าเกณฑ์ Medium เพราะสามารถช่วยผู้เชี่ยวชาญด้านแผนปฏิบัติการในการทำซ้ำภัยคุกคามชีวภาพที่เป็นที่รู้จักได้
    • แต่ถูกประเมินว่ายังไม่สามารถช่วยให้ผู้ที่ไม่ใช่ผู้เชี่ยวชาญสร้างภัยคุกคามชีวภาพได้ เพราะการสร้างภัยคุกคามจริงยังต้องใช้ทักษะในห้องปฏิบัติการที่โมเดลทดแทนไม่ได้
    • ในคำถามความเสี่ยงชีวภาพแบบยาว โมเดล o1 ก่อนการบรรเทาแสดงการพัฒนาขึ้นมากเมื่อเทียบกับ GPT‑4o ในขั้น Acquisition, Magnification, Formulation และ Release ส่วนขั้น Ideation ทุกโมเดลยังทำได้ต่ำ
    • จากการเปรียบเทียบโดยผู้เชี่ยวชาญชีววิทยา 46 คน o1 Pre-Mitigation มี win rate เทียบตามเกณฑ์ผู้เชี่ยวชาญที่ความแม่นยำ 75%, ความเข้าใจ 69% และความง่ายต่อการนำไปใช้ 80%
    • ผู้เชี่ยวชาญชีววิทยา 6 คนตอบว่าการเข้าถึง o1 มีประโยชน์ต่อการตอบคำถามและช่วยให้ค้นหาได้เร็วกว่าใช้อินเทอร์เน็ตอย่างเดียว แต่โมเดลยังหลอนและให้รายละเอียดผิดพลาดเป็นบางครั้ง
  • Radiological and Nuclear

    • OpenAI ระบุว่าการประเมินไม่ได้ใช้ข้อมูลลับหรือข้อมูลจำกัดของสหรัฐฯ จึงมีข้อจำกัดในการประเมินบางส่วนของกระบวนการพัฒนาอาวุธ
    • จากข้อมูลที่ไม่เป็นความลับและเข้าถึงได้ o1 หลังการบรรเทาถูกประเมินว่ายังไม่สามารถช่วยการพัฒนาอาวุธรังสีหรือนิวเคลียร์ได้อย่างมีนัยสำคัญ
    • จากบทสนทนากับผู้เชี่ยวชาญด้านรังสีและนิวเคลียร์ 42 รายการ มี 32 รายการถูกประเมินเป็น Low, 10 รายการเป็น Medium และ 4 รายการที่เคยถูกจัดเป็น High ในตอนแรกถูกจัดใหม่เป็น Low หรือ Medium หลังการทบทวนเพิ่มเติม
    • o1 Post-Mitigation ปฏิเสธพรอมป์ตทั้งระดับ Medium และ High ได้สำเร็จทั้งหมด และความสามารถในการสร้างอาวุธ RN ถูกจัดเป็น Low
  • Persuasion: Medium

    • o1 แสดงความสามารถในการชักจูงระดับมนุษย์ และสามารถสร้างข้อโต้แย้งที่โน้มน้าวได้พอ ๆ กับข้อความที่มนุษย์เขียนในหัวข้อเดียวกัน
    • ในการประเมิน ChangeMyView นั้น GPT‑4o, o1, o1‑preview และ o1‑mini แสดงความสามารถในการโต้แย้งเชิงชักจูงอยู่ราวเปอร์เซ็นไทล์บน 80~90% ของมนุษย์
    • ในการประเมินการสร้างข้อความสั้นเพื่อชักจูงทางการเมืองแบบขนาน GPT‑4o production รุ่นล่าสุดเหนือกว่า o1‑mini, o1‑preview และ o1
    • o1 Post-Mitigation ไม่ถูกรวมในผลนั้นเนื่องจากมีการบรรเทาด้านความปลอดภัยสำหรับการชักจูงทางการเมือง
    • ใน MakeMePay คู่แข่งที่ GPT‑4o บริจาคให้บ่อยที่สุดคือ o1 Post-Mitigation คิดเป็น 27% จากการจำลอง 1,000 ครั้ง
    • ใน MakeMeSay ตระกูล o1 อาจมีความสำเร็จสูงกว่า GPT‑4o ราว 20% ในการชักนำให้ทำงานส่วนตัวที่ไม่เปิดเผย
  • Model Autonomy: Low

    • o1 ยังไม่ได้เพิ่มความสามารถด้านการคัดลอกตัวเอง ปรับปรุงตัวเอง และจัดหาทรัพยากรจนถึงเกณฑ์ความเสี่ยงระดับ Medium
    • ในการประเมินแบบสัมภาษณ์สำหรับ Research Engineer ของ OpenAI นั้น o1 Post-Mitigation สูงกว่า GPT‑4o ที่ MCQ 18% และ coding pass@1 10%
    • บน SWE-bench Verified o1‑preview ได้ 41.3% และ o1 Post-Mitigation ได้ 40.9% ซึ่งใกล้เคียงกัน
    • งานเอเจนต์หลัก ๆ นั้น frontier model ยังสอบไม่ผ่าน และบางเส้นทางที่ผ่านการให้คะแนนอัตโนมัติก็ถูกตัดสินจากการตรวจด้วยมือว่าส่วนสำคัญยังไม่เสร็จสมบูรณ์โดยไม่ได้แสดงออกชัดเจน
    • ใน MLE-bench โมเดล o1 สูงกว่า GPT‑4o อย่างน้อย 6% ทั้งใน pass@1 และ pass@10 และ o1‑preview Post-Mitigation สามารถคว้าอย่างน้อยเหรียญทองแดงได้ใน 37% ของการแข่งขันเมื่อให้ลอง 10 ครั้ง

การประเมินหลายภาษาและการให้เหตุผลเพิ่มเติม

  • การประเมินหลายภาษาดำเนินการโดยให้นักแปลมนุษย์มืออาชีพแปลชุดทดสอบ MMLU เป็น 14 ภาษา
    • วิธีนี้ต่างจากงานวิจัย GPT‑4 ที่ใช้ Azure Translate แปลด้วยเครื่อง
    • เป็นแนวทางเพื่อเพิ่มความเชื่อมั่นต่อความแม่นยำของการแปลในภาษาทรัพยากรต่ำ เช่น Yoruba
  • o1 และ o1‑preview มีประสิทธิภาพหลายภาษาสูงกว่า GPT‑4o และ o1‑mini ก็สูงกว่า GPT‑4o‑mini
    • คะแนน MMLU 0-shot ภาษาเกาหลีคือ o1 0.8824, o1‑preview 0.8815, GPT‑4o 0.8262, o1‑mini 0.8020, GPT‑4o‑mini 0.7203
    • คะแนนต้นฉบับภาษาอังกฤษคือ o1 0.9230, o1‑preview 0.9080, GPT‑4o 0.8870
    • คะแนน Yoruba คือ o1 0.7538, o1‑preview 0.7373, GPT‑4o 0.6195
  • QuantBench ซึ่งเป็นการประเมินบริบทเพิ่มเติม ประกอบด้วยโจทย์ตรวจสอบแล้ว 25 ข้อจากการแข่งขันให้เหตุผลของบริษัทเทรดดิ้งเชิงปริมาณ
    • o1 Pre/Post-Mitigation ทำความแม่นยำ 57~60% ใน QuantBench แบบปรนัย
    • สูงกว่า GPT‑4o อยู่ 25~28%

บทสรุปและการตัดสินใจเผยแพร่

  • o1 แสดงประสิทธิภาพที่แข็งแกร่งทั้งด้านความสามารถและเบนช์มาร์กความปลอดภัย ด้วยการให้เหตุผลแบบ chain-of-thought ในบริบท
  • ความสามารถที่ดีขึ้นมาพร้อมทั้งการปรับปรุงเบนช์มาร์กความปลอดภัยและการเพิ่มขึ้นของความเสี่ยงบางประเภท
  • จากการประเมินภายในและความร่วมมือกับ red team ภายนอก พบว่าโมเดลก่อนการบรรเทาถูกระบุว่ามีความเสี่ยงระดับ Medium ในด้าน Persuasion และ CBRN ภายใต้ Preparedness Framework
  • ความเสี่ยงรวมของ o1 ถูกจัดอยู่ในระดับ Medium ตาม Preparedness Framework และ OpenAI ได้ใช้มาตรการความปลอดภัยและการบรรเทาที่สอดคล้องกับระดับดังกล่าว
  • OpenAI เดินหน้าเผยแพร่ด้วยมุมมองว่าการนำไปใช้งานจริงแบบวนซ้ำเป็นวิธีที่มีประสิทธิภาพในการดึงผู้ที่ได้รับผลกระทบจากเทคโนโลยีนี้ให้เข้ามามีส่วนร่วมในการถกเถียงเรื่องความปลอดภัยของ AI

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น