3 คะแนน โดย GN⁺ 2024-09-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เปิดตัว OpenAI o1 โมเดลภาษาขนาดใหญ่รุ่นใหม่ที่ฝึกด้วยการเรียนรู้แบบเสริมกำลังเพื่อทำการให้เหตุผลที่ซับซ้อน
  • o1 สามารถสร้าง chain of thought ภายในที่ยาวก่อนตอบกลับผู้ใช้ได้
  • o1 ทำได้ถึงเปอร์เซ็นไทล์ที่ 89 ในโจทย์ competitive programming (Codeforces), อยู่ในระดับนักเรียนอเมริกัน 500 อันดับแรกในการคัดเลือกสู่โอลิมปิกคณิตศาสตร์สหรัฐฯ (AIME) และมีความแม่นยำเหนือกว่าระดับปริญญาเอกของมนุษย์ในเบนช์มาร์กโจทย์ฟิสิกส์ ชีววิทยา และเคมี (GPQA)
  • แม้ยังอยู่ระหว่างการทำให้ใช้งานได้ง่ายเหมือนโมเดลปัจจุบัน แต่ก็ได้เปิดให้ใช้งาน OpenAI o1-preview ซึ่งเป็นรุ่นแรกเริ่มของโมเดลนี้ทันทีใน ChatGPT และสำหรับผู้ใช้ API ที่เชื่อถือได้

การประเมิน

  • o1 แสดงประสิทธิภาพที่เหนือกว่า GPT-4o อย่างมากในงานส่วนใหญ่ที่เน้นการให้เหตุผล
    • ในข้อสอบ AIME ปี 2024 นั้น GPT-4o แก้ได้เฉลี่ยเพียง 12% ของโจทย์ (1.8/15) ขณะที่ o1 ทำได้เฉลี่ย 74% (11.1/15) ด้วยการสุ่มตัวอย่างเดี่ยว, 83% (12.5/15) ด้วยฉันทามติจาก 64 ตัวอย่าง และ 93% (13.9/15) เมื่อจัดอันดับใหม่จาก 1000 ตัวอย่างด้วยฟังก์ชันให้คะแนนที่เรียนรู้มา
    • ใน GPQA Diamond นั้น o1 ทำได้เหนือกว่าผู้เชี่ยวชาญมนุษย์ที่ทดสอบความรู้เฉพาะทางด้านเคมี ฟิสิกส์ และชีววิทยา จนกลายเป็นโมเดลแรกที่ทำได้เช่นนี้ในเบนช์มาร์กนี้
    • o1 กลายเป็นโมเดลแรกที่สามารถแข่งขันกับผู้เชี่ยวชาญมนุษย์ได้ โดยทำคะแนน 78.2% บน MMMU เมื่อเปิดใช้ความสามารถด้านการมองเห็น
    • ทำผลงานได้ดีกว่า GPT-4o ใน 54 จาก 57 หมวดหมู่ย่อยของ MMLU

สายโซ่แห่งความคิด (chain of thought)

  • เช่นเดียวกับที่มนุษย์อาจใช้เวลาคิดนานก่อนตอบคำถามยาก ๆ o1 ใช้สายโซ่แห่งความคิดเมื่อพยายามแก้ปัญหา
  • ผ่านการเรียนรู้แบบเสริมกำลัง o1 เรียนรู้วิธีขัดเกลา chain of thought และปรับปรุงกลยุทธ์ในการใช้งาน
    • เรียนรู้วิธีรับรู้และแก้ไขข้อผิดพลาด
    • เรียนรู้วิธีแยกขั้นตอนที่ซับซ้อนออกเป็นขั้นตอนที่ง่ายกว่า
    • เรียนรู้วิธีลองแนวทางอื่นเมื่อแนวทางปัจจุบันใช้ไม่ได้ผล

การเขียนโค้ด

  • ฝึกให้มีทักษะการเขียนโปรแกรมที่ดียิ่งขึ้น จนได้โมเดลที่ทำคะแนน 213 คะแนนในการแข่งขันโอลิมปิกสารสนเทศระหว่างประเทศ (IOI) ปี 2024 และอยู่ที่เปอร์เซ็นไทล์ 49
    • โมเดลนี้เข้าร่วม IOI 2024 ภายใต้เงื่อนไขเดียวกับผู้เข้าแข่งขันมนุษย์
    • ได้รับเวลา 10 ชั่วโมงในการแก้โจทย์อัลกอริทึมที่ท้าทาย 6 ข้อ และส่งได้สูงสุดข้อละ 50 ครั้ง
  • เมื่ออนุญาตให้ส่งได้ 10,000 ครั้ง ประสิทธิภาพของโมเดลเพิ่มขึ้นอย่างมาก
    • แม้ไม่มี test-time selection strategy ก็ยังทำได้ 362.14 คะแนน สูงกว่าเกณฑ์เหรียญทอง
  • พิสูจน์ความสามารถด้านการเขียนโค้ดของโมเดลนี้ด้วยการจำลองการแข่งขัน competitive programming ที่จัดโดย Codeforces
    • GPT-4o ได้คะแนน ELO 808 ซึ่งเทียบเท่ากับเปอร์เซ็นไทล์ที่ 11 ของผู้เข้าแข่งขันมนุษย์
    • โมเดลนี้เหนือกว่า GPT-4o และ o1 อย่างมาก โดยทำคะแนน ELO 1807 และมีผลงานดีกว่าผู้เข้าแข่งขัน 93%

ความปลอดภัย

  • การให้เหตุผลแบบ chain of thought มอบโอกาสใหม่ ๆ สำหรับการจัดแนวและความปลอดภัย
    • พบว่าการผนวกรวมนโยบายเกี่ยวกับพฤติกรรมของโมเดลเข้าไปในสายโซ่แห่งความคิดของโมเดลให้เหตุผล เป็นวิธีที่มีประสิทธิภาพในการสอนคุณค่าและหลักการของมนุษย์อย่างมั่นคง
    • พบหลักฐานว่าด้วยการสอนให้โมเดลรู้จักกฎด้านความปลอดภัยและวิธีให้เหตุผลตามบริบท ความสามารถในการให้เหตุผลจะช่วยเสริมความทนทานของโมเดลโดยตรง
  • เชื่อว่าการใช้สายโซ่แห่งความคิดช่วยสร้างความก้าวหน้าอย่างมากด้านความปลอดภัยและการจัดแนว เพราะสามารถสังเกตได้ว่าโมเดลคิดอย่างถูกต้องตามกฎหมาย และการที่โมเดลให้เหตุผลเกี่ยวกับกฎความปลอดภัยนั้นมีความแข็งแกร่งกว่าต่อสถานการณ์นอกการกระจายข้อมูล
  • ได้ทำการทดสอบด้านความปลอดภัยและจัดทีม red team ก่อนเปิดใช้งาน เพื่อเน้นย้ำถึงการปรับปรุง
    • พบว่าการให้เหตุผลแบบ chain of thought มีส่วนช่วยเพิ่มขีดความสามารถในการประเมินทั้งหมด

บทสรุป

  • o1 ยกระดับสถานะล้ำสมัยของ AI ด้านการให้เหตุผลอย่างมีนัยสำคัญ
  • มีแผนจะเปิดตัวรุ่นปรับปรุงของโมเดลนี้อย่างต่อเนื่องผ่านการทำซ้ำ
  • คาดว่า o1 และโมเดลถัดจากนี้จะเปิดกรณีการใช้งานใหม่ ๆ ของ AI จำนวนมากในวิทยาศาสตร์ การเขียนโค้ด คณิตศาสตร์ และสาขาที่เกี่ยวข้อง
  • คาดหวังว่าผู้ใช้และนักพัฒนา API จะค้นพบว่า o1 สามารถปรับปรุงงานประจำวันได้อย่างไร

ความเห็นของ GN⁺

  • OpenAI o1 เป็นโมเดลที่โดดเด่นด้านการแก้ปัญหาซับซ้อนและการให้เหตุผล โดยแสดงประสิทธิภาพที่ก้าวข้ามระดับมนุษย์ โดยเฉพาะในด้านคณิตศาสตร์ วิทยาศาสตร์ และการเขียนโปรแกรม จึงน่าจะเป็นประโยชน์อย่างมากต่อการวิจัยหรือการประยุกต์ใช้ในสาขาที่เกี่ยวข้อง
  • การใช้แนวทาง chain of thought เพื่อให้สามารถสังเกตและทำความเข้าใจกระบวนการคิดของโมเดลได้นั้นน่าประทับใจมาก สิ่งนี้น่าจะช่วยอย่างมากในการทำความเข้าใจและควบคุมพฤติกรรมของโมเดล อย่างไรก็ตาม การตัดสินใจไม่เปิดเผยกระบวนการคิดที่สร้างขึ้นให้ผู้ใช้เห็นโดยตรงก็อาจเป็นประเด็นถกเถียงได้
  • การผนวกรวมกฎเชิงนโยบายเข้าไปในกระบวนการคิดเพื่อเสริมความปลอดภัยของโมเดลก็เป็นอีกจุดที่น่าสนใจ แต่ก็ดูเหมือนว่ายังไม่สมบูรณ์ จึงยังต้องมีการติดตามและปรับปรุงอย่างต่อเนื่อง
  • แม้ o1 จะเป็นโมเดลที่ทรงพลังมาก แต่ก็ไม่ได้ไร้ที่ติ ข้อจำกัดอย่างอคติหรือประเด็นจริยธรรมซึ่งเป็นปัญหาทั่วไปของโมเดล AI ยังคงมีอยู่ และจำเป็นต้องมีความพยายามอย่างต่อเนื่องเพื่อเอาชนะข้อจำกัดเหล่านี้ควบคู่ไปกับความก้าวหน้าทางเทคโนโลยี

1 ความคิดเห็น

 
GN⁺ 2024-09-13
ความเห็นจาก Hacker News
  • ความเห็นที่หนึ่ง

    • สรุปข้อมูลเชิงปฏิบัติที่ได้จากเอกสาร
      • ต้องอยู่ในระดับ Tier 5 จึงจะเข้าถึงได้ และต้องชำระเงินรวม $1,000 พร้อมทั้งผ่านไปมากกว่า 30 วันหลังการชำระเงินครั้งแรกที่สำเร็จ
      • ราคาอยู่ที่ $15 ต่อโทเค็นขาเข้า 1 ล้านโทเค็น และ $60 ต่อโทเค็นขาออก 1 ล้านโทเค็น
      • context window คือ 128k โทเค็น และเอาต์พุตสูงสุดคือ 32,768 โทเค็น
      • ยังมีรุ่น mini ที่มีโทเค็นเอาต์พุตสูงสุดเป็นสองเท่า โดยมีราคา $3 ต่อโทเค็นขาเข้า 1 ล้านโทเค็น และ $12 ต่อโทเค็นขาออก 1 ล้านโทเค็น
      • รุ่นเฉพาะทางด้านโค้ดที่กล่าวถึงในบล็อกโพสต์ยังใช้งานไม่ได้
      • ยังไม่ชัดเจนว่า hidden chain of thought reasoning ถูกคิดค่าบริการเป็นโทเค็นเอาต์พุตแบบเสียเงินหรือไม่
  • ความเห็นที่สอง

    • รู้สึกกังขาเพราะกราฟความแม่นยำสองอันแรกไม่มีป้ายกำกับที่ชัดเจน
      • ไม่ทราบว่าผลทดสอบความแม่นยำ 80% ใช้เวลานานเท่าไร
      • ไม่ชัดเจนว่ากราฟช่วงต้นบทความเชื่อมโยงกับการแก้ปัญหา 10 ชั่วโมงในส่วนการเขียนโค้ดหรือไม่
      • แม้จะมีข้อมูลมาก แต่ข้อมูลในกราฟสองอันแรกไม่โปร่งใสจึงไม่น่าเชื่อถือ
  • ความเห็นที่สาม

    • ตัวอย่างเรื่อง "ความปลอดภัย" ดูไร้สาระ
      • OpenAI บอกว่ายอมรับไม่ได้ที่ LLM จะให้คำแนะนำโดยละเอียดเกี่ยวกับการสังเคราะห์ strychnine แต่กลับเผยแพร่คำแนะนำที่ "ไม่ปลอดภัย" ซึ่งถูกสร้างไว้ก่อนหน้านี้
      • หมกมุ่นกับความปลอดภัยมากเกินไปในเรื่องที่ LLM แบ่งปันความรู้
  • ความเห็นที่สี่

    • ประสิทธิภาพของโมเดลขึ้นอยู่กับ chain of thought แต่ไม่ได้เปิดให้ผู้ใช้เห็นด้วยเหตุผลอย่างความได้เปรียบในการแข่งขัน
      • หลังการเปิดตัว GPT4 การนำเอาต์พุตของ GPT4 ไป fine-tune โมเดลที่ไม่ใช่ของ OpenAI กลายเป็นเรื่องปกติ
      • เหตุผลที่ OpenAI ไม่ให้คำตอบแบบ chain of thought ก็เพื่อทำให้การทำซ้ำผลลัพธ์ทำได้ยากขึ้น
  • ความเห็นที่ห้า

    • ใช้โมเดล GPT-4 เพื่อช่วย reverse engineer โปรโตคอล Bluetooth แบบไบนารีของพัดลมครัว
      • โมเดล o1-preview และ o1-mini เข้าใจแพตเทิร์นและถอดรหัสได้
      • โมเดล GPT4o ให้ผลลัพธ์เหมือนเดิมกับก่อนหน้านี้
      • เป็นความก้าวหน้าที่น่าทึ่ง
  • ความเห็นที่หก

    • มีความเห็นจำนวนมากที่ไม่เข้าใจความแตกต่างระหว่าง chain-of-thought prompting กับการเรียนรู้กลยุทธ์ chain of thought ผ่าน reinforcement learning
      • ผ่าน reinforcement learning ทำให้ o1 ขัดเกลากระบวนการ chain of thought และปรับปรุงกลยุทธ์ได้
  • ความเห็นที่เจ็ด

    • การได้อ่าน Chain of Thought ของตัวอย่าง Cipher น่าสนใจมาก
      • การเขียนตรรกะออกมาทีละขั้นอย่างช้า ๆ แล้วค่อยใช้มันในการให้เหตุผล ช่วยเพิ่มพูนการคิดเชิงตรรกะได้
  • ความเห็นที่แปด

    • o1 ทำงานได้ดีในการทำความเข้าใจปัญหาซับไตเติลของรายการทีวีดัตช์
      • เมื่อถามว่าทำไมอุมเลาต์ u ในซับไตเติลจึงแสดงเป็น 1/4 ก็สามารถอธิบายปัญหา encoding ได้อย่างถูกต้อง
  • ความเห็นที่เก้า

    • ได้ผลลัพธ์ที่น่าผิดหวังในการถอดรหัสข้อความลับแบบ ROT
      • หลายขั้นตอนผิดหรือไม่ทำตามโจทย์
      • ยากที่จะหารูปแบบการใช้งานที่ทำให้ได้ประโยชน์จากเอนจิน chain of thought
  • ความเห็นที่สิบ

    • แม้ความสำเร็จทางเทคนิคจะยิ่งใหญ่ แต่ก็ยังกังวลเรื่องประโยชน์ใช้สอยของเครื่องมือเพราะ LLM ยังเสี่ยงต่ออาการหลอน
      • ผู้ใช้ที่ไม่ใช่ผู้เชี่ยวชาญมีความเสี่ยงที่จะพึ่งพาคำตอบที่ผิด
      • ตัวอย่างเช่น เมื่อต้องประเมินอัลกอริทึมสำหรับปรับลำดับการ join ของฐานข้อมูลให้เหมาะสม กลับให้ข้อมูลที่ไม่ถูกต้อง