6 คะแนน โดย GN⁺ 2024-09-14 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • OpenAI เปิดตัวโมเดลพรีวิวใหม่ o1-preview และ o1-mini (รุ่นมินิไม่ใช่พรีวิว) โดยก่อนหน้านี้ใช้โค้ดเนมว่า 'strawberry'

ฝึกด้วยแนวทาง Chain-of-Thought

  • OpenAI อธิบายว่าโมเดลเหล่านี้ถูกออกแบบมาให้ใช้เวลา "คิด" มากขึ้นก่อนตอบ
  • โมเดลใหม่นี้อาจมองได้ว่าเป็นการขยายแบบเฉพาะทางของแพตเทิร์นพรอมป์ต์ "คิดเป็นขั้นตอน"
  • ในบทความ "Learning to Reason with LLMs" ของ OpenAI อธิบายว่าโมเดลใหม่เรียนรู้ที่จะพัฒนาสายโซ่ความคิดและขัดเกลากลยุทธ์ผ่านการเสริมแรงการเรียนรู้
  • นั่นหมายความว่าโมเดลสามารถจัดการพรอมป์ต์ที่ซับซ้อนซึ่งต้องการการ "คิด" เช่นการย้อนกลับไปแก้ทางและมากกว่าการทำนายโทเค็นถัดไปได้ดีขึ้น

รายละเอียดระดับล่างในเอกสาร API

  • สำหรับอินพุตภาพ การเรียกใช้ฟังก์ชัน และแอปพลิเคชันที่ต้องการเวลาตอบสนองที่รวดเร็วอย่างสม่ำเสมอ โมเดล GPT-4o และ GPT-4o mini ยังคงเป็นตัวเลือกที่เหมาะสม
  • หากกำลังพัฒนาแอปพลิเคชันที่ต้องการการให้เหตุผลเชิงลึกและยอมรับเวลาตอบสนองที่นานขึ้นได้ โมเดล o1 อาจเป็นตัวเลือกที่ยอดเยี่ยม
  • การเข้าถึง API สำหรับโมเดลใหม่ o1-preview และ o1-mini ขณะนี้จำกัดไว้สำหรับบัญชีระดับ 5
  • ไม่รองรับ system prompt - โมเดลยังใช้ Chat Completions API เดิม แต่สามารถส่งได้เฉพาะข้อความ user และ assistant
  • ไม่รองรับ streaming, การใช้ tools, batch calls และอินพุตภาพ
  • การประมวลผลคำขออาจใช้เวลาตั้งแต่ไม่กี่วินาทีไปจนถึงหลายนาที ขึ้นอยู่กับปริมาณการให้เหตุผลที่ต้องใช้ในการแก้ปัญหา

โทเค็นการให้เหตุผลที่ซ่อนอยู่

  • มีการเพิ่ม "โทเค็นการให้เหตุผล" ซึ่งไม่ปรากฏใน API response แต่ยังคงถูกคิดค่าบริการและนับเป็น output token
  • สำหรับพรอมป์ต์ที่มีประโยชน์กับโมเดลใหม่ OpenAI แนะนำให้กันงบสำหรับโทเค็นเหล่านี้ไว้ประมาณ 25,000 โทเค็น
  • ขีดจำกัด output token เพิ่มขึ้นอย่างมากเป็น 32,768 สำหรับ o1-preview และ 65,536 สำหรับ o1-mini
  • เคล็ดลับท้ายเอกสาร API: เมื่อให้บริบทเพิ่มเติมใน retrieval-augmented generation (RAG) ควรใส่เฉพาะข้อมูลที่เกี่ยวข้องที่สุด เพื่อป้องกันไม่ให้โมเดลทำให้คำตอบซับซ้อนเกินไป

โทเค็นการให้เหตุผลที่ซ่อนอยู่

  • โทเค็นการให้เหตุผลมองไม่เห็นใน API - มีการคิดค่าบริการ แต่ไม่สามารถเห็นได้จริงว่าคืออะไร
  • OpenAI อธิบายเหตุผลหลักไว้สองข้อ:
    1. ความปลอดภัยและการปฏิบัติตามนโยบาย - เพื่อหลีกเลี่ยงกรณีที่ขั้นตอนกลางอาจมีข้อมูลที่ละเมิดนโยบาย
    2. ความได้เปรียบทางการแข่งขัน - เพื่อป้องกันไม่ให้โมเดลอื่นเรียนรู้จากงานด้านการให้เหตุผลที่ OpenAI ลงทุนไป
  • มีความไม่พอใจกับการตัดสินใจเชิงนโยบายนี้ - การตีความได้และความโปร่งใสเป็นสิ่งสำคัญ และการซ่อนรายละเอียดสำคัญของการประเมินพรอมป์ต์ทำให้รู้สึกเหมือนเป็นการถอยหลัง

ตัวอย่าง

  • OpenAI ยกตัวอย่างเบื้องต้น เช่น การสร้างสคริปต์ Bash, การแก้ปริศนาอักษรไขว้ และการคำนวณค่า pH ของสารละลายเคมี
  • ตัวอย่างเหล่านี้แสดงว่าโมเดลเวอร์ชันใน ChatGPT UI เปิดเผยรายละเอียดเกี่ยวกับสายโซ่ความคิด แต่ไม่ได้แสดงโทเค็นการให้เหตุผลดิบ
  • OpenAI มี cookbook ใหม่สองชุดที่แสดงวิธีใช้การให้เหตุผลกับการตรวจสอบข้อมูลและการสร้างรูทีน
  • มีการถามบน Twitter ว่ามีพร้อมป์ต์ตัวอย่างที่ล้มเหลวบน GPT-4o แต่ใช้ได้กับ o1-preview หรือไม่
    • "How many words are in your response to this prompt?" "There are seven words in this sentence."

    • Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”

  • Jason Wei นักวิจัยของ OpenAI ระบุว่าผลลัพธ์บน AIME และ GPQA นั้นยอดเยี่ยมมาก แต่ไม่จำเป็นว่าจะถ่ายทอดเป็นสิ่งที่ผู้ใช้รู้สึกได้เสมอไป

สิ่งใหม่ของเรื่องทั้งหมดนี้

  • ชุมชนคงต้องใช้เวลาในการจัดทำแนวปฏิบัติที่ดีที่สุดว่าเมื่อใดและที่ไหนควรนำโมเดลเหล่านี้ไปใช้
  • ผู้เขียนคาดว่ายังคงจะใช้ GPT-4o (และ Claude 3.5 Sonnet) เป็นหลักต่อไป แต่ก็น่าตื่นเต้นมากที่จะได้เห็นว่าโมเดลชนิดใหม่นี้จะช่วยขยายกรอบความคิดร่วมกันของเราเกี่ยวกับงานประเภทใดที่ LLM สามารถใช้แก้ได้
  • คาดว่าห้องแล็บ AI อื่น ๆ ก็จะเริ่มจำลองผลลัพธ์บางส่วนเหล่านี้ด้วยโมเดลเวอร์ชันของตนเองที่ถูกฝึกมาเป็นพิเศษให้ใช้การให้เหตุผลแบบ Chain-of-Thought ลักษณะนี้

ความเห็นของ GN⁺

  • โมเดลที่ฝึกด้วยแนวทาง chain-of-thought อาจช่วยก้าวข้ามข้อจำกัดของโมเดลเดิมในการแก้ปัญหาที่ซับซ้อนได้ โดยเฉพาะงานที่ต้องการการให้เหตุผลเป็นขั้นตอนและการย้อนกลับไปแก้ทาง ซึ่งคาดว่าจะเห็นประสิทธิภาพดีขึ้น
  • อย่างไรก็ตาม การซ่อนโทเค็นการให้เหตุผลจาก API เป็นประเด็นที่น่ากังวลในด้านการตีความได้และความโปร่งใสของโมเดล จากมุมมองของผู้ใช้ การทำความเข้าใจและตรวจสอบกระบวนการให้เหตุผลของโมเดลอาจยากขึ้น
  • ณ ตอนนี้ยังไม่ชัดเจนว่าโมเดลเหล่านี้เหมาะกับงานประเภทใดมากที่สุด และมีข้อดีข้อเสียอย่างไรเมื่อเทียบกับโมเดลเดิม ดูเหมือนว่ายังต้องอาศัยกระบวนการที่ชุมชนช่วยกันค้นหากรณีใช้งานและแนวปฏิบัติที่ดีที่สุดเพิ่มเติม
  • บริษัท AI อื่น ๆ เช่นโมเดลของ Anthropic อย่าง Claude หรือโมเดลของ Cohere ก็มีความเป็นไปได้ที่จะนำแนวทางการฝึกแบบ chain-of-thought ที่คล้ายกันมาใช้เช่นกัน คาดว่าการแข่งขันในตลาดโมเดลด้านการให้เหตุผลจะยิ่งเข้มข้นขึ้น
  • โดยรวมแล้ว การประกาศครั้งนี้ของ OpenAI มีความหมายในแง่ที่นำเสนอแนวทางใหม่สำหรับการยกระดับความสามารถด้านการให้เหตุผลของ LLM อย่างไรก็ตามก็ยังมีบางประเด็นที่น่ากังวล เช่น โทเค็นการให้เหตุผลที่ซ่อนอยู่ จึงดูว่ายังจำเป็นต้องมีการปรับปรุงและเสริมเพิ่มเติมในอนาคต

2 ความคิดเห็น

 
naneg93 2024-09-14

มีคำพิมพ์ผิดนะ :)

"Chai-of-Thought แบบที่ได้รับการฝึก" → "Chain-of-Thought แบบที่ได้รับการฝึก"

 
GN⁺ 2024-09-14
ความคิดเห็นจาก Hacker News
  • ปัญหาของโมเดล o1-preview

    • หลอนสร้างไลบรารีและฟังก์ชันที่ไม่มีอยู่จริง
    • ให้ข้อมูลผิดเกี่ยวกับข้อเท็จจริงที่หาได้ไม่มากบนเว็บ
    • ไม่มีวิธีประเมินได้ว่าข้อมูลที่โมเดลสร้างขึ้นเป็นความจริงหรือไม่
  • อ้างอิงคำพูดของ Jason Wei นักวิจัยจาก OpenAI

    • ทำผลงานได้ดีมากใน AIME และ GPQA แต่ผู้ใช้กลับไม่รู้สึกถึงความแตกต่าง
    • ตั้งข้อสงสัยต่อความเห็นที่ว่าต้องหาพรอมป์ต์ที่ยากกว่านี้
  • ความพยายามในการรีแฟกเตอร์โค้ด Rust

    • o1-mini ไม่สามารถให้โค้ดที่ไม่มีข้อผิดพลาดได้
    • o1-preview ให้โค้ดที่คอมไพล์ได้และผ่านการทดสอบส่วนใหญ่
    • พยายามปรับไลบรารี Rust โดยเอา enum ออกและเปลี่ยนให้ใช้เฉพาะชนิดข้อมูล U8
  • องค์ประกอบหลักสองอย่าง

    • LLM ที่ถูกฝึกให้อ่านและสร้างพรอมป์ต์ chain-of-thought ที่ดี
    • โค้ดรันไทม์ที่รีพรอมป์ต์โมเดลซ้ำๆ
    • OpenAI ไม่ได้อธิบายความแตกต่างนี้ให้ชัดเจน
  • ความยากในการประเมินพรอมป์ต์ที่ซับซ้อน

    • กระบวนการประเมินพรอมป์ต์ถูกซ่อนไว้ ทำให้ดีบักได้ยาก
    • สำหรับผู้ใช้ สิ่งสำคัญมีแค่ผลลัพธ์ กระบวนการไม่สำคัญ
  • ปัญหาเรื่องคุณภาพและต้นทุนของ o1

    • คุณภาพไม่ได้ดีขึ้นมาก แต่กลับส่งผลเสียอย่างมากต่อต้นทุนและเวลาแฝง
  • การเปรียบเทียบ GPT-4o กับ o1-preview

    • GPT-4o ไม่สามารถให้กลยุทธ์ Tic-Tac-Toe ที่เหมาะสมที่สุดได้
    • o1-preview ให้กลยุทธ์ที่เหมาะสมที่สุดได้ แต่ล้มเหลวเมื่อเป็นกริดที่ไม่เป็นมาตรฐาน
  • ความยากในการแก้โจทย์คณิตศาสตร์พื้นฐาน

    • พยายามแก้ปัญหาที่ต้องนำตัวเลขสามตัวมาบวกและหารเพื่อให้ได้ผลลัพธ์เดียวกัน
    • โมเดลในปัจจุบันยังแก้โจทย์ระดับพื้นฐานในโรงเรียนได้ยาก
  • การทดสอบคำถามด้านกฎหมาย

    • GPT-4o ให้คำตอบที่ถูกต้องได้ทันที
    • o1-preview ให้คำตอบผิดและต้องถามต่อหลายรอบ
  • ปัญหาในการประมวลผลเนื้อหา Markdown

    • เมื่อใส่ตัวอย่างนิพจน์ตรรกะเชิงสัญลักษณ์และตัวอย่างการพิสูจน์ลงในเนื้อหา Markdown ระบบกลับมองว่าเป็นการละเมิดข้อกำหนดการให้บริการ**