บันทึกเกี่ยวกับ o1 ของ OpenAI และโมเดล chain-of-thought
(simonwillison.net)- OpenAI เปิดตัวโมเดลพรีวิวใหม่
o1-previewและo1-mini(รุ่นมินิไม่ใช่พรีวิว) โดยก่อนหน้านี้ใช้โค้ดเนมว่า 'strawberry'
ฝึกด้วยแนวทาง Chain-of-Thought
- OpenAI อธิบายว่าโมเดลเหล่านี้ถูกออกแบบมาให้ใช้เวลา "คิด" มากขึ้นก่อนตอบ
- โมเดลใหม่นี้อาจมองได้ว่าเป็นการขยายแบบเฉพาะทางของแพตเทิร์นพรอมป์ต์ "คิดเป็นขั้นตอน"
- ในบทความ "Learning to Reason with LLMs" ของ OpenAI อธิบายว่าโมเดลใหม่เรียนรู้ที่จะพัฒนาสายโซ่ความคิดและขัดเกลากลยุทธ์ผ่านการเสริมแรงการเรียนรู้
- นั่นหมายความว่าโมเดลสามารถจัดการพรอมป์ต์ที่ซับซ้อนซึ่งต้องการการ "คิด" เช่นการย้อนกลับไปแก้ทางและมากกว่าการทำนายโทเค็นถัดไปได้ดีขึ้น
รายละเอียดระดับล่างในเอกสาร API
- สำหรับอินพุตภาพ การเรียกใช้ฟังก์ชัน และแอปพลิเคชันที่ต้องการเวลาตอบสนองที่รวดเร็วอย่างสม่ำเสมอ โมเดล GPT-4o และ GPT-4o mini ยังคงเป็นตัวเลือกที่เหมาะสม
- หากกำลังพัฒนาแอปพลิเคชันที่ต้องการการให้เหตุผลเชิงลึกและยอมรับเวลาตอบสนองที่นานขึ้นได้ โมเดล o1 อาจเป็นตัวเลือกที่ยอดเยี่ยม
- การเข้าถึง API สำหรับโมเดลใหม่
o1-previewและo1-miniขณะนี้จำกัดไว้สำหรับบัญชีระดับ 5 - ไม่รองรับ system prompt - โมเดลยังใช้ Chat Completions API เดิม แต่สามารถส่งได้เฉพาะข้อความ
userและassistant - ไม่รองรับ streaming, การใช้ tools, batch calls และอินพุตภาพ
- การประมวลผลคำขออาจใช้เวลาตั้งแต่ไม่กี่วินาทีไปจนถึงหลายนาที ขึ้นอยู่กับปริมาณการให้เหตุผลที่ต้องใช้ในการแก้ปัญหา
โทเค็นการให้เหตุผลที่ซ่อนอยู่
- มีการเพิ่ม "โทเค็นการให้เหตุผล" ซึ่งไม่ปรากฏใน API response แต่ยังคงถูกคิดค่าบริการและนับเป็น output token
- สำหรับพรอมป์ต์ที่มีประโยชน์กับโมเดลใหม่ OpenAI แนะนำให้กันงบสำหรับโทเค็นเหล่านี้ไว้ประมาณ 25,000 โทเค็น
- ขีดจำกัด output token เพิ่มขึ้นอย่างมากเป็น 32,768 สำหรับ
o1-previewและ 65,536 สำหรับo1-mini - เคล็ดลับท้ายเอกสาร API: เมื่อให้บริบทเพิ่มเติมใน retrieval-augmented generation (RAG) ควรใส่เฉพาะข้อมูลที่เกี่ยวข้องที่สุด เพื่อป้องกันไม่ให้โมเดลทำให้คำตอบซับซ้อนเกินไป
โทเค็นการให้เหตุผลที่ซ่อนอยู่
- โทเค็นการให้เหตุผลมองไม่เห็นใน API - มีการคิดค่าบริการ แต่ไม่สามารถเห็นได้จริงว่าคืออะไร
- OpenAI อธิบายเหตุผลหลักไว้สองข้อ:
- ความปลอดภัยและการปฏิบัติตามนโยบาย - เพื่อหลีกเลี่ยงกรณีที่ขั้นตอนกลางอาจมีข้อมูลที่ละเมิดนโยบาย
- ความได้เปรียบทางการแข่งขัน - เพื่อป้องกันไม่ให้โมเดลอื่นเรียนรู้จากงานด้านการให้เหตุผลที่ OpenAI ลงทุนไป
- มีความไม่พอใจกับการตัดสินใจเชิงนโยบายนี้ - การตีความได้และความโปร่งใสเป็นสิ่งสำคัญ และการซ่อนรายละเอียดสำคัญของการประเมินพรอมป์ต์ทำให้รู้สึกเหมือนเป็นการถอยหลัง
ตัวอย่าง
- OpenAI ยกตัวอย่างเบื้องต้น เช่น การสร้างสคริปต์ Bash, การแก้ปริศนาอักษรไขว้ และการคำนวณค่า pH ของสารละลายเคมี
- ตัวอย่างเหล่านี้แสดงว่าโมเดลเวอร์ชันใน ChatGPT UI เปิดเผยรายละเอียดเกี่ยวกับสายโซ่ความคิด แต่ไม่ได้แสดงโทเค็นการให้เหตุผลดิบ
- OpenAI มี cookbook ใหม่สองชุดที่แสดงวิธีใช้การให้เหตุผลกับการตรวจสอบข้อมูลและการสร้างรูทีน
- มีการถามบน Twitter ว่ามีพร้อมป์ต์ตัวอย่างที่ล้มเหลวบน GPT-4o แต่ใช้ได้กับ
o1-previewหรือไม่-
"How many words are in your response to this prompt?" "There are seven words in this sentence."
-
Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
-
- Jason Wei นักวิจัยของ OpenAI ระบุว่าผลลัพธ์บน AIME และ GPQA นั้นยอดเยี่ยมมาก แต่ไม่จำเป็นว่าจะถ่ายทอดเป็นสิ่งที่ผู้ใช้รู้สึกได้เสมอไป
สิ่งใหม่ของเรื่องทั้งหมดนี้
- ชุมชนคงต้องใช้เวลาในการจัดทำแนวปฏิบัติที่ดีที่สุดว่าเมื่อใดและที่ไหนควรนำโมเดลเหล่านี้ไปใช้
- ผู้เขียนคาดว่ายังคงจะใช้ GPT-4o (และ Claude 3.5 Sonnet) เป็นหลักต่อไป แต่ก็น่าตื่นเต้นมากที่จะได้เห็นว่าโมเดลชนิดใหม่นี้จะช่วยขยายกรอบความคิดร่วมกันของเราเกี่ยวกับงานประเภทใดที่ LLM สามารถใช้แก้ได้
- คาดว่าห้องแล็บ AI อื่น ๆ ก็จะเริ่มจำลองผลลัพธ์บางส่วนเหล่านี้ด้วยโมเดลเวอร์ชันของตนเองที่ถูกฝึกมาเป็นพิเศษให้ใช้การให้เหตุผลแบบ Chain-of-Thought ลักษณะนี้
ความเห็นของ GN⁺
- โมเดลที่ฝึกด้วยแนวทาง chain-of-thought อาจช่วยก้าวข้ามข้อจำกัดของโมเดลเดิมในการแก้ปัญหาที่ซับซ้อนได้ โดยเฉพาะงานที่ต้องการการให้เหตุผลเป็นขั้นตอนและการย้อนกลับไปแก้ทาง ซึ่งคาดว่าจะเห็นประสิทธิภาพดีขึ้น
- อย่างไรก็ตาม การซ่อนโทเค็นการให้เหตุผลจาก API เป็นประเด็นที่น่ากังวลในด้านการตีความได้และความโปร่งใสของโมเดล จากมุมมองของผู้ใช้ การทำความเข้าใจและตรวจสอบกระบวนการให้เหตุผลของโมเดลอาจยากขึ้น
- ณ ตอนนี้ยังไม่ชัดเจนว่าโมเดลเหล่านี้เหมาะกับงานประเภทใดมากที่สุด และมีข้อดีข้อเสียอย่างไรเมื่อเทียบกับโมเดลเดิม ดูเหมือนว่ายังต้องอาศัยกระบวนการที่ชุมชนช่วยกันค้นหากรณีใช้งานและแนวปฏิบัติที่ดีที่สุดเพิ่มเติม
- บริษัท AI อื่น ๆ เช่นโมเดลของ Anthropic อย่าง Claude หรือโมเดลของ Cohere ก็มีความเป็นไปได้ที่จะนำแนวทางการฝึกแบบ chain-of-thought ที่คล้ายกันมาใช้เช่นกัน คาดว่าการแข่งขันในตลาดโมเดลด้านการให้เหตุผลจะยิ่งเข้มข้นขึ้น
- โดยรวมแล้ว การประกาศครั้งนี้ของ OpenAI มีความหมายในแง่ที่นำเสนอแนวทางใหม่สำหรับการยกระดับความสามารถด้านการให้เหตุผลของ LLM อย่างไรก็ตามก็ยังมีบางประเด็นที่น่ากังวล เช่น โทเค็นการให้เหตุผลที่ซ่อนอยู่ จึงดูว่ายังจำเป็นต้องมีการปรับปรุงและเสริมเพิ่มเติมในอนาคต
2 ความคิดเห็น
มีคำพิมพ์ผิดนะ :)
"Chai-of-Thought แบบที่ได้รับการฝึก" → "Chain-of-Thought แบบที่ได้รับการฝึก"
ความคิดเห็นจาก Hacker News
ปัญหาของโมเดล o1-preview
อ้างอิงคำพูดของ Jason Wei นักวิจัยจาก OpenAI
ความพยายามในการรีแฟกเตอร์โค้ด Rust
องค์ประกอบหลักสองอย่าง
ความยากในการประเมินพรอมป์ต์ที่ซับซ้อน
ปัญหาเรื่องคุณภาพและต้นทุนของ o1
การเปรียบเทียบ GPT-4o กับ o1-preview
ความยากในการแก้โจทย์คณิตศาสตร์พื้นฐาน
การทดสอบคำถามด้านกฎหมาย
ปัญหาในการประมวลผลเนื้อหา Markdown