บันทึกเกี่ยวกับ o1 ของ OpenAI และโมเดล chain-of-thought

(simonwillison.net)

6 คะแนน โดย GN⁺ 2024-09-14 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI เปิดตัวโมเดลพรีวิวใหม่ o1-preview และ o1-mini (รุ่นมินิไม่ใช่พรีวิว) โดยก่อนหน้านี้ใช้โค้ดเนมว่า 'strawberry'

ฝึกด้วยแนวทาง Chain-of-Thought

OpenAI อธิบายว่าโมเดลเหล่านี้ถูกออกแบบมาให้ใช้เวลา "คิด" มากขึ้นก่อนตอบ
โมเดลใหม่นี้อาจมองได้ว่าเป็นการขยายแบบเฉพาะทางของแพตเทิร์นพรอมป์ต์ "คิดเป็นขั้นตอน"
ในบทความ "Learning to Reason with LLMs" ของ OpenAI อธิบายว่าโมเดลใหม่เรียนรู้ที่จะพัฒนาสายโซ่ความคิดและขัดเกลากลยุทธ์ผ่านการเสริมแรงการเรียนรู้
นั่นหมายความว่าโมเดลสามารถจัดการพรอมป์ต์ที่ซับซ้อนซึ่งต้องการการ "คิด" เช่นการย้อนกลับไปแก้ทางและมากกว่าการทำนายโทเค็นถัดไปได้ดีขึ้น

รายละเอียดระดับล่างในเอกสาร API

สำหรับอินพุตภาพ การเรียกใช้ฟังก์ชัน และแอปพลิเคชันที่ต้องการเวลาตอบสนองที่รวดเร็วอย่างสม่ำเสมอ โมเดล GPT-4o และ GPT-4o mini ยังคงเป็นตัวเลือกที่เหมาะสม
หากกำลังพัฒนาแอปพลิเคชันที่ต้องการการให้เหตุผลเชิงลึกและยอมรับเวลาตอบสนองที่นานขึ้นได้ โมเดล o1 อาจเป็นตัวเลือกที่ยอดเยี่ยม
การเข้าถึง API สำหรับโมเดลใหม่ o1-preview และ o1-mini ขณะนี้จำกัดไว้สำหรับบัญชีระดับ 5
ไม่รองรับ system prompt - โมเดลยังใช้ Chat Completions API เดิม แต่สามารถส่งได้เฉพาะข้อความ user และ assistant
ไม่รองรับ streaming, การใช้ tools, batch calls และอินพุตภาพ
การประมวลผลคำขออาจใช้เวลาตั้งแต่ไม่กี่วินาทีไปจนถึงหลายนาที ขึ้นอยู่กับปริมาณการให้เหตุผลที่ต้องใช้ในการแก้ปัญหา

โทเค็นการให้เหตุผลที่ซ่อนอยู่

มีการเพิ่ม "โทเค็นการให้เหตุผล" ซึ่งไม่ปรากฏใน API response แต่ยังคงถูกคิดค่าบริการและนับเป็น output token
สำหรับพรอมป์ต์ที่มีประโยชน์กับโมเดลใหม่ OpenAI แนะนำให้กันงบสำหรับโทเค็นเหล่านี้ไว้ประมาณ 25,000 โทเค็น
ขีดจำกัด output token เพิ่มขึ้นอย่างมากเป็น 32,768 สำหรับ o1-preview และ 65,536 สำหรับ o1-mini
เคล็ดลับท้ายเอกสาร API: เมื่อให้บริบทเพิ่มเติมใน retrieval-augmented generation (RAG) ควรใส่เฉพาะข้อมูลที่เกี่ยวข้องที่สุด เพื่อป้องกันไม่ให้โมเดลทำให้คำตอบซับซ้อนเกินไป

โทเค็นการให้เหตุผลที่ซ่อนอยู่

โทเค็นการให้เหตุผลมองไม่เห็นใน API - มีการคิดค่าบริการ แต่ไม่สามารถเห็นได้จริงว่าคืออะไร
OpenAI อธิบายเหตุผลหลักไว้สองข้อ:
1. ความปลอดภัยและการปฏิบัติตามนโยบาย - เพื่อหลีกเลี่ยงกรณีที่ขั้นตอนกลางอาจมีข้อมูลที่ละเมิดนโยบาย
2. ความได้เปรียบทางการแข่งขัน - เพื่อป้องกันไม่ให้โมเดลอื่นเรียนรู้จากงานด้านการให้เหตุผลที่ OpenAI ลงทุนไป
มีความไม่พอใจกับการตัดสินใจเชิงนโยบายนี้ - การตีความได้และความโปร่งใสเป็นสิ่งสำคัญ และการซ่อนรายละเอียดสำคัญของการประเมินพรอมป์ต์ทำให้รู้สึกเหมือนเป็นการถอยหลัง

ตัวอย่าง

OpenAI ยกตัวอย่างเบื้องต้น เช่น การสร้างสคริปต์ Bash, การแก้ปริศนาอักษรไขว้ และการคำนวณค่า pH ของสารละลายเคมี
ตัวอย่างเหล่านี้แสดงว่าโมเดลเวอร์ชันใน ChatGPT UI เปิดเผยรายละเอียดเกี่ยวกับสายโซ่ความคิด แต่ไม่ได้แสดงโทเค็นการให้เหตุผลดิบ
OpenAI มี cookbook ใหม่สองชุดที่แสดงวิธีใช้การให้เหตุผลกับการตรวจสอบข้อมูลและการสร้างรูทีน
มีการถามบน Twitter ว่ามีพร้อมป์ต์ตัวอย่างที่ล้มเหลวบน GPT-4o แต่ใช้ได้กับ o1-preview หรือไม่
- "How many words are in your response to this prompt?" "There are seven words in this sentence."
- Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
Jason Wei นักวิจัยของ OpenAI ระบุว่าผลลัพธ์บน AIME และ GPQA นั้นยอดเยี่ยมมาก แต่ไม่จำเป็นว่าจะถ่ายทอดเป็นสิ่งที่ผู้ใช้รู้สึกได้เสมอไป

สิ่งใหม่ของเรื่องทั้งหมดนี้

ชุมชนคงต้องใช้เวลาในการจัดทำแนวปฏิบัติที่ดีที่สุดว่าเมื่อใดและที่ไหนควรนำโมเดลเหล่านี้ไปใช้
ผู้เขียนคาดว่ายังคงจะใช้ GPT-4o (และ Claude 3.5 Sonnet) เป็นหลักต่อไป แต่ก็น่าตื่นเต้นมากที่จะได้เห็นว่าโมเดลชนิดใหม่นี้จะช่วยขยายกรอบความคิดร่วมกันของเราเกี่ยวกับงานประเภทใดที่ LLM สามารถใช้แก้ได้
คาดว่าห้องแล็บ AI อื่น ๆ ก็จะเริ่มจำลองผลลัพธ์บางส่วนเหล่านี้ด้วยโมเดลเวอร์ชันของตนเองที่ถูกฝึกมาเป็นพิเศษให้ใช้การให้เหตุผลแบบ Chain-of-Thought ลักษณะนี้

ความเห็นของ GN⁺

โมเดลที่ฝึกด้วยแนวทาง chain-of-thought อาจช่วยก้าวข้ามข้อจำกัดของโมเดลเดิมในการแก้ปัญหาที่ซับซ้อนได้ โดยเฉพาะงานที่ต้องการการให้เหตุผลเป็นขั้นตอนและการย้อนกลับไปแก้ทาง ซึ่งคาดว่าจะเห็นประสิทธิภาพดีขึ้น
อย่างไรก็ตาม การซ่อนโทเค็นการให้เหตุผลจาก API เป็นประเด็นที่น่ากังวลในด้านการตีความได้และความโปร่งใสของโมเดล จากมุมมองของผู้ใช้ การทำความเข้าใจและตรวจสอบกระบวนการให้เหตุผลของโมเดลอาจยากขึ้น
ณ ตอนนี้ยังไม่ชัดเจนว่าโมเดลเหล่านี้เหมาะกับงานประเภทใดมากที่สุด และมีข้อดีข้อเสียอย่างไรเมื่อเทียบกับโมเดลเดิม ดูเหมือนว่ายังต้องอาศัยกระบวนการที่ชุมชนช่วยกันค้นหากรณีใช้งานและแนวปฏิบัติที่ดีที่สุดเพิ่มเติม
บริษัท AI อื่น ๆ เช่นโมเดลของ Anthropic อย่าง Claude หรือโมเดลของ Cohere ก็มีความเป็นไปได้ที่จะนำแนวทางการฝึกแบบ chain-of-thought ที่คล้ายกันมาใช้เช่นกัน คาดว่าการแข่งขันในตลาดโมเดลด้านการให้เหตุผลจะยิ่งเข้มข้นขึ้น
โดยรวมแล้ว การประกาศครั้งนี้ของ OpenAI มีความหมายในแง่ที่นำเสนอแนวทางใหม่สำหรับการยกระดับความสามารถด้านการให้เหตุผลของ LLM อย่างไรก็ตามก็ยังมีบางประเด็นที่น่ากังวล เช่น โทเค็นการให้เหตุผลที่ซ่อนอยู่ จึงดูว่ายังจำเป็นต้องมีการปรับปรุงและเสริมเพิ่มเติมในอนาคต

2 ความคิดเห็น

naneg93 2024-09-14

มีคำพิมพ์ผิดนะ :)

"Chai-of-Thought แบบที่ได้รับการฝึก" → "Chain-of-Thought แบบที่ได้รับการฝึก"

GN⁺ 2024-09-14

ความคิดเห็นจาก Hacker News

ปัญหาของโมเดล o1-preview
- หลอนสร้างไลบรารีและฟังก์ชันที่ไม่มีอยู่จริง
- ให้ข้อมูลผิดเกี่ยวกับข้อเท็จจริงที่หาได้ไม่มากบนเว็บ
- ไม่มีวิธีประเมินได้ว่าข้อมูลที่โมเดลสร้างขึ้นเป็นความจริงหรือไม่
อ้างอิงคำพูดของ Jason Wei นักวิจัยจาก OpenAI
- ทำผลงานได้ดีมากใน AIME และ GPQA แต่ผู้ใช้กลับไม่รู้สึกถึงความแตกต่าง
- ตั้งข้อสงสัยต่อความเห็นที่ว่าต้องหาพรอมป์ต์ที่ยากกว่านี้
ความพยายามในการรีแฟกเตอร์โค้ด Rust
- o1-mini ไม่สามารถให้โค้ดที่ไม่มีข้อผิดพลาดได้
- o1-preview ให้โค้ดที่คอมไพล์ได้และผ่านการทดสอบส่วนใหญ่
- พยายามปรับไลบรารี Rust โดยเอา enum ออกและเปลี่ยนให้ใช้เฉพาะชนิดข้อมูล U8
องค์ประกอบหลักสองอย่าง
- LLM ที่ถูกฝึกให้อ่านและสร้างพรอมป์ต์ chain-of-thought ที่ดี
- โค้ดรันไทม์ที่รีพรอมป์ต์โมเดลซ้ำๆ
- OpenAI ไม่ได้อธิบายความแตกต่างนี้ให้ชัดเจน
ความยากในการประเมินพรอมป์ต์ที่ซับซ้อน
- กระบวนการประเมินพรอมป์ต์ถูกซ่อนไว้ ทำให้ดีบักได้ยาก
- สำหรับผู้ใช้ สิ่งสำคัญมีแค่ผลลัพธ์ กระบวนการไม่สำคัญ
ปัญหาเรื่องคุณภาพและต้นทุนของ o1
- คุณภาพไม่ได้ดีขึ้นมาก แต่กลับส่งผลเสียอย่างมากต่อต้นทุนและเวลาแฝง
การเปรียบเทียบ GPT-4o กับ o1-preview
- GPT-4o ไม่สามารถให้กลยุทธ์ Tic-Tac-Toe ที่เหมาะสมที่สุดได้
- o1-preview ให้กลยุทธ์ที่เหมาะสมที่สุดได้ แต่ล้มเหลวเมื่อเป็นกริดที่ไม่เป็นมาตรฐาน
ความยากในการแก้โจทย์คณิตศาสตร์พื้นฐาน
- พยายามแก้ปัญหาที่ต้องนำตัวเลขสามตัวมาบวกและหารเพื่อให้ได้ผลลัพธ์เดียวกัน
- โมเดลในปัจจุบันยังแก้โจทย์ระดับพื้นฐานในโรงเรียนได้ยาก
การทดสอบคำถามด้านกฎหมาย
- GPT-4o ให้คำตอบที่ถูกต้องได้ทันที
- o1-preview ให้คำตอบผิดและต้องถามต่อหลายรอบ
ปัญหาในการประมวลผลเนื้อหา Markdown
- เมื่อใส่ตัวอย่างนิพจน์ตรรกะเชิงสัญลักษณ์และตัวอย่างการพิสูจน์ลงในเนื้อหา Markdown ระบบกลับมองว่าเป็นการละเมิดข้อกำหนดการให้บริการ**

บันทึกเกี่ยวกับ o1 ของ OpenAI และโมเดล chain-of-thought

ฝึกด้วยแนวทาง Chain-of-Thought

รายละเอียดระดับล่างในเอกสาร API

โทเค็นการให้เหตุผลที่ซ่อนอยู่

โทเค็นการให้เหตุผลที่ซ่อนอยู่

ตัวอย่าง

สิ่งใหม่ของเรื่องทั้งหมดนี้

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News