บันทึกของ Simon Willison เกี่ยวกับ o3-mini

xguru · 2025-02-02T10:07:02+09:00

โมเดล o3-mini ของ OpenAI เพิ่งเปิดตัวใหม่ และเช่นเดียวกับโมเดลตระกูล o อื่น ๆ จึงประเมินได้ค่อนข้างยาก ตอนนี้กลายเป็นสถานการณ์ที่ต้องตัดสินใจว่าจะเลือกใช้โมเดลใดตามวัตถุประสงค์ ระหว่าง GPT-4o, o1, o1 Pro และรุ่นอื่น ๆ ที่มีอยู่ ตามข้อมูลใน o3-mini System Card (PDF) พบว่า o3-mini ทำได้ดีกว่า GPT-4o และ o1 ในตัวชี้วัดการประเมินบางส่วน แต่ไม่ได้โดดเด่นสูงอย่างสม่ำเสมอในทุกหัวข้อ โดยเฉพาะอย่างยิ่งมีผลงานที่ดีมากในตัวชี้วัดเบนช์มาร์กด้านความสามารถ competitive programming เช่น Codeforces ELO OpenAI มีแผนจะอนุญาตให้ใช้ o3-mini ค้นหาข้อมูลบนอินเทอร์เน็ต แล้วให้ ChatGPT สรุปผลลัพธ์ เนื่องจากโมเดล o1 เดิมไม่ได้ใช้เครื่องมือค้นหาเว็บใน ChatGPT ฟีเจอร์ที่เพิ่มเข้ามาครั้งนี้จึงน่าจับตาในด้านการใช้งานจริง นอกจากนี้ o3-mini ยังไม่รองรับฟีเจอร์ vision (ภาพ) แต่มีความเป็นไปได้ว่า mini รุ่นถัดไปจะรวม visionเข้ามาด้วย เครื่องมือ CLI ที่ผมพัฒนาขึ้นอย่าง LLM 0.21 ได้เพิ่มการรองรับ o3-mini แล้ว สามารถกำหนด high, medium, low ได้ด้วยออปชัน -o reasoning_effort ขณะนี้ o3-mini ใช้งานได้เฉพาะผู้ใช้ระดับ Tier 3 ขึ้นไปเท่านั้น ต้องมียอดใช้งาน API ขั้นต่ำมากกว่า $100 จึงจะอยู่ในระดับดังกล่าว ค่าใช้จ่ายของ o3-mini คือ $1.10 ต่อ 1 ล้าน input tokens $4.40 ต่อ 1 ล้าน output tokens ราคาถูกกว่าครึ่งหนึ่งเมื่อเทียบกับ GPT-4o($2.50/$10) และถูกกว่าถึงไม่ถึง 1/10 เมื่อเทียบกับ o1($15/$60) ได้ลองรัน สคริปต์ hn-summary.sh ด้วย o3-mini เพื่อสรุป โพสต์ใน Hacker News(42890627) hn-summary.sh 42890627 -o o3-mini ใช้ input tokens 18,936 และ output tokens 2,905 โดยมีค่าใช้จ่ายรวมประมาณ $0.033612 (3.3612 เซนต์) ขีดจำกัด output tokens สูงสุดของ o3-mini อยู่ที่ 100,000 สูงกว่ามากเมื่อเทียบกับ GPT-4o(16,000), DeepSeek R1(8,000), Claude 3.5(8,000) อย่างไรก็ตาม tokens ที่ใช้กับการให้เหตุผลภายในก็จะถูกนับรวมในเพดานนี้ด้วย จึงอาจเป็นเรื่องยากที่ output จริงจะไปถึง 100,000 รองรับ input tokens ได้สูงสุด 200,000 ซึ่งมากกว่าความจุ 128,000 ของ GPT-4o ดูมีศักยภาพสูงสำหรับงานแปลข้อความยาว เพราะมีราคาถูกและเหมาะกับการจัดการทั้ง input/output ปริมาณมาก คอมเมนต์ของนักแปลมืออาชีพ Tom Gally บน Hacker News น่าสนใจมาก มีการกล่าวว่า DeepSeek R1 และ o3-mini ต่างก็มีคุณภาพตกในช่วงท้ายเมื่อแปลข้อความยาว ตอนแรก R1 ก็ดูเหมือนจะไม่เลว แต่ o3-mini ให้ผลลัพธ์ที่ลื่นไหลและเป็นธรรมชาติกว่าในภาษาอังกฤษ และใกล้เคียงกับสไตล์การเขียนที่ร้องขอมากกว่า แต่ความยาวของผลลัพธ์คือ R1 มี 5,855 อักขระ, o3-mini มี 9,052 อักขระ, ส่วนเวอร์ชันที่ขัดเกลาเองมี 11,021 อักขระ R1 ละบางย่อหน้าในช่วงท้ายไป ขณะที่ o3-mini ใช้สไตล์การย่อคำที่แปลก เช่น ใช้ / แทน and ระหว่างคำนาม และมีความเห็นว่า ChatGPT, Claude, Gemini เป็นต้น ไม่ได้แสดงปัญหาแบบนี้เมื่อแปลข้อความเดียวกัน

(simonwillison.net)

14 คะแนน โดย xguru 2025-02-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล o3-mini ของ OpenAI เพิ่งเปิดตัวใหม่ และเช่นเดียวกับโมเดลตระกูล o อื่น ๆ จึงประเมินได้ค่อนข้างยาก
- ตอนนี้กลายเป็นสถานการณ์ที่ต้องตัดสินใจว่าจะเลือกใช้โมเดลใดตามวัตถุประสงค์ ระหว่าง GPT-4o, o1, o1 Pro และรุ่นอื่น ๆ ที่มีอยู่
ตามข้อมูลใน o3-mini System Card (PDF) พบว่า o3-mini ทำได้ดีกว่า GPT-4o และ o1 ในตัวชี้วัดการประเมินบางส่วน แต่ไม่ได้โดดเด่นสูงอย่างสม่ำเสมอในทุกหัวข้อ
- โดยเฉพาะอย่างยิ่งมีผลงานที่ดีมากในตัวชี้วัดเบนช์มาร์กด้านความสามารถ competitive programming เช่น Codeforces ELO
OpenAI มีแผนจะอนุญาตให้ใช้ o3-mini ค้นหาข้อมูลบนอินเทอร์เน็ต แล้วให้ ChatGPT สรุปผลลัพธ์
- เนื่องจากโมเดล o1 เดิมไม่ได้ใช้เครื่องมือค้นหาเว็บใน ChatGPT ฟีเจอร์ที่เพิ่มเข้ามาครั้งนี้จึงน่าจับตาในด้านการใช้งานจริง
นอกจากนี้ o3-mini ยังไม่รองรับฟีเจอร์ vision (ภาพ) แต่มีความเป็นไปได้ว่า mini รุ่นถัดไปจะรวม visionเข้ามาด้วย
เครื่องมือ CLI ที่ผมพัฒนาขึ้นอย่าง LLM 0.21 ได้เพิ่มการรองรับ o3-mini แล้ว
- สามารถกำหนด high, medium, low ได้ด้วยออปชัน -o reasoning_effort
ขณะนี้ o3-mini ใช้งานได้เฉพาะผู้ใช้ระดับ Tier 3 ขึ้นไปเท่านั้น
- ต้องมียอดใช้งาน API ขั้นต่ำมากกว่า $100 จึงจะอยู่ในระดับดังกล่าว
ค่าใช้จ่ายของ o3-mini คือ
- $1.10 ต่อ 1 ล้าน input tokens
- $4.40 ต่อ 1 ล้าน output tokens
- ราคาถูกกว่าครึ่งหนึ่งเมื่อเทียบกับ GPT-4o($2.50/$10) และถูกกว่าถึงไม่ถึง 1/10 เมื่อเทียบกับ o1($15/$60)
ได้ลองรัน สคริปต์ hn-summary.sh ด้วย o3-mini เพื่อสรุป โพสต์ใน Hacker News(42890627)
- hn-summary.sh 42890627 -o o3-mini
- ใช้ input tokens 18,936 และ output tokens 2,905 โดยมีค่าใช้จ่ายรวมประมาณ $0.033612 (3.3612 เซนต์)
ขีดจำกัด output tokens สูงสุดของ o3-mini อยู่ที่ 100,000
- สูงกว่ามากเมื่อเทียบกับ GPT-4o(16,000), DeepSeek R1(8,000), Claude 3.5(8,000)
- อย่างไรก็ตาม tokens ที่ใช้กับการให้เหตุผลภายในก็จะถูกนับรวมในเพดานนี้ด้วย จึงอาจเป็นเรื่องยากที่ output จริงจะไปถึง 100,000
รองรับ input tokens ได้สูงสุด 200,000 ซึ่งมากกว่าความจุ 128,000 ของ GPT-4o
ดูมีศักยภาพสูงสำหรับงานแปลข้อความยาว
- เพราะมีราคาถูกและเหมาะกับการจัดการทั้ง input/output ปริมาณมาก
คอมเมนต์ของนักแปลมืออาชีพ Tom Gally บน Hacker News น่าสนใจมาก
- มีการกล่าวว่า DeepSeek R1 และ o3-mini ต่างก็มีคุณภาพตกในช่วงท้ายเมื่อแปลข้อความยาว
- ตอนแรก R1 ก็ดูเหมือนจะไม่เลว แต่ o3-mini ให้ผลลัพธ์ที่ลื่นไหลและเป็นธรรมชาติกว่าในภาษาอังกฤษ และใกล้เคียงกับสไตล์การเขียนที่ร้องขอมากกว่า
- แต่ความยาวของผลลัพธ์คือ R1 มี 5,855 อักขระ, o3-mini มี 9,052 อักขระ, ส่วนเวอร์ชันที่ขัดเกลาเองมี 11,021 อักขระ
- R1 ละบางย่อหน้าในช่วงท้ายไป ขณะที่ o3-mini ใช้สไตล์การย่อคำที่แปลก เช่น ใช้ / แทน and ระหว่างคำนาม
- และมีความเห็นว่า ChatGPT, Claude, Gemini เป็นต้น ไม่ได้แสดงปัญหาแบบนี้เมื่อแปลข้อความเดียวกัน

1 ความคิดเห็น

xguru 2025-02-02

การเปิดตัว OpenAI o3-Mini

บันทึกของ Simon Willison เกี่ยวกับ o3-mini

บทความที่เกี่ยวข้อง

1 ความคิดเห็น