- โมเดล o3-mini ของ OpenAI เพิ่งเปิดตัวใหม่ และเช่นเดียวกับโมเดลตระกูล o อื่น ๆ จึงประเมินได้ค่อนข้างยาก
- ตอนนี้กลายเป็นสถานการณ์ที่ต้องตัดสินใจว่าจะเลือกใช้โมเดลใดตามวัตถุประสงค์ ระหว่าง GPT-4o, o1, o1 Pro และรุ่นอื่น ๆ ที่มีอยู่
- ตามข้อมูลใน o3-mini System Card (PDF) พบว่า o3-mini ทำได้ดีกว่า GPT-4o และ o1 ในตัวชี้วัดการประเมินบางส่วน แต่ไม่ได้โดดเด่นสูงอย่างสม่ำเสมอในทุกหัวข้อ
- โดยเฉพาะอย่างยิ่งมีผลงานที่ดีมากในตัวชี้วัดเบนช์มาร์กด้านความสามารถ competitive programming เช่น Codeforces ELO
- OpenAI มีแผนจะอนุญาตให้ใช้ o3-mini ค้นหาข้อมูลบนอินเทอร์เน็ต แล้วให้ ChatGPT สรุปผลลัพธ์
- เนื่องจากโมเดล o1 เดิมไม่ได้ใช้เครื่องมือค้นหาเว็บใน ChatGPT ฟีเจอร์ที่เพิ่มเข้ามาครั้งนี้จึงน่าจับตาในด้านการใช้งานจริง
- นอกจากนี้ o3-mini ยังไม่รองรับฟีเจอร์ vision (ภาพ) แต่มีความเป็นไปได้ว่า mini รุ่นถัดไปจะรวม visionเข้ามาด้วย
- เครื่องมือ CLI ที่ผมพัฒนาขึ้นอย่าง LLM 0.21 ได้เพิ่มการรองรับ o3-mini แล้ว
- สามารถกำหนด
high, medium, low ได้ด้วยออปชัน -o reasoning_effort
- ขณะนี้ o3-mini ใช้งานได้เฉพาะผู้ใช้ระดับ Tier 3 ขึ้นไปเท่านั้น
- ต้องมียอดใช้งาน API ขั้นต่ำมากกว่า $100 จึงจะอยู่ในระดับดังกล่าว
- ค่าใช้จ่ายของ o3-mini คือ
- $1.10 ต่อ 1 ล้าน input tokens
- $4.40 ต่อ 1 ล้าน output tokens
- ราคาถูกกว่าครึ่งหนึ่งเมื่อเทียบกับ GPT-4o($2.50/$10) และถูกกว่าถึงไม่ถึง 1/10 เมื่อเทียบกับ o1($15/$60)
- ได้ลองรัน สคริปต์ hn-summary.sh ด้วย o3-mini เพื่อสรุป โพสต์ใน Hacker News(42890627)
hn-summary.sh 42890627 -o o3-mini
- ใช้ input tokens 18,936 และ output tokens 2,905 โดยมีค่าใช้จ่ายรวมประมาณ $0.033612 (3.3612 เซนต์)
- ขีดจำกัด output tokens สูงสุดของ o3-mini อยู่ที่ 100,000
- สูงกว่ามากเมื่อเทียบกับ GPT-4o(16,000), DeepSeek R1(8,000), Claude 3.5(8,000)
- อย่างไรก็ตาม tokens ที่ใช้กับการให้เหตุผลภายในก็จะถูกนับรวมในเพดานนี้ด้วย จึงอาจเป็นเรื่องยากที่ output จริงจะไปถึง 100,000
- รองรับ input tokens ได้สูงสุด 200,000 ซึ่งมากกว่าความจุ 128,000 ของ GPT-4o
- ดูมีศักยภาพสูงสำหรับงานแปลข้อความยาว
- เพราะมีราคาถูกและเหมาะกับการจัดการทั้ง input/output ปริมาณมาก
- คอมเมนต์ของนักแปลมืออาชีพ Tom Gally บน Hacker News น่าสนใจมาก
- มีการกล่าวว่า DeepSeek R1 และ o3-mini ต่างก็มีคุณภาพตกในช่วงท้ายเมื่อแปลข้อความยาว
- ตอนแรก R1 ก็ดูเหมือนจะไม่เลว แต่ o3-mini ให้ผลลัพธ์ที่ลื่นไหลและเป็นธรรมชาติกว่าในภาษาอังกฤษ และใกล้เคียงกับสไตล์การเขียนที่ร้องขอมากกว่า
- แต่ความยาวของผลลัพธ์คือ R1 มี 5,855 อักขระ, o3-mini มี 9,052 อักขระ, ส่วนเวอร์ชันที่ขัดเกลาเองมี 11,021 อักขระ
- R1 ละบางย่อหน้าในช่วงท้ายไป ขณะที่ o3-mini ใช้สไตล์การย่อคำที่แปลก เช่น ใช้ / แทน and ระหว่างคำนาม
- และมีความเห็นว่า ChatGPT, Claude, Gemini เป็นต้น ไม่ได้แสดงปัญหาแบบนี้เมื่อแปลข้อความเดียวกัน
1 ความคิดเห็น
การเปิดตัว OpenAI o3-Mini