14 คะแนน โดย xguru 2025-02-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล o3-mini ของ OpenAI เพิ่งเปิดตัวใหม่ และเช่นเดียวกับโมเดลตระกูล o อื่น ๆ จึงประเมินได้ค่อนข้างยาก
    • ตอนนี้กลายเป็นสถานการณ์ที่ต้องตัดสินใจว่าจะเลือกใช้โมเดลใดตามวัตถุประสงค์ ระหว่าง GPT-4o, o1, o1 Pro และรุ่นอื่น ๆ ที่มีอยู่
  • ตามข้อมูลใน o3-mini System Card (PDF) พบว่า o3-mini ทำได้ดีกว่า GPT-4o และ o1 ในตัวชี้วัดการประเมินบางส่วน แต่ไม่ได้โดดเด่นสูงอย่างสม่ำเสมอในทุกหัวข้อ
    • โดยเฉพาะอย่างยิ่งมีผลงานที่ดีมากในตัวชี้วัดเบนช์มาร์กด้านความสามารถ competitive programming เช่น Codeforces ELO
  • OpenAI มีแผนจะอนุญาตให้ใช้ o3-mini ค้นหาข้อมูลบนอินเทอร์เน็ต แล้วให้ ChatGPT สรุปผลลัพธ์
    • เนื่องจากโมเดล o1 เดิมไม่ได้ใช้เครื่องมือค้นหาเว็บใน ChatGPT ฟีเจอร์ที่เพิ่มเข้ามาครั้งนี้จึงน่าจับตาในด้านการใช้งานจริง
  • นอกจากนี้ o3-mini ยังไม่รองรับฟีเจอร์ vision (ภาพ) แต่มีความเป็นไปได้ว่า mini รุ่นถัดไปจะรวม visionเข้ามาด้วย
  • เครื่องมือ CLI ที่ผมพัฒนาขึ้นอย่าง LLM 0.21 ได้เพิ่มการรองรับ o3-mini แล้ว
    • สามารถกำหนด high, medium, low ได้ด้วยออปชัน -o reasoning_effort
  • ขณะนี้ o3-mini ใช้งานได้เฉพาะผู้ใช้ระดับ Tier 3 ขึ้นไปเท่านั้น
    • ต้องมียอดใช้งาน API ขั้นต่ำมากกว่า $100 จึงจะอยู่ในระดับดังกล่าว
  • ค่าใช้จ่ายของ o3-mini คือ
    • $1.10 ต่อ 1 ล้าน input tokens
    • $4.40 ต่อ 1 ล้าน output tokens
    • ราคาถูกกว่าครึ่งหนึ่งเมื่อเทียบกับ GPT-4o($2.50/$10) และถูกกว่าถึงไม่ถึง 1/10 เมื่อเทียบกับ o1($15/$60)
  • ได้ลองรัน สคริปต์ hn-summary.sh ด้วย o3-mini เพื่อสรุป โพสต์ใน Hacker News(42890627)
    • hn-summary.sh 42890627 -o o3-mini
    • ใช้ input tokens 18,936 และ output tokens 2,905 โดยมีค่าใช้จ่ายรวมประมาณ $0.033612 (3.3612 เซนต์)
  • ขีดจำกัด output tokens สูงสุดของ o3-mini อยู่ที่ 100,000
    • สูงกว่ามากเมื่อเทียบกับ GPT-4o(16,000), DeepSeek R1(8,000), Claude 3.5(8,000)
    • อย่างไรก็ตาม tokens ที่ใช้กับการให้เหตุผลภายในก็จะถูกนับรวมในเพดานนี้ด้วย จึงอาจเป็นเรื่องยากที่ output จริงจะไปถึง 100,000
  • รองรับ input tokens ได้สูงสุด 200,000 ซึ่งมากกว่าความจุ 128,000 ของ GPT-4o
  • ดูมีศักยภาพสูงสำหรับงานแปลข้อความยาว
    • เพราะมีราคาถูกและเหมาะกับการจัดการทั้ง input/output ปริมาณมาก
  • คอมเมนต์ของนักแปลมืออาชีพ Tom Gally บน Hacker News น่าสนใจมาก
    • มีการกล่าวว่า DeepSeek R1 และ o3-mini ต่างก็มีคุณภาพตกในช่วงท้ายเมื่อแปลข้อความยาว
    • ตอนแรก R1 ก็ดูเหมือนจะไม่เลว แต่ o3-mini ให้ผลลัพธ์ที่ลื่นไหลและเป็นธรรมชาติกว่าในภาษาอังกฤษ และใกล้เคียงกับสไตล์การเขียนที่ร้องขอมากกว่า
    • แต่ความยาวของผลลัพธ์คือ R1 มี 5,855 อักขระ, o3-mini มี 9,052 อักขระ, ส่วนเวอร์ชันที่ขัดเกลาเองมี 11,021 อักขระ
    • R1 ละบางย่อหน้าในช่วงท้ายไป ขณะที่ o3-mini ใช้สไตล์การย่อคำที่แปลก เช่น ใช้ / แทน and ระหว่างคำนาม
    • และมีความเห็นว่า ChatGPT, Claude, Gemini เป็นต้น ไม่ได้แสดงปัญหาแบบนี้เมื่อแปลข้อความเดียวกัน

1 ความคิดเห็น