16 คะแนน โดย winterjung 2025-04-03 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp
  • บริษัทส่วนใหญ่ที่สร้างผลิตภัณฑ์ AI ยังติดอยู่ในขั้นทดลอง และขาดทั้งระบบกับเครื่องมือที่เชื่อถือได้
  • กรณีของเรา
    • ต้นปีนี้ เราอัปเดตโมเดล LLM จาก gpt-4o-2024-08-06 เป็น gpt-4o-2024-11-20
    • อัตราการผ่านของการทดสอบพรอมป์ต์หลักลดลงจาก 100% เหลือ 79%
    • แต่กลับเป็น Anthropic Sonnet 3.5 ที่มีอัตราการผ่าน 95%
  • บริษัท AI จำนวนมากพูดถึงการสลับผู้ให้บริการกันง่ายเกินไป
    • เรื่องนี้ไม่ใช่แค่การบอกว่าต้องทดสอบ AI เท่านั้น
    • การสร้างโครงสร้างพื้นฐานการทดสอบเพื่อวัดประสิทธิภาพของโมเดล และวัดเชิงปริมาณว่าการเปลี่ยนโมเดลส่งผลอะไรบ้างนั้น ไม่ได้ง่ายอย่างที่คิด
  • สิ่งที่เราสร้างขึ้นเพื่อการวัดเชิงปริมาณ
    • สถานการณ์ทดสอบเฉพาะอย่างน้อย 30 แบบขึ้นไป
    • โค้ดสำหรับเปรียบเทียบผลลัพธ์ที่คาดหวังของพรอมป์ต์กับผลลัพธ์จริง
    • ตัวรันทดสอบเอง
    • กลยุทธ์สำหรับรันทดสอบใน CI ด้วยต้นทุนที่เหมาะสม
  • กับดักของ AI MVP ที่ทีมส่วนใหญ่ตกลงไป
    • ขั้นที่ 1. MVP ที่ชวนให้เข้าใจผิด: เดโมที่ดูเหมือนทำเสร็จได้ในไม่กี่วัน แต่ไม่นานก็เริ่มทำพลาดเรื่องพื้นฐาน
    • ขั้นที่ 2. ±0: พยายามปรับปรุงมัน แต่กลับยิ่งซับซ้อนขึ้นและคาดเดาไม่ได้ บริษัทส่วนใหญ่กว่า 90% อยู่ในขั้นนี้
    • ขั้นที่ 3. วิทยาศาสตร์: ถึงจุดนี้จึงเริ่มตระหนักว่าจำเป็นต้องมีการทดสอบเพื่อการประเมิน เครื่องมือ observability ฯลฯ และเริ่มลงมือสร้าง
    • ขั้นที่ 4. ใช้งานได้จริง: ในที่สุดก็มีทั้งการมอนิเตอร์อย่างต่อเนื่อง ชุดทดสอบประเมินผลที่ครอบคลุม และเครื่องมือวิเคราะห์ที่รวดเร็ว
  • ทั้งหมดนี้ไม่ง่าย ไม่ตรงไปตรงมา และเป็นงานที่ยาก
    • หลายบริษัทยังคงติดอยู่ในขั้น MVP ที่สับสน และไม่เข้าใจด้วยซ้ำว่าฟีเจอร์ AI ที่ปล่อยออกไปทำงานได้ดีแค่ไหน
    • การขายผลิตภัณฑ์ AI ด้วยคำพูดว่า "สิ่งที่ต้องมีมีแค่ X" เป็นการทำให้ความจริงง่ายเกินไป
    • ถ้าใครบอกว่ากำลังสร้างกลยุทธ์ AI แบบ multi-provider ให้ถามว่าเขาวัดและประเมินผลกันอย่างไร

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น