- บริษัทส่วนใหญ่ที่สร้างผลิตภัณฑ์ AI ยังติดอยู่ในขั้นทดลอง และขาดทั้งระบบกับเครื่องมือที่เชื่อถือได้
- กรณีของเรา
- ต้นปีนี้ เราอัปเดตโมเดล LLM จาก
gpt-4o-2024-08-06 เป็น gpt-4o-2024-11-20
- อัตราการผ่านของการทดสอบพรอมป์ต์หลักลดลงจาก 100% เหลือ 79%
- แต่กลับเป็น Anthropic Sonnet 3.5 ที่มีอัตราการผ่าน 95%
- บริษัท AI จำนวนมากพูดถึงการสลับผู้ให้บริการกันง่ายเกินไป
- เรื่องนี้ไม่ใช่แค่การบอกว่าต้องทดสอบ AI เท่านั้น
- การสร้างโครงสร้างพื้นฐานการทดสอบเพื่อวัดประสิทธิภาพของโมเดล และวัดเชิงปริมาณว่าการเปลี่ยนโมเดลส่งผลอะไรบ้างนั้น ไม่ได้ง่ายอย่างที่คิด
- สิ่งที่เราสร้างขึ้นเพื่อการวัดเชิงปริมาณ
- สถานการณ์ทดสอบเฉพาะอย่างน้อย 30 แบบขึ้นไป
- โค้ดสำหรับเปรียบเทียบผลลัพธ์ที่คาดหวังของพรอมป์ต์กับผลลัพธ์จริง
- ตัวรันทดสอบเอง
- กลยุทธ์สำหรับรันทดสอบใน CI ด้วยต้นทุนที่เหมาะสม
- กับดักของ AI MVP ที่ทีมส่วนใหญ่ตกลงไป
- ขั้นที่ 1. MVP ที่ชวนให้เข้าใจผิด: เดโมที่ดูเหมือนทำเสร็จได้ในไม่กี่วัน แต่ไม่นานก็เริ่มทำพลาดเรื่องพื้นฐาน
- ขั้นที่ 2. ±0: พยายามปรับปรุงมัน แต่กลับยิ่งซับซ้อนขึ้นและคาดเดาไม่ได้ บริษัทส่วนใหญ่กว่า 90% อยู่ในขั้นนี้
- ขั้นที่ 3. วิทยาศาสตร์: ถึงจุดนี้จึงเริ่มตระหนักว่าจำเป็นต้องมีการทดสอบเพื่อการประเมิน เครื่องมือ observability ฯลฯ และเริ่มลงมือสร้าง
- ขั้นที่ 4. ใช้งานได้จริง: ในที่สุดก็มีทั้งการมอนิเตอร์อย่างต่อเนื่อง ชุดทดสอบประเมินผลที่ครอบคลุม และเครื่องมือวิเคราะห์ที่รวดเร็ว
- ทั้งหมดนี้ไม่ง่าย ไม่ตรงไปตรงมา และเป็นงานที่ยาก
- หลายบริษัทยังคงติดอยู่ในขั้น MVP ที่สับสน และไม่เข้าใจด้วยซ้ำว่าฟีเจอร์ AI ที่ปล่อยออกไปทำงานได้ดีแค่ไหน
- การขายผลิตภัณฑ์ AI ด้วยคำพูดว่า "สิ่งที่ต้องมีมีแค่ X" เป็นการทำให้ความจริงง่ายเกินไป
- ถ้าใครบอกว่ากำลังสร้างกลยุทธ์ AI แบบ multi-provider ให้ถามว่าเขาวัดและประเมินผลกันอย่างไร
ยังไม่มีความคิดเห็น