ก้าวข้าม AI MVP: สิ่งที่จำเป็นจริง ๆ

winterjung · 2025-04-03T12:56:26+09:00

บริษัทส่วนใหญ่ที่สร้างผลิตภัณฑ์ AI ยังติดอยู่ในขั้นทดลอง และขาดทั้งระบบกับเครื่องมือที่เชื่อถือได้ กรณีของเรา ต้นปีนี้ เราอัปเดตโมเดล LLM จาก gpt-4o-2024-08-06 เป็น gpt-4o-2024-11-20 อัตราการผ่านของการทดสอบพรอมป์ต์หลักลดลงจาก 100% เหลือ 79% แต่กลับเป็น Anthropic Sonnet 3.5 ที่มีอัตราการผ่าน 95% บริษัท AI จำนวนมากพูดถึงการสลับผู้ให้บริการกันง่ายเกินไป เรื่องนี้ไม่ใช่แค่การบอกว่าต้องทดสอบ AI เท่านั้น การสร้างโครงสร้างพื้นฐานการทดสอบเพื่อวัดประสิทธิภาพของโมเดล และวัดเชิงปริมาณว่าการเปลี่ยนโมเดลส่งผลอะไรบ้างนั้น ไม่ได้ง่ายอย่างที่คิด สิ่งที่เราสร้างขึ้นเพื่อการวัดเชิงปริมาณ สถานการณ์ทดสอบเฉพาะอย่างน้อย 30 แบบขึ้นไป โค้ดสำหรับเปรียบเทียบผลลัพธ์ที่คาดหวังของพรอมป์ต์กับผลลัพธ์จริง ตัวรันทดสอบเอง กลยุทธ์สำหรับรันทดสอบใน CI ด้วยต้นทุนที่เหมาะสม กับดักของ AI MVP ที่ทีมส่วนใหญ่ตกลงไป ขั้นที่ 1. MVP ที่ชวนให้เข้าใจผิด: เดโมที่ดูเหมือนทำเสร็จได้ในไม่กี่วัน แต่ไม่นานก็เริ่มทำพลาดเรื่องพื้นฐาน ขั้นที่ 2. ±0: พยายามปรับปรุงมัน แต่กลับยิ่งซับซ้อนขึ้นและคาดเดาไม่ได้ บริษัทส่วนใหญ่กว่า 90% อยู่ในขั้นนี้ ขั้นที่ 3. วิทยาศาสตร์: ถึงจุดนี้จึงเริ่มตระหนักว่าจำเป็นต้องมีการทดสอบเพื่อการประเมิน เครื่องมือ observability ฯลฯ และเริ่มลงมือสร้าง ขั้นที่ 4. ใช้งานได้จริง: ในที่สุดก็มีทั้งการมอนิเตอร์อย่างต่อเนื่อง ชุดทดสอบประเมินผลที่ครอบคลุม และเครื่องมือวิเคราะห์ที่รวดเร็ว ทั้งหมดนี้ไม่ง่าย ไม่ตรงไปตรงมา และเป็นงานที่ยาก หลายบริษัทยังคงติดอยู่ในขั้น MVP ที่สับสน และไม่เข้าใจด้วยซ้ำว่าฟีเจอร์ AI ที่ปล่อยออกไปทำงานได้ดีแค่ไหน การขายผลิตภัณฑ์ AI ด้วยคำพูดว่า "สิ่งที่ต้องมีมีแค่ X" เป็นการทำให้ความจริงง่ายเกินไป ถ้าใครบอกว่ากำลังสร้างกลยุทธ์ AI แบบ multi-provider ให้ถามว่าเขาวัดและประเมินผลกันอย่างไร

(blog.lawrencejones.dev)

16 คะแนน โดย winterjung 2025-04-03 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

บริษัทส่วนใหญ่ที่สร้างผลิตภัณฑ์ AI ยังติดอยู่ในขั้นทดลอง และขาดทั้งระบบกับเครื่องมือที่เชื่อถือได้
กรณีของเรา
- ต้นปีนี้ เราอัปเดตโมเดล LLM จาก gpt-4o-2024-08-06 เป็น gpt-4o-2024-11-20
- อัตราการผ่านของการทดสอบพรอมป์ต์หลักลดลงจาก 100% เหลือ 79%
- แต่กลับเป็น Anthropic Sonnet 3.5 ที่มีอัตราการผ่าน 95%
บริษัท AI จำนวนมากพูดถึงการสลับผู้ให้บริการกันง่ายเกินไป
- เรื่องนี้ไม่ใช่แค่การบอกว่าต้องทดสอบ AI เท่านั้น
- การสร้างโครงสร้างพื้นฐานการทดสอบเพื่อวัดประสิทธิภาพของโมเดล และวัดเชิงปริมาณว่าการเปลี่ยนโมเดลส่งผลอะไรบ้างนั้น ไม่ได้ง่ายอย่างที่คิด
สิ่งที่เราสร้างขึ้นเพื่อการวัดเชิงปริมาณ
- สถานการณ์ทดสอบเฉพาะอย่างน้อย 30 แบบขึ้นไป
- โค้ดสำหรับเปรียบเทียบผลลัพธ์ที่คาดหวังของพรอมป์ต์กับผลลัพธ์จริง
- ตัวรันทดสอบเอง
- กลยุทธ์สำหรับรันทดสอบใน CI ด้วยต้นทุนที่เหมาะสม
กับดักของ AI MVP ที่ทีมส่วนใหญ่ตกลงไป
- ขั้นที่ 1. MVP ที่ชวนให้เข้าใจผิด: เดโมที่ดูเหมือนทำเสร็จได้ในไม่กี่วัน แต่ไม่นานก็เริ่มทำพลาดเรื่องพื้นฐาน
- ขั้นที่ 2. ±0: พยายามปรับปรุงมัน แต่กลับยิ่งซับซ้อนขึ้นและคาดเดาไม่ได้ บริษัทส่วนใหญ่กว่า 90% อยู่ในขั้นนี้
- ขั้นที่ 3. วิทยาศาสตร์: ถึงจุดนี้จึงเริ่มตระหนักว่าจำเป็นต้องมีการทดสอบเพื่อการประเมิน เครื่องมือ observability ฯลฯ และเริ่มลงมือสร้าง
- ขั้นที่ 4. ใช้งานได้จริง: ในที่สุดก็มีทั้งการมอนิเตอร์อย่างต่อเนื่อง ชุดทดสอบประเมินผลที่ครอบคลุม และเครื่องมือวิเคราะห์ที่รวดเร็ว
ทั้งหมดนี้ไม่ง่าย ไม่ตรงไปตรงมา และเป็นงานที่ยาก
- หลายบริษัทยังคงติดอยู่ในขั้น MVP ที่สับสน และไม่เข้าใจด้วยซ้ำว่าฟีเจอร์ AI ที่ปล่อยออกไปทำงานได้ดีแค่ไหน
- การขายผลิตภัณฑ์ AI ด้วยคำพูดว่า "สิ่งที่ต้องมีมีแค่ X" เป็นการทำให้ความจริงง่ายเกินไป
- ถ้าใครบอกว่ากำลังสร้างกลยุทธ์ AI แบบ multi-provider ให้ถามว่าเขาวัดและประเมินผลกันอย่างไร

ก้าวข้าม AI MVP: สิ่งที่จำเป็นจริง ๆ

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น