PM ด้านบริการ AI ตอนนี้ต้องออกแบบ 'การประเมิน' ให้ไกลกว่าแค่ 'การวางแผน'

(maily.so)

5 คะแนน โดย pentaxzs 18 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ช่วงหลังมานี้บริการ Generative AI เพิ่มขึ้นอย่างรวดเร็ว ทำให้บทบาทของ PM เปลี่ยนไปอย่างมีนัยสำคัญ

เรื่องนี้ก็เช่นเดียวกันกับบทบาทของ QA ด้วย
หากในอดีต PM เป็นผู้กำหนดข้อกำหนด (Spec) และ QA เป็นผู้ตรวจสอบว่าฟังก์ชันทำงานได้ถูกต้องหรือไม่ (Pass/Fail) ในยุค AI คุณภาพได้กลายเป็นพื้นที่ที่ PM ต้องเป็นผู้ 'นิยาม' และ 'ประเมิน' ด้วยตนเอง

ทำไมไม่ใช่ QA แต่เป็น PM ที่ต้องรับผิดชอบคุณภาพ?

ไม่มีคำตอบที่ตายตัว: คำตอบของ AI ไม่ได้เป็นปัญหาว่าถูกหรือผิด แต่เป็นสิ่งที่อยู่บนสเปกตรัมของ 'ดีหรือไม่ดี'
ความเป็นอัตวิสัยของการประเมิน: เกณฑ์เชิงคุณภาพอย่าง "เป็นธรรมชาติหรือไม่?", "มีประโยชน์หรือไม่?" สามารถนิยามได้โดย PM ที่เข้าใจวิสัยทัศน์ของผลิตภัณฑ์ดีที่สุดเท่านั้น
การนิยามคือคุณภาพ: ในบริการ AI คุณภาพไม่ได้เริ่มจากการทดสอบจับข้อผิดพลาด แต่เริ่มจากการกำหนดตั้งแต่แรกว่าอะไรคือ 'ผลลัพธ์ที่ดี'

เปรียบเทียบการจัดการคุณภาพ: บริการทั่วไป vs บริการ AI
ตั้งแต่มุมมองที่ใช้มองคุณภาพไปจนถึงวิธีบริหารจัดการ ซอฟต์แวร์บริการทั่วไปแบบเดิมกับบริการ AI มีความแตกต่างกันอย่างมาก

เกณฑ์และการตัดสินคุณภาพ: สำหรับบริการทั่วไป เอกสารวางแผนคือคำตอบที่ถูกต้อง ปุ่มทำงานหรือไม่ ชำระเงินได้หรือไม่ เป็นลักษณะเหมือนแบบทดสอบ O/X ที่แยก 'ถูก/ผิด (Pass or Fail)' ได้อย่างชัดเจน ในทางกลับกัน บริการ AI ไม่มีคำตอบที่ถูกต้องชัดเจน แต่มีเพียง 'คำตอบตัวอย่างที่ดี' เท่านั้น คุณภาพจึงอยู่บนสเปกตรัมต่อเนื่อง และใกล้เคียงกับการตรวจข้อสอบอัตนัยที่ตัดสินว่าผลลัพธ์ถูกปรับให้เหมาะสมได้มากเพียงใด มากกว่าจะตัดสินแค่ว่าถูกหรือผิด
แก่นสำคัญและผู้รับผิดชอบของการจัดการคุณภาพ: สำหรับบริการทั่วไป สิ่งสำคัญคือ 'การประกันคุณภาพ (QA)' ที่ตรวจสอบว่าฟังก์ชันเสร็จสมบูรณ์ตามแผนหรือไม่ และความรับผิดชอบมักอยู่ที่ทีม QA แต่สำหรับบริการ AI แก่นสำคัญคือ 'การออกแบบการประเมิน' ที่กำหนดเกณฑ์ว่าอะไรคือผลลัพธ์ที่ดี ดังนั้น PM ซึ่งเข้าใจวิสัยทัศน์ของผลิตภัณฑ์ดีที่สุดจึงกลายเป็นผู้รับผิดชอบสูงสุดด้านคุณภาพ
ความเปลี่ยนแปลงของวิธีตรวจสอบ: ในอดีตจะทดสอบว่าฟังก์ชันทำงานตามสถานการณ์ที่กำหนดไว้หรือไม่ แต่บริการ AI ต้องผ่าน การประเมินเชิงคุณภาพ (Human Eval) ที่มนุษย์ดูผลลัพธ์แล้วตัดสินโดยตรง ยิ่งไปกว่านั้น ยังสามารถใช้ LLM ที่เรียนรู้เกณฑ์ซึ่ง PM วางไว้เป็นผู้ประเมิน (LLM Judge) เพื่อตรวจสอบข้อมูลจำนวนมากแบบอัตโนมัติและปรับปรุงคุณภาพอย่างต่อเนื่อง

การจัดการคุณภาพ 5 ขั้นตอนสำหรับ AI PM

ลองให้คะแนนด้วยตัวเองตามแนวทาง: คัดข้อมูลตัวอย่างมาประเมินคะแนนด้วยตนเองเพื่อรับรู้เกณฑ์การตัดสินของตัวเอง
ทำเกณฑ์ให้เป็นลายลักษณ์อักษร: นิยามความรู้สึกที่คลุมเครืออย่าง "ความเฉพาะเจาะจง", "ความสมจริง" ให้เป็นภาษาที่อธิบายได้
สร้างชุดข้อมูล: ทำรายการคำถามหลักที่บริการต้องตอบให้ได้ พร้อมคำตอบตัวอย่างที่ดี
ทำให้การประเมินเป็นอัตโนมัติ (LLM Judge): ให้ LLM ประเมินผลลัพธ์จำนวนมากตามเกณฑ์ที่นิยามไว้\
ตั้งคำถามกับตัวชี้วัด: แม้คะแนนประเมินจะสูงขึ้น แต่ถ้าความพึงพอใจของผู้ใช้ยังต่ำ ก็ต้องทบทวนตัวเกณฑ์นั้นใหม่

💡 อินไซต์ตอนนี้
PM ไม่ได้เป็นเพียงคนที่สร้างฟังก์ชันอีกต่อไป แต่เป็นคนที่ออกแบบ 'เกณฑ์การตัดสินคุณค่าของผลิตภัณฑ์' ประสบการณ์ในการนิยามว่าอะไรคือผลลัพธ์ที่ดี และสร้างโครงสร้างสำหรับวัดสิ่งนั้น จะกลายเป็นความสามารถในการแข่งขันที่ทรงพลังที่สุดของ PM ในยุค AI

2 ความคิดเห็น

kurthong 18 일 전

พอได้อ่านบทความเต็มแล้ว ก็รู้สึกว่านี่เดิมทีก็เป็นงานที่ PM ทำอยู่แล้วนะครับ เพียงแต่เมื่อเข้าสู่ยุค AI วิธีการก็ดูเหมือนจะค่อย ๆ เปลี่ยนไป ขอบคุณสำหรับอินไซต์ดี ๆ ครับ

pentaxzs 18 일 전

ขอบคุณครับ
ทั้งการวางแผนและการออกแบบต่างก็มีวิธีการที่เปลี่ยนแปลงมาโดยตลอด แต่รู้สึกว่าความเร็วกำลังเพิ่มขึ้นเรื่อย ๆ นะครับ

PM ด้านบริการ AI ตอนนี้ต้องออกแบบ 'การประเมิน' ให้ไกลกว่าแค่ 'การวางแผน'

บทความที่เกี่ยวข้อง

2 ความคิดเห็น