ข้อมูลยังคงเป็นปราการป้องกัน (Moat) อยู่หรือไม่?

xguru · 2023-10-17T10:46:01+09:00

"ข้อมูลคือน้ำมันแห่งยุคใหม่" เป็นสโลแกนในช่วง 10 ปีที่ผ่านมา บริษัทต่าง ๆ ได้ตระหนักว่าข้อมูลมีคุณค่ามากเพียงใด หรืออาจมีคุณค่าได้มากเพียงใด บริษัทต่าง ๆ รีบลงทุนกับ data stack รุ่นใหม่ และเก็บข้อมูลระดับเทราไบต์ไว้ใน data warehouse ทีม data science ต้องวิเคราะห์ตัวเลข และนำผลวิเคราะห์นั้นไปใช้ในการตัดสินใจด้านผลิตภัณฑ์ (หรือในบางกรณี ใช้กับฟีเจอร์ที่ลูกค้าเห็นโดยตรง เช่น recommendation feed) แม้จะมีกรณีความสำเร็จ แต่หลายองค์กรกลับนำไปใช้จริงไม่สำเร็จ สาเหตุมีทั้งข้อมูลที่แยกเป็นไซโล (หรือทีมข้อมูลที่แยกขาดกัน), cloud data warehouse ที่มีค่าใช้จ่ายสูง และ query ที่ไม่มีประสิทธิภาพ (ซึ่งปัจจุบันเริ่มลดลงแล้ว), รวมถึงการขาด data pipeline ที่เป็นระเบียบเรียบร้อย (ซึ่งต้องอาศัยงานปฏิบัติการจำนวนมากเพื่อทำให้ข้อมูลอยู่ในสภาพพร้อมใช้) แล้วในยุคที่ใช้ "Generative AI" กันแล้ว ข้อมูลยังคงเป็น moat อยู่หรือไม่? เมื่อชุดข้อมูลสังเคราะห์มีสัดส่วนที่ไม่ใช่ศูนย์ใน pipeline สำหรับการฝึกและการอนุมาน คุณค่าของข้อมูลจะสูงขึ้นหรือลดลง? ในด้านหนึ่ง "ข้อมูลคุณภาพสูงยังคงสำคัญ" จุดสนใจจำนวนมากในการพัฒนา LLM มุ่งไปที่ตัวโมเดลและขนาดของชุดข้อมูล มีหลักฐานเบื้องต้นว่าคุณภาพของข้อมูลที่ใช้ฝึก LLM สามารถส่งผลอย่างมากได้ WizardLM, TinyStories, phi-1 เป็นตัวอย่าง ในทำนองเดียวกัน ชุดข้อมูล RLHF ก็มีความสำคัญ แต่อีกด้านหนึ่ง สำหรับการ fine-tuning เรื่องรูปแบบผลลัพธ์และสไตล์เฉพาะผู้ใช้ "มี data point ราว 100 จุดก็ช่วยให้ดีขึ้นอย่างมากได้" นักวิจัย LLM จาก Databricks, Meta, Spark และ Audible ได้ทำการวิเคราะห์เชิงประจักษ์เกี่ยวกับปริมาณข้อมูลที่จำเป็นสำหรับการ fine-tuning ข้อมูลระดับนี้สามารถสร้างหรือคัดสรรด้วยมือได้ไม่ยาก Model distillation เป็นสิ่งที่ทำได้จริงและทำได้ไม่ยาก สามารถใช้ LLM สร้างข้อมูลสังเคราะห์เพื่อฝึกหรือ fine-tuning LLM ของตนเองได้ และความรู้บางส่วนจะถูกถ่ายทอดมา เรื่องนี้จะเป็นปัญหาหากคุณต้องเปิดเผย raw LLM ให้ผู้อื่นเห็นโดยตรง (แต่ถ้าใช้ภายในก็ไม่ค่อยเป็นปัญหา) และยังหมายความว่าข้อมูลที่ไม่ได้มีความเฉพาะตัวมากเป็นพิเศษนั้นสามารถถูกคัดลอกได้ง่าย

(matt-rickard.com)

12 คะแนน โดย xguru 2023-10-17 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

"ข้อมูลคือน้ำมันแห่งยุคใหม่" เป็นสโลแกนในช่วง 10 ปีที่ผ่านมา
- บริษัทต่าง ๆ ได้ตระหนักว่าข้อมูลมีคุณค่ามากเพียงใด หรืออาจมีคุณค่าได้มากเพียงใด
- บริษัทต่าง ๆ รีบลงทุนกับ data stack รุ่นใหม่ และเก็บข้อมูลระดับเทราไบต์ไว้ใน data warehouse
- ทีม data science ต้องวิเคราะห์ตัวเลข และนำผลวิเคราะห์นั้นไปใช้ในการตัดสินใจด้านผลิตภัณฑ์ (หรือในบางกรณี ใช้กับฟีเจอร์ที่ลูกค้าเห็นโดยตรง เช่น recommendation feed)
- แม้จะมีกรณีความสำเร็จ แต่หลายองค์กรกลับนำไปใช้จริงไม่สำเร็จ
- สาเหตุมีทั้งข้อมูลที่แยกเป็นไซโล (หรือทีมข้อมูลที่แยกขาดกัน), cloud data warehouse ที่มีค่าใช้จ่ายสูง และ query ที่ไม่มีประสิทธิภาพ (ซึ่งปัจจุบันเริ่มลดลงแล้ว), รวมถึงการขาด data pipeline ที่เป็นระเบียบเรียบร้อย (ซึ่งต้องอาศัยงานปฏิบัติการจำนวนมากเพื่อทำให้ข้อมูลอยู่ในสภาพพร้อมใช้)
แล้วในยุคที่ใช้ "Generative AI" กันแล้ว ข้อมูลยังคงเป็น moat อยู่หรือไม่?
เมื่อชุดข้อมูลสังเคราะห์มีสัดส่วนที่ไม่ใช่ศูนย์ใน pipeline สำหรับการฝึกและการอนุมาน คุณค่าของข้อมูลจะสูงขึ้นหรือลดลง?
ในด้านหนึ่ง "ข้อมูลคุณภาพสูงยังคงสำคัญ"
- จุดสนใจจำนวนมากในการพัฒนา LLM มุ่งไปที่ตัวโมเดลและขนาดของชุดข้อมูล
- มีหลักฐานเบื้องต้นว่าคุณภาพของข้อมูลที่ใช้ฝึก LLM สามารถส่งผลอย่างมากได้
- WizardLM, TinyStories, phi-1 เป็นตัวอย่าง
- ในทำนองเดียวกัน ชุดข้อมูล RLHF ก็มีความสำคัญ
แต่อีกด้านหนึ่ง สำหรับการ fine-tuning เรื่องรูปแบบผลลัพธ์และสไตล์เฉพาะผู้ใช้ "มี data point ราว 100 จุดก็ช่วยให้ดีขึ้นอย่างมากได้"
- นักวิจัย LLM จาก Databricks, Meta, Spark และ Audible ได้ทำการวิเคราะห์เชิงประจักษ์เกี่ยวกับปริมาณข้อมูลที่จำเป็นสำหรับการ fine-tuning
- ข้อมูลระดับนี้สามารถสร้างหรือคัดสรรด้วยมือได้ไม่ยาก
Model distillation เป็นสิ่งที่ทำได้จริงและทำได้ไม่ยาก
- สามารถใช้ LLM สร้างข้อมูลสังเคราะห์เพื่อฝึกหรือ fine-tuning LLM ของตนเองได้ และความรู้บางส่วนจะถูกถ่ายทอดมา
- เรื่องนี้จะเป็นปัญหาหากคุณต้องเปิดเผย raw LLM ให้ผู้อื่นเห็นโดยตรง (แต่ถ้าใช้ภายในก็ไม่ค่อยเป็นปัญหา) และยังหมายความว่าข้อมูลที่ไม่ได้มีความเฉพาะตัวมากเป็นพิเศษนั้นสามารถถูกคัดลอกได้ง่าย

ข้อมูลยังคงเป็นปราการป้องกัน (Moat) อยู่หรือไม่?

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น