- "ข้อมูลคือน้ำมันแห่งยุคใหม่" เป็นสโลแกนในช่วง 10 ปีที่ผ่านมา
- บริษัทต่าง ๆ ได้ตระหนักว่าข้อมูลมีคุณค่ามากเพียงใด หรืออาจมีคุณค่าได้มากเพียงใด
- บริษัทต่าง ๆ รีบลงทุนกับ data stack รุ่นใหม่ และเก็บข้อมูลระดับเทราไบต์ไว้ใน data warehouse
- ทีม data science ต้องวิเคราะห์ตัวเลข และนำผลวิเคราะห์นั้นไปใช้ในการตัดสินใจด้านผลิตภัณฑ์ (หรือในบางกรณี ใช้กับฟีเจอร์ที่ลูกค้าเห็นโดยตรง เช่น recommendation feed)
- แม้จะมีกรณีความสำเร็จ แต่หลายองค์กรกลับนำไปใช้จริงไม่สำเร็จ
- สาเหตุมีทั้งข้อมูลที่แยกเป็นไซโล (หรือทีมข้อมูลที่แยกขาดกัน), cloud data warehouse ที่มีค่าใช้จ่ายสูง และ query ที่ไม่มีประสิทธิภาพ (ซึ่งปัจจุบันเริ่มลดลงแล้ว), รวมถึงการขาด data pipeline ที่เป็นระเบียบเรียบร้อย (ซึ่งต้องอาศัยงานปฏิบัติการจำนวนมากเพื่อทำให้ข้อมูลอยู่ในสภาพพร้อมใช้)
- แล้วในยุคที่ใช้ "Generative AI" กันแล้ว ข้อมูลยังคงเป็น moat อยู่หรือไม่?
- เมื่อชุดข้อมูลสังเคราะห์มีสัดส่วนที่ไม่ใช่ศูนย์ใน pipeline สำหรับการฝึกและการอนุมาน คุณค่าของข้อมูลจะสูงขึ้นหรือลดลง?
- ในด้านหนึ่ง "ข้อมูลคุณภาพสูงยังคงสำคัญ"
- จุดสนใจจำนวนมากในการพัฒนา LLM มุ่งไปที่ตัวโมเดลและขนาดของชุดข้อมูล
- มีหลักฐานเบื้องต้นว่าคุณภาพของข้อมูลที่ใช้ฝึก LLM สามารถส่งผลอย่างมากได้
- WizardLM, TinyStories, phi-1 เป็นตัวอย่าง
- ในทำนองเดียวกัน ชุดข้อมูล RLHF ก็มีความสำคัญ
- แต่อีกด้านหนึ่ง สำหรับการ fine-tuning เรื่องรูปแบบผลลัพธ์และสไตล์เฉพาะผู้ใช้ "มี data point ราว 100 จุดก็ช่วยให้ดีขึ้นอย่างมากได้"
- นักวิจัย LLM จาก Databricks, Meta, Spark และ Audible ได้ทำการวิเคราะห์เชิงประจักษ์เกี่ยวกับปริมาณข้อมูลที่จำเป็นสำหรับการ fine-tuning
- ข้อมูลระดับนี้สามารถสร้างหรือคัดสรรด้วยมือได้ไม่ยาก
- Model distillation เป็นสิ่งที่ทำได้จริงและทำได้ไม่ยาก
- สามารถใช้ LLM สร้างข้อมูลสังเคราะห์เพื่อฝึกหรือ fine-tuning LLM ของตนเองได้ และความรู้บางส่วนจะถูกถ่ายทอดมา
- เรื่องนี้จะเป็นปัญหาหากคุณต้องเปิดเผย raw LLM ให้ผู้อื่นเห็นโดยตรง (แต่ถ้าใช้ภายในก็ไม่ค่อยเป็นปัญหา) และยังหมายความว่าข้อมูลที่ไม่ได้มีความเฉพาะตัวมากเป็นพิเศษนั้นสามารถถูกคัดลอกได้ง่าย
ยังไม่มีความคิดเห็น