• "ข้อมูลคือน้ำมันแห่งยุคใหม่" เป็นสโลแกนในช่วง 10 ปีที่ผ่านมา
    • บริษัทต่าง ๆ ได้ตระหนักว่าข้อมูลมีคุณค่ามากเพียงใด หรืออาจมีคุณค่าได้มากเพียงใด
    • บริษัทต่าง ๆ รีบลงทุนกับ data stack รุ่นใหม่ และเก็บข้อมูลระดับเทราไบต์ไว้ใน data warehouse
    • ทีม data science ต้องวิเคราะห์ตัวเลข และนำผลวิเคราะห์นั้นไปใช้ในการตัดสินใจด้านผลิตภัณฑ์ (หรือในบางกรณี ใช้กับฟีเจอร์ที่ลูกค้าเห็นโดยตรง เช่น recommendation feed)
    • แม้จะมีกรณีความสำเร็จ แต่หลายองค์กรกลับนำไปใช้จริงไม่สำเร็จ
    • สาเหตุมีทั้งข้อมูลที่แยกเป็นไซโล (หรือทีมข้อมูลที่แยกขาดกัน), cloud data warehouse ที่มีค่าใช้จ่ายสูง และ query ที่ไม่มีประสิทธิภาพ (ซึ่งปัจจุบันเริ่มลดลงแล้ว), รวมถึงการขาด data pipeline ที่เป็นระเบียบเรียบร้อย (ซึ่งต้องอาศัยงานปฏิบัติการจำนวนมากเพื่อทำให้ข้อมูลอยู่ในสภาพพร้อมใช้)
  • แล้วในยุคที่ใช้ "Generative AI" กันแล้ว ข้อมูลยังคงเป็น moat อยู่หรือไม่?
  • เมื่อชุดข้อมูลสังเคราะห์มีสัดส่วนที่ไม่ใช่ศูนย์ใน pipeline สำหรับการฝึกและการอนุมาน คุณค่าของข้อมูลจะสูงขึ้นหรือลดลง?
  • ในด้านหนึ่ง "ข้อมูลคุณภาพสูงยังคงสำคัญ"
    • จุดสนใจจำนวนมากในการพัฒนา LLM มุ่งไปที่ตัวโมเดลและขนาดของชุดข้อมูล
    • มีหลักฐานเบื้องต้นว่าคุณภาพของข้อมูลที่ใช้ฝึก LLM สามารถส่งผลอย่างมากได้
    • WizardLM, TinyStories, phi-1 เป็นตัวอย่าง
    • ในทำนองเดียวกัน ชุดข้อมูล RLHF ก็มีความสำคัญ
  • แต่อีกด้านหนึ่ง สำหรับการ fine-tuning เรื่องรูปแบบผลลัพธ์และสไตล์เฉพาะผู้ใช้ "มี data point ราว 100 จุดก็ช่วยให้ดีขึ้นอย่างมากได้"
    • นักวิจัย LLM จาก Databricks, Meta, Spark และ Audible ได้ทำการวิเคราะห์เชิงประจักษ์เกี่ยวกับปริมาณข้อมูลที่จำเป็นสำหรับการ fine-tuning
    • ข้อมูลระดับนี้สามารถสร้างหรือคัดสรรด้วยมือได้ไม่ยาก
  • Model distillation เป็นสิ่งที่ทำได้จริงและทำได้ไม่ยาก
    • สามารถใช้ LLM สร้างข้อมูลสังเคราะห์เพื่อฝึกหรือ fine-tuning LLM ของตนเองได้ และความรู้บางส่วนจะถูกถ่ายทอดมา
    • เรื่องนี้จะเป็นปัญหาหากคุณต้องเปิดเผย raw LLM ให้ผู้อื่นเห็นโดยตรง (แต่ถ้าใช้ภายในก็ไม่ค่อยเป็นปัญหา) และยังหมายความว่าข้อมูลที่ไม่ได้มีความเฉพาะตัวมากเป็นพิเศษนั้นสามารถถูกคัดลอกได้ง่าย

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น