กลยุทธ์การเก็บรวบรวมข้อมูลสำหรับสตาร์ทอัพ AI ในปี 2024

(press.airstreet.com)

31 คะแนน โดย xguru 2024-04-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

[ #1 โมเดลกำเนิดขนาดใหญ่ (Large Generative Models) ]

การสร้างข้อมูลสังเคราะห์ด้วย LLM และ LMM

Large Language Model (LLM) สร้างผลลัพธ์เป็นข้อความ ขณะที่ Large Multi-Modal Model (LMM) สามารถสร้างข้อมูลสังเคราะห์ได้หลายรูปแบบ เช่น ข้อความ โค้ด และภาพ
ถูกใช้อย่างแพร่หลายเป็นพิเศษในสาขาที่ข้อมูลจริงมีไม่เพียงพอ อ่อนไหวต่อการคุ้มครองข้อมูลส่วนบุคคล หรือมีต้นทุนการเก็บและติดป้ายกำกับสูง (เช่น NLP, computer vision, การพัฒนาระบบขับขี่อัตโนมัติ เป็นต้น)
โดยทั่วไปข้อมูลสังเคราะห์ใช้เพื่อเสริมข้อมูลจริงหรือใช้ในการปรับจูนละเอียด (fine-tuning) ไม่ได้ใช้เพื่อทดแทนทั้งหมด
ต่อให้ซับซ้อนเพียงใด ก็ยังสร้างได้เพียงค่าประมาณของโดเมนปัญหา และหากพึ่งพามากเกินไปก็มีความเสี่ยงที่โมเดลจะ overfit กับลักษณะที่มีอยู่ในกระบวนการสร้างข้อมูลสังเคราะห์
วิธีการสร้างข้อมูลสังเคราะห์
1. การปรับปรุงตนเอง (Self-improvement): โมเดลสร้างคำสั่ง บริบทอินพุต และคำตอบ จากนั้นกรองตัวอย่างที่ไม่ถูกต้องหรือคล้ายกับข้อมูลเดิมมากเกินไปออก และนำข้อมูลที่เหลือมาใช้ fine-tune โมเดลต้นฉบับ
2. การกลั่นความรู้ (Distillation): กระบวนการถ่ายทอดความรู้จากโมเดลครูที่ทรงพลังกว่าไปยังโมเดลนักเรียนที่มีประสิทธิภาพมากกว่า แม้ว่าข้อมูลสังเคราะห์มักจะไม่แม่นยำทั้งหมด แต่ก็ยังช่วยในกระบวนการ instruction-tuning ได้อย่างมีประสิทธิภาพ
Microsoft เปิดตัวโมเดลขนาดเล็กตระกูล Phi ซึ่งส่วนใหญ่ฝึกด้วยข้อมูลสังเคราะห์ที่สร้างจาก LLM อื่น และแสดงประสิทธิภาพเหนือกว่าโมเดล frontier จำนวนมาก
Hugging Face สร้าง Cosmopedia โดยมีเป้าหมายเพื่อทำซ้ำแนวทางนี้ เพื่อตอบสนองต่อการขาดข้อมูลเกี่ยวกับการคัดสรรชุดข้อมูลฝึกสังเคราะห์ที่ Microsoft ใช้

การติดป้ายกำกับข้อมูลและการรวมชุดข้อมูลด้วย LLM

LLM รุ่นใหม่สามารถติดป้ายกำกับชุดข้อมูลข้อความได้ในระดับเทียบเท่าหรือสูงกว่าผู้ใส่คำอธิบายประกอบที่เป็นมนุษย์
ต่างจากมนุษย์ LLM สามารถใช้เกณฑ์การใส่คำอธิบายเดียวกันกับชุดข้อมูลขนาดใหญ่ได้อย่างสม่ำเสมอ โดยไม่เกิดความเหนื่อยล้าหรืออคติ
โมเดลกำเนิดขนาดใหญ่ที่ฝึกด้วยชุดข้อมูลขนาดใหญ่ เช่น Segment Anything มักให้ประสิทธิภาพแบบ zero-shot ดีกว่าโมเดล computer vision แบบไม่กำเนิดที่ออกแบบเฉพาะทาง ซึ่งเดิมใช้กับงานอย่าง semantic segmentation
LLM ยังสามารถใช้ขยายแหล่งข้อมูลจริงที่มีอยู่ผ่านการเย็บต่อชุดข้อมูล (Dataset Stitching) โดยรวมแหล่งข้อมูลหลายแบบเข้าด้วยกันเพื่อสร้างชุดข้อมูลรวม

LLM ในฐานะผู้ประเมิน

Reinforcement Learning from Human Feedback (RLHF) เป็นเทคนิคการปรับจูนหลักที่ทำให้ GPT-3 กลายเป็นระบบก้าวล้ำซึ่งเหมาะกับการโต้ตอบเชิงสนทนากับผู้ใช้ผ่านแชต
ปัจจุบันมีแนวทางที่เรียกว่า Reinforcement Learning from AI Feedback (RLAIF) ซึ่งใช้ LLM แทนมนุษย์ในการให้ฟีดแบ็ก
ข้อดีหลักของ RLAIF คือขยายระบบได้ง่ายขึ้นและลดต้นทุน โดยแทนที่มนุษย์ด้วยเครื่องจักร

[ #2 แพลตฟอร์มติดป้ายกำกับข้อมูล ]

ในช่วงแรกมีการใช้แพลตฟอร์ม crowdsourcing และการจ้างงานภายนอก เช่น Amazon Mechanical Turk เพื่อทำงานติดป้ายกำกับหรือทำความสะอาดข้อมูลผ่านแรงงานออนไลน์ราคาถูก
ระยะหลังแพลตฟอร์มอย่าง V7 และ Scale AI ที่มีฟังก์ชันติดป้ายกำกับและจัดการข้อมูลแบบอัตโนมัติพัฒนาขึ้นและได้รับความนิยม
แพลตฟอร์มเหล่านี้ช่วยให้องค์กรที่มีความต้องการข้อมูลขนาดใหญ่ขยายงานได้มีประสิทธิภาพขึ้นและคงความสม่ำเสมอในระดับที่สูงขึ้น พร้อมมาตรการด้าน compliance และการประกันคุณภาพ

ลักษณะเด่นของแต่ละแพลตฟอร์มและผู้เล่นหน้าใหม่

V7 มักเน้นงานที่ต้องใช้ความเชี่ยวชาญสูง เช่น ภาพทางการแพทย์ ขณะที่ Scale เติบโตจากสายงานขับขี่อัตโนมัติและขยายไปสู่ภาคกลาโหม
ผู้เล่นหน้าใหม่อย่าง Invisible กำลังตอบสนองความต้องการบุคลากรเฉพาะทางสำหรับ workflow ที่เน้น LLM (เช่น supervised fine-tuning, RLHF, การประเมินโดยมนุษย์, red teaming เป็นต้น)
บริการติดป้ายกำกับข้อมูลที่ได้รับความนิยม ได้แก่ CVAT, Dataloop, Invisible, Labelbox, Scale AI และ V7

วิธีปรับปรุงคุณภาพข้อมูลจากผู้ใส่คำอธิบายที่เป็นมนุษย์

หลายแพลตฟอร์มยังคงพึ่งพาผู้ใส่คำอธิบายที่เป็นมนุษย์อยู่ในระดับหนึ่ง ทำให้ต้องทุ่มเทมากขึ้นในการประเมินคุณภาพผลลัพธ์ เมื่อการใช้งาน AI ขยายไปสู่พื้นที่ที่ซับซ้อน เป็นอัตวิสัย และเกี่ยวข้องกับสังคมสูง
สามารถใช้แนวทางอย่างเสียงข้างมาก อัตราความสอดคล้อง และการสร้างแบบจำลองความน่าจะเป็น เพื่อประมาณป้ายกำกับจริงจากข้อมูลของผู้ประเมินหลายคน และระบุผู้ประเมินที่ไม่น่าเชื่อถือหรือเป็น “spammer”
มีเทคนิคที่จับความไม่สอดคล้องอย่างเป็นระบบระหว่างผู้ประเมิน และนำไปใช้ปรับปรุงการเรียนรู้ได้ (เช่น disagreement deconvolution, multi-annotator modeling เป็นต้น)
สามารถตรวจจับจุดข้อมูลที่ติดป้ายกำกับผิดได้ผ่าน influence functions หรือการติดตามการเปลี่ยนแปลงของการคาดการณ์ระหว่างการฝึก

[ #3 ชุดข้อมูลแบบเปิด ]

หลังปี 2016 ชุดข้อมูลแบบเปิดเพิ่มขึ้นอย่างมาก จากกระแส open data และการตระหนักถึงคุณค่าของการแบ่งปันข้อมูลระหว่างอุตสาหกรรม ภาควิชาการ และภาครัฐ
ชุดข้อมูลแบบเปิดมีอยู่ในแทบทุกโดเมน แต่เข้าถึงได้ง่ายเป็นพิเศษในด้าน computer vision, NLP, การประมวลผลเสียง/audio, การควบคุมหุ่นยนต์ และระบบนำทาง
การเติบโตนี้เกิดจากการผสานกันระหว่างความพยายามของชุมชน (เช่น Hugging Face, PyTorch, TensorFlow, Kaggle เป็นต้น) และการเปิดเผยชุดข้อมูลขนาดใหญ่จากบริษัทใหญ่

สิ่งที่ควรพิจารณาเมื่อใช้ชุดข้อมูลแบบเปิด

แม้จะมีข้อดีคือใช้งานฟรีและช่วยในการทำ benchmarking แต่ก็มีประเด็นที่ต้องพิจารณา
ในสาขาที่อ่อนไหวหรือมีข้อกำกับดูแลสูง ชุดข้อมูลแบบเปิดมักหายากกว่า เก่ากว่า และมีขนาดเล็กกว่า
คุณภาพและความทันสมัยของข้อมูลแบบเปิดแตกต่างกันมาก จึงอาจเกิดปัญหาด้านความเกี่ยวข้องในสาขาที่เปลี่ยนแปลงรวดเร็ว
การใช้งานมากเกินไปมีความเสี่ยงของการ overfit จากการพึ่งพาชุดข้อมูลยอดนิยมมากเกินควร ทำให้โมเดลทำได้ดีบน benchmark แต่ประสิทธิภาพตกในงานจริง

แหล่งข้อมูลชุดข้อมูลแบบเปิดที่มีประโยชน์

บริษัทใหญ่อย่าง Amazon, Google และ Microsoft มีทั้ง open data hub และ search engine หลากหลายแบบ
Hugging Face สร้าง dataset hub ที่พร้อมใช้งานร่วมกับเครื่องมือที่เกี่ยวข้อง
ฟังก์ชัน ค้นหาชุดข้อมูล ของ Kaggle
VisualData: ฮับสำหรับชุดข้อมูล computer vision
V7 เผยแพร่ รายชื่อชุดข้อมูลแบบเปิดกว่า 500 ชุด

[ #4 สภาพแวดล้อมการจำลอง ]

สภาพแวดล้อมการจำลองช่วยให้โมเดลหรือเอเจนต์ AI เรียนรู้ในสภาพแวดล้อมที่ควบคุมได้ เพื่อสร้างข้อมูลสังเคราะห์และทดสอบระบบก่อนนำไปใช้งานจริง
มีประโยชน์อย่างยิ่งในการเสริมข้อมูลจริงและสำรวจ edge case ที่พบได้ยากหรือมีต้นทุนสูงในโลกจริง
แนวทางนี้ได้รับความนิยมเป็นพิเศษในสาขาอย่างหุ่นยนต์หรือรถยนต์ขับขี่อัตโนมัติ ซึ่งต้องฝึกระบบอย่างปลอดภัยและคำนึงถึงตัวแปรจำนวนมากที่อาจเกิดขึ้นในโลกจริง

สิ่งที่ควรพิจารณาเมื่อสร้างสภาพแวดล้อมการจำลอง

การสร้างและตรวจสอบ 3D simulation ตั้งแต่ต้นให้มีการจำลองฟิสิกส์ที่สมบูรณ์และแม่นยำ อาจต้องใช้ทรัพยากรและโครงสร้างพื้นฐานอย่างมาก
NVIDIA สร้าง ISAAC ซึ่งเป็นแพลตฟอร์มหุ่นยนต์แบบ GPU-accelerated ที่ทรงพลัง รวมถึงสภาพแวดล้อมการจำลองที่อิงบนแพลตฟอร์ม workflow แบบกราฟิก 3D และฟิสิกส์แบบบูรณาการชื่อ Omniverse
เพื่อลดภาระต้นทุน สามารถใช้สภาพแวดล้อมการจำลองแบบโอเพนซอร์สได้
Unreal Engine ของ Epic Games กลายเป็นเครื่องมือทรงพลังสำหรับการสร้างสภาพแวดล้อมการจำลอง ด้วยกราฟิกความสมจริงสูง การจำลองฟิสิกส์ที่สมจริง และอินเทอร์เฟซการเขียนโปรแกรมที่ยืดหยุ่น

ตัวอย่างการใช้งานและสภาพแวดล้อมโอเพนซอร์ส

Applied Intuition: ให้บริการโซลูชันการจำลองและการตรวจสอบสำหรับนักพัฒนาระบบขับขี่อัตโนมัติ
Sereact: พัฒนาซอฟต์แวร์บนพื้นฐานของสภาพแวดล้อมการจำลอง เพื่อให้เข้าใจมิติพื้นที่และความละเอียดอ่อนทางกายภาพสำหรับงานหยิบและแพ็กอัตโนมัติในคลังสินค้า
Wayve: สตาร์ทอัพขับขี่อัตโนมัติจากสหราชอาณาจักรที่สร้างสภาพแวดล้อมการจำลอง 4D หลายชุด
ด้านขับขี่อัตโนมัติ: CARLA, LG SVL Simulator, AirSim เป็นต้น
ด้านหุ่นยนต์: Gazebo, CoppeliaSim, PyBullet, MuJoCo เป็นต้น

[ #5 การสแครปจากเว็บ/หนังสือและแหล่งอื่น ๆ ]

การสแครปข้อความ เสียง และวิดีโอจำนวนมากเป็นองค์ประกอบหลักในการพัฒนา foundation model
บริษัทใหญ่ใช้ระบบกรรมสิทธิ์ของตนเอง ขณะที่สตาร์ทอัพสามารถใช้ทั้งเครื่องมือสำเร็จรูปและเครื่องมือโอเพนซอร์สที่หลากหลาย
มีการพัฒนาของเฟรมเวิร์ก crawling แบบกระจายอย่าง Apache Nutch, browser แบบ headless อย่าง Puppeteer หรือ Selenium, ไลบรารี parsing อย่าง Beautiful Soup, บริการ proxy และการจัดการ IP อย่าง Luminati รวมถึงเทคโนโลยี OCR ที่ต้นทุนต่ำและมีประสิทธิภาพ

trade-off ระหว่างคุณภาพและปริมาณข้อมูล

trade-off ระหว่างคุณภาพและปริมาณข้อมูลแตกต่างกันไปตามโดเมนและแอปพลิเคชัน
language model สามารถเรียนรู้ได้อย่างมีประสิทธิภาพแม้จากข้อมูลที่มี noise มากและไม่ได้คัดสรรมากนัก หากมีปริมาณเพียงพอ
ในทางกลับกัน งาน computer vision สามารถได้ผลลัพธ์ที่ดีจากการขยายชุดข้อมูลขนาดเล็กแต่คุณภาพสูงด้วยการแปลงภาพ (เช่น ครอป หมุน เพิ่ม noise เป็นต้น)

curriculum learning และการคัดสรรชุดข้อมูล

curriculum learning เป็นกลยุทธ์การเรียนรู้ที่นำเสนอข้อมูลให้โมเดลในลำดับที่มีความหมาย โดยเริ่มจากตัวอย่างง่ายไปสู่ตัวอย่างซับซ้อน
วิธีนี้เลียนแบบการเรียนรู้ของมนุษย์ ช่วยให้โมเดลเรียนรู้พารามิเตอร์ตั้งต้นที่ดี ก่อนจะไปเผชิญตัวอย่างที่ยากขึ้น จึงเพิ่มประสิทธิภาพได้

ตัวอย่าง

DBRX ซึ่งเป็น open LLM ระดับ SOTA ล่าสุดของ Databricks ใช้แนวทางนี้และปรับปรุงคุณภาพโมเดลได้อย่างมาก
Sync Labs ฝึกโมเดลที่สามารถซิงก์ริมฝีปากของวิดีโอให้ตรงกับเสียงใหม่ โดยใช้วิดีโอจำนวนมากที่มีคุณภาพค่อนข้างต่ำ
Metalware สร้าง copilot สำหรับวิศวกรเฟิร์มแวร์ โดยผสานภาพสแกนชุดเล็กจากตำราเฉพาะทางเข้ากับ GPT-2

[ #6 ประเด็นลิขสิทธิ์และความเป็นไปได้ด้านการให้สิทธิ์ใช้งาน ]

ความเติบโตของระบบนิเวศ AI หลังปี 2016 ส่งผลดีต่อผู้ก่อตั้ง แต่ก็ทำให้เกิดความซับซ้อนเพิ่มเติมด้วย
การสแครปเว็บในปริมาณมากโดยผู้ให้บริการ foundation model ทำให้บริษัทสื่อ นักเขียน และศิลปินยื่นฟ้องคดีลิขสิทธิ์หลายคดี
คดีเหล่านี้กำลังดำเนินอยู่ในระบบศาลของยุโรปและสหรัฐฯ โดยมีเป้าหมายไปที่บริษัทใหญ่ (เช่น Meta, OpenAI) หรือห้องแล็บที่เริ่มตั้งหลักได้มากขึ้น (เช่น Midjourney, Stability)
สิ่งนี้ตอกย้ำว่าสตาร์ทอัพต้องระมัดระวังวิธีการเก็บข้อมูลของตน
หากบริษัทเหล่านี้แพ้คดี อาจต้องระบุเนื้อหาที่มีลิขสิทธิ์ในข้อมูลฝึก ชดเชยให้ผู้สร้าง หรือทำลายผลลัพธ์ดังกล่าวแล้วเริ่มต้นใหม่ทั้งหมด
ด้วยเหตุนี้ บางบริษัทจึงผลักดันกลยุทธ์การเก็บข้อมูลที่เป็นมิตรต่อผู้สร้างเชิงรุก เช่น จับมือกับองค์กรสื่อ หรือจ่ายค่าตอบแทนให้ศิลปินโดยตรงสำหรับการใช้คอนเทนต์หรือเสียง

การเกิดขึ้นของระบบรับรองแหล่งข้อมูลเชิงจริยธรรม

กำลังมีการเกิดขึ้นของระบบรับรองสำหรับข้อมูลฝึกที่ได้มาอย่างมีจริยธรรม ซึ่งขับเคลื่อนโดยอดีตผู้บริหารของ Stability และบุคคลอื่น ๆ
แม้ระบบรับรองเหล่านี้ยังอยู่ในระยะเริ่มต้น แต่ก็เป็นแนวทางที่น่าสนใจและควรจับตา

ตัวอย่าง

ElevenLabs: การจ่ายค่าตอบแทนให้ผู้พากย์เสียงและความร่วมมือด้านข้อมูลเสียง
Google: ลงนามข้อตกลงเพื่อให้สามารถใช้ข้อมูล Reddit สำหรับการฝึก Gemini
OpenAI: ความร่วมมือกับ Shutterstock เพื่อฝึก DALL-E ด้วยคลังภาพ วิดีโอ เพลง และ metadata รวมถึงข้อตกลงให้สิทธิ์ใช้งานคลังข่าวของ Associate Press

[ #7 ความจำเป็นของชุดข้อมูลขนาดใหญ่ที่ติดป้ายกำกับลดลง ]

หลังปี 2016 เทคนิคการเรียนรู้แบบไม่มีผู้สอนและกึ่งมีผู้สอนพัฒนาไปมาก จนสตาร์ทอัพสามารถสร้างโมเดลที่ทรงพลังได้โดยไม่ต้องพึ่งชุดข้อมูลติดป้ายกำกับขนาดใหญ่แบบที่เคยถูกมองว่าจำเป็น
แม้นักวิจัยจะรู้จักแนวทางเหล่านี้ตั้งแต่ก่อนปี 2016 แต่ในช่วงไม่กี่ปีที่ผ่านมา ทั้งการเข้าถึง ความซับซ้อน และความสามารถในการใช้งานจริงได้พัฒนาขึ้นอย่างมาก
การเรียนรู้แบบไม่มีผู้สอนมุ่งเน้นการเรียนรู้รูปแบบเชิงสถิติและโครงสร้างที่อยู่ในข้อมูล เดิมมีประโยชน์ต่อการสำรวจชุดข้อมูลขนาดใหญ่ (เช่น unsupervised clustering) และปัจจุบันเป็นหัวใจของการ pre-train LLM
การเรียนรู้แบบกึ่งมีผู้สอนใช้ข้อมูลที่ไม่ติดป้ายกำกับจำนวนมากร่วมกับข้อมูลติดป้ายกำกับจำนวนน้อย และมีประสิทธิภาพมากในการปรับปรุงและยกระดับสมรรถนะของโมเดล
แนวทางเหล่านี้สามารถเสริมความแข็งแกร่งได้ด้วยเทคนิคอย่าง contrastive learning และ few-shot learning
- Contrastive Learning ช่วยให้โมเดลเรียนรู้ representation ที่หลากหลายด้วยการแยกความต่างระหว่างจุดข้อมูลที่คล้ายกันและไม่คล้ายกัน และมีประโยชน์กับงาน computer vision (เช่น CLIP ของ OpenAI)
- Few-shot learning ช่วยให้โมเดลปรับตัวกับงานใหม่ได้ด้วยตัวอย่างจำนวนน้อยมาก
งานวิจัย scaling laws ฉบับดั้งเดิมแสดงให้เห็นว่าโมเดลขนาดใหญ่มีความสามารถด้าน few-shot learning มากกว่า
แม้การ pre-train แบบไม่มีผู้สอนต้องใช้ข้อมูลที่ไม่ติดป้ายกำกับปริมาณมากกว่า แต่ขั้นตอนนี้ทำให้โมเดลสามารถแก้ปัญหา downstream task ได้ด้วยตัวอย่างที่ติดป้ายกำกับน้อยกว่าโมเดลแบบไม่กำเนิดขนาดเล็ก

ข้อจำกัดและสิ่งที่ควรพิจารณา

โมเดลที่ใช้ประโยชน์จากข้อมูลไม่ติดป้ายกำกับมักต้องการสถาปัตยกรรมที่ซับซ้อนกว่า
นั่นหมายถึงการแลกต้นทุนจากการติดป้ายกำกับไปเป็นต้นทุนด้านการประมวลผล
ไม่เพียงนำไปใช้งานและขยายระบบได้ยากกว่า แต่ยังตีความได้ยากกว่า ซึ่งอาจเป็นข้อเสียในสาขาอ่อนไหวที่การเข้าใจกระบวนการตัดสินใจมีความสำคัญ
ความซับซ้อนนี้ต้องการทรัพยากรคำนวณมากขึ้น และมักมีเพดานประสิทธิภาพต่ำกว่าวิธีแบบมีผู้สอน

[ #8 สิ่งที่ยังเร็วเกินไป ]

ตลาดข้อมูล

หลังปี 2016 เมื่อการเก็บ จัดเก็บ ประมวลผล และแบ่งปันข้อมูลทำได้ง่ายและถูกลง ก็มี data marketplace เกิดขึ้นบ้าง แต่สาขานี้ยังไม่ได้คึกคักมากนัก
marketplace และแพลตฟอร์มอย่าง Datarade, Dawex, AWS Data Exchange และ Snowflake ทำให้ค้นหาข้อมูลภาพ ข้อความ เสียง และวิดีโอได้ง่ายสำหรับกรณีใช้งานทั่วไปหลากหลายแบบ แต่ส่วนใหญ่เป็นการเพิ่มคุณค่าให้กับการที่ลูกค้าเลือกโฮสต์ข้อมูลไว้
นอกจาก marketplace เหล่านี้ ยังมีบริษัทอย่าง Appen, Scale AI, Invisible และ Surge ที่ให้บริการสร้างและติดป้ายกำกับชุดข้อมูลแบบปรับแต่งตามความต้องการผ่านแรงงาน outsourced ที่มีทักษะ
อย่างไรก็ตาม ข้อควรระวังเรื่องความเชี่ยวชาญเฉพาะทางและความได้เปรียบในการแข่งขันจากข้อมูลกรรมสิทธิ์ยังคงใช้ได้ และแทบไม่มีหลักฐานว่า AI startup พึ่งพา marketplace เหล่านี้อย่างมาก
แม้จะสะดวกในช่วงแรก แต่ก็ยังต้องใช้ความพยายามมากในการทำความสะอาด ปรับแต่ง กรอง และสุ่มย่อยข้อมูล
สตาร์ทอัพจำนวนมากยังคงเลือกสร้างชุดข้อมูลกรรมสิทธิ์ของตนเองตั้งแต่ต้น และใช้สิ่งนั้นเป็นความได้เปรียบในการแข่งขัน

Gamification

Gamification ถูกสำรวจในฐานะกลยุทธ์การเก็บข้อมูลโดยบริษัทและองค์กรหลายแห่ง ภายใต้บริบทของ crowdsourcing และโครงการ citizen science (เช่น Folding@Home)
อย่างไรก็ตาม นอกเหนือจากตัวอย่างเพียงไม่กี่กรณี Gamification ยังคงเป็นตลาดเฉพาะกลุ่มค่อนข้างมาก
เพราะดึงดูดได้เพียงบางกลุ่มผู้ใช้ที่มีแรงจูงใจจากการแข่งขันแบบเกมและมีเวลาว่าง ทำให้เพดานศักยภาพของจำนวนผู้มีส่วนร่วมค่อนข้างต่ำ
แม้ในกลุ่มคนที่มีแรงจูงใจ คุณภาพและความแม่นยำของข้อมูลที่ส่งเข้ามาก็ยังเป็นปัญหา และต้องมีมาตรการตรวจสอบและควบคุมเพิ่มเติม โดยเฉพาะเมื่อต้องจัดการ edge case

Federated learning

Federated learning (FL) ที่ Google นำเสนอในปี 2016 เปิดภาพความเป็นไปได้ในการฝึกโมเดลบนเซิร์ฟเวอร์แบบกระจายหรืออุปกรณ์มือถือหลายเครื่อง โดยปล่อยให้ข้อมูลอยู่ในเครื่องเดิม
ในทางทฤษฎี สิ่งนี้อาจช่วยให้สตาร์ทอัพที่ทำงานในสาขาอ่อนไหวอย่างการแพทย์หรือการเงิน เข้าถึงข้อมูลฝึกที่สำคัญผ่านความร่วมมือ โดยหลีกเลี่ยงปัญหา privacy แบบดั้งเดิม
แต่ในทางปฏิบัติ FL ถูกขัดขวางการนำไปใช้ในสาขาอ่อนไหวที่มันถูกออกแบบมาเพื่อช่วยเหลือเอง จากประเด็นเรื่องความรับผิดชอบ ความเป็นเจ้าของข้อมูล และการส่งข้อมูลข้ามพรมแดน ขณะเดียวกันเมื่อโมเดลและชุดข้อมูลซับซ้อนขึ้น overhead ด้านการคำนวณและการสื่อสารจากการเรียนรู้และการรวมผลแบบกระจายก็กลายเป็นคอขวดสำคัญ อีกทั้งยังมีภาพจำว่าเจ้าของข้อมูลต้องยอมรับเทคโนโลยีที่ซับซ้อนพอสมควรเพื่อให้คุณค่าที่เสนอเกิดขึ้นจริง

[ ## บทสรุป ]

แม้จะมีความก้าวหน้าอย่างมากหลังปี 2016 แต่การเก็บข้อมูลยังคงเป็นความท้าทายสำหรับสตาร์ทอัพ
ดูเหมือนว่าทั้งชุมชนและตลาดจะยังไม่สามารถแก้ปัญหานี้ได้
สตาร์ทอัพ AI ส่วนใหญ่ยังต้องเผชิญความยากลำบากในการเก็บข้อมูลตั้งแต่ช่วงก่อตั้ง แต่สิ่งนี้ก็อาจเป็นโอกาสในการสร้างความแตกต่างได้
การวางรากฐานที่ถูกต้องอย่างสร้างสรรค์ยังคงเป็นแหล่งของความได้เปรียบทางการแข่งขันที่มีนัยสำคัญอย่างยิ่ง
ตัวข้อมูลเองไม่อาจเป็น moat ได้ตลอดไป
เมื่อเวลาผ่านไป คู่แข่งย่อมประสบความสำเร็จในการหาข้อมูลของตนเอง หรือค้นหาเทคนิคที่มีประสิทธิภาพกว่าเพื่อให้ได้ผลลัพธ์เดียวกัน
เราเห็นสิ่งนี้ได้ชัดเจนจากการประเมิน LLM ในช่วง 1 ปีที่ผ่านมา ซึ่งช่องว่างด้านประสิทธิภาพระหว่างโมเดลเล็กกับโมเดลใหญ่ค่อย ๆ แคบลง
การเก็บข้อมูลที่ยอดเยี่ยมจึงเป็นสิ่งจำเป็นในท้ายที่สุด แต่ไม่เพียงพอในตัวเอง
มันเป็นเพียงหนึ่งในองค์ประกอบของความสำเร็จ ร่วมกับผลิตภัณฑ์ที่โดนใจอย่างแท้จริงและความเข้าใจลูกค้าอย่างลึกซึ้ง

1 ความคิดเห็น

thfvkfk 2024-04-29

ขอบคุณครับ ข้อมูลแน่นมากเลย~

กลยุทธ์การเก็บรวบรวมข้อมูลสำหรับสตาร์ทอัพ AI ในปี 2024

[ #1 โมเดลกำเนิดขนาดใหญ่ (Large Generative Models) ]

การสร้างข้อมูลสังเคราะห์ด้วย LLM และ LMM

การติดป้ายกำกับข้อมูลและการรวมชุดข้อมูลด้วย LLM

LLM ในฐานะผู้ประเมิน

[ #2 แพลตฟอร์มติดป้ายกำกับข้อมูล ]

ลักษณะเด่นของแต่ละแพลตฟอร์มและผู้เล่นหน้าใหม่

วิธีปรับปรุงคุณภาพข้อมูลจากผู้ใส่คำอธิบายที่เป็นมนุษย์

[ #3 ชุดข้อมูลแบบเปิด ]

สิ่งที่ควรพิจารณาเมื่อใช้ชุดข้อมูลแบบเปิด

แหล่งข้อมูลชุดข้อมูลแบบเปิดที่มีประโยชน์

[ #4 สภาพแวดล้อมการจำลอง ]

สิ่งที่ควรพิจารณาเมื่อสร้างสภาพแวดล้อมการจำลอง

ตัวอย่างการใช้งานและสภาพแวดล้อมโอเพนซอร์ส

[ #5 การสแครปจากเว็บ/หนังสือและแหล่งอื่น ๆ ]

trade-off ระหว่างคุณภาพและปริมาณข้อมูล

curriculum learning และการคัดสรรชุดข้อมูล

ตัวอย่าง

[ #6 ประเด็นลิขสิทธิ์และความเป็นไปได้ด้านการให้สิทธิ์ใช้งาน ]

การเกิดขึ้นของระบบรับรองแหล่งข้อมูลเชิงจริยธรรม

ตัวอย่าง

[ #7 ความจำเป็นของชุดข้อมูลขนาดใหญ่ที่ติดป้ายกำกับลดลง ]

ข้อจำกัดและสิ่งที่ควรพิจารณา

[ #8 สิ่งที่ยังเร็วเกินไป ]

ตลาดข้อมูล

Gamification

Federated learning

[ ## บทสรุป ]

บทความที่เกี่ยวข้อง

1 ความคิดเห็น