[ #1 โมเดลกำเนิดขนาดใหญ่ (Large Generative Models) ]
การสร้างข้อมูลสังเคราะห์ด้วย LLM และ LMM
- Large Language Model (LLM) สร้างผลลัพธ์เป็นข้อความ ขณะที่ Large Multi-Modal Model (LMM) สามารถสร้างข้อมูลสังเคราะห์ได้หลายรูปแบบ เช่น ข้อความ โค้ด และภาพ
- ถูกใช้อย่างแพร่หลายเป็นพิเศษในสาขาที่ข้อมูลจริงมีไม่เพียงพอ อ่อนไหวต่อการคุ้มครองข้อมูลส่วนบุคคล หรือมีต้นทุนการเก็บและติดป้ายกำกับสูง (เช่น NLP, computer vision, การพัฒนาระบบขับขี่อัตโนมัติ เป็นต้น)
- โดยทั่วไปข้อมูลสังเคราะห์ใช้เพื่อเสริมข้อมูลจริงหรือใช้ในการปรับจูนละเอียด (fine-tuning) ไม่ได้ใช้เพื่อทดแทนทั้งหมด
- ต่อให้ซับซ้อนเพียงใด ก็ยังสร้างได้เพียงค่าประมาณของโดเมนปัญหา และหากพึ่งพามากเกินไปก็มีความเสี่ยงที่โมเดลจะ overfit กับลักษณะที่มีอยู่ในกระบวนการสร้างข้อมูลสังเคราะห์
- วิธีการสร้างข้อมูลสังเคราะห์
- การปรับปรุงตนเอง (Self-improvement): โมเดลสร้างคำสั่ง บริบทอินพุต และคำตอบ จากนั้นกรองตัวอย่างที่ไม่ถูกต้องหรือคล้ายกับข้อมูลเดิมมากเกินไปออก และนำข้อมูลที่เหลือมาใช้ fine-tune โมเดลต้นฉบับ
- การกลั่นความรู้ (Distillation): กระบวนการถ่ายทอดความรู้จากโมเดลครูที่ทรงพลังกว่าไปยังโมเดลนักเรียนที่มีประสิทธิภาพมากกว่า แม้ว่าข้อมูลสังเคราะห์มักจะไม่แม่นยำทั้งหมด แต่ก็ยังช่วยในกระบวนการ instruction-tuning ได้อย่างมีประสิทธิภาพ
- Microsoft เปิดตัวโมเดลขนาดเล็กตระกูล Phi ซึ่งส่วนใหญ่ฝึกด้วยข้อมูลสังเคราะห์ที่สร้างจาก LLM อื่น และแสดงประสิทธิภาพเหนือกว่าโมเดล frontier จำนวนมาก
- Hugging Face สร้าง Cosmopedia โดยมีเป้าหมายเพื่อทำซ้ำแนวทางนี้ เพื่อตอบสนองต่อการขาดข้อมูลเกี่ยวกับการคัดสรรชุดข้อมูลฝึกสังเคราะห์ที่ Microsoft ใช้
การติดป้ายกำกับข้อมูลและการรวมชุดข้อมูลด้วย LLM
- LLM รุ่นใหม่สามารถติดป้ายกำกับชุดข้อมูลข้อความได้ในระดับเทียบเท่าหรือสูงกว่าผู้ใส่คำอธิบายประกอบที่เป็นมนุษย์
- ต่างจากมนุษย์ LLM สามารถใช้เกณฑ์การใส่คำอธิบายเดียวกันกับชุดข้อมูลขนาดใหญ่ได้อย่างสม่ำเสมอ โดยไม่เกิดความเหนื่อยล้าหรืออคติ
- โมเดลกำเนิดขนาดใหญ่ที่ฝึกด้วยชุดข้อมูลขนาดใหญ่ เช่น Segment Anything มักให้ประสิทธิภาพแบบ zero-shot ดีกว่าโมเดล computer vision แบบไม่กำเนิดที่ออกแบบเฉพาะทาง ซึ่งเดิมใช้กับงานอย่าง semantic segmentation
- LLM ยังสามารถใช้ขยายแหล่งข้อมูลจริงที่มีอยู่ผ่านการเย็บต่อชุดข้อมูล (Dataset Stitching) โดยรวมแหล่งข้อมูลหลายแบบเข้าด้วยกันเพื่อสร้างชุดข้อมูลรวม
LLM ในฐานะผู้ประเมิน
- Reinforcement Learning from Human Feedback (RLHF) เป็นเทคนิคการปรับจูนหลักที่ทำให้ GPT-3 กลายเป็นระบบก้าวล้ำซึ่งเหมาะกับการโต้ตอบเชิงสนทนากับผู้ใช้ผ่านแชต
- ปัจจุบันมีแนวทางที่เรียกว่า Reinforcement Learning from AI Feedback (RLAIF) ซึ่งใช้ LLM แทนมนุษย์ในการให้ฟีดแบ็ก
- ข้อดีหลักของ RLAIF คือขยายระบบได้ง่ายขึ้นและลดต้นทุน โดยแทนที่มนุษย์ด้วยเครื่องจักร
[ #2 แพลตฟอร์มติดป้ายกำกับข้อมูล ]
- ในช่วงแรกมีการใช้แพลตฟอร์ม crowdsourcing และการจ้างงานภายนอก เช่น Amazon Mechanical Turk เพื่อทำงานติดป้ายกำกับหรือทำความสะอาดข้อมูลผ่านแรงงานออนไลน์ราคาถูก
- ระยะหลังแพลตฟอร์มอย่าง V7 และ Scale AI ที่มีฟังก์ชันติดป้ายกำกับและจัดการข้อมูลแบบอัตโนมัติพัฒนาขึ้นและได้รับความนิยม
- แพลตฟอร์มเหล่านี้ช่วยให้องค์กรที่มีความต้องการข้อมูลขนาดใหญ่ขยายงานได้มีประสิทธิภาพขึ้นและคงความสม่ำเสมอในระดับที่สูงขึ้น พร้อมมาตรการด้าน compliance และการประกันคุณภาพ
ลักษณะเด่นของแต่ละแพลตฟอร์มและผู้เล่นหน้าใหม่
- V7 มักเน้นงานที่ต้องใช้ความเชี่ยวชาญสูง เช่น ภาพทางการแพทย์ ขณะที่ Scale เติบโตจากสายงานขับขี่อัตโนมัติและขยายไปสู่ภาคกลาโหม
- ผู้เล่นหน้าใหม่อย่าง Invisible กำลังตอบสนองความต้องการบุคลากรเฉพาะทางสำหรับ workflow ที่เน้น LLM (เช่น supervised fine-tuning, RLHF, การประเมินโดยมนุษย์, red teaming เป็นต้น)
- บริการติดป้ายกำกับข้อมูลที่ได้รับความนิยม ได้แก่ CVAT, Dataloop, Invisible, Labelbox, Scale AI และ V7
วิธีปรับปรุงคุณภาพข้อมูลจากผู้ใส่คำอธิบายที่เป็นมนุษย์
- หลายแพลตฟอร์มยังคงพึ่งพาผู้ใส่คำอธิบายที่เป็นมนุษย์อยู่ในระดับหนึ่ง ทำให้ต้องทุ่มเทมากขึ้นในการประเมินคุณภาพผลลัพธ์ เมื่อการใช้งาน AI ขยายไปสู่พื้นที่ที่ซับซ้อน เป็นอัตวิสัย และเกี่ยวข้องกับสังคมสูง
- สามารถใช้แนวทางอย่างเสียงข้างมาก อัตราความสอดคล้อง และการสร้างแบบจำลองความน่าจะเป็น เพื่อประมาณป้ายกำกับจริงจากข้อมูลของผู้ประเมินหลายคน และระบุผู้ประเมินที่ไม่น่าเชื่อถือหรือเป็น “spammer”
- มีเทคนิคที่จับความไม่สอดคล้องอย่างเป็นระบบระหว่างผู้ประเมิน และนำไปใช้ปรับปรุงการเรียนรู้ได้ (เช่น disagreement deconvolution, multi-annotator modeling เป็นต้น)
- สามารถตรวจจับจุดข้อมูลที่ติดป้ายกำกับผิดได้ผ่าน influence functions หรือการติดตามการเปลี่ยนแปลงของการคาดการณ์ระหว่างการฝึก
[ #3 ชุดข้อมูลแบบเปิด ]
- หลังปี 2016 ชุดข้อมูลแบบเปิดเพิ่มขึ้นอย่างมาก จากกระแส open data และการตระหนักถึงคุณค่าของการแบ่งปันข้อมูลระหว่างอุตสาหกรรม ภาควิชาการ และภาครัฐ
- ชุดข้อมูลแบบเปิดมีอยู่ในแทบทุกโดเมน แต่เข้าถึงได้ง่ายเป็นพิเศษในด้าน computer vision, NLP, การประมวลผลเสียง/audio, การควบคุมหุ่นยนต์ และระบบนำทาง
- การเติบโตนี้เกิดจากการผสานกันระหว่างความพยายามของชุมชน (เช่น Hugging Face, PyTorch, TensorFlow, Kaggle เป็นต้น) และการเปิดเผยชุดข้อมูลขนาดใหญ่จากบริษัทใหญ่
สิ่งที่ควรพิจารณาเมื่อใช้ชุดข้อมูลแบบเปิด
- แม้จะมีข้อดีคือใช้งานฟรีและช่วยในการทำ benchmarking แต่ก็มีประเด็นที่ต้องพิจารณา
- ในสาขาที่อ่อนไหวหรือมีข้อกำกับดูแลสูง ชุดข้อมูลแบบเปิดมักหายากกว่า เก่ากว่า และมีขนาดเล็กกว่า
- คุณภาพและความทันสมัยของข้อมูลแบบเปิดแตกต่างกันมาก จึงอาจเกิดปัญหาด้านความเกี่ยวข้องในสาขาที่เปลี่ยนแปลงรวดเร็ว
- การใช้งานมากเกินไปมีความเสี่ยงของการ overfit จากการพึ่งพาชุดข้อมูลยอดนิยมมากเกินควร ทำให้โมเดลทำได้ดีบน benchmark แต่ประสิทธิภาพตกในงานจริง
แหล่งข้อมูลชุดข้อมูลแบบเปิดที่มีประโยชน์
[ #4 สภาพแวดล้อมการจำลอง ]
- สภาพแวดล้อมการจำลองช่วยให้โมเดลหรือเอเจนต์ AI เรียนรู้ในสภาพแวดล้อมที่ควบคุมได้ เพื่อสร้างข้อมูลสังเคราะห์และทดสอบระบบก่อนนำไปใช้งานจริง
- มีประโยชน์อย่างยิ่งในการเสริมข้อมูลจริงและสำรวจ edge case ที่พบได้ยากหรือมีต้นทุนสูงในโลกจริง
- แนวทางนี้ได้รับความนิยมเป็นพิเศษในสาขาอย่างหุ่นยนต์หรือรถยนต์ขับขี่อัตโนมัติ ซึ่งต้องฝึกระบบอย่างปลอดภัยและคำนึงถึงตัวแปรจำนวนมากที่อาจเกิดขึ้นในโลกจริง
สิ่งที่ควรพิจารณาเมื่อสร้างสภาพแวดล้อมการจำลอง
- การสร้างและตรวจสอบ 3D simulation ตั้งแต่ต้นให้มีการจำลองฟิสิกส์ที่สมบูรณ์และแม่นยำ อาจต้องใช้ทรัพยากรและโครงสร้างพื้นฐานอย่างมาก
- NVIDIA สร้าง ISAAC ซึ่งเป็นแพลตฟอร์มหุ่นยนต์แบบ GPU-accelerated ที่ทรงพลัง รวมถึงสภาพแวดล้อมการจำลองที่อิงบนแพลตฟอร์ม workflow แบบกราฟิก 3D และฟิสิกส์แบบบูรณาการชื่อ Omniverse
- เพื่อลดภาระต้นทุน สามารถใช้สภาพแวดล้อมการจำลองแบบโอเพนซอร์สได้
- Unreal Engine ของ Epic Games กลายเป็นเครื่องมือทรงพลังสำหรับการสร้างสภาพแวดล้อมการจำลอง ด้วยกราฟิกความสมจริงสูง การจำลองฟิสิกส์ที่สมจริง และอินเทอร์เฟซการเขียนโปรแกรมที่ยืดหยุ่น
ตัวอย่างการใช้งานและสภาพแวดล้อมโอเพนซอร์ส
- Applied Intuition: ให้บริการโซลูชันการจำลองและการตรวจสอบสำหรับนักพัฒนาระบบขับขี่อัตโนมัติ
- Sereact: พัฒนาซอฟต์แวร์บนพื้นฐานของสภาพแวดล้อมการจำลอง เพื่อให้เข้าใจมิติพื้นที่และความละเอียดอ่อนทางกายภาพสำหรับงานหยิบและแพ็กอัตโนมัติในคลังสินค้า
- Wayve: สตาร์ทอัพขับขี่อัตโนมัติจากสหราชอาณาจักรที่สร้างสภาพแวดล้อมการจำลอง 4D หลายชุด
- ด้านขับขี่อัตโนมัติ: CARLA, LG SVL Simulator, AirSim เป็นต้น
- ด้านหุ่นยนต์: Gazebo, CoppeliaSim, PyBullet, MuJoCo เป็นต้น
[ #5 การสแครปจากเว็บ/หนังสือและแหล่งอื่น ๆ ]
- การสแครปข้อความ เสียง และวิดีโอจำนวนมากเป็นองค์ประกอบหลักในการพัฒนา foundation model
- บริษัทใหญ่ใช้ระบบกรรมสิทธิ์ของตนเอง ขณะที่สตาร์ทอัพสามารถใช้ทั้งเครื่องมือสำเร็จรูปและเครื่องมือโอเพนซอร์สที่หลากหลาย
- มีการพัฒนาของเฟรมเวิร์ก crawling แบบกระจายอย่าง Apache Nutch, browser แบบ headless อย่าง Puppeteer หรือ Selenium, ไลบรารี parsing อย่าง Beautiful Soup, บริการ proxy และการจัดการ IP อย่าง Luminati รวมถึงเทคโนโลยี OCR ที่ต้นทุนต่ำและมีประสิทธิภาพ
trade-off ระหว่างคุณภาพและปริมาณข้อมูล
- trade-off ระหว่างคุณภาพและปริมาณข้อมูลแตกต่างกันไปตามโดเมนและแอปพลิเคชัน
- language model สามารถเรียนรู้ได้อย่างมีประสิทธิภาพแม้จากข้อมูลที่มี noise มากและไม่ได้คัดสรรมากนัก หากมีปริมาณเพียงพอ
- ในทางกลับกัน งาน computer vision สามารถได้ผลลัพธ์ที่ดีจากการขยายชุดข้อมูลขนาดเล็กแต่คุณภาพสูงด้วยการแปลงภาพ (เช่น ครอป หมุน เพิ่ม noise เป็นต้น)
curriculum learning และการคัดสรรชุดข้อมูล
- curriculum learning เป็นกลยุทธ์การเรียนรู้ที่นำเสนอข้อมูลให้โมเดลในลำดับที่มีความหมาย โดยเริ่มจากตัวอย่างง่ายไปสู่ตัวอย่างซับซ้อน
- วิธีนี้เลียนแบบการเรียนรู้ของมนุษย์ ช่วยให้โมเดลเรียนรู้พารามิเตอร์ตั้งต้นที่ดี ก่อนจะไปเผชิญตัวอย่างที่ยากขึ้น จึงเพิ่มประสิทธิภาพได้
ตัวอย่าง
- DBRX ซึ่งเป็น open LLM ระดับ SOTA ล่าสุดของ Databricks ใช้แนวทางนี้และปรับปรุงคุณภาพโมเดลได้อย่างมาก
- Sync Labs ฝึกโมเดลที่สามารถซิงก์ริมฝีปากของวิดีโอให้ตรงกับเสียงใหม่ โดยใช้วิดีโอจำนวนมากที่มีคุณภาพค่อนข้างต่ำ
- Metalware สร้าง copilot สำหรับวิศวกรเฟิร์มแวร์ โดยผสานภาพสแกนชุดเล็กจากตำราเฉพาะทางเข้ากับ GPT-2
[ #6 ประเด็นลิขสิทธิ์และความเป็นไปได้ด้านการให้สิทธิ์ใช้งาน ]
- ความเติบโตของระบบนิเวศ AI หลังปี 2016 ส่งผลดีต่อผู้ก่อตั้ง แต่ก็ทำให้เกิดความซับซ้อนเพิ่มเติมด้วย
- การสแครปเว็บในปริมาณมากโดยผู้ให้บริการ foundation model ทำให้บริษัทสื่อ นักเขียน และศิลปินยื่นฟ้องคดีลิขสิทธิ์หลายคดี
- คดีเหล่านี้กำลังดำเนินอยู่ในระบบศาลของยุโรปและสหรัฐฯ โดยมีเป้าหมายไปที่บริษัทใหญ่ (เช่น Meta, OpenAI) หรือห้องแล็บที่เริ่มตั้งหลักได้มากขึ้น (เช่น Midjourney, Stability)
- สิ่งนี้ตอกย้ำว่าสตาร์ทอัพต้องระมัดระวังวิธีการเก็บข้อมูลของตน
- หากบริษัทเหล่านี้แพ้คดี อาจต้องระบุเนื้อหาที่มีลิขสิทธิ์ในข้อมูลฝึก ชดเชยให้ผู้สร้าง หรือทำลายผลลัพธ์ดังกล่าวแล้วเริ่มต้นใหม่ทั้งหมด
- ด้วยเหตุนี้ บางบริษัทจึงผลักดันกลยุทธ์การเก็บข้อมูลที่เป็นมิตรต่อผู้สร้างเชิงรุก เช่น จับมือกับองค์กรสื่อ หรือจ่ายค่าตอบแทนให้ศิลปินโดยตรงสำหรับการใช้คอนเทนต์หรือเสียง
การเกิดขึ้นของระบบรับรองแหล่งข้อมูลเชิงจริยธรรม
- กำลังมีการเกิดขึ้นของระบบรับรองสำหรับข้อมูลฝึกที่ได้มาอย่างมีจริยธรรม ซึ่งขับเคลื่อนโดยอดีตผู้บริหารของ Stability และบุคคลอื่น ๆ
- แม้ระบบรับรองเหล่านี้ยังอยู่ในระยะเริ่มต้น แต่ก็เป็นแนวทางที่น่าสนใจและควรจับตา
ตัวอย่าง
- ElevenLabs: การจ่ายค่าตอบแทนให้ผู้พากย์เสียงและความร่วมมือด้านข้อมูลเสียง
- Google: ลงนามข้อตกลงเพื่อให้สามารถใช้ข้อมูล Reddit สำหรับการฝึก Gemini
- OpenAI: ความร่วมมือกับ Shutterstock เพื่อฝึก DALL-E ด้วยคลังภาพ วิดีโอ เพลง และ metadata รวมถึงข้อตกลงให้สิทธิ์ใช้งานคลังข่าวของ Associate Press
[ #7 ความจำเป็นของชุดข้อมูลขนาดใหญ่ที่ติดป้ายกำกับลดลง ]
- หลังปี 2016 เทคนิคการเรียนรู้แบบไม่มีผู้สอนและกึ่งมีผู้สอนพัฒนาไปมาก จนสตาร์ทอัพสามารถสร้างโมเดลที่ทรงพลังได้โดยไม่ต้องพึ่งชุดข้อมูลติดป้ายกำกับขนาดใหญ่แบบที่เคยถูกมองว่าจำเป็น
- แม้นักวิจัยจะรู้จักแนวทางเหล่านี้ตั้งแต่ก่อนปี 2016 แต่ในช่วงไม่กี่ปีที่ผ่านมา ทั้งการเข้าถึง ความซับซ้อน และความสามารถในการใช้งานจริงได้พัฒนาขึ้นอย่างมาก
- การเรียนรู้แบบไม่มีผู้สอนมุ่งเน้นการเรียนรู้รูปแบบเชิงสถิติและโครงสร้างที่อยู่ในข้อมูล เดิมมีประโยชน์ต่อการสำรวจชุดข้อมูลขนาดใหญ่ (เช่น unsupervised clustering) และปัจจุบันเป็นหัวใจของการ pre-train LLM
- การเรียนรู้แบบกึ่งมีผู้สอนใช้ข้อมูลที่ไม่ติดป้ายกำกับจำนวนมากร่วมกับข้อมูลติดป้ายกำกับจำนวนน้อย และมีประสิทธิภาพมากในการปรับปรุงและยกระดับสมรรถนะของโมเดล
- แนวทางเหล่านี้สามารถเสริมความแข็งแกร่งได้ด้วยเทคนิคอย่าง contrastive learning และ few-shot learning
- Contrastive Learning ช่วยให้โมเดลเรียนรู้ representation ที่หลากหลายด้วยการแยกความต่างระหว่างจุดข้อมูลที่คล้ายกันและไม่คล้ายกัน และมีประโยชน์กับงาน computer vision (เช่น CLIP ของ OpenAI)
- Few-shot learning ช่วยให้โมเดลปรับตัวกับงานใหม่ได้ด้วยตัวอย่างจำนวนน้อยมาก
- งานวิจัย scaling laws ฉบับดั้งเดิมแสดงให้เห็นว่าโมเดลขนาดใหญ่มีความสามารถด้าน few-shot learning มากกว่า
- แม้การ pre-train แบบไม่มีผู้สอนต้องใช้ข้อมูลที่ไม่ติดป้ายกำกับปริมาณมากกว่า แต่ขั้นตอนนี้ทำให้โมเดลสามารถแก้ปัญหา downstream task ได้ด้วยตัวอย่างที่ติดป้ายกำกับน้อยกว่าโมเดลแบบไม่กำเนิดขนาดเล็ก
ข้อจำกัดและสิ่งที่ควรพิจารณา
- โมเดลที่ใช้ประโยชน์จากข้อมูลไม่ติดป้ายกำกับมักต้องการสถาปัตยกรรมที่ซับซ้อนกว่า
- นั่นหมายถึงการแลกต้นทุนจากการติดป้ายกำกับไปเป็นต้นทุนด้านการประมวลผล
- ไม่เพียงนำไปใช้งานและขยายระบบได้ยากกว่า แต่ยังตีความได้ยากกว่า ซึ่งอาจเป็นข้อเสียในสาขาอ่อนไหวที่การเข้าใจกระบวนการตัดสินใจมีความสำคัญ
- ความซับซ้อนนี้ต้องการทรัพยากรคำนวณมากขึ้น และมักมีเพดานประสิทธิภาพต่ำกว่าวิธีแบบมีผู้สอน
[ #8 สิ่งที่ยังเร็วเกินไป ]
ตลาดข้อมูล
- หลังปี 2016 เมื่อการเก็บ จัดเก็บ ประมวลผล และแบ่งปันข้อมูลทำได้ง่ายและถูกลง ก็มี data marketplace เกิดขึ้นบ้าง แต่สาขานี้ยังไม่ได้คึกคักมากนัก
- marketplace และแพลตฟอร์มอย่าง Datarade, Dawex, AWS Data Exchange และ Snowflake ทำให้ค้นหาข้อมูลภาพ ข้อความ เสียง และวิดีโอได้ง่ายสำหรับกรณีใช้งานทั่วไปหลากหลายแบบ แต่ส่วนใหญ่เป็นการเพิ่มคุณค่าให้กับการที่ลูกค้าเลือกโฮสต์ข้อมูลไว้
- นอกจาก marketplace เหล่านี้ ยังมีบริษัทอย่าง Appen, Scale AI, Invisible และ Surge ที่ให้บริการสร้างและติดป้ายกำกับชุดข้อมูลแบบปรับแต่งตามความต้องการผ่านแรงงาน outsourced ที่มีทักษะ
- อย่างไรก็ตาม ข้อควรระวังเรื่องความเชี่ยวชาญเฉพาะทางและความได้เปรียบในการแข่งขันจากข้อมูลกรรมสิทธิ์ยังคงใช้ได้ และแทบไม่มีหลักฐานว่า AI startup พึ่งพา marketplace เหล่านี้อย่างมาก
- แม้จะสะดวกในช่วงแรก แต่ก็ยังต้องใช้ความพยายามมากในการทำความสะอาด ปรับแต่ง กรอง และสุ่มย่อยข้อมูล
- สตาร์ทอัพจำนวนมากยังคงเลือกสร้างชุดข้อมูลกรรมสิทธิ์ของตนเองตั้งแต่ต้น และใช้สิ่งนั้นเป็นความได้เปรียบในการแข่งขัน
Gamification
- Gamification ถูกสำรวจในฐานะกลยุทธ์การเก็บข้อมูลโดยบริษัทและองค์กรหลายแห่ง ภายใต้บริบทของ crowdsourcing และโครงการ citizen science (เช่น Folding@Home)
- อย่างไรก็ตาม นอกเหนือจากตัวอย่างเพียงไม่กี่กรณี Gamification ยังคงเป็นตลาดเฉพาะกลุ่มค่อนข้างมาก
- เพราะดึงดูดได้เพียงบางกลุ่มผู้ใช้ที่มีแรงจูงใจจากการแข่งขันแบบเกมและมีเวลาว่าง ทำให้เพดานศักยภาพของจำนวนผู้มีส่วนร่วมค่อนข้างต่ำ
- แม้ในกลุ่มคนที่มีแรงจูงใจ คุณภาพและความแม่นยำของข้อมูลที่ส่งเข้ามาก็ยังเป็นปัญหา และต้องมีมาตรการตรวจสอบและควบคุมเพิ่มเติม โดยเฉพาะเมื่อต้องจัดการ edge case
Federated learning
- Federated learning (FL) ที่ Google นำเสนอในปี 2016 เปิดภาพความเป็นไปได้ในการฝึกโมเดลบนเซิร์ฟเวอร์แบบกระจายหรืออุปกรณ์มือถือหลายเครื่อง โดยปล่อยให้ข้อมูลอยู่ในเครื่องเดิม
- ในทางทฤษฎี สิ่งนี้อาจช่วยให้สตาร์ทอัพที่ทำงานในสาขาอ่อนไหวอย่างการแพทย์หรือการเงิน เข้าถึงข้อมูลฝึกที่สำคัญผ่านความร่วมมือ โดยหลีกเลี่ยงปัญหา privacy แบบดั้งเดิม
- แต่ในทางปฏิบัติ FL ถูกขัดขวางการนำไปใช้ในสาขาอ่อนไหวที่มันถูกออกแบบมาเพื่อช่วยเหลือเอง จากประเด็นเรื่องความรับผิดชอบ ความเป็นเจ้าของข้อมูล และการส่งข้อมูลข้ามพรมแดน ขณะเดียวกันเมื่อโมเดลและชุดข้อมูลซับซ้อนขึ้น overhead ด้านการคำนวณและการสื่อสารจากการเรียนรู้และการรวมผลแบบกระจายก็กลายเป็นคอขวดสำคัญ อีกทั้งยังมีภาพจำว่าเจ้าของข้อมูลต้องยอมรับเทคโนโลยีที่ซับซ้อนพอสมควรเพื่อให้คุณค่าที่เสนอเกิดขึ้นจริง
[ ## บทสรุป ]
- แม้จะมีความก้าวหน้าอย่างมากหลังปี 2016 แต่การเก็บข้อมูลยังคงเป็นความท้าทายสำหรับสตาร์ทอัพ
- ดูเหมือนว่าทั้งชุมชนและตลาดจะยังไม่สามารถแก้ปัญหานี้ได้
- สตาร์ทอัพ AI ส่วนใหญ่ยังต้องเผชิญความยากลำบากในการเก็บข้อมูลตั้งแต่ช่วงก่อตั้ง แต่สิ่งนี้ก็อาจเป็นโอกาสในการสร้างความแตกต่างได้
- การวางรากฐานที่ถูกต้องอย่างสร้างสรรค์ยังคงเป็นแหล่งของความได้เปรียบทางการแข่งขันที่มีนัยสำคัญอย่างยิ่ง
- ตัวข้อมูลเองไม่อาจเป็น moat ได้ตลอดไป
- เมื่อเวลาผ่านไป คู่แข่งย่อมประสบความสำเร็จในการหาข้อมูลของตนเอง หรือค้นหาเทคนิคที่มีประสิทธิภาพกว่าเพื่อให้ได้ผลลัพธ์เดียวกัน
- เราเห็นสิ่งนี้ได้ชัดเจนจากการประเมิน LLM ในช่วง 1 ปีที่ผ่านมา ซึ่งช่องว่างด้านประสิทธิภาพระหว่างโมเดลเล็กกับโมเดลใหญ่ค่อย ๆ แคบลง
- การเก็บข้อมูลที่ยอดเยี่ยมจึงเป็นสิ่งจำเป็นในท้ายที่สุด แต่ไม่เพียงพอในตัวเอง
- มันเป็นเพียงหนึ่งในองค์ประกอบของความสำเร็จ ร่วมกับผลิตภัณฑ์ที่โดนใจอย่างแท้จริงและความเข้าใจลูกค้าอย่างลึกซึ้ง
1 ความคิดเห็น
ขอบคุณครับ ข้อมูลแน่นมากเลย~