21 คะแนน โดย xguru 2021-11-01 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
<p>ภาพเดียวสรุป 2021 Data &amp; AI Landscape พร้อมคำอธิบายแบบละเอียด<br /> 1. มุมมองระดับมหภาค: ทำความเข้าใจความซับซ้อนของระบบนิเวศ <br /> 2. การระดมทุน, IPO และ M&amp;A <br /> 3. The 2021 Landscape<br /> 4. เทรนด์สำคัญของโครงสร้างพื้นฐานข้อมูล <br /> → Data Mesh <br /> → ปีที่งานยุ่งของ DataOps <br /> → ตอนนี้คือยุคเรียลไทม์<br /> → Metrics Store<br /> → Reverse ETL <br /> → Data Sharing <br /> 5. เทรนด์สำคัญของ Analytics &amp; Enterprise AI <br /> → Feature Store<br /> → การผงาดขึ้นของ ModelOps<br /> → การสร้างคอนเทนต์ด้วย AI<br /> → การพัฒนาของ AI stack ในจีน<br /> <br /> ## &quot;มุมมองระดับมหภาค: ทำความเข้าใจความซับซ้อนของระบบนิเวศ&quot;<br /> - ทำไมบริษัทด้านข้อมูล&amp;AI ถึงยังเกิดขึ้นใหม่อย่างต่อเนื่อง และสถานการณ์แบบนี้จะไปต่อถึงเมื่อไร?<br /> - แนวโน้มพื้นฐานคือ &quot;ทุกบริษัทกำลังกลายเป็นบริษัทข้อมูล ไม่ใช่แค่บริษัทซอฟต์แวร์ธรรมดา&quot;<br /> - ในหลายองค์กร &quot;ข้อมูล&quot; เคยหมายถึงข้อมูลธุรกรรมที่เก็บอยู่ใน RDBMS และแดชบอร์ดไม่กี่ตัวสำหรับวิเคราะห์สิ่งที่เกิดขึ้นในช่วงไม่กี่เดือนที่ผ่านมา <br /> - แต่ตอนนี้บริษัทต่าง ๆ กำลังมุ่งไปสู่โลกที่ &quot;ข้อมูลและปัญญาประดิษฐ์&quot; ถูกฝังอยู่ใน &quot;กระบวนการภายในและแอปพลิเคชันภายนอก&quot; เพื่อใช้ทั้งใน &quot;การวิเคราะห์และการปฏิบัติการ&quot; <br /> - วิวัฒนาการพื้นฐานนี้เกิดขึ้นได้จากความก้าวหน้าอันน่าทึ่งของเทคโนโลยีฐานราก โดยเฉพาะความสัมพันธ์แบบพึ่งพาเกื้อกูลกัน (Symbiotic Relationship) ระหว่าง &quot;โครงสร้างพื้นฐานข้อมูลและแมชชีนเลิร์นนิง/AI&quot;<br /> → ทั้งสองด้านกำลังทำงานร่วมกันอย่างใกล้ชิดมากขึ้นเรื่อย ๆ<br /> → จุดเริ่มต้นแรกคือ &quot;ยุค Big Data&quot; ในช่วงต้นทศวรรษ 2010<br /> → เมื่อค้นพบว่าการนำ Big Data นี้ไปใช้กับอัลกอริทึม AI แบบเก่าที่มีมานานกว่าทศวรรษแล้วอย่างดีปเลิร์นนิง สามารถให้ผลลัพธ์ที่น่าทึ่ง ก็ยิ่งกระตุ้นความตื่นเต้นต่อ AI<br /> → ผลลัพธ์คือ AI กลายเป็นแรงขับเคลื่อนสำคัญของการพัฒนาโครงสร้างพื้นฐานข้อมูล<br /> → หากจะสร้างทุกแอปพลิเคชันบนพื้นฐาน AI ก็จำเป็นต้องมีโครงสร้างพื้นฐานข้อมูลที่ดีกว่าเดิม <br /> - ระหว่างทางจนถึงปี 2021 คำอย่าง Big Data และ AI ต่างก็มีช่วงขึ้นลงของตัวเอง และทุกวันนี้แม้จะได้ยินเรื่อง &quot;Automation&quot; มากขึ้น แต่โดยพื้นฐานแล้วทั้งหมดคือเมกะเทรนด์เดียวกัน<br /> <br /> - การเร่งตัวของวงการ Data/AI ในช่วงนี้สามารถสืบย้อนกลับไปได้จากการเติบโตของคลาวด์ดาต้าแวร์เฮาส์ในช่วงไม่กี่ปีที่ผ่านมา<br /> - ดาต้าแวร์เฮาส์แก้ปัญหาพื้นฐานมากแต่สำคัญอย่างยิ่งของโครงสร้างพื้นฐานข้อมูล นั่นคือ &quot;จะเก็บข้อมูลไว้ที่ไหน&quot;<br /> → แม้จะผ่านมากว่า 15 ปีนับจากการปฏิวัติ Big Data เริ่มต้นขึ้น หลายคนอาจคิดว่าปัญหานี้ถูกแก้แล้ว แต่จริง ๆ ยังไม่ใช่ <br /> → มองย้อนกลับไป ความสำเร็จช่วงแรกของ Hadoop ในแง่หนึ่งเป็นเพียงภาพลวงตาเรื่องพื้นที่จัดเก็บ <br /> → แม้จะสำคัญในแง่การสื่อสารแนวคิดว่าเราสามารถดึงคุณค่าที่แท้จริงออกมาจากข้อมูลมหาศาลได้ แต่เพราะความซับซ้อนทางเทคนิค ทำให้มีเพียงไม่กี่บริษัทที่ใช้มัน จึงไม่สามารถเจาะตลาดได้กว้าง <br /> - คลาวด์ดาต้าแวร์เฮาส์ยุคปัจจุบัน (Snowflake, Redshift, BigQuery) และเลคเฮาส์ (Databricks) นั้น <br /> → มีต้นทุนต่ำกว่า<br /> → ไม่ต้องใช้บุคลากรเทคนิคจำนวนมากเป็นพิเศษ <br /> → และให้ความสามารถในการเก็บข้อมูลปริมาณมหาศาลในรูปแบบที่ใช้งานได้จริง <br /> - กล่าวอีกแบบคือ ตอนนี้เราเพิ่งจะสามารถเก็บและประมวลผล Big Data ได้อย่างแท้จริง สิ่งนี้สำคัญมาก และพิสูจน์แล้วว่าเป็น Major Unlock ให้กับวงการ Data/AI ด้านอื่น ๆ<br /> → ประการแรก ดาต้าแวร์เฮาส์ช่วยขยายขนาดตลาดของระบบนิเวศข้อมูลและ AI ทั้งหมด ด้วยความง่ายในการใช้งานและโมเดลราคาแบบคิดตามการใช้งาน ดาต้าแวร์เฮาส์จึงกลายเป็นประตูให้ทุกบริษัทกลายเป็นบริษัทข้อมูล<br /> → ประการที่สอง ดาต้าแวร์เฮาส์ทำให้สามารถใช้งาน ecosystem รอบตัวมันรวมถึงเครื่องมือต่าง ๆ ได้ <br /> ⇨ ETL, ELT, Reverse ETL, เครื่องมือด้านคุณภาพข้อมูลที่มีดาต้าแวร์เฮาส์เป็นศูนย์กลาง, metrics store, augmented analytics ฯลฯ <br /> ⇨ &quot;Modern Data Stack&quot; ( https://th.news.hada.io/topic?id=3055 ดูเพิ่มเติม )<br /> ⇨ การเกิดขึ้นของ modern data stack ทำให้มีสตาร์ตอัปจำนวนมากเกิดขึ้นและเงินลงทุนไหลเข้าอย่างหนาแน่น (DBT, Fivetran..)<br /> → ประการที่สาม เนื่องจากดาต้าแวร์เฮาส์เข้ามาแก้ชั้น storage พื้นฐานที่สุดแล้ว บริษัทจึงสามารถโฟกัสกับโครงการที่มีมูลค่าสูงกว่าในลำดับชั้นความต้องการด้านข้อมูลได้<br /> ⇨ เมื่อเก็บข้อมูลได้แล้ว ก็สามารถมุ่งไปที่งานอย่างการประมวลผลแบบเรียลไทม์, augmented analytics, แมชชีนเลิร์นนิง ได้ง่ายขึ้น <br /> ⇨ และสิ่งนี้ก็ยิ่งเพิ่มความต้องการของตลาดต่อเครื่องมือและแพลตฟอร์ม Data/AI ทุกประเภท <br /> ⇨ ความต้องการจากลูกค้าที่มากขึ้น สร้าง flywheel ที่ผลักให้บริษัท Data/ML สร้างนวัตกรรมได้มากขึ้น <br /> <br /> &quot;ดาต้าแวร์เฮาส์คือสัญญาณสำคัญของอุตสาหกรรมข้อมูลทั้งหมด และเมื่อ DW เติบโต ส่วนที่เหลือก็จะเติบโตตามไปด้วย&quot;<br /> <br /> - ข่าวดีสำหรับอุตสาหกรรม Data/AI คือดาต้าแวร์เฮาส์และเลคเฮาส์กำลังเติบโตอย่างรวดเร็วและในขนาดมหาศาล <br /> → Snowflake เติบโต YoY 103% ตามการประกาศผล Q2 และมีตัวเลข Net Revenue Retention สูงถึง 169% อย่างน่าทึ่ง (หมายถึงลูกค้าเดิมใช้งานมากขึ้นเรื่อย ๆ)<br /> → คาดว่ารายได้ในปี 2028 จะอยู่ที่ 12 ล้านล้านวอน ($10B) <br /> - บางคนถึงกับพูดว่า ในอนาคตทุกบริษัทจะมีคลาวด์ดาต้าแวร์เฮาส์อย่างน้อยหนึ่งตัว <br /> <br /> ## &quot;The Titanic Shock: Snowflake vs Databricks&quot;<br /> - Snowflake คือผู้เล่นตัวแทนของวงการข้อมูลในช่วงหลัง การ IPO เมื่อเดือน 9/2020 ของพวกเขาเป็น IPO ด้านซอฟต์แวร์ที่ใหญ่ที่สุดในประวัติศาสตร์ ณ เวลาที่เขียนนี้บริษัทมีมูลค่า $95B<br /> - Databricks กำลังผงาดขึ้นมาเป็นคู่แข่งรายใหม่ในอุตสาหกรรม โดยปิดการระดมทุน $1.6B ที่มูลค่า $38B เมื่อวันที่ 8/31 <br /> - จนกระทั่งไม่นานมานี้ ทั้งสองบริษัทอยู่คนละเซ็กเมนต์ของตลาดอย่างชัดเจน (จริง ๆ แล้วเคยเป็นพาร์ตเนอร์ที่ใกล้ชิดกันอยู่ช่วงหนึ่ง)<br /> - Snowflake ในฐานะคลาวด์ดาต้าแวร์เฮาส์ คือฐานข้อมูลสำหรับเก็บและประมวลผลข้อมูลแบบมีโครงสร้างจำนวนมาก (ที่จัดเก็บในรูปแถวและคอลัมน์ได้ดี) <br /> → บริษัทต่าง ๆ ใช้มันเชื่อมต่อกับเครื่องมือ BI เพื่อตอบคำถามเกี่ยวกับผลการดำเนินงานในอดีตและปัจจุบัน (&quot;ภูมิภาคใดเติบโตเร็วที่สุดในไตรมาสที่ผ่านมา?&quot;) <br /> → เช่นเดียวกับฐานข้อมูลอื่น ๆ มันใช้ SQL จึงมีผู้ใช้ที่เป็นไปได้อยู่หลายล้านคน <br /> - Databricks มาจากอีกฟากหนึ่งของโลกข้อมูล <br /> → เริ่มต้นในปี 2013 จากการนำ Spark ซึ่งเป็นโอเพนซอร์สไปทำเชิงพาณิชย์ <br /> → โดยทั่วไปถูกสร้างมาเพื่อประมวลผลข้อมูลแบบไม่มีโครงสร้าง (ข้อความ, เสียง, วิดีโอ) <br /> → ผู้ใช้ Spark ใช้มันสร้าง &quot;Data Lake&quot; ที่สามารถเก็บข้อมูลได้ทุกแบบโดยไม่ต้องกังวลเรื่องโครงสร้างหรือการจัดระเบียบข้อมูล <br /> → การใช้งานหลักของ data lake คือการฝึกแอปพลิเคชัน ML/AI เพื่อให้บริษัทตอบคำถามเกี่ยวกับอนาคตได้ (&quot;ลูกค้าคนใดมีแนวโน้มจะซื้อในไตรมาสหน้า มากที่สุด?&quot; กล่าวคือ predictive analytics)<br /> → Databricks สร้าง Delta เพื่อรองรับ data lake และสร้าง ML Flow เพื่อรองรับ ML/AI <br /> - แต่ในช่วงหลัง ทั้งสองบริษัทเริ่มเคลื่อนเข้าหากัน <br /> → Databricks ใส่ความสามารถแบบ DW เข้าไปใน data lake เพื่อให้นักวิเคราะห์รัน SQL query มาตรฐานและเชื่อมต่อเครื่องมืออย่าง Tableau หรือ MS PowerBI ได้ กลายเป็นสิ่งที่เรียกว่า &quot;Lakehouse&quot; <br /> → Databricks กำลังทำให้ data lake มีความเป็น data warehouse มากขึ้น ขณะที่ Snowflake ก็เปิดพรีวิวความสามารถจัดเก็บข้อมูลแบบไม่มีโครงสร้าง (เสียง, วิดีโอ, PDF, รูปภาพ ฯลฯ) เพื่อทำให้ data warehouse ดูเหมือน data lake <br /> → Databricks กำลังเพิ่ม BI เข้าไปในความสามารถด้าน AI ส่วน Snowflake ก็กำลังเพิ่ม AI เข้าไปในความสามารถด้านความเข้ากันได้กับ BI <br /> - ท้ายที่สุดแล้ว ทั้ง Snowflake และ Databricks ต่างก็ต้องการเป็น &quot;The center of all things data&quot;<br />

→ แหล่งเก็บข้อมูลเดียวที่เก็บข้อมูลทั้งหมด เก็บได้ทั้งข้อมูลแบบมีโครงสร้าง/ไม่มีโครงสร้าง และทำการวิเคราะห์ได้ทุกอย่างตั้งแต่อดีตไปจนถึงการคาดการณ์อนาคต<br />

  • แน่นอนว่ามีคู่แข่งอยู่มากมายด้วยเช่นกัน (คลาวด์ hyperscaler อย่าง AWS, GCP)<br />
  • ทั้ง Snowflake และ Databricks ต่างก็เป็นทั้งมิตรและศัตรู (Friend and Foe) ของผู้ให้บริการคลาวด์<br /> → Snowflake ที่เติบโตมาบน AWS กำลังขยายไปยังคลาวด์อื่นๆ <br /> → Databricks มีพาร์ตเนอร์ชิปที่แข็งแกร่งกับ MS แต่ก็ช่วยหลีกเลี่ยง vendor lock-in ผ่านความสามารถแบบ multi-cloud <br /> → ในช่วงหลายปีที่ผ่านมา นักวิจารณ์ชี้ว่ารูปแบบธุรกิจของ Snowflake และ Databricks มีมาร์จินที่ขึ้นอยู่กับการตั้งราคาของผู้ให้บริการคลาวด์ <br />
  • ในอีก 5 ปีข้างหน้า การจับตาดูการเต้นรำระหว่างผู้ให้บริการคลาวด์กับยักษ์ใหญ่ด้านข้อมูล (Behemoth) จะเป็นเรื่องสำคัญ <br /> <br />

"Bundling, Unbundling, Consolidation?"<br />

  • เมื่อพิจารณาจากการเติบโตของทั้ง Snowflake และ Databricks นี่จะเป็นจุดเริ่มต้นของคลื่นการรวมตัวที่อุตสาหกรรมรอคอยหรือไม่?<br />
  • ในสายงานข้อมูล / AI นั้น "การรวมฟังก์ชัน (functional consolidation) กำลังเกิดขึ้น"<br />
  • แต่ทุกคนก็เหมือนกัน คือไม่มีใครอยากเป็นบริษัทที่มีผลิตภัณฑ์เดียว ต่างก็อยาก bundle มากขึ้นและมีฟังก์ชันมากขึ้น<br /> → Confluent ที่เข้าตลาดหุ้นในเดือน 2021/6 ก็มีเป้าหมายจะก้าวข้ามจากสายข้อมูลแบบเรียลไทม์ไปสู่การ "รวมการประมวลผลข้อมูลที่เคลื่อนไหวกับข้อมูลแบบคงที่" <br /> → Dataiku มุ่งเน้นการ bundle ทุกอย่างไว้ในแพลตฟอร์มเดียว ตั้งแต่กระบวนการเตรียมข้อมูลไปจนถึง DataOps, MLOps, visualization และ AI explainability <br />
  • การเกิดขึ้นของ modern data stack ก็เป็นอีกตัวอย่างของการรวมฟังก์ชัน <br /> → แก่นของมันคือ "พันธมิตร" โดยพฤตินัยของบริษัทต่างๆ (ส่วนใหญ่เป็นสตาร์ตอัป) ที่เชื่อมตั้งแต่การดึงข้อมูลไปจนถึง data warehouse และ BI <br />
  • สำหรับผู้ใช้เทคโนโลยีเหล่านี้ การ bundling และ convergence น่าจะได้รับการต้อนรับอย่างมาก<br /> → เมื่ออุตสาหกรรมข้อมูลค่อยๆ เติบโตเต็มที่ ก็ต้องพัฒนาให้ก้าวข้าม Technology Divide อย่าง "ธุรกรรม vs. การวิเคราะห์", "การประมวลผลแบบแบตช์ vs. เรียลไทม์", "BI vs AI" <br />
  • องค์กรต่างๆ จะยังคงทำงานร่วมกับ vendor/แพลตฟอร์ม/เครื่องมือหลายรายต่อไป เพื่อสร้างชุดผสมที่เหมาะกับความต้องการที่สุด<br /> <br />
  • เหตุผลหลักคือ "ความเร็วของนวัตกรรมมันระเบิดมากเกินไป"<br /> → มีสตาร์ตอัปใหม่เกิดขึ้นตลอดเวลา บริษัท Big Tech ก็สร้างเครื่องมือข้อมูล/AI ภายในแล้วเปิดเป็นโอเพนซอร์ส และทุกสัปดาห์ก็มีสิ่งใหม่เกิดขึ้นกับทุกเทคโนโลยี/ผลิตภัณฑ์เดิม <br /> <br />
  • ผู้ให้บริการ big data warehouse และ data lake กำลังผลักดันให้รวมศูนย์ข้อมูลทั้งหมด แต่ก็มีเฟรมเวิร์กใหม่อย่าง "Data Mesh" ปรากฏขึ้นด้วย <br /> → เป็นแนวทางแบบกระจายศูนย์ที่หลายทีมรับผิดชอบกันคนละส่วน <br /> <br />
  • นอกจากการรวมฟังก์ชันแล้ว จะเกิด M&A หรือไม่ยังตอบได้ยาก <br /> → หนึ่งในข่าวลือที่คนชอบพูดกันคือ "MS อยากเข้าซื้อ Databricks"<br /> <br />

"Financings, IPOs, M&A: A Crazy Market"<br />

  • ใครที่ติดตามตลาดสตาร์ตอัปมาบ้างก็น่าจะรู้ว่าตลาดบ้าคลั่งมาก <br />
  • ต่อเนื่องจากปีก่อน ปีนี้ข้อมูลและ ML/AI ก็ยังเป็นหมวดการลงทุนที่ร้อนแรงที่สุด<br />
  • บริษัทที่เตรียมเข้าตลาดหุ้น<br /> → UiPath : บริษัท RPA และ AI automation <br /> → Confluent : Kafka <br /> → C3.ai : แพลตฟอร์ม AI <br /> → Couchbase : no-SQL DB <br /> → SentinelOne : แพลตฟอร์มความปลอดภัย endpoint อัตโนมัติด้วย AI <br /> → TuSimple : รถบรรทุกไร้คนขับ <br /> → Zymergen : การผลิตชีวภาพ <br /> → Recursion : บริษัทพัฒนายาแบบ AI-driven<br /> → Darktrace : ไซเบอร์ซีเคียวริตี้ที่ใช้ AI<br />
  • การเพิ่มขึ้นของ SPAC จะเอื้อประโยชน์ต่อบริษัทเทคโนโลยีที่อยู่แนวหน้าของตลาด AI (เช่น การขับขี่อัตโนมัติ, ไบโอเทค)<br /> <br />

"The 2021 MAD Landscape & What’s New this Year"<br />

  • ในแผนที่ปีนี้ได้แยก "Analytics and Machine Intelligence" ออกเป็น “Analytics” และ “Machine Learning & Artificial Intelligence” <br />
  • เพิ่มหมวดหมู่ใหม่ <br /> → Infrastructure<br /> ⇨ Reverse ETL : ผลิตภัณฑ์ที่ส่งข้อมูลกลับจาก data warehouse ไปยังแอปพลิเคชัน SaaS <br /> ⇨ Data Observability : องค์ประกอบของ DataOps ที่มุ่งแก้ปัญหาคุณภาพข้อมูลโดยอิงกับ data lineage <br /> ⇨ Privacy & Security : ความเป็นส่วนตัวของข้อมูลยิ่งสำคัญขึ้นเรื่อยๆ และมีสตาร์ตอัปจำนวนมากเกิดขึ้นในหมวดนี้ <br /> → Analytics<br /> ⇨ Data Catalogs & Discovery : หมวดที่คึกคักที่สุดในช่วง 12 เดือนที่ผ่านมา ช่วยให้ผู้ใช้ค้นหาและจัดการชุดข้อมูลที่ต้องการได้ <br /> ⇨ Augmented Analytics : เครื่องมือ BI ใช้ประโยชน์จากความก้าวหน้าของ NLG/NLP เพื่อสร้างอินไซต์โดยอัตโนมัติ และทำให้ผู้ฟังที่ไม่ใช่สายเทคนิคเข้าถึงข้อมูลได้ <br /> ⇨ Metrics Stores : ที่เก็บส่วนกลางสำหรับเมตริกธุรกิจหลัก เป็นผู้เล่นใหม่ใน data stack<br /> ⇨ Query Engines <br /> → Machine Learning and AI <br /> ⇨ แยกย่อยหมวด MLOps : Model Building, Feature Stores, Deployment and Production <br /> → Open Source <br /> ⇨ เพิ่ม Format, Orchestration, Data Quality & Observability <br />
  • แต่ก่อนมักมีสตาร์ตอัประดับซีรีส์ C ขึ้นไปหรือบริษัทจดทะเบียนเป็นหลัก แต่ปีนี้มีบริษัทระยะซีรีส์ A/seed ถูกเพิ่มเข้ามาจำนวนมาก <br /> <br />

"เทรนด์หลักของโครงสร้างพื้นฐานข้อมูล"<br />

  • 2020 <br /> → Modern Data Stack กลายเป็นกระแสหลัก <br /> → ETL vs ELT <br /> → การทำงานอัตโนมัติของ data engineering?<br /> → การผงาดขึ้นของ data analyst <br /> → data lake กับ data warehouse จะรวมกันหรือไม่?<br /> → ความซับซ้อนที่ยังแก้ไม่ตก <br /> <br />

  • 2021 <br /> → Data Mesh <br /> → เป็นปีที่ยุ่งมากสำหรับ DataOps <br /> → ตอนนี้คือเรียลไทม์<br /> → Metrics Stores <br /> → Reverse ETL <br /> → Data Sharing <br /> <br /> [Data Mesh]<br />

  • มีที่มาจากบทความของ Zhamak Dehghani ในปี 2019 เรื่อง "How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh" <br />

  • ได้แรงส่งอย่างมากในช่วงปี 2020~21<br />

  • แนวคิด data mesh โดยมากเป็นไอเดียเชิงองค์กร<br />

  • จนถึงตอนนี้ วิธีมาตรฐานในการสร้าง data infrastructure และทีมคือการรวมศูนย์ คือมีแพลตฟอร์มขนาดใหญ่หนึ่งตัวที่บริหารโดยทีมข้อมูลทีมเดียวเพื่อตอบโจทย์ความต้องการทางธุรกิจ <br />

  • แม้จะมีข้อดีมาก แต่ก็เกิดปัญหาอย่างคอขวดได้เช่นกัน <br />

  • ผ่านการกระจายอำนาจ จะมีการสร้างทีมข้อมูลอิสระที่รับผิดชอบแต่ละโดเมน และส่งมอบข้อมูล "ในฐานะผลิตภัณฑ์" ให้กับคนอื่นๆ ในองค์กร <br /> → คล้ายกับแนวคิด microservices ที่พูดถึงกันในวิศวกรรมซอฟต์แวร์ <br />

  • มันมีความหมายได้หลายแบบ <br /> → หากสิ่งนี้เกิดขึ้นได้จริง ก็จะเป็นโอกาสใหญ่สำหรับสตาร์ตอัปที่สร้างเครื่องมือระดับ mission-critical บน distributed data stack<br />

  • Starburst ซึ่งเป็น SQL Query Engine สำหรับ query และวิเคราะห์แบบรวมศูนย์ข้ามหลาย storage ได้รีแบรนด์ตัวเองเป็น "analytics engine สำหรับ data mesh" <br />

  • สิ่งอย่าง orchestration engine ที่ใช้จัดการ pipeline ซับซ้อน (Airflow, Prefect, Dagster) จะยิ่งกลายเป็น mission-critical มากขึ้น <br />

  • การติดตามข้อมูลในสตอเรจและระบบประมวลผลไปป์ไลน์กลายเป็นสิ่งจำเป็นยิ่งขึ้นในมุมของ compliance และ governance ทำให้ความจำเป็นของ Data Lineage เพิ่มสูงขึ้น (OpenLineage, DataKin)<br /> <br /> [ปีที่ยุ่งมากสำหรับ DataOps]<br />

  • แนวคิด DataOps ล่องลอยอยู่มาหลายปี ก่อนจะเริ่มใช้งานจริงอย่างคึกคักในช่วงหลัง <br />

  • มีคำจำกัดความหลายแบบ <br /> → DevOps ของโลกข้อมูล <br /> → ทุกสิ่งที่จำเป็นต่อการสร้างและดูแล data pipeline การค้นหา dataset ที่ถูกต้องผ่าน data catalog และช่วยให้ผู้ผลิตและผู้ใช้ข้อมูลทำงานที่ต้องการได้ <br />

  • ไม่ว่าอย่างไร ก็เหมือนกับ DevOps ตรงที่เป็น “การผสมผสานของวิธีวิทยา กระบวนการ ผู้คน แพลตฟอร์ม และเครื่องมือ”<br />

  • ในบริบทกว้าง ๆ คือ “เครื่องมือและแนวปฏิบัติด้าน data engineering” ยังตามหลังระดับการทำงานอัตโนมัติของ software engineering อยู่มาก<br />

  • ยิ่งข้อมูล/AI มีความสำคัญมากขึ้น ก็ยิ่งต้องการเครื่องมือและแนวปฏิบัติที่ดีขึ้น <br />

  • ทุกคนอยากเป็น “DataDog แห่งโลกข้อมูล” (จริง ๆ แล้ว DataDog ก็ถูกใช้กับ DataOps เช่นกัน แต่โดยพื้นฐานยังอยู่บนฐานของ software engineering)<br />

  • มีซับพาร์ตหลากหลาย เช่น Data observability, Data Lineage, Data Quality, Data Reliability Engineering, Data Access & Governance<br /> <br /> [ตอนนี้ต้องเรียลไทม์]<br />

  • ข้อมูลแบบ “เรียลไทม์” หรือ “สตรีมมิง” คือข้อมูลที่ถูกประมวลผลและนำไปใช้ทันทีหลังจากถูกสร้างขึ้น <br />

  • เป็นแนวตรงข้ามกับ “แบตช์” ซึ่งเป็นพาราไดม์หลักของโครงสร้างพื้นฐานข้อมูลมาจนถึงตอนนี้ <br />

  • การประมวลผลข้อมูลแบบเรียลไทม์เป็นหัวข้อร้อนมาตั้งแต่ยุคเริ่มต้นของบิ๊กดาต้าเมื่อ 10-15 ปีก่อน<br /> → โดยเฉพาะความเร็วในการประมวลผลที่เป็นปัจจัยหลักซึ่งช่วยผลักดันความสำเร็จของ Spark เมื่อเทียบกับ HadoopMR <br />

  • แต่แม้จะถูกมองว่าเป็นตลาดที่ “กำลังจะระเบิด” มาหลายปี ก็ยังไม่ได้ระเบิดจริง <br />

  • ความสำเร็จอย่างมากของ IPO ของ Confluent พิสูจน์ว่าฝ่ายที่คัดค้านคิดผิด <br />

  • และนอกเหนือจาก Confluent แล้ว ระบบนิเวศข้อมูลแบบเรียลไทม์ทั้งหมดก็เร่งตัวขึ้น <br />

  • โดยเฉพาะ “การวิเคราะห์แบบเรียลไทม์” ที่มีความเคลื่อนไหวมาก <br /> → ClickHouse ที่ Yandex ของรัสเซียสร้างขึ้น ได้ตั้งบริษัทในสหรัฐฯ และระดมทุน $50M <br /> → Imply แพลตฟอร์มวิเคราะห์แบบเรียลไทม์ที่สร้างบนโอเพนซอร์ส Druid ได้รับเงินลงทุน $70M <br /> <br /> [Metrics Stores]<br />

  • ในช่วงไม่กี่ปีที่ผ่านมา ปริมาณข้อมูลขององค์กร รวมถึงความถี่และความซับซ้อนของการใช้งานข้อมูลเพิ่มขึ้น <br />

  • เมื่อความซับซ้อนเพิ่มขึ้น ปัญหาปวดหัวจากความไม่สอดคล้องของข้อมูลก็เพิ่มตามไปด้วย <br />

  • metric ต่าง ๆ อาจคลาดเคลื่อนได้ง่ายแม้มีการเปลี่ยนแปลงเพียงเล็กน้อยใน dimension/definition หรือสาเหตุอื่น ๆ<br />

  • ข้อมูลจะมีประโยชน์ก็ต่อเมื่อทีมสามารถใช้งานมันได้อย่างถูกต้องและเชื่อถือได้เท่านั้น <br />

  • ความพยายามในการรวมศูนย์ metric นำไปสู่การพัฒนาโซลูชันภายในอย่าง Minerva ของ AirBnB ภายใต้แนวคิด “Define Once, Use Anywhere”<br />

  • ทำให้คำจำกัดความของ metric ทางธุรกิจหลักและทุก dimension เป็นมาตรฐานเดียวกัน และมอบชุดข้อมูลที่ถูกต้องและวิเคราะห์ได้ให้ผู้มีส่วนได้ส่วนเสียบนพื้นฐานของนิยามนั้น <br />

  • สร้างความเชื่อมั่นต่อข้อมูลบนพื้นฐานของคำจำกัดความ metric แบบรวมศูนย์ และเปิดให้ทุกคนเข้าถึง metric แบบข้ามสายงานได้ <br />

  • metric store <br /> → อยู่เหนือ data warehouse และทำหน้าที่ส่งข้อมูลไปยังแอปพลิเคชัน downstream ทั้งหมด รวมถึง BI platform เครื่องมือ analytics/data science และแอปพลิเคชันเชิงปฏิบัติการ <br /> → ช่วยให้ข้อมูลคงความสอดคล้อง และเมื่อ business logic เปลี่ยนก็เติมข้อมูลให้อัตโนมัติ <br />

  • มีสตาร์ตอัปอย่าง Transform, Trace, Supergrain <br /> <br /> [Reverse ETL]<br />

  • Reverse ETL ได้กลายเป็นหนึ่งในหมวดหมู่ของ modern data stack <br />

  • เป็นการย้ายข้อมูลกลับออกจาก data warehouse ไปยัง business application เช่น CRM ระบบ marketing automation และแพลตฟอร์มสนับสนุนลูกค้า <br />

  • เพื่อให้เครื่องมือที่ใช้ในงานปฏิบัติการจริงสามารถใช้ข้อมูลล่าสุดที่ได้รับการเสริมจาก business application อื่น ๆ ได้ <br />

  • เครื่องมือ Reverse ETL หลายรายได้รับเงินทุน: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic <br /> <br /> [Data Sharing]<br />

  • การแชร์ข้อมูลและการทำงานร่วมกันด้วยข้อมูลกำลังเพิ่มขึ้น ไม่ใช่แค่ภายในบริษัทแต่ครอบคลุมทั้งองค์กรต่าง ๆ <br />

  • องค์กรต้องการแชร์ข้อมูลกับ ecosystem ของซัพพลายเออร์ พันธมิตร และลูกค้า เพื่อการมองเห็นซัพพลายเชน การฝึกโมเดลแมชชีนเลิร์นนิง และการแบ่งปันแผน go-to-market เป็นต้น <br />

  • การแชร์ข้อมูลระหว่างองค์กรเป็นธีมหลักของผู้ให้บริการ “data cloud” <br />

  • ในเดือน 2021/5 Google เปิดตัว Analytics Hub สำหรับการแชร์ข้อมูล/อินไซต์/แดชบอร์ด/โมเดลแมชชีนเลิร์นนิง ทั้งภายในและภายนอกองค์กร และยังเปิดตัว DataShare สำหรับบริการทางการเงินด้วย <br />

  • ในวันเดียวกับ Google นั้น Databricks ก็เปิดตัว Delta Sharing ซึ่งเป็นโปรโตคอลโอเพนซอร์สสำหรับการแชร์ข้อมูลระหว่างองค์กร <br />

  • ในเดือน 2021/6 Snowflake เปิดตัวฟีเจอร์ Secure Data Sharing ผ่าน data marketplace <br />

  • มีสตาร์ตอัปอย่าง Habr, Crossbeam </p><p>## “เทรนด์หลักของ ML/AI”<br /> 2020<br />

  • Boom time for data science and machine learning platforms (DSML)<br />

  • ML getting deployed and embedded<br />

  • The Year of NLP<br /> <br /> 2021<br />

  • Feature Stores<br />

  • The rise of ModelOps<br />

  • AI content generation<br />

  • The continued emergence of a separate Chinese AI stack<br /> <br />

  • งานวิจัยด้านปัญญาประดิษฐ์ยังคงก้าวหน้าอย่างรวดเร็ว<br /> → DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP <br /> <br /> [Feature Stores]<br />

  • หลังจาก Uber นำเสนอแนวคิดนี้ในปี 2017 ก็กลายเป็นสิ่งที่พบได้ทั่วไปมากขึ้นเรื่อย ๆ ในสแตกแมชชีนเลิร์นนิง <br /> → บริษัทอย่าง Tecton, Rasgo, Logical Clocks, Kaskada ต่างก็ได้รับเงินทุนรอบใหม่ <br />

  • ในแมชชีนเลิร์นนิง feature (ตัวแปรหรือคุณลักษณะ) คือคุณสมบัติหรือจุดเด่นที่สามารถวัดได้เป็นรายตัว และแสดงเป็นคอลัมน์ใน data snippet<br /> → โมเดลแมชชีนเลิร์นนิงสามารถใช้ feature ได้ตั้งแต่เพียงหนึ่งเดียวไปจนถึงหลายล้านรายการ <br />

  • เมื่อมีการใช้โมเดลและไปป์ไลน์ที่ซับซ้อนขึ้นเรื่อย ๆ การทำงานก็ยิ่งกลายเป็น ad-hoc มากขึ้น <br />

  • วิศวกรและนักวิทยาศาสตร์ข้อมูลมักต้องใช้เวลามากไปกับการดึง feature ออกมาจากข้อมูลดิบซ้ำแล้วซ้ำอีก <br />

  • ช่องว่างระหว่างสภาพแวดล้อม production กับสภาพแวดล้อมทดลองอาจทำให้ประสิทธิภาพหรือพฤติกรรมของโมเดลไม่สอดคล้องกัน<br />

  • องค์กรให้ความสำคัญกับเรื่อง governance และ reproducibility ของโมเดลแมชชีนเลิร์นนิงมากขึ้น ทำให้การแยกตัวเป็นไซโลของ feature กลายเป็นเรื่องยากยิ่งขึ้นในทางปฏิบัติ <br />

  • feature store ช่วยส่งเสริมการทำงานร่วมกันและขจัดไซโลเหล่านี้ <br />

  • มอบ single source of truth ทั้งสำหรับการฝึกและ production ช่วยลดความซับซ้อน และทำให้ feature เป็นมาตรฐานรวมถึงนำกลับมาใช้ซ้ำได้ <br />

  • จัดเก็บ curated feature ภายในองค์กร รัน data pipeline ที่แปลงข้อมูลดิบเป็น feature value และเปิดให้เข้าถึงได้อย่างรวดเร็วผ่าน API <br /> <br /> [The Rise of ModelOps]<br />

  • หลายบริษัทเริ่มตระหนักว่าการนำโมเดลจากขั้นทดลองไปสู่ production เป็นเรื่องยาก และโมเดลที่ใช้งานอยู่ก็ต้องการทั้งการมอนิเตอร์และการฝึกใหม่อย่างต่อเนื่อง <br />

  • MLOps นำแนวปฏิบัติที่ดีที่สุดของ DevOps มาประยุกต์ใช้ ช่วยทำให้การพัฒนาและ deployment โมเดลจำนวนมากอย่างรวดเร็วและต่อเนื่องง่ายขึ้น <br />

  • ModelOps เป็น superset ของ MLOps โดยมุ่งให้การปฏิบัติการของโมเดล AI ทุกประเภท รวมถึง ML เร็วขึ้นในทุกขั้นตอนตั้งแต่การฝึกจนถึง production <br />

  • ModelOps ครอบคลุมทั้งเครื่องมือและกระบวนการ ผสานกระบวนการเข้าด้วยกัน ทำให้ model orchestration เป็นมาตรฐาน และมอบคลังส่วนกลางแบบครบวงจรสำหรับทุกโมเดลพร้อมความสามารถด้าน governance ที่ครอบคลุม <br />

  • ModelOps ที่นำไปใช้อย่างเหมาะสมจะมอบระบบรวมศูนย์สำหรับการ deploy/monitor และจัดการทุกโมเดล ช่วยลดความเสี่ยงและเพิ่ม compliance <br /> <br /> [AI Content Generation]<br />

  • AI มีความเติบโตเต็มที่ขึ้นอย่างมากในช่วงไม่กี่ปีที่ผ่านมา จนถูกนำไปใช้สร้างคอนเทนต์ได้กับสื่อแทบทุกประเภท รวมถึงข้อความ รูปภาพ โค้ด และวิดีโอ<br />

  • OpenAI เปิดตัว GPT-3 และ GitHub เปิดตัว GitHub Copilot ที่ใช้ OpenAI Codex <br />

  • แม้ OpenAI จะมุ่งเน้นไปที่โมเดลภาษาอังกฤษเป็นหลัก แต่ก็มีอีกหลายบริษัทที่กำลังพัฒนาในภาษาอื่น <br /> → Aleph Alpha ของเยอรมนี, AI21 Labs, PanGu ของ Huawei, HyperCLOVA ของ Naver<br /> <br /> [การเกิดขึ้นอย่างต่อเนื่องของสแตก AI จีนที่แยกออกมา]<br />

  • จีนยังคงพัฒนาต่อเนื่องในฐานะมหาอำนาจ AI ระดับโลก ควบคู่ไปกับตลาดภายในประเทศของตนเองซึ่งเป็นผู้ผลิตข้อมูลรายใหญ่ที่สุดของโลก <br />

  • TikTok ซึ่งมีหนึ่งในอัลกอริทึมแนะนำคอนเทนต์ที่ดีที่สุด ประสบความสำเร็จในโลกตะวันตก ทำให้เทคโนโลยีผู้บริโภคด้าน AI ของจีนแพร่กระจายออกไปอย่างแท้จริงเป็นครั้งแรก <br />

  • เมื่อจีนประกาศเป้าหมายครองความเป็นผู้นำ AI ภายในปี 2030 และได้รับการสนับสนุนทางการเงิน สแตกของตนเองที่แยกต่างหากก็เริ่มเกิดขึ้นในจีน ซึ่งก่อนหน้านั้นยังคงใช้เครื่องมือจากตะวันตกอยู่ </p>

3 ความคิดเห็น

 
ehanmire 2021-11-11
<p>ผมได้อินไซต์ดีๆ จากหลายประโยค และได้ลองคิดตามอยู่มากเลยครับ<br /> ขอบคุณครับ~<br /> <br /> แวบหนึ่งผมนึกว่ากระบวนการกับข้อมูลก็เหมือนกระดูกกับเลือด<br /> เลือดคงไหลไปรวมกันที่ไหนสักแห่ง แล้วเกิดเส้นเลือดและก่อเป็นเนื้อเยื่อขึ้นมา<br /> แต่ก็พลันนึกถึงอุปมาประหลาดๆ ขึ้นมาว่า<br /> สิ่งที่ทำให้บริษัทหาเงินได้ มันมาจากการเคลื่อนไหวไม่ใช่หรือ </p>
 
sungwoo 2021-11-08
<p>ขอบคุณเสมอที่ช่วยสรุปข้อมูลระดับพรีเมียมได้อย่างเป็นระเบียบและอ่านง่ายมาก ๆ</p>
 
xguru 2021-11-07
<p>ภูมิทัศน์ Data &amp; AI ปี 2020 https://th.news.hada.io/topic?id=2979</p&gt;