AI ปี 2021 และเทรนด์ล่าสุด

(mattturck.com)

21 คะแนน โดย xguru 2021-11-01 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

ภาพเดียวสรุป 2021 Data & AI Landscape พร้อมคำอธิบายแบบละเอียด

มุมมองระดับมหภาค: ทำความเข้าใจความซับซ้อนของระบบนิเวศ
การระดมทุน, IPO และ M&A
The 2021 Landscape
เทรนด์สำคัญของโครงสร้างพื้นฐานข้อมูล

→ Data Mesh

→ ปีที่งานยุ่งของ DataOps

→ ตอนนี้คือยุคเรียลไทม์

→ Metrics Store

→ Reverse ETL

→ Data Sharing

เทรนด์สำคัญของ Analytics & Enterprise AI

→ Feature Store

→ การผงาดขึ้นของ ModelOps

→ การสร้างคอนเทนต์ด้วย AI

→ การพัฒนาของ AI stack ในจีน

"มุมมองระดับมหภาค: ทำความเข้าใจความซับซ้อนของระบบนิเวศ"

ทำไมบริษัทด้านข้อมูล&AI ถึงยังเกิดขึ้นใหม่อย่างต่อเนื่อง และสถานการณ์แบบนี้จะไปต่อถึงเมื่อไร?
แนวโน้มพื้นฐานคือ "ทุกบริษัทกำลังกลายเป็นบริษัทข้อมูล ไม่ใช่แค่บริษัทซอฟต์แวร์ธรรมดา"
ในหลายองค์กร "ข้อมูล" เคยหมายถึงข้อมูลธุรกรรมที่เก็บอยู่ใน RDBMS และแดชบอร์ดไม่กี่ตัวสำหรับวิเคราะห์สิ่งที่เกิดขึ้นในช่วงไม่กี่เดือนที่ผ่านมา
แต่ตอนนี้บริษัทต่าง ๆ กำลังมุ่งไปสู่โลกที่ "ข้อมูลและปัญญาประดิษฐ์" ถูกฝังอยู่ใน "กระบวนการภายในและแอปพลิเคชันภายนอก" เพื่อใช้ทั้งใน "การวิเคราะห์และการปฏิบัติการ"
วิวัฒนาการพื้นฐานนี้เกิดขึ้นได้จากความก้าวหน้าอันน่าทึ่งของเทคโนโลยีฐานราก โดยเฉพาะความสัมพันธ์แบบพึ่งพาเกื้อกูลกัน (Symbiotic Relationship) ระหว่าง "โครงสร้างพื้นฐานข้อมูลและแมชชีนเลิร์นนิง/AI"

→ ทั้งสองด้านกำลังทำงานร่วมกันอย่างใกล้ชิดมากขึ้นเรื่อย ๆ

→ จุดเริ่มต้นแรกคือ "ยุค Big Data" ในช่วงต้นทศวรรษ 2010

→ เมื่อค้นพบว่าการนำ Big Data นี้ไปใช้กับอัลกอริทึม AI แบบเก่าที่มีมานานกว่าทศวรรษแล้วอย่างดีปเลิร์นนิง สามารถให้ผลลัพธ์ที่น่าทึ่ง ก็ยิ่งกระตุ้นความตื่นเต้นต่อ AI

→ ผลลัพธ์คือ AI กลายเป็นแรงขับเคลื่อนสำคัญของการพัฒนาโครงสร้างพื้นฐานข้อมูล

→ หากจะสร้างทุกแอปพลิเคชันบนพื้นฐาน AI ก็จำเป็นต้องมีโครงสร้างพื้นฐานข้อมูลที่ดีกว่าเดิม

ระหว่างทางจนถึงปี 2021 คำอย่าง Big Data และ AI ต่างก็มีช่วงขึ้นลงของตัวเอง และทุกวันนี้แม้จะได้ยินเรื่อง "Automation" มากขึ้น แต่โดยพื้นฐานแล้วทั้งหมดคือเมกะเทรนด์เดียวกัน
การเร่งตัวของวงการ Data/AI ในช่วงนี้สามารถสืบย้อนกลับไปได้จากการเติบโตของคลาวด์ดาต้าแวร์เฮาส์ในช่วงไม่กี่ปีที่ผ่านมา
ดาต้าแวร์เฮาส์แก้ปัญหาพื้นฐานมากแต่สำคัญอย่างยิ่งของโครงสร้างพื้นฐานข้อมูล นั่นคือ "จะเก็บข้อมูลไว้ที่ไหน"

→ แม้จะผ่านมากว่า 15 ปีนับจากการปฏิวัติ Big Data เริ่มต้นขึ้น หลายคนอาจคิดว่าปัญหานี้ถูกแก้แล้ว แต่จริง ๆ ยังไม่ใช่

→ มองย้อนกลับไป ความสำเร็จช่วงแรกของ Hadoop ในแง่หนึ่งเป็นเพียงภาพลวงตาเรื่องพื้นที่จัดเก็บ

→ แม้จะสำคัญในแง่การสื่อสารแนวคิดว่าเราสามารถดึงคุณค่าที่แท้จริงออกมาจากข้อมูลมหาศาลได้ แต่เพราะความซับซ้อนทางเทคนิค ทำให้มีเพียงไม่กี่บริษัทที่ใช้มัน จึงไม่สามารถเจาะตลาดได้กว้าง

คลาวด์ดาต้าแวร์เฮาส์ยุคปัจจุบัน (Snowflake, Redshift, BigQuery) และเลคเฮาส์ (Databricks) นั้น

→ มีต้นทุนต่ำกว่า

→ ไม่ต้องใช้บุคลากรเทคนิคจำนวนมากเป็นพิเศษ

→ และให้ความสามารถในการเก็บข้อมูลปริมาณมหาศาลในรูปแบบที่ใช้งานได้จริง

กล่าวอีกแบบคือ ตอนนี้เราเพิ่งจะสามารถเก็บและประมวลผล Big Data ได้อย่างแท้จริง สิ่งนี้สำคัญมาก และพิสูจน์แล้วว่าเป็น Major Unlock ให้กับวงการ Data/AI ด้านอื่น ๆ

→ ประการแรก ดาต้าแวร์เฮาส์ช่วยขยายขนาดตลาดของระบบนิเวศข้อมูลและ AI ทั้งหมด ด้วยความง่ายในการใช้งานและโมเดลราคาแบบคิดตามการใช้งาน ดาต้าแวร์เฮาส์จึงกลายเป็นประตูให้ทุกบริษัทกลายเป็นบริษัทข้อมูล

→ ประการที่สอง ดาต้าแวร์เฮาส์ทำให้สามารถใช้งาน ecosystem รอบตัวมันรวมถึงเครื่องมือต่าง ๆ ได้

⇨ ETL, ELT, Reverse ETL, เครื่องมือด้านคุณภาพข้อมูลที่มีดาต้าแวร์เฮาส์เป็นศูนย์กลาง, metrics store, augmented analytics ฯลฯ

⇨ "Modern Data Stack" ( https://th.news.hada.io/topic?id=3055 ดูเพิ่มเติม )

⇨ การเกิดขึ้นของ modern data stack ทำให้มีสตาร์ตอัปจำนวนมากเกิดขึ้นและเงินลงทุนไหลเข้าอย่างหนาแน่น (DBT, Fivetran..)

→ ประการที่สาม เนื่องจากดาต้าแวร์เฮาส์เข้ามาแก้ชั้น storage พื้นฐานที่สุดแล้ว บริษัทจึงสามารถโฟกัสกับโครงการที่มีมูลค่าสูงกว่าในลำดับชั้นความต้องการด้านข้อมูลได้

⇨ เมื่อเก็บข้อมูลได้แล้ว ก็สามารถมุ่งไปที่งานอย่างการประมวลผลแบบเรียลไทม์, augmented analytics, แมชชีนเลิร์นนิง ได้ง่ายขึ้น

⇨ และสิ่งนี้ก็ยิ่งเพิ่มความต้องการของตลาดต่อเครื่องมือและแพลตฟอร์ม Data/AI ทุกประเภท

⇨ ความต้องการจากลูกค้าที่มากขึ้น สร้าง flywheel ที่ผลักให้บริษัท Data/ML สร้างนวัตกรรมได้มากขึ้น

"ดาต้าแวร์เฮาส์คือสัญญาณสำคัญของอุตสาหกรรมข้อมูลทั้งหมด และเมื่อ DW เติบโต ส่วนที่เหลือก็จะเติบโตตามไปด้วย"

ข่าวดีสำหรับอุตสาหกรรม Data/AI คือดาต้าแวร์เฮาส์และเลคเฮาส์กำลังเติบโตอย่างรวดเร็วและในขนาดมหาศาล

→ Snowflake เติบโต YoY 103% ตามการประกาศผล Q2 และมีตัวเลข Net Revenue Retention สูงถึง 169% อย่างน่าทึ่ง (หมายถึงลูกค้าเดิมใช้งานมากขึ้นเรื่อย ๆ)

→ คาดว่ารายได้ในปี 2028 จะอยู่ที่ 12 ล้านล้านวอน ($10B)

บางคนถึงกับพูดว่า ในอนาคตทุกบริษัทจะมีคลาวด์ดาต้าแวร์เฮาส์อย่างน้อยหนึ่งตัว

"The Titanic Shock: Snowflake vs Databricks"

Snowflake คือผู้เล่นตัวแทนของวงการข้อมูลในช่วงหลัง การ IPO เมื่อเดือน 9/2020 ของพวกเขาเป็น IPO ด้านซอฟต์แวร์ที่ใหญ่ที่สุดในประวัติศาสตร์ ณ เวลาที่เขียนนี้บริษัทมีมูลค่า $95B
Databricks กำลังผงาดขึ้นมาเป็นคู่แข่งรายใหม่ในอุตสาหกรรม โดยปิดการระดมทุน $1.6B ที่มูลค่า $38B เมื่อวันที่ 8/31
จนกระทั่งไม่นานมานี้ ทั้งสองบริษัทอยู่คนละเซ็กเมนต์ของตลาดอย่างชัดเจน (จริง ๆ แล้วเคยเป็นพาร์ตเนอร์ที่ใกล้ชิดกันอยู่ช่วงหนึ่ง)
Snowflake ในฐานะคลาวด์ดาต้าแวร์เฮาส์ คือฐานข้อมูลสำหรับเก็บและประมวลผลข้อมูลแบบมีโครงสร้างจำนวนมาก (ที่จัดเก็บในรูปแถวและคอลัมน์ได้ดี)

→ บริษัทต่าง ๆ ใช้มันเชื่อมต่อกับเครื่องมือ BI เพื่อตอบคำถามเกี่ยวกับผลการดำเนินงานในอดีตและปัจจุบัน ("ภูมิภาคใดเติบโตเร็วที่สุดในไตรมาสที่ผ่านมา?")

→ เช่นเดียวกับฐานข้อมูลอื่น ๆ มันใช้ SQL จึงมีผู้ใช้ที่เป็นไปได้อยู่หลายล้านคน

Databricks มาจากอีกฟากหนึ่งของโลกข้อมูล

→ เริ่มต้นในปี 2013 จากการนำ Spark ซึ่งเป็นโอเพนซอร์สไปทำเชิงพาณิชย์

→ โดยทั่วไปถูกสร้างมาเพื่อประมวลผลข้อมูลแบบไม่มีโครงสร้าง (ข้อความ, เสียง, วิดีโอ)

→ ผู้ใช้ Spark ใช้มันสร้าง "Data Lake" ที่สามารถเก็บข้อมูลได้ทุกแบบโดยไม่ต้องกังวลเรื่องโครงสร้างหรือการจัดระเบียบข้อมูล

→ การใช้งานหลักของ data lake คือการฝึกแอปพลิเคชัน ML/AI เพื่อให้บริษัทตอบคำถามเกี่ยวกับอนาคตได้ ("ลูกค้าคนใดมีแนวโน้มจะซื้อในไตรมาสหน้า มากที่สุด?" กล่าวคือ predictive analytics)

→ Databricks สร้าง Delta เพื่อรองรับ data lake และสร้าง ML Flow เพื่อรองรับ ML/AI

แต่ในช่วงหลัง ทั้งสองบริษัทเริ่มเคลื่อนเข้าหากัน

→ Databricks ใส่ความสามารถแบบ DW เข้าไปใน data lake เพื่อให้นักวิเคราะห์รัน SQL query มาตรฐานและเชื่อมต่อเครื่องมืออย่าง Tableau หรือ MS PowerBI ได้ กลายเป็นสิ่งที่เรียกว่า "Lakehouse"

→ Databricks กำลังทำให้ data lake มีความเป็น data warehouse มากขึ้น ขณะที่ Snowflake ก็เปิดพรีวิวความสามารถจัดเก็บข้อมูลแบบไม่มีโครงสร้าง (เสียง, วิดีโอ, PDF, รูปภาพ ฯลฯ) เพื่อทำให้ data warehouse ดูเหมือน data lake

→ Databricks กำลังเพิ่ม BI เข้าไปในความสามารถด้าน AI ส่วน Snowflake ก็กำลังเพิ่ม AI เข้าไปในความสามารถด้านความเข้ากันได้กับ BI

ท้ายที่สุดแล้ว ทั้ง Snowflake และ Databricks ต่างก็ต้องการเป็น "The center of all things data"

→ แหล่งเก็บข้อมูลเดียวที่เก็บข้อมูลทั้งหมด เก็บได้ทั้งข้อมูลแบบมีโครงสร้าง/ไม่มีโครงสร้าง และทำการวิเคราะห์ได้ทุกอย่างตั้งแต่อดีตไปจนถึงการคาดการณ์อนาคต

แน่นอนว่ามีคู่แข่งอยู่มากมายด้วยเช่นกัน (คลาวด์ hyperscaler อย่าง AWS, GCP)
ทั้ง Snowflake และ Databricks ต่างก็เป็นทั้งมิตรและศัตรู (Friend and Foe) ของผู้ให้บริการคลาวด์

→ Snowflake ที่เติบโตมาบน AWS กำลังขยายไปยังคลาวด์อื่นๆ

→ Databricks มีพาร์ตเนอร์ชิปที่แข็งแกร่งกับ MS แต่ก็ช่วยหลีกเลี่ยง vendor lock-in ผ่านความสามารถแบบ multi-cloud

→ ในช่วงหลายปีที่ผ่านมา นักวิจารณ์ชี้ว่ารูปแบบธุรกิจของ Snowflake และ Databricks มีมาร์จินที่ขึ้นอยู่กับการตั้งราคาของผู้ให้บริการคลาวด์

ในอีก 5 ปีข้างหน้า การจับตาดูการเต้นรำระหว่างผู้ให้บริการคลาวด์กับยักษ์ใหญ่ด้านข้อมูล (Behemoth) จะเป็นเรื่องสำคัญ

"Bundling, Unbundling, Consolidation?"

เมื่อพิจารณาจากการเติบโตของทั้ง Snowflake และ Databricks นี่จะเป็นจุดเริ่มต้นของคลื่นการรวมตัวที่อุตสาหกรรมรอคอยหรือไม่?
ในสายงานข้อมูล / AI นั้น "การรวมฟังก์ชัน (functional consolidation) กำลังเกิดขึ้น"
แต่ทุกคนก็เหมือนกัน คือไม่มีใครอยากเป็นบริษัทที่มีผลิตภัณฑ์เดียว ต่างก็อยาก bundle มากขึ้นและมีฟังก์ชันมากขึ้น

→ Confluent ที่เข้าตลาดหุ้นในเดือน 2021/6 ก็มีเป้าหมายจะก้าวข้ามจากสายข้อมูลแบบเรียลไทม์ไปสู่การ "รวมการประมวลผลข้อมูลที่เคลื่อนไหวกับข้อมูลแบบคงที่"

→ Dataiku มุ่งเน้นการ bundle ทุกอย่างไว้ในแพลตฟอร์มเดียว ตั้งแต่กระบวนการเตรียมข้อมูลไปจนถึง DataOps, MLOps, visualization และ AI explainability

การเกิดขึ้นของ modern data stack ก็เป็นอีกตัวอย่างของการรวมฟังก์ชัน

→ แก่นของมันคือ "พันธมิตร" โดยพฤตินัยของบริษัทต่างๆ (ส่วนใหญ่เป็นสตาร์ตอัป) ที่เชื่อมตั้งแต่การดึงข้อมูลไปจนถึง data warehouse และ BI

สำหรับผู้ใช้เทคโนโลยีเหล่านี้ การ bundling และ convergence น่าจะได้รับการต้อนรับอย่างมาก

→ เมื่ออุตสาหกรรมข้อมูลค่อยๆ เติบโตเต็มที่ ก็ต้องพัฒนาให้ก้าวข้าม Technology Divide อย่าง "ธุรกรรม vs. การวิเคราะห์", "การประมวลผลแบบแบตช์ vs. เรียลไทม์", "BI vs AI"

องค์กรต่างๆ จะยังคงทำงานร่วมกับ vendor/แพลตฟอร์ม/เครื่องมือหลายรายต่อไป เพื่อสร้างชุดผสมที่เหมาะกับความต้องการที่สุด
เหตุผลหลักคือ "ความเร็วของนวัตกรรมมันระเบิดมากเกินไป"

→ มีสตาร์ตอัปใหม่เกิดขึ้นตลอดเวลา บริษัท Big Tech ก็สร้างเครื่องมือข้อมูล/AI ภายในแล้วเปิดเป็นโอเพนซอร์ส และทุกสัปดาห์ก็มีสิ่งใหม่เกิดขึ้นกับทุกเทคโนโลยี/ผลิตภัณฑ์เดิม

ผู้ให้บริการ big data warehouse และ data lake กำลังผลักดันให้รวมศูนย์ข้อมูลทั้งหมด แต่ก็มีเฟรมเวิร์กใหม่อย่าง "Data Mesh" ปรากฏขึ้นด้วย

→ เป็นแนวทางแบบกระจายศูนย์ที่หลายทีมรับผิดชอบกันคนละส่วน

นอกจากการรวมฟังก์ชันแล้ว จะเกิด M&A หรือไม่ยังตอบได้ยาก

→ หนึ่งในข่าวลือที่คนชอบพูดกันคือ "MS อยากเข้าซื้อ Databricks"

"Financings, IPOs, M&A: A Crazy Market"

ใครที่ติดตามตลาดสตาร์ตอัปมาบ้างก็น่าจะรู้ว่าตลาดบ้าคลั่งมาก
ต่อเนื่องจากปีก่อน ปีนี้ข้อมูลและ ML/AI ก็ยังเป็นหมวดการลงทุนที่ร้อนแรงที่สุด
บริษัทที่เตรียมเข้าตลาดหุ้น

→ UiPath : บริษัท RPA และ AI automation

→ Confluent : Kafka

→ C3.ai : แพลตฟอร์ม AI

→ Couchbase : no-SQL DB

→ SentinelOne : แพลตฟอร์มความปลอดภัย endpoint อัตโนมัติด้วย AI

→ TuSimple : รถบรรทุกไร้คนขับ

→ Zymergen : การผลิตชีวภาพ

→ Recursion : บริษัทพัฒนายาแบบ AI-driven

→ Darktrace : ไซเบอร์ซีเคียวริตี้ที่ใช้ AI

การเพิ่มขึ้นของ SPAC จะเอื้อประโยชน์ต่อบริษัทเทคโนโลยีที่อยู่แนวหน้าของตลาด AI (เช่น การขับขี่อัตโนมัติ, ไบโอเทค)

"The 2021 MAD Landscape & What’s New this Year"

ในแผนที่ปีนี้ได้แยก "Analytics and Machine Intelligence" ออกเป็น “Analytics” และ “Machine Learning & Artificial Intelligence”
เพิ่มหมวดหมู่ใหม่

→ Infrastructure

⇨ Reverse ETL : ผลิตภัณฑ์ที่ส่งข้อมูลกลับจาก data warehouse ไปยังแอปพลิเคชัน SaaS

⇨ Data Observability : องค์ประกอบของ DataOps ที่มุ่งแก้ปัญหาคุณภาพข้อมูลโดยอิงกับ data lineage

⇨ Privacy & Security : ความเป็นส่วนตัวของข้อมูลยิ่งสำคัญขึ้นเรื่อยๆ และมีสตาร์ตอัปจำนวนมากเกิดขึ้นในหมวดนี้

→ Analytics

⇨ Data Catalogs & Discovery : หมวดที่คึกคักที่สุดในช่วง 12 เดือนที่ผ่านมา ช่วยให้ผู้ใช้ค้นหาและจัดการชุดข้อมูลที่ต้องการได้

⇨ Augmented Analytics : เครื่องมือ BI ใช้ประโยชน์จากความก้าวหน้าของ NLG/NLP เพื่อสร้างอินไซต์โดยอัตโนมัติ และทำให้ผู้ฟังที่ไม่ใช่สายเทคนิคเข้าถึงข้อมูลได้

⇨ Metrics Stores : ที่เก็บส่วนกลางสำหรับเมตริกธุรกิจหลัก เป็นผู้เล่นใหม่ใน data stack

⇨ Query Engines

→ Machine Learning and AI

⇨ แยกย่อยหมวด MLOps : Model Building, Feature Stores, Deployment and Production

→ Open Source

⇨ เพิ่ม Format, Orchestration, Data Quality & Observability

แต่ก่อนมักมีสตาร์ตอัประดับซีรีส์ C ขึ้นไปหรือบริษัทจดทะเบียนเป็นหลัก แต่ปีนี้มีบริษัทระยะซีรีส์ A/seed ถูกเพิ่มเข้ามาจำนวนมาก

"เทรนด์หลักของโครงสร้างพื้นฐานข้อมูล"

2020

→ Modern Data Stack กลายเป็นกระแสหลัก

→ ETL vs ELT

→ การทำงานอัตโนมัติของ data engineering?

→ การผงาดขึ้นของ data analyst

→ data lake กับ data warehouse จะรวมกันหรือไม่?

→ ความซับซ้อนที่ยังแก้ไม่ตก

2021

→ Data Mesh

→ เป็นปีที่ยุ่งมากสำหรับ DataOps

→ ตอนนี้คือเรียลไทม์

→ Metrics Stores

→ Reverse ETL

→ Data Sharing

[Data Mesh]

มีที่มาจากบทความของ Zhamak Dehghani ในปี 2019 เรื่อง "How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh"
ได้แรงส่งอย่างมากในช่วงปี 2020~21
แนวคิด data mesh โดยมากเป็นไอเดียเชิงองค์กร
จนถึงตอนนี้ วิธีมาตรฐานในการสร้าง data infrastructure และทีมคือการรวมศูนย์ คือมีแพลตฟอร์มขนาดใหญ่หนึ่งตัวที่บริหารโดยทีมข้อมูลทีมเดียวเพื่อตอบโจทย์ความต้องการทางธุรกิจ
แม้จะมีข้อดีมาก แต่ก็เกิดปัญหาอย่างคอขวดได้เช่นกัน
ผ่านการกระจายอำนาจ จะมีการสร้างทีมข้อมูลอิสระที่รับผิดชอบแต่ละโดเมน และส่งมอบข้อมูล "ในฐานะผลิตภัณฑ์" ให้กับคนอื่นๆ ในองค์กร

→ คล้ายกับแนวคิด microservices ที่พูดถึงกันในวิศวกรรมซอฟต์แวร์

มันมีความหมายได้หลายแบบ

→ หากสิ่งนี้เกิดขึ้นได้จริง ก็จะเป็นโอกาสใหญ่สำหรับสตาร์ตอัปที่สร้างเครื่องมือระดับ mission-critical บน distributed data stack

Starburst ซึ่งเป็น SQL Query Engine สำหรับ query และวิเคราะห์แบบรวมศูนย์ข้ามหลาย storage ได้รีแบรนด์ตัวเองเป็น "analytics engine สำหรับ data mesh"
สิ่งอย่าง orchestration engine ที่ใช้จัดการ pipeline ซับซ้อน (Airflow, Prefect, Dagster) จะยิ่งกลายเป็น mission-critical มากขึ้น
การติดตามข้อมูลในสตอเรจและระบบประมวลผลไปป์ไลน์กลายเป็นสิ่งจำเป็นยิ่งขึ้นในมุมของ compliance และ governance ทำให้ความจำเป็นของ Data Lineage เพิ่มสูงขึ้น (OpenLineage, DataKin)

[ปีที่ยุ่งมากสำหรับ DataOps]

แนวคิด DataOps ล่องลอยอยู่มาหลายปี ก่อนจะเริ่มใช้งานจริงอย่างคึกคักในช่วงหลัง
มีคำจำกัดความหลายแบบ

→ DevOps ของโลกข้อมูล

→ ทุกสิ่งที่จำเป็นต่อการสร้างและดูแล data pipeline การค้นหา dataset ที่ถูกต้องผ่าน data catalog และช่วยให้ผู้ผลิตและผู้ใช้ข้อมูลทำงานที่ต้องการได้

ไม่ว่าอย่างไร ก็เหมือนกับ DevOps ตรงที่เป็น “การผสมผสานของวิธีวิทยา กระบวนการ ผู้คน แพลตฟอร์ม และเครื่องมือ”
ในบริบทกว้าง ๆ คือ “เครื่องมือและแนวปฏิบัติด้าน data engineering” ยังตามหลังระดับการทำงานอัตโนมัติของ software engineering อยู่มาก
ยิ่งข้อมูล/AI มีความสำคัญมากขึ้น ก็ยิ่งต้องการเครื่องมือและแนวปฏิบัติที่ดีขึ้น
ทุกคนอยากเป็น “DataDog แห่งโลกข้อมูล” (จริง ๆ แล้ว DataDog ก็ถูกใช้กับ DataOps เช่นกัน แต่โดยพื้นฐานยังอยู่บนฐานของ software engineering)
มีซับพาร์ตหลากหลาย เช่น Data observability, Data Lineage, Data Quality, Data Reliability Engineering, Data Access & Governance

[ตอนนี้ต้องเรียลไทม์]

ข้อมูลแบบ “เรียลไทม์” หรือ “สตรีมมิง” คือข้อมูลที่ถูกประมวลผลและนำไปใช้ทันทีหลังจากถูกสร้างขึ้น
เป็นแนวตรงข้ามกับ “แบตช์” ซึ่งเป็นพาราไดม์หลักของโครงสร้างพื้นฐานข้อมูลมาจนถึงตอนนี้
การประมวลผลข้อมูลแบบเรียลไทม์เป็นหัวข้อร้อนมาตั้งแต่ยุคเริ่มต้นของบิ๊กดาต้าเมื่อ 10-15 ปีก่อน

→ โดยเฉพาะความเร็วในการประมวลผลที่เป็นปัจจัยหลักซึ่งช่วยผลักดันความสำเร็จของ Spark เมื่อเทียบกับ HadoopMR

แต่แม้จะถูกมองว่าเป็นตลาดที่ “กำลังจะระเบิด” มาหลายปี ก็ยังไม่ได้ระเบิดจริง
ความสำเร็จอย่างมากของ IPO ของ Confluent พิสูจน์ว่าฝ่ายที่คัดค้านคิดผิด
และนอกเหนือจาก Confluent แล้ว ระบบนิเวศข้อมูลแบบเรียลไทม์ทั้งหมดก็เร่งตัวขึ้น
โดยเฉพาะ “การวิเคราะห์แบบเรียลไทม์” ที่มีความเคลื่อนไหวมาก

→ ClickHouse ที่ Yandex ของรัสเซียสร้างขึ้น ได้ตั้งบริษัทในสหรัฐฯ และระดมทุน $50M

→ Imply แพลตฟอร์มวิเคราะห์แบบเรียลไทม์ที่สร้างบนโอเพนซอร์ส Druid ได้รับเงินลงทุน $70M

[Metrics Stores]

ในช่วงไม่กี่ปีที่ผ่านมา ปริมาณข้อมูลขององค์กร รวมถึงความถี่และความซับซ้อนของการใช้งานข้อมูลเพิ่มขึ้น
เมื่อความซับซ้อนเพิ่มขึ้น ปัญหาปวดหัวจากความไม่สอดคล้องของข้อมูลก็เพิ่มตามไปด้วย
metric ต่าง ๆ อาจคลาดเคลื่อนได้ง่ายแม้มีการเปลี่ยนแปลงเพียงเล็กน้อยใน dimension/definition หรือสาเหตุอื่น ๆ
ข้อมูลจะมีประโยชน์ก็ต่อเมื่อทีมสามารถใช้งานมันได้อย่างถูกต้องและเชื่อถือได้เท่านั้น
ความพยายามในการรวมศูนย์ metric นำไปสู่การพัฒนาโซลูชันภายในอย่าง Minerva ของ AirBnB ภายใต้แนวคิด “Define Once, Use Anywhere”
ทำให้คำจำกัดความของ metric ทางธุรกิจหลักและทุก dimension เป็นมาตรฐานเดียวกัน และมอบชุดข้อมูลที่ถูกต้องและวิเคราะห์ได้ให้ผู้มีส่วนได้ส่วนเสียบนพื้นฐานของนิยามนั้น
สร้างความเชื่อมั่นต่อข้อมูลบนพื้นฐานของคำจำกัดความ metric แบบรวมศูนย์ และเปิดให้ทุกคนเข้าถึง metric แบบข้ามสายงานได้
metric store

→ อยู่เหนือ data warehouse และทำหน้าที่ส่งข้อมูลไปยังแอปพลิเคชัน downstream ทั้งหมด รวมถึง BI platform เครื่องมือ analytics/data science และแอปพลิเคชันเชิงปฏิบัติการ

→ ช่วยให้ข้อมูลคงความสอดคล้อง และเมื่อ business logic เปลี่ยนก็เติมข้อมูลให้อัตโนมัติ

มีสตาร์ตอัปอย่าง Transform, Trace, Supergrain

[Reverse ETL]

Reverse ETL ได้กลายเป็นหนึ่งในหมวดหมู่ของ modern data stack
เป็นการย้ายข้อมูลกลับออกจาก data warehouse ไปยัง business application เช่น CRM ระบบ marketing automation และแพลตฟอร์มสนับสนุนลูกค้า
เพื่อให้เครื่องมือที่ใช้ในงานปฏิบัติการจริงสามารถใช้ข้อมูลล่าสุดที่ได้รับการเสริมจาก business application อื่น ๆ ได้
เครื่องมือ Reverse ETL หลายรายได้รับเงินทุน: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic

[Data Sharing]

การแชร์ข้อมูลและการทำงานร่วมกันด้วยข้อมูลกำลังเพิ่มขึ้น ไม่ใช่แค่ภายในบริษัทแต่ครอบคลุมทั้งองค์กรต่าง ๆ
องค์กรต้องการแชร์ข้อมูลกับ ecosystem ของซัพพลายเออร์ พันธมิตร และลูกค้า เพื่อการมองเห็นซัพพลายเชน การฝึกโมเดลแมชชีนเลิร์นนิง และการแบ่งปันแผน go-to-market เป็นต้น
การแชร์ข้อมูลระหว่างองค์กรเป็นธีมหลักของผู้ให้บริการ “data cloud”
ในเดือน 2021/5 Google เปิดตัว Analytics Hub สำหรับการแชร์ข้อมูล/อินไซต์/แดชบอร์ด/โมเดลแมชชีนเลิร์นนิง ทั้งภายในและภายนอกองค์กร และยังเปิดตัว DataShare สำหรับบริการทางการเงินด้วย
ในวันเดียวกับ Google นั้น Databricks ก็เปิดตัว Delta Sharing ซึ่งเป็นโปรโตคอลโอเพนซอร์สสำหรับการแชร์ข้อมูลระหว่างองค์กร
ในเดือน 2021/6 Snowflake เปิดตัวฟีเจอร์ Secure Data Sharing ผ่าน data marketplace
มีสตาร์ตอัปอย่าง Habr, Crossbeam

“เทรนด์หลักของ ML/AI”

2020

Boom time for data science and machine learning platforms (DSML)
โฆษณา
ML getting deployed and embedded
The Year of NLP

2021

Feature Stores
The rise of ModelOps
AI content generation
The continued emergence of a separate Chinese AI stack
งานวิจัยด้านปัญญาประดิษฐ์ยังคงก้าวหน้าอย่างรวดเร็ว

→ DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP

[Feature Stores]

หลังจาก Uber นำเสนอแนวคิดนี้ในปี 2017 ก็กลายเป็นสิ่งที่พบได้ทั่วไปมากขึ้นเรื่อย ๆ ในสแตกแมชชีนเลิร์นนิง

→ บริษัทอย่าง Tecton, Rasgo, Logical Clocks, Kaskada ต่างก็ได้รับเงินทุนรอบใหม่

ในแมชชีนเลิร์นนิง feature (ตัวแปรหรือคุณลักษณะ) คือคุณสมบัติหรือจุดเด่นที่สามารถวัดได้เป็นรายตัว และแสดงเป็นคอลัมน์ใน data snippet

→ โมเดลแมชชีนเลิร์นนิงสามารถใช้ feature ได้ตั้งแต่เพียงหนึ่งเดียวไปจนถึงหลายล้านรายการ

เมื่อมีการใช้โมเดลและไปป์ไลน์ที่ซับซ้อนขึ้นเรื่อย ๆ การทำงานก็ยิ่งกลายเป็น ad-hoc มากขึ้น
วิศวกรและนักวิทยาศาสตร์ข้อมูลมักต้องใช้เวลามากไปกับการดึง feature ออกมาจากข้อมูลดิบซ้ำแล้วซ้ำอีก
ช่องว่างระหว่างสภาพแวดล้อม production กับสภาพแวดล้อมทดลองอาจทำให้ประสิทธิภาพหรือพฤติกรรมของโมเดลไม่สอดคล้องกัน
องค์กรให้ความสำคัญกับเรื่อง governance และ reproducibility ของโมเดลแมชชีนเลิร์นนิงมากขึ้น ทำให้การแยกตัวเป็นไซโลของ feature กลายเป็นเรื่องยากยิ่งขึ้นในทางปฏิบัติ
feature store ช่วยส่งเสริมการทำงานร่วมกันและขจัดไซโลเหล่านี้
มอบ single source of truth ทั้งสำหรับการฝึกและ production ช่วยลดความซับซ้อน และทำให้ feature เป็นมาตรฐานรวมถึงนำกลับมาใช้ซ้ำได้
จัดเก็บ curated feature ภายในองค์กร รัน data pipeline ที่แปลงข้อมูลดิบเป็น feature value และเปิดให้เข้าถึงได้อย่างรวดเร็วผ่าน API

[The Rise of ModelOps]

หลายบริษัทเริ่มตระหนักว่าการนำโมเดลจากขั้นทดลองไปสู่ production เป็นเรื่องยาก และโมเดลที่ใช้งานอยู่ก็ต้องการทั้งการมอนิเตอร์และการฝึกใหม่อย่างต่อเนื่อง
MLOps นำแนวปฏิบัติที่ดีที่สุดของ DevOps มาประยุกต์ใช้ ช่วยทำให้การพัฒนาและ deployment โมเดลจำนวนมากอย่างรวดเร็วและต่อเนื่องง่ายขึ้น
ModelOps เป็น superset ของ MLOps โดยมุ่งให้การปฏิบัติการของโมเดล AI ทุกประเภท รวมถึง ML เร็วขึ้นในทุกขั้นตอนตั้งแต่การฝึกจนถึง production
ModelOps ครอบคลุมทั้งเครื่องมือและกระบวนการ ผสานกระบวนการเข้าด้วยกัน ทำให้ model orchestration เป็นมาตรฐาน และมอบคลังส่วนกลางแบบครบวงจรสำหรับทุกโมเดลพร้อมความสามารถด้าน governance ที่ครอบคลุม
ModelOps ที่นำไปใช้อย่างเหมาะสมจะมอบระบบรวมศูนย์สำหรับการ deploy/monitor และจัดการทุกโมเดล ช่วยลดความเสี่ยงและเพิ่ม compliance

[AI Content Generation]

AI มีความเติบโตเต็มที่ขึ้นอย่างมากในช่วงไม่กี่ปีที่ผ่านมา จนถูกนำไปใช้สร้างคอนเทนต์ได้กับสื่อแทบทุกประเภท รวมถึงข้อความ รูปภาพ โค้ด และวิดีโอ
OpenAI เปิดตัว GPT-3 และ GitHub เปิดตัว GitHub Copilot ที่ใช้ OpenAI Codex
แม้ OpenAI จะมุ่งเน้นไปที่โมเดลภาษาอังกฤษเป็นหลัก แต่ก็มีอีกหลายบริษัทที่กำลังพัฒนาในภาษาอื่น

→ Aleph Alpha ของเยอรมนี, AI21 Labs, PanGu ของ Huawei, HyperCLOVA ของ Naver

[การเกิดขึ้นอย่างต่อเนื่องของสแตก AI จีนที่แยกออกมา]

จีนยังคงพัฒนาต่อเนื่องในฐานะมหาอำนาจ AI ระดับโลก ควบคู่ไปกับตลาดภายในประเทศของตนเองซึ่งเป็นผู้ผลิตข้อมูลรายใหญ่ที่สุดของโลก
TikTok ซึ่งมีหนึ่งในอัลกอริทึมแนะนำคอนเทนต์ที่ดีที่สุด ประสบความสำเร็จในโลกตะวันตก ทำให้เทคโนโลยีผู้บริโภคด้าน AI ของจีนแพร่กระจายออกไปอย่างแท้จริงเป็นครั้งแรก
เมื่อจีนประกาศเป้าหมายครองความเป็นผู้นำ AI ภายในปี 2030 และได้รับการสนับสนุนทางการเงิน สแตกของตนเองที่แยกต่างหากก็เริ่มเกิดขึ้นในจีน ซึ่งก่อนหน้านั้นยังคงใช้เครื่องมือจากตะวันตกอยู่

3 ความคิดเห็น

ehanmire 2021-11-11

ผมได้อินไซต์ดีๆ จากหลายประโยค และได้ลองคิดตามอยู่มากเลยครับ

ขอบคุณครับ~

แวบหนึ่งผมนึกว่ากระบวนการกับข้อมูลก็เหมือนกระดูกกับเลือด

เลือดคงไหลไปรวมกันที่ไหนสักแห่ง แล้วเกิดเส้นเลือดและก่อเป็นเนื้อเยื่อขึ้นมา

แต่ก็พลันนึกถึงอุปมาประหลาดๆ ขึ้นมาว่า

สิ่งที่ทำให้บริษัทหาเงินได้ มันมาจากการเคลื่อนไหวไม่ใช่หรือ

sungwoo 2021-11-08

ขอบคุณเสมอที่ช่วยสรุปข้อมูลระดับพรีเมียมได้อย่างเป็นระเบียบและอ่านง่ายมาก ๆ

xguru 2021-11-07

ภูมิทัศน์ Data & AI ปี 2020 https://th.news.hada.io/topic?id=2979