13 คะแนน โดย xguru 2025-01-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เมื่อ DrivenData เริ่มต้นขึ้นในปี 2014 การนำวิทยาการข้อมูลมาใช้เพื่อประโยชน์ต่อสังคมยังอยู่ในระยะเริ่มต้น
  • ในเวลานั้น เทคโนโลยีด้านวิทยาการข้อมูลถูกใช้เป็นหลักในบริษัทอย่าง Netflix และ Amazon เพื่อการตลาดและการแนะนำคอนเทนต์ ขณะที่แทบไม่มีกรณีการใช้งานสำหรับองค์กรไม่แสวงหากำไร NGO กิจการเพื่อสังคม หรือบริการภาครัฐ
  • เป้าหมายและภูมิหลังในช่วงเริ่มต้น
    • บุคลากรด้านวิทยาการข้อมูลมีอยู่น้อยมากและมีต้นทุนการจ้างงานสูง และช่องว่างนี้ยิ่งรุนแรงกว่าเดิมในองค์กรที่ทำงานกับปัญหาสังคม
    • เริ่มต้นจาก Harvard Innovation Lab โดยมีเป้าหมายเพื่อลดช่องว่างด้านทักษะวิทยาการข้อมูลสำหรับการแก้ปัญหาสังคม
    • เป้าหมายคือการใช้เทคโนโลยีล้ำสมัยด้านวิทยาการข้อมูลและ crowdsourcing เพื่อแก้โจทย์ทางสังคมสำคัญของโลก
  • คำพูดอ้างอิง 2 ประโยคที่สะท้อนมุมมองในเวลานั้น
    • "การทำให้ Big Data มีประโยชน์ต่อการตัดสินใจด้านมนุษยธรรมคือความท้าทายและโอกาสสำคัญของยุคเครือข่าย" – UN OCHA
    • "คนเก่งที่สุดในรุ่นของผมกำลังทุ่มความคิดไปกับการทำให้ผู้คนคลิกโฆษณา… มันน่าหงุดหงิดจริง ๆ" – Jeff Hammerbacher อดีตผู้จัดการข้อมูลของ Facebook
  • ความเปลี่ยนแปลงตลอด 10 ปีที่ผ่านมา
    • มีความพยายามหลากหลายในการประยุกต์ใช้วิทยาการข้อมูลและ AI เพื่อสร้างผลกระทบทางสังคม
    • ร่วมงานกับพาร์ตเนอร์กว่า 80 รายในโครงการมากกว่า 150 โครงการ (เช่น ธนาคารโลก มูลนิธิ Bill & Melinda Gates และ NASA)
    • จัดการแข่งขันด้านวิทยาการข้อมูลมากกว่า 75 รายการ พร้อมเงินรางวัลรวมกว่า $4.7 ล้าน
  • ตลอด 10 ปีที่ผ่านมา DrivenData ได้สั่งสมแนวปฏิบัติที่ดีและบทเรียนจากการขับเคลื่อนประโยชน์สาธารณะผ่านวิทยาการข้อมูล
  • ณ จุดนี้ ต้องการชวนคิดร่วมกันว่าอะไรได้ผล อะไรยังคงท้าทาย และควรเดินไปในทิศทางใดเพื่ออนาคตที่ดีกว่า

พรีวิว 10 บทเรียนสำคัญ

กรณีที่วิทยาการข้อมูลทำงานได้ดี

  1. วิทยาการข้อมูลสร้างผลกระทบที่มีความหมายต่อปัญหาสังคมได้
  2. ข้อมูลที่ดีนำไปสู่โซลูชันที่ดี
  3. ความพยายามจะประสบความสำเร็จมากที่สุดเมื่อมุ่งไปที่ปัญหาเฉพาะและความต้องการของมนุษย์
  4. มีประสิทธิภาพที่สุดเมื่อผสานจุดแข็งของเครื่องจักรและมนุษย์เข้าด้วยกัน
  5. มุมมองแบบสหวิทยาการและความยืดหยุ่นช่วยให้องค์กรได้เปรียบ

สิ่งที่ยังคงท้าทาย

  1. วิทยาการข้อมูลเป็นงาน R&D ที่ต้องทำซ้ำอย่างต่อเนื่อง แต่ภาคสังคมยังลงทุนกับเรื่องนี้ไม่เพียงพอ
  2. การจ้างและสนับสนุนนักวิทยาการข้อมูลให้ดีเป็นเรื่องยาก
  3. โอเพนซอร์สยังขาดการพัฒนาโซลูชันสำหรับผู้ที่ไม่ใช่นักพัฒนา
  4. กระแส hype wave ของเทคโนโลยีได้รับความสนใจมากเกินไป
  5. วิทยาการข้อมูลและ AI มีนัยด้านจริยธรรมสูง แต่เครื่องมือและแนวปฏิบัติที่สนับสนุนการใช้อย่างมีจริยธรรมยังตามไม่ทัน

ยุคสมัยกำลังเปลี่ยนไป

ตลอด 10 ปีที่ผ่านมา ความเร็วของการพัฒนาเทคโนโลยีข้อมูลและ AI นั้นน่าทึ่งอย่างยิ่ง ปัจจัยนวัตกรรมสำคัญที่ทำให้สิ่งนี้เกิดขึ้นมีดังนี้:

  • คอมพิวติ้งและพื้นที่จัดเก็บข้อมูล
    • การขยายตัวของ cloud computing และ storage ทำให้สามารถเข้าถึงทรัพยากรที่จำเป็นได้ง่ายขึ้นและในต้นทุนที่ถูกลง
    • ลดต้นทุนเริ่มต้นตั้งแต่การทดลองบน GPU ไปจนถึงการจัดวางคลัสเตอร์ที่ขยายได้สำหรับการรันโมเดลแบบเรียลไทม์
  • ดีปเลิร์นนิง
    • ดีปเลิร์นนิงนำมาซึ่งการเปลี่ยนแปลงครั้งใหญ่ต่อวิทยาการข้อมูล
    • มีสถาปัตยกรรมที่มีประสิทธิภาพเพิ่มขึ้นอย่างก้าวกระโดด เช่น generative adversarial networks (GAN), transformers, variational autoencoders และ graph neural networks
    • ระบบนิเวศที่มี PyTorch และ TensorFlow เป็นศูนย์กลางได้พัฒนาอย่างต่อเนื่อง พร้อมด้วยเครื่องมือ ไลบรารี และโมเดลที่ฝึกล่วงหน้า ซึ่งช่วยเร่งความเร็วของการพัฒนา
  • การเข้าถึงเทคโนโลยีที่แพร่หลายมากขึ้น
    • วิทยาการข้อมูลถูกเรียกว่าเป็น "อาชีพที่เซ็กซี่ที่สุดแห่งศตวรรษที่ 21" และโอกาสในการเรียนรู้ก็เพิ่มขึ้นอย่างมาก
    • ผู้คนจำนวนมากขึ้นได้เรียนรู้ทักษะพื้นฐานของวิทยาการข้อมูลผ่าน MOOCs, bootcamps และการแข่งขันด้านข้อมูล
  • Generative AI
    • การมาถึงของ large language models (LLM) กำลังเปลี่ยนวิธีการทำงาน
    • ช่วยย่นเวลาที่ใช้กับงานซับซ้อนและเปิดความเป็นไปได้ใหม่ ๆ
    • ยังมีการพิจารณาอยู่ว่า generative AI เป็นเพียงกระแสชั่วคราวหรือนวัตกรรมที่แท้จริง แต่สิ่งที่ชัดเจนคือ AI จะยังถูกใช้งานต่อไปอย่างต่อเนื่อง

แม้จะมีการเปลี่ยนแปลงทางเทคโนโลยีเหล่านี้ แต่ก็ยังสังเกตเห็นรูปแบบร่วมหลายอย่างที่ข้ามพ้นเทคโนโลยีเฉพาะแต่ละแบบไปได้ บทความนี้จะพูดถึงทั้งสิ่งที่ได้ผลดีในช่วง 10 ปีที่ผ่านมา และสิ่งที่ยังคงเป็นความท้าทาย

กรณีที่วิทยาการข้อมูลทำงานได้ดี

วิทยาการข้อมูลสร้างผลกระทบที่มีความหมายต่อปัญหาสังคมได้

  • สถานการณ์เมื่อ 10 ปีก่อน
    • ศักยภาพของเครื่องมือด้านวิทยาการข้อมูลนั้นชัดเจน แต่การประยุกต์ใช้เพื่อสร้างผลกระทบทางสังคมยังมีจำกัด
    • การพูดคุยในเวลานั้นจำกัดอยู่เพียงไม่กี่กรณีตัวอย่าง และส่วนใหญ่เน้นไปที่ไอเดียเกี่ยวกับความเป็นไปได้ในอนาคต
  • พัฒนาการในปัจจุบัน
    • โมเดลแมชชีนเลิร์นนิงมีอิทธิพลต่อการตัดสินใจในหลากหลายสาขา เช่น การแพทย์และการจัดการทรัพยากรธรรมชาติ
    • วิทยาการข้อมูลช่วยจัดการปัญหาอย่างสาหร่ายบูมที่เป็นอันตราย การประมงที่ไม่ยั่งยืน และภัยพิบัติทางธรรมชาติจากการเปลี่ยนแปลงสภาพภูมิอากาศ รวมถึงช่วยส่งเสริมการเข้าถึงบริการทางการเงินและการอนุรักษ์สัตว์ป่า
    • ในภาคสาธารณะ การทำข้อมูลให้เห็นภาพได้กลายเป็นสื่อหลักสำหรับการรายงานข่าวและการสื่อสารสารสำคัญ
      • ตัวอย่าง: แคมเปญป้องกันการแพร่ระบาดของ COVID-19, แดชบอร์ดของ WHO
  • กรณีตัวอย่างเฉพาะจากการใช้ภาพถ่ายดาวเทียม
    • ในเยเมน มีการใช้ภาพถ่ายดาวเทียมเพื่อวิเคราะห์ประเภทพืชผลและความเสี่ยงด้านภูมิอากาศ เพื่อให้ข้อมูลแก่โครงการความมั่นคงทางอาหารของธนาคารโลก
  • AI กับการขับเคลื่อนความก้าวหน้าทางวิทยาศาสตร์
    • AlphaFold: โมเดลทำนายโครงสร้างโปรตีนที่ทำงานซึ่งเคยใช้เวลาหลายปีให้เสร็จได้ภายในไม่กี่ชั่วโมง และเปิดให้เหล่านักวิทยาศาสตร์เข้าถึงโครงสร้างโปรตีนทั้งหมดได้ฟรี
    • โมเดล transformer: ถูกนำไปใช้ตรวจจับ hate speech ในมีมแบบ multimodal
    • เทคโนโลยีระบุอัตลักษณ์ของสิ่งมีชีวิต: ช่วยปรับปรุงการติดตามชนิดพันธุ์ใกล้สูญพันธุ์ (เช่น วาฬ) และขยายไปสู่หลากหลายสปีชีส์
  • ความเปลี่ยนแปลงในภาคสังคม
    • ในช่วงกลางทศวรรษ 2010 การพูดถึงการใช้ข้อมูลยังเน้นที่ "การวัดผลกระทบ" เป็นหลัก
    • ตอนนี้จุดเน้นได้เปลี่ยนมาอยู่ที่การใช้เครื่องมือด้านวิทยาการข้อมูลเพื่อเปลี่ยนวิธีดำเนินงานขององค์กรและมอบขีดความสามารถใหม่
    • ปัจจุบัน การสนทนามุ่งไปที่สิ่งที่วิทยาการข้อมูลและ AI "ทำได้" มากกว่าสิ่งที่สามารถวัดได้

ข้อมูลที่ดีนำไปสู่โซลูชันที่ดี และการเข้าถึงข้อมูลก็ดีขึ้นอย่างมาก

  • บทบาทของข้อมูลในชีวิตประจำวันเพิ่มขึ้น
    • ทุกกิจกรรมตั้งแต่การซื้อสินค้า การใช้บริการฉุกเฉิน ไปจนถึงการไปโรงพยาบาล ล้วนสร้างข้อมูล
    • เครื่องใช้ไฟฟ้า อุปกรณ์สวมใส่ รถยนต์ โทรศัพท์มือถือ และแอปพลิเคชัน ต่างก็เก็บข้อมูลการใช้งาน
    • ความก้าวหน้าของเทคโนโลยีเซนเซอร์และกล้องทำให้การใช้ข้อมูลภาพและวิดีโอเพิ่มมากขึ้น
  • การใช้ข้อมูลมี 2 ขั้นตอน
    1. บันทึกข้อมูลในรูปแบบดิจิทัลและทำให้สามารถสังเกตได้
    2. พัฒนาไปสู่การใช้ข้อมูลเพื่อเรียนรู้และค้นหารูปแบบ
  • AI และแมชชีนเลิร์นนิงที่มีข้อมูลเป็นฐาน
    • ข้อมูลที่มีปริมาณมากขึ้นและมีคุณภาพดีขึ้นช่วยสนับสนุนการค้นหารูปแบบใหม่และการพัฒนาอัลกอริทึม
    • ตัวอย่าง: การตรวจหามะเร็ง, อัลกอริทึมแนะนำของ Spotify, ข้อมูลฝึกของ ChatGPT
  • ลำดับชั้นวิทยาการข้อมูลของ Monica Rogati
    • ความสามารถขั้นสูงของวิทยาการข้อมูลต้องอาศัยรากฐานข้อมูลที่แข็งแรง
    • การลงทุนด้านโครงสร้างพื้นฐานข้อมูลอย่างชาญฉลาดคือฐานสำหรับการสร้างความสามารถระดับสูงขึ้นไป
  • การใช้ข้อมูลเพื่อคุณค่าทางสังคม
    • รัฐบาลและองค์กรขนาดใหญ่เปิดเผยข้อมูลสาธารณะมากขึ้น
    • ประเภทข้อมูลที่ DrivenData นำมาใช้ ได้แก่:
      • ข้อมูลสภาพอากาศ ข้อมูลการจราจร และข้อมูล OpenStreetMap: สำหรับการวางแผนการเดินอากาศและการสนับสนุนความยืดหยุ่นต่อภัยพิบัติ
      • ภาพถ่ายดาวเทียม: สำหรับการทำแผนที่ขอบเขตน้ำท่วมและการประเมินชีวมวลป่าไม้
      • ข้อมูลธุรกรรมบนมือถือ: สำหรับวิเคราะห์พฤติกรรมและทัศนคติทางการเงิน
      • ข้อมูลแบบสำรวจ: สำหรับข้อมูลเชิงลึกด้านความคิดเห็นและพฤติกรรมในวงกว้าง
      • ไฟล์บันทึกเสียง: สำหรับจำแนกระดับการรู้หนังสือของเด็ก
      • ภาพความละเอียดสูง: สำหรับทำนายโอกาสการกลับมาเป็นซ้ำของมะเร็งผิวหนังชนิดเมลาโนมา
      • ข้อมูลข้อความ: สำหรับวิเคราะห์แนวคิดทางคลินิกจากบันทึกความเห็นของแพทย์โดยอัตโนมัติ
  • ความสำคัญของการเข้าถึงและการใช้งานข้อมูลได้จริง
    • การเปิดเผยข้อมูลเพียงอย่างเดียวไม่เพียงพอ
    • หากมีรูปแบบที่เครื่องอ่านได้ เอกสารประกอบที่ชัดเจน และกรณีการใช้งานที่ชัดเจน ก็จะช่วยเพิ่มการมีส่วนร่วมและการใช้งาน
    • หลายองค์กรลงทุนกับการเก็บข้อมูล แต่กลับละเลยการลงทุนเพิ่มเติมเพื่อให้ข้อมูลนั้นถูกนำไปใช้
    • การจัดทำเอกสารข้อมูลและตัวอย่างการประยุกต์ใช้มีความสำคัญไม่แพ้เงินรางวัลของการแข่งขัน

ความพยายามจะประสบความสำเร็จมากที่สุดเมื่อมุ่งไปที่ปัญหาเฉพาะและความต้องการของมนุษย์

  • กับดักของแนวทางที่ยึดเทคโนโลยีเป็นศูนย์กลาง
    • องค์กรที่มุ่งสร้างผลกระทบทางสังคมมักพยายามตามให้ทันเทรนด์เทคโนโลยีล่าสุด
    • แม้ "Big Data" และเครื่องมือ AI จะดูเหมือนเป็นคำตอบสารพัดนึก แต่ในความเป็นจริงจะมีประสิทธิภาพเมื่อมุ่งแก้ปัญหาที่เฉพาะเจาะจง
  • หัวใจสำคัญของการออกแบบโครงการที่ประสบความสำเร็จ
    • กำหนดผู้ใช้และปัญหาให้ชัดเจน พร้อมตั้งเป้าหมายที่วัดผลได้เพื่อแก้ปัญหานั้น
    • ใช้เครื่องมือการออกแบบที่ยึดมนุษย์เป็นศูนย์กลางเพื่อทำความเข้าใจว่าอะไรคือ "สิ่งที่ผู้คนต้องการ" และพัฒนาโซลูชันที่ก้าวข้ามสิ่งที่ "เป็นไปได้" ทางเทคนิค
  • กรณีตัวอย่างที่เป็นรูปธรรม
    • การตรวจจับน้ำเขียวจากสาหร่าย (CyFi)
      • ร่วมมือกับ NASA เพื่อตรวจจับการเกิดน้ำเขียวจากไซยาโนแบคทีเรียที่เป็นอันตรายผ่านภาพถ่ายดาวเทียม
      • ช่วยให้ผู้จัดการด้านทรัพยากรน้ำประเมินสถานะน้ำเขียวได้อย่างแม่นยำและจัดสรรทรัพยากรได้อย่างมีประสิทธิภาพ
    • การระบุชนิดสัตว์ป่า (Zamba)
      • ร่วมมือกับสถาบัน Max Planck เพื่อพัฒนาเครื่องมือระบุสัตว์อัตโนมัติโดยใช้ข้อมูลจากกล้องดักถ่าย
      • เพิ่มความสะดวกในการใช้งานด้วย Zamba Cloud ที่ปรับปรุง UI โดยสะท้อนข้อเสนอแนะจากนักวิจัย
  • ความสำคัญของมุมมองผู้ใช้
    • การนิยามปัญหา
      • ทำความเข้าใจปัญหาและความต้องการให้ชัดเจนผ่านการสัมภาษณ์ผู้ใช้และการรับฟังความคิดเห็น
      • สะท้อนมุมมองความเป็นมนุษย์ที่อยู่เบื้องหลังจุดข้อมูล
    • การส่งมอบโซลูชัน
      • จำเป็นต้องมีการทดสอบ UI/UX และการสื่อสารที่ชัดเจน เพื่อให้ผู้ใช้สามารถใช้โซลูชันได้อย่างมีประสิทธิภาพและเข้าใจประโยชน์ของมัน
      • ช่วยให้เข้าใจจุดแข็งและข้อจำกัดของโมเดลได้อย่างเป็นธรรมชาติ และอธิบายวิธีใช้งานผ่านกรณีตัวอย่างจริง
  • บทสรุป
    • บทบาทของนักวิทยาศาสตร์ข้อมูลคือการเชื่อมโยงความสามารถทางเทคนิคเข้ากับความต้องการของสังคม
    • โครงการที่มีประสิทธิภาพที่สุดคือโครงการที่ไม่หมกมุ่นกับเทคโนโลยีล่าสุด แต่โฟกัสที่การแก้ปัญหาและผลลัพธ์ที่เป็นรูปธรรม

โซลูชันจะมีประสิทธิภาพที่สุดเมื่อผสานจุดแข็งของเครื่องจักรและมนุษย์

  • ความเสี่ยงของความคาดหวังเกินจริงต่อ AI
    • โมเดลวิทยาการข้อมูลและ AI ไม่ได้ทรงพลังรอบด้าน และทุกโมเดลต่างมีข้อจำกัดอยู่ในระดับหนึ่ง
    • การนำ AI มาใช้เพียงอย่างเดียวไม่ได้รับประกันความสำเร็จ
    • โซลูชันที่ดีที่สุดมาจากระบบที่ผสานจุดแข็งของเครื่องจักรและมนุษย์เข้าด้วยกัน
  • กรณีของเครื่องมือ Zamba
    • Zamba ทำนายแบบความน่าจะเป็นว่ามีสัตว์อยู่ในวิดีโอจากกล้องดักถ่ายสัตว์ป่าหรือไม่
    • โมเดลอาจผิดพลาดได้ในบางครั้ง แต่ความน่าจะเป็นที่ให้มาช่วยให้สามารถวางกลยุทธ์การตรวจทานได้อย่างมีประสิทธิภาพ
      • ตัวอย่าง: ตรวจทานวิดีโอที่มีโอกาสพบชิมแปนซีสูงก่อน หรือกำหนดค่าเกณฑ์ความน่าจะเป็นเพื่อจัดเป็นวิดีโอว่าง
      • ผลลัพธ์คือสามารถระบุวิดีโอชิมแปนซีได้ 85% โดยตรวจทานวิดีโอน้อยกว่า 5% ของทั้งหมด
  • ผลลัพธ์ของความร่วมมือระหว่างเครื่องจักรกับมนุษย์
    • กรณี AI คัดกรองมะเร็งเต้านม: เมื่อรังสีแพทย์และ AI ทำงานร่วมกัน จะได้ความแม่นยำสูงกว่าการทำงานของแต่ละฝ่ายเพียงลำพัง
    • เน้นความสำคัญของการตีความและการอธิบายผลของ AI: ต้องให้ข้อมูลที่ช่วยให้มนุษย์ประเมินผลลัพธ์ของ AI และนำไปผสานกับบริบทได้
      • ตัวอย่าง: ในการแข่งขันระบุวาฬ มีการแสดงภาพคุณลักษณะที่โมเดลใช้จับคู่ปลาวาฬแต่ละตัว
  • รูปแบบที่คล้ายกันใน Generative AI
    • ฟีดแบ็กจากมนุษย์เป็นสิ่งจำเป็นต่อการพัฒนาเครื่องมือที่มีประโยชน์อย่าง ChatGPT
    • ข้อมูลฟีดแบ็กช่วยปรับปรุงให้โมเดลเรียนรู้กรณีที่ยากขึ้นเรื่อย ๆ ได้
  • การประเมินต้นทุนของข้อผิดพลาดและจุดที่ต้องปรับปรุง
    • ปรับปรุงการออกแบบระบบด้วยคำถาม 2 ข้อ:
      1. "ถ้ามีโมเดลที่สมบูรณ์แบบ เราจะใช้อย่างไร?"
      2. "ถ้าโมเดลนั้นผิดพลาดเป็นครั้งคราว เราจะรับมืออย่างไร?"
    • เพื่อให้เข้าใจขอบเขตการยอมรับข้อผิดพลาดของระบบและจุดที่ต้องมีการตรวจทานโดยมนุษย์
  • บทเรียนสำหรับองค์กร
    • กรณีรัฐบาลเนเธอร์แลนด์ในปี 2021: มี 26,000 ครัวเรือนถูกกล่าวหาว่าฉ้อโกงสวัสดิการสังคมอย่างผิดพลาดจากอัลกอริทึมที่ไม่เหมาะสม
    • การพึ่งพาอัลกอริทึมโดยไม่มีการตรวจทานจากมนุษย์อย่างเหมาะสมก่อให้เกิดต้นทุนทางสังคมสูง
    • ในทางกลับกัน การผสานจุดแข็งของอัลกอริทึมและมนุษย์สามารถเพิ่มทั้งประสิทธิภาพและประสิทธิผลได้สูงสุด

มุมมองแบบสหสาขาและความยืดหยุ่นช่วยให้องค์กรได้ประโยชน์

  • ประสบการณ์โครงการที่ครอบคลุมหลายสาขา
    • การทำงานในหลายด้าน เช่น การเข้าถึงบริการทางการเงิน การรับมือการเปลี่ยนแปลงสภาพภูมิอากาศ และการดูแลสุขภาพ ทำให้เห็นประโยชน์ของมุมมองแบบสหสาขา
    • รูปแบบของแมชชีนเลิร์นนิงในบริบทหนึ่งสามารถขยายไปประยุกต์ใช้กับสาขาอื่นได้
      • ตัวอย่าง: การประยุกต์ข้ามกันระหว่างโมเดลคอมพิวเตอร์วิทัศน์เพื่ออนุรักษ์ป่าสาหร่ายเคลป์ กับโมเดลสำหรับตรวจหารอยโรคในชิ้นเนื้อปากมดลูก
  • ความยืดหยุ่นของแนวทาง
    • ปัญหาที่ต่างกันมากอย่างการตรวจพบศัตรูพืชในพืชผลตั้งแต่ระยะแรก และการดึงทักษะจากเรซูเม่ ต่างก็อิงอยู่บนการรู้จำชื่อเฉพาะ (NER)
    • สามารถนำบทเรียนและประสบการณ์จากแนวทางเดิมไปใช้กับปัญหาอื่นได้ด้วยต้นทุนที่ต่ำกว่า
  • กรณีตัวอย่างที่เป็นรูปธรรม
    • แนวทางการประมวลผลภาษาธรรมชาติที่รู้จำพืชผล ศัตรูพืช โรค และสารเคมีจากข้อความ WhatsApp
    • ช่วยให้เกษตรกรรายย่อยมองเห็นแนวโน้มใหม่ ๆ และปรับปรุงคำแนะนำที่อิงวิทยาศาสตร์ได้ดีขึ้น
  • ความสมดุลระหว่างความเชี่ยวชาญกับมุมมองผู้ใช้
    • การทำงานร่วมกับผู้เชี่ยวชาญเฉพาะด้านช่วยให้มั่นใจว่ามีบริบทที่เหมาะสมกับปัญหา
    • รวมมุมมองของผู้ใช้ไว้ในกระบวนการวิทยาการข้อมูลเพื่อออกแบบโซลูชันที่เหมาะสม
  • การค้นหา "งานที่คุ้มค่าจะทำ"
    • ความเชี่ยวชาญทางเทคนิคเพียงอย่างเดียวไม่เพียงพอ แต่ต้องมีความเห็นอกเห็นใจ การสื่อสาร ความใฝ่รู้ และความยืดหยุ่น
    • ระดมความคิดเพื่อหาขอบเขตที่แมชชีนเลิร์นนิงจะเพิ่มคุณค่าได้ พร้อมทำความเข้าใจอย่างลึกซึ้งว่าแนวทางนั้นมีไว้เพื่อใครและจะถูกใช้อย่างไร
  • การตอบโจทย์ความต้องการที่หลากหลายขององค์กร
    • ความต้องการของแต่ละองค์กรแตกต่างกัน ตั้งแต่งานวิจัยเชิงสำรวจไปจนถึงการทำต้นแบบและการนำขึ้นสู่การใช้งานจริง
    • ร่วมมือกับพาร์ตเนอร์ที่หลากหลาย ตั้งแต่องค์กรผู้ให้ข้อมูลขนาดใหญ่ (เช่น Candid, NASA) ไปจนถึงองค์กรที่เพิ่งเริ่มสร้างระบบข้อมูล
    • สิ่งสำคัญคือการรักษาความเหมาะสมของเทคโนโลยีไว้ พร้อมดึงความยืดหยุ่นจากประสบการณ์ที่หลากหลาย

ส่วนที่ยังคงท้าทาย

วิทยาการข้อมูลเป็นงานแบบวนซ้ำ และภาคสังคมยังลงทุนใน R&D ไม่เพียงพอ

  • ธรรมชาติและคุณค่าของ R&D
    • การวิจัยและพัฒนาเป็นกระบวนการเรียนรู้ที่ต้องอาศัยการลงทุนด้านทุน การทดลอง การทบทวน และความพร้อมที่จะยอมรับความล้มเหลว
    • แนวทางที่ต้องการความแน่นอนและผลระยะสั้นมีข้อจำกัดในการรับมือกับขอบเขตปัญหาที่ภาคสังคมต้องแก้ไข
    • การลงทุนระยะยาวและนวัตกรรมที่ไม่เป็นเส้นตรงคือสิ่งที่สร้างผลลัพธ์สำคัญ
  • การลงทุน R&D ที่ไม่เพียงพอในภาคสังคม
    • จากการสำรวจของ NSF ในปี 2022 พบว่า 94% ขององค์กรไม่แสวงหากำไรขนาดใหญ่ไม่ได้ทำกิจกรรม R&D เลย
    • แม้ว่าวิทยาการข้อมูลจะเป็นกิจกรรมด้าน R&D เป็นหลัก แต่การลงทุนในด้านนี้ยังมีไม่เพียงพอ
  • ลักษณะการทำงานแบบวนซ้ำของวิทยาการข้อมูล
    • วิทยาการข้อมูลใช้การเรียนรู้แบบวนซ้ำและวงจรฟีดแบ็กเพื่อสร้างผลลัพธ์ที่ดีที่สุดและปรับปรุงประสิทธิภาพของบริการ
    • ใช้เฟรมเวิร์กที่เน้นการทำซ้ำ เช่น หลักสูตรวิทยาการข้อมูลของ Harvard และ CRISP-DM (กระบวนการมาตรฐานสำหรับการทำเหมืองข้อมูล)
  • ความสำคัญของวิทยาการข้อมูลที่ยึดมนุษย์เป็นศูนย์กลาง
    • กระบวนการเรียนรู้มุ่งเน้นที่การออกแบบโซลูชันที่มีประสิทธิภาพ และผสานเข้ากับเฟรมเวิร์กนวัตกรรมที่ทำซ้ำได้
    • การออกแบบที่ยึดมนุษย์เป็นศูนย์กลางช่วยเสริมความเชื่อมโยงระหว่างความต้องการจริงกับโซลูชัน
  • กรณีความสำเร็จด้าน R&D ของภาคเอกชน
    • บริษัทเอกชนตระหนักอย่างชัดเจนถึงคุณค่าของการใช้ข้อมูลผ่านกระบวนการ R&D
    • ตัวอย่างนวัตกรรม AI ในช่วงหลังเป็นผลลัพธ์ที่คงเป็นไปไม่ได้หากไม่มีการลงทุน R&D อย่างต่อเนื่อง
  • บทสรุป
    • แม้ผลลัพธ์เริ่มต้นของโครงการ Data R&D จะไม่แน่นอน แต่กระบวนการสร้างคุณค่าจากข้อมูลนั้นเป็นวิธีการที่พิสูจน์แล้ว
    • การลงทุนใน R&D อย่างต่อเนื่องและระยะยาวเป็นสิ่งจำเป็นในการเร่งนวัตกรรมและแก้โจทย์ท้าทายของภาคสังคม

การจ้างและสนับสนุนนักวิทยาศาสตร์ข้อมูลเป็นเรื่องยาก และนักวิทยาศาสตร์ข้อมูลที่ทำงานเพียงลำพังมีความพึงพอใจต่ำ

  • ความยากจากมุมมองขององค์กร
    • การจ้างงาน
      • ยากที่จะระบุและประเมินผู้สมัครที่เหมาะสมเมื่อเดิมไม่มีนักวิทยาศาสตร์ข้อมูลอยู่ในองค์กร
      • คำว่า "นักวิทยาศาสตร์ข้อมูล" มีความหมายไม่ชัดเจน เพราะครอบคลุมทักษะและประสบการณ์ที่หลากหลาย
    • การดึงดูดและรักษาบุคลากร
      • ความต้องการนักวิทยาศาสตร์ข้อมูลที่สูงทำให้เกิดตลาดแรงงานที่มีการแข่งขันสูง
      • นอกเหนือจากแรงจูงใจในการแก้ปัญหาสังคมแล้ว ยังต้องมีงานด้านเทคนิคที่น่าสนใจ ค่าตอบแทนที่แข่งขันได้ และโอกาสพัฒนาความเชี่ยวชาญ
      • ในการจ้างงานช่วงเริ่มต้น การมีองค์ประกอบเหล่านี้ยิ่งทำได้ยากกว่าเดิม
    • การบริหารและการสนับสนุน
      • องค์กรต้องกำหนดขอบเขตปัญหาให้ชัดเจน และจัดหาทิศทาง โครงสร้างพื้นฐาน และข้อมูล เพื่อให้นักวิทยาศาสตร์ข้อมูลรักษาประสิทธิภาพการทำงานได้
      • หากขาดพื้นฐานด้านเทคนิค ก็มีแนวโน้มจะประเมินความยากของงานต่ำหรือสูงเกินไปได้ง่าย
  • ความยากจากมุมมองของนักพัฒนา
    • การเรียนรู้และการเติบโต
      • วิทยาการข้อมูลเป็นสาขาที่พัฒนาอย่างรวดเร็ว โอกาสในการเรียนรู้และเติบโตภายในทีมจึงมีความสำคัญ
      • ในสภาพแวดล้อมที่ทำ code review ให้ feedback ต่อโมเดล หรือแบ่งเบาภาระงานได้ยาก โอกาสในการเติบโตก็จะถูกจำกัด
    • การขาดทิศทางและการสนับสนุน
      • หากงานไม่ได้รับการสนับสนุนอย่างเหมาะสม ความพึงพอใจและประสิทธิภาพการทำงานของนักวิทยาศาสตร์ข้อมูลจะลดลง
    • ความสนุกของงาน
      • กระบวนการพูดคุยและแก้ปัญหาร่วมกับเพื่อนร่วมงานช่วยเพิ่มความพึงพอใจในการทำงาน
      • แม้จะอาศัยเครือข่ายภายนอกเพื่อแก้ปัญหานี้ได้ แต่ความร่วมมือภายในองค์กรมักมีประสิทธิภาพมากกว่า
  • สัญญาณของการเปลี่ยนแปลง
    • ช่วงหลังมานี้มีกรณีขององค์กรในภาคสังคมที่ตั้งทีมข้อมูลภายในองค์กรเองเพิ่มขึ้น
    • DrivenData เข้าร่วมเป็นพาร์ตเนอร์ที่ช่วยสนับสนุนการจ้างงานนักวิทยาศาสตร์ข้อมูลและวิศวกรชุดแรก การ onboarding และการเปลี่ยนผ่านงาน
    • แนวทางการทำงานร่วมกับทีมผู้เชี่ยวชาญด้านวิทยาการข้อมูลจากภายนอกเพื่อเสริมขีดความสามารถอย่างยืดหยุ่น เป็นประโยชน์ต่อทั้งองค์กรและนักวิทยาศาสตร์ข้อมูล
  • แนวโน้มในอนาคต
    • แม้บางองค์กรจะเริ่มประสบความสำเร็จในการสร้างทีมข้อมูล แต่ความต้องการทักษะด้านวิทยาการข้อมูลก็ยังคงสูง
    • ความท้าทายในการสร้างทีมข้อมูลขึ้นมาตั้งแต่ต้นคาดว่าจะยังคงดำเนินต่อไป

โอเพนซอร์สยังพัฒนาโซลูชันสำหรับผู้ที่ไม่ใช่นักพัฒนาได้ไม่เพียงพอ

  • ข้อจำกัดของโอเพนซอร์ส
    • ซอฟต์แวร์โอเพนซอร์สมักพัฒนาได้อย่างมีประสิทธิภาพ เพราะชุมชนนักพัฒนามักเป็นผู้ใช้กลุ่มเดียวกัน
    • ผู้มีส่วนร่วมมีแรงจูงใจในการปรับปรุงเครื่องมือที่ตนเองจะใช้งาน
    • แต่สำหรับเครื่องมือที่มุ่งเป้าไปยังผู้ที่ไม่ใช่นักพัฒนาหรือผู้ที่ไม่ใช่ผู้เชี่ยวชาญ แรงจูงใจลักษณะนี้มักไม่เกิดขึ้น
  • ความท้าทายของเครื่องมือสำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญ
    • ในโครงการวิทยาการข้อมูล มักมีการพัฒนาวิธีการและเครื่องมือสำหรับผู้ที่ไม่ใช่นักพัฒนา
    • แม้จะเผยแพร่เป็นโอเพนซอร์ส หากไม่มีการลงทุนและพัฒนาอย่างต่อเนื่อง โครงการก็อาจหยุดนิ่งหรือยุติลง
    • หากจะพัฒนาไปเป็นโซลูชันที่ประสบความสำเร็จจริง หลังจากขั้นต้นแบบแล้วก็ยังต้องมีการพัฒนาเพิ่มเติมและการทดสอบนำร่องที่สอดคล้องกับการใช้งานจริง
  • กรณีศึกษาเฉพาะ: Concept to Clinic
    • ในปี 2017-18 มีการพัฒนาแอปพลิเคชันแบบเปิดที่ใช้ AI เพื่อช่วยนักรังสีเทคนิคประมวลผล CT scan
    • มีการนำระบบแรงจูงใจเชิงโครงสร้างมาใช้ โดยมอบคะแนนและรางวัลเป็นเงินแก่ผู้มีส่วนร่วมเพื่อกระตุ้นการร่วมพัฒนา
    • หากไม่มีแนวทางนี้ ก็มีความเป็นไปได้สูงว่าโครงการจะไม่สามารถพัฒนาต่อได้
  • เงื่อนไขสู่ความสำเร็จของโอเพนซอร์สอย่างยั่งยืน
    • การเปิดเป็นโอเพนซอร์สเพียงอย่างเดียว ไม่อาจรับประกันอิทธิพลระยะยาวได้
    • หากจะพัฒนาจากต้นแบบไปเป็นโซลูชันสำหรับผู้ใช้ปลายทาง ต้องมีโรดแมปที่ชัดเจนและการสนับสนุนเงินทุนอย่างต่อเนื่อง
    • เมื่อต้องพัฒนาแอปพลิเคชันสำคัญ โอเพนซอร์สเป็นเพียงส่วนหนึ่งของการเดินทาง ไม่ควรกลายเป็นเป้าหมายสุดท้าย

กระแส hype ทางเทคโนโลยีได้รับความสนใจมากเกินไป

  • ภาคสังคมกับนวัตกรรมทางเทคโนโลยี
    • ในช่วง 10 ปีที่ผ่านมา ภาคสังคมมีความเกี่ยวข้องอย่างใกล้ชิดกับคลื่นของนวัตกรรมเทคโนโลยีใหม่ ๆ
    • องค์กรมักถูกดึงดูดให้รับเทคโนโลยีใหม่มาใช้เพื่อเพิ่มประสิทธิภาพภายใต้ทรัพยากรที่จำกัด
    • แรงกดดันว่าหากไม่ตามกระแสเทคโนโลยีล่าสุดจะล้าหลัง ทำให้หลายองค์กรเปลี่ยนกลยุทธ์อยู่บ่อยครั้ง
  • ปัญหาของการนำเทคโนโลยีที่ถูกโหมเกินจริงมาใช้
    • เป็นเรื่องยากที่จะคัดแยกนวัตกรรมแกนหลักออกจากกระแส hype ทางเทคโนโลยี
    • การนำเทคโนโลยีมาใช้มักนำไปสู่ความคาดหวังที่สูงเกินจริงและการดำเนินการที่ไม่เพียงพอ
    • ตัวอย่าง:
      • บล็อกเชน: แม้ความคาดหวังจะสูง แต่ประโยชน์เชิงรูปธรรมต่อภาคสังคมกลับมีน้อยมาก
      • แอปมือถือ: แม้ไม่จำเป็นเสมอไป แต่แรงกดดันว่าเป็น "สิ่งจำเป็น" ทำให้เกิดการใช้จ่ายอย่างไม่มีประสิทธิภาพ
  • ความสำคัญขององค์กรเทคโนโลยีเฉพาะทาง
    • องค์กรผู้เชี่ยวชาญด้านเทคโนโลยีที่สามารถรับมือกับกระแส hype ได้อย่างมีประสิทธิภาพ มักสร้างผลงานได้ดีที่สุด
    • DrivenData ทำงานร่วมกับ DataKind, DSSG Fellowship, Delta Analytics และอื่น ๆ โดยอาศัยความเชี่ยวชาญด้านเทคโนโลยี
    • อย่างไรก็ตาม แม้แต่กลุ่มผู้เชี่ยวชาญเหล่านี้ก็ยังยากที่จะสะสมบทเรียนจากกระแส hype ในอดีตไว้อย่างเป็นระบบ
  • การเปลี่ยนแปลงที่จำเป็น: ‘เขื่อนกันคลื่น’ สำหรับรับมือ hype ทางเทคโนโลยี
    • จำเป็นต้องมีขีดความสามารถในการแยกนวัตกรรมที่ใช้ได้จริงออกจากความคาดหวังที่เกินจริง และระบุพัฒนาการสำคัญให้ได้
    • ภาวะผู้นำด้านเทคโนโลยีที่เข้าใจทั้งเทคโนโลยีล้ำสมัยและมีมุมมองเชิงลึกต่อภาคสังคมเป็นสิ่งจำเป็น
    • ปัจจุบันยังขาดทั้งภาวะผู้นำและระบบนิเวศลักษณะนี้ และจำเป็นต้องสร้างขึ้นเพื่อให้เกิดแนวทางที่ยั่งยืนและเป็นผู้ใหญ่มากขึ้น
  • แนวทางเชิงกลยุทธ์ต่อเทคโนโลยีสมัยใหม่อย่าง AI
    • AI มีศักยภาพมหาศาล แต่สิ่งที่ต้องการไม่ใช่แค่ความตื่นเต้น หากเป็นกลยุทธ์ที่รอบคอบและความเชี่ยวชาญเชิงลึก
    • หากไม่สร้างรากฐานด้านข้อมูลที่แข็งแรง ก็เสี่ยงจะวนกลับเข้าสู่วงจรที่ไร้ประสิทธิภาพจากกระแส hype ทางเทคโนโลยีซ้ำอีก
    • หากไม่มีการลงทุนและการวางแผนในระดับพื้นฐาน นวัตกรรมเทคโนโลยีในภาคสังคมก็ยากจะสร้างผลลัพธ์ที่แท้จริงได้

วิทยาการข้อมูลและ AI มีนัยด้านจริยธรรมสูง แต่การนำมาใช้อย่างรวดเร็วกลับแซงหน้าเครื่องมือและแนวปฏิบัติที่รองรับ

  • การขยายตัวของวิทยาการข้อมูลและ AI กับความสำคัญด้านจริยธรรม
    • วิทยาการข้อมูลและแมชชีนเลิร์นนิงถูกผสานเข้าไปในหลากหลายสาขา เช่น การแพทย์ การรับมือภัยพิบัติ และการตัดสินคดีอาญา
    • ความเสี่ยงจากการใช้งานที่ผิดพลาดจึงสูงกว่าที่เคยเป็นมาอย่างมาก
  • ความเป็นจริงที่ยังขาดการพิจารณาด้านจริยธรรม
    • นักวิทยาศาสตร์ข้อมูลมีมุมมองเฉพาะตัวในการทำความเข้าใจนัยด้านจริยธรรมของโมเดลและ pipeline
    • อย่างไรก็ตาม มุมมองเหล่านี้มักไม่ถูกบูรณาการเข้าไปในวงจรชีวิตของโครงการวิทยาการข้อมูล
  • การพัฒนาเช็กลิสต์โอเพนซอร์สเพื่อรับมือกับ trade-off ด้านจริยธรรม
    • มีการบูรณาการเข้ากับเวิร์กโฟลว์ด้านวิทยาการข้อมูล เพื่อให้สามารถอภิปราย trade-off ทางจริยธรรมได้
    • หลักการสำคัญ:
      • การตัดสินใจทางจริยธรรมควรมุ่งรับรู้ trade-off ที่สำคัญที่สุดในบริบทเฉพาะ พร้อมเดินหน้าอย่างมีความรับผิดชอบและลดอันตรายให้น้อยที่สุด
      • ปัญหาด้านจริยธรรมเกิดขึ้นได้ในทุกช่วงของโครงการ ไม่ว่าจะเป็นการเก็บข้อมูล การจัดเก็บ การวิเคราะห์ การสร้างแบบจำลอง หรือการนำไปใช้งาน
      • การอภิปรายด้านจริยธรรมมักถูกลดลำดับความสำคัญลงเพราะกำหนดการที่เร่งด่วนและข้อเรียกร้องต่าง ๆ
      • เพื่อป้องกันสิ่งนี้ ต้องบูรณาการคำถามด้านจริยธรรมเข้ากับมิติอื่นของเวิร์กโฟลว์ และกันเวลาไว้โดยตั้งใจ
  • ความเป็นธรรมของอัลกอริทึมและการบรรเทาอคติ
    • โมเดลที่เรียนรู้จากข้อมูลที่มีอคติย่อมผลิตซ้ำความไม่เท่าเทียม จึงมีการพัฒนาเทคนิคเพื่อระบุและบรรเทาปัญหานี้
    • ตัวอย่าง: การทำงานร่วมกับ Wellcome Trust เพื่อจัดทำกรณีการบรรเทาอคติโดยคำนึงถึงความเป็นธรรมในโมเดลพยากรณ์ความเครียดทางจิตใจ
      • วิเคราะห์อคติผ่านตัวชี้วัดความเป็นธรรมเชิงปริมาณ และเสนอวิธีการบรรเทา
  • ความสำคัญของการพิจารณาด้านจริยธรรมในยุค AI
    • ในขณะที่ AI แพร่กระจายอย่างรวดเร็ว หลายบริษัทกลับยุบทีม responsible AI เพื่อลดต้นทุน
    • ในภาคสังคม ความรับผิดชอบต่อผู้รับประโยชน์มีสูงกว่า ทำให้ต้นทุนของความล้มเหลวด้านจริยธรรมรุนแรงยิ่งกว่า
    • หากไม่เสริมความแข็งแกร่งให้แนวปฏิบัติด้านจริยธรรม การนำ AI มาใช้ก็เสี่ยงจะก่อปัญหาที่ใหญ่กว่าเดิม
  • บทสรุป
    • การสร้างเครื่องมือและแนวปฏิบัติด้านจริยธรรมเพื่อรองรับการนำ AI มาใช้ มีความสำคัญกว่าที่เคย
    • ต้องรับประกันความไว้วางใจและความยั่งยืนในภาคสังคมผ่านการใช้เทคโนโลยีอย่างมีความรับผิดชอบ

แนวโน้มต่อจากนี้

  • การเปลี่ยนแปลงและโอกาสของวิทยาการข้อมูล
    • ตลอด 10 ปีที่ผ่านมา วิทยาการข้อมูลได้ขับเคลื่อนการเปลี่ยนแปลงสำคัญในภาคส่วนเพื่อสังคม พร้อมทั้งเผชิญทั้งความสำเร็จและความท้าทาย
    • แม้การตระหนักถึงศักยภาพของข้อมูลและ AI จะเพิ่มสูงขึ้น แต่ก็ยังมีคำถามสำคัญที่ต้องหาคำตอบ:
      • จะนำความก้าวหน้าทางเทคโนโลยีที่เกิดขึ้นอย่างต่อเนื่องไปประยุกต์ใช้กับปัญหาสังคมที่ใหญ่ที่สุดได้อย่างเป็นรูปธรรมอย่างไร?
      • จะรับประกันได้อย่างไรว่าผลประโยชน์จะไม่กระจุกตัวอยู่แค่ในบริษัทยักษ์ใหญ่ไม่กี่แห่ง?
      • จะทำให้การนำเทคโนโลยีไปใช้อย่างมีความรับผิดชอบต่อธรรมชาติและมนุษยชาติเป็นจริงได้อย่างไร?
  • ความสำคัญของบทเรียนที่ได้จากประสบการณ์
    • ความพยายามที่ตั้งอยู่บนบทเรียนจากประสบการณ์ที่ผ่านมาให้ผลลัพธ์ที่ยิ่งใหญ่ที่สุด
    • DrivenData ภาคภูมิใจที่ได้เป็นส่วนหนึ่งของชุมชนพันธมิตร ลูกค้า และนักพัฒนาที่ใช้ข้อมูลและ AI เพื่อประโยชน์ต่อสังคม
    • หากคุณสนใจประเด็นคล้ายกันหรือมีแนวคิดเพิ่มเติม ก็ยินดีให้แบ่งปัน
  • ความคาดหวังต่ออนาคต
    • หาก 10 ปีที่ผ่านมาโดดเด่นเพียงใด 10 ปีข้างหน้าก็คาดว่าจะนำมาซึ่งการเปลี่ยนแปลงที่ยิ่งใหญ่ยิ่งกว่า
    • ยังมีงานอีกมากที่ต้องทำ และยังมีอีกมากที่ต้องเรียนรู้
    • เราตั้งตารออนาคตที่จะเผชิญกับความท้าทายเหล่านี้ ค้นหาความเป็นไปได้ใหม่ ๆ และสร้างผลกระทบทางสังคมที่ดียิ่งขึ้น

1 ความคิดเห็น

 
halfenif 2025-01-23

"ผู้มีความสามารถที่ดีที่สุดในรุ่นของฉันกำลังทุ่มความคิดไปกับการทำให้ผู้คนคลิกโฆษณา… น่าหงุดหงิดจริง ๆ"

พอมาคิดดูแล้วก็จริงนะครับ