10 ปีของบทเรียนด้านวิทยาการข้อมูลเพื่อประโยชน์ต่อสังคม
(drivendata.co)- เมื่อ DrivenData เริ่มต้นขึ้นในปี 2014 การนำวิทยาการข้อมูลมาใช้เพื่อประโยชน์ต่อสังคมยังอยู่ในระยะเริ่มต้น
- ในเวลานั้น เทคโนโลยีด้านวิทยาการข้อมูลถูกใช้เป็นหลักในบริษัทอย่าง Netflix และ Amazon เพื่อการตลาดและการแนะนำคอนเทนต์ ขณะที่แทบไม่มีกรณีการใช้งานสำหรับองค์กรไม่แสวงหากำไร NGO กิจการเพื่อสังคม หรือบริการภาครัฐ
- เป้าหมายและภูมิหลังในช่วงเริ่มต้น
- บุคลากรด้านวิทยาการข้อมูลมีอยู่น้อยมากและมีต้นทุนการจ้างงานสูง และช่องว่างนี้ยิ่งรุนแรงกว่าเดิมในองค์กรที่ทำงานกับปัญหาสังคม
- เริ่มต้นจาก Harvard Innovation Lab โดยมีเป้าหมายเพื่อลดช่องว่างด้านทักษะวิทยาการข้อมูลสำหรับการแก้ปัญหาสังคม
- เป้าหมายคือการใช้เทคโนโลยีล้ำสมัยด้านวิทยาการข้อมูลและ crowdsourcing เพื่อแก้โจทย์ทางสังคมสำคัญของโลก
- คำพูดอ้างอิง 2 ประโยคที่สะท้อนมุมมองในเวลานั้น
- "การทำให้ Big Data มีประโยชน์ต่อการตัดสินใจด้านมนุษยธรรมคือความท้าทายและโอกาสสำคัญของยุคเครือข่าย" – UN OCHA
- "คนเก่งที่สุดในรุ่นของผมกำลังทุ่มความคิดไปกับการทำให้ผู้คนคลิกโฆษณา… มันน่าหงุดหงิดจริง ๆ" – Jeff Hammerbacher อดีตผู้จัดการข้อมูลของ Facebook
- ความเปลี่ยนแปลงตลอด 10 ปีที่ผ่านมา
- มีความพยายามหลากหลายในการประยุกต์ใช้วิทยาการข้อมูลและ AI เพื่อสร้างผลกระทบทางสังคม
- ร่วมงานกับพาร์ตเนอร์กว่า 80 รายในโครงการมากกว่า 150 โครงการ (เช่น ธนาคารโลก มูลนิธิ Bill & Melinda Gates และ NASA)
- จัดการแข่งขันด้านวิทยาการข้อมูลมากกว่า 75 รายการ พร้อมเงินรางวัลรวมกว่า $4.7 ล้าน
- ตลอด 10 ปีที่ผ่านมา DrivenData ได้สั่งสมแนวปฏิบัติที่ดีและบทเรียนจากการขับเคลื่อนประโยชน์สาธารณะผ่านวิทยาการข้อมูล
- ณ จุดนี้ ต้องการชวนคิดร่วมกันว่าอะไรได้ผล อะไรยังคงท้าทาย และควรเดินไปในทิศทางใดเพื่ออนาคตที่ดีกว่า
พรีวิว 10 บทเรียนสำคัญ
กรณีที่วิทยาการข้อมูลทำงานได้ดี
- วิทยาการข้อมูลสร้างผลกระทบที่มีความหมายต่อปัญหาสังคมได้
- ข้อมูลที่ดีนำไปสู่โซลูชันที่ดี
- ความพยายามจะประสบความสำเร็จมากที่สุดเมื่อมุ่งไปที่ปัญหาเฉพาะและความต้องการของมนุษย์
- มีประสิทธิภาพที่สุดเมื่อผสานจุดแข็งของเครื่องจักรและมนุษย์เข้าด้วยกัน
- มุมมองแบบสหวิทยาการและความยืดหยุ่นช่วยให้องค์กรได้เปรียบ
สิ่งที่ยังคงท้าทาย
- วิทยาการข้อมูลเป็นงาน R&D ที่ต้องทำซ้ำอย่างต่อเนื่อง แต่ภาคสังคมยังลงทุนกับเรื่องนี้ไม่เพียงพอ
- การจ้างและสนับสนุนนักวิทยาการข้อมูลให้ดีเป็นเรื่องยาก
- โอเพนซอร์สยังขาดการพัฒนาโซลูชันสำหรับผู้ที่ไม่ใช่นักพัฒนา
- กระแส hype wave ของเทคโนโลยีได้รับความสนใจมากเกินไป
- วิทยาการข้อมูลและ AI มีนัยด้านจริยธรรมสูง แต่เครื่องมือและแนวปฏิบัติที่สนับสนุนการใช้อย่างมีจริยธรรมยังตามไม่ทัน
ยุคสมัยกำลังเปลี่ยนไป
ตลอด 10 ปีที่ผ่านมา ความเร็วของการพัฒนาเทคโนโลยีข้อมูลและ AI นั้นน่าทึ่งอย่างยิ่ง ปัจจัยนวัตกรรมสำคัญที่ทำให้สิ่งนี้เกิดขึ้นมีดังนี้:
- คอมพิวติ้งและพื้นที่จัดเก็บข้อมูล
- การขยายตัวของ cloud computing และ storage ทำให้สามารถเข้าถึงทรัพยากรที่จำเป็นได้ง่ายขึ้นและในต้นทุนที่ถูกลง
- ลดต้นทุนเริ่มต้นตั้งแต่การทดลองบน GPU ไปจนถึงการจัดวางคลัสเตอร์ที่ขยายได้สำหรับการรันโมเดลแบบเรียลไทม์
- ดีปเลิร์นนิง
- ดีปเลิร์นนิงนำมาซึ่งการเปลี่ยนแปลงครั้งใหญ่ต่อวิทยาการข้อมูล
- มีสถาปัตยกรรมที่มีประสิทธิภาพเพิ่มขึ้นอย่างก้าวกระโดด เช่น generative adversarial networks (GAN), transformers, variational autoencoders และ graph neural networks
- ระบบนิเวศที่มี PyTorch และ TensorFlow เป็นศูนย์กลางได้พัฒนาอย่างต่อเนื่อง พร้อมด้วยเครื่องมือ ไลบรารี และโมเดลที่ฝึกล่วงหน้า ซึ่งช่วยเร่งความเร็วของการพัฒนา
- การเข้าถึงเทคโนโลยีที่แพร่หลายมากขึ้น
- วิทยาการข้อมูลถูกเรียกว่าเป็น "อาชีพที่เซ็กซี่ที่สุดแห่งศตวรรษที่ 21" และโอกาสในการเรียนรู้ก็เพิ่มขึ้นอย่างมาก
- ผู้คนจำนวนมากขึ้นได้เรียนรู้ทักษะพื้นฐานของวิทยาการข้อมูลผ่าน MOOCs, bootcamps และการแข่งขันด้านข้อมูล
- Generative AI
- การมาถึงของ large language models (LLM) กำลังเปลี่ยนวิธีการทำงาน
- ช่วยย่นเวลาที่ใช้กับงานซับซ้อนและเปิดความเป็นไปได้ใหม่ ๆ
- ยังมีการพิจารณาอยู่ว่า generative AI เป็นเพียงกระแสชั่วคราวหรือนวัตกรรมที่แท้จริง แต่สิ่งที่ชัดเจนคือ AI จะยังถูกใช้งานต่อไปอย่างต่อเนื่อง
แม้จะมีการเปลี่ยนแปลงทางเทคโนโลยีเหล่านี้ แต่ก็ยังสังเกตเห็นรูปแบบร่วมหลายอย่างที่ข้ามพ้นเทคโนโลยีเฉพาะแต่ละแบบไปได้ บทความนี้จะพูดถึงทั้งสิ่งที่ได้ผลดีในช่วง 10 ปีที่ผ่านมา และสิ่งที่ยังคงเป็นความท้าทาย
กรณีที่วิทยาการข้อมูลทำงานได้ดี
วิทยาการข้อมูลสร้างผลกระทบที่มีความหมายต่อปัญหาสังคมได้
- สถานการณ์เมื่อ 10 ปีก่อน
- ศักยภาพของเครื่องมือด้านวิทยาการข้อมูลนั้นชัดเจน แต่การประยุกต์ใช้เพื่อสร้างผลกระทบทางสังคมยังมีจำกัด
- การพูดคุยในเวลานั้นจำกัดอยู่เพียงไม่กี่กรณีตัวอย่าง และส่วนใหญ่เน้นไปที่ไอเดียเกี่ยวกับความเป็นไปได้ในอนาคต
- พัฒนาการในปัจจุบัน
- โมเดลแมชชีนเลิร์นนิงมีอิทธิพลต่อการตัดสินใจในหลากหลายสาขา เช่น การแพทย์และการจัดการทรัพยากรธรรมชาติ
- วิทยาการข้อมูลช่วยจัดการปัญหาอย่างสาหร่ายบูมที่เป็นอันตราย การประมงที่ไม่ยั่งยืน และภัยพิบัติทางธรรมชาติจากการเปลี่ยนแปลงสภาพภูมิอากาศ รวมถึงช่วยส่งเสริมการเข้าถึงบริการทางการเงินและการอนุรักษ์สัตว์ป่า
- ในภาคสาธารณะ การทำข้อมูลให้เห็นภาพได้กลายเป็นสื่อหลักสำหรับการรายงานข่าวและการสื่อสารสารสำคัญ
- ตัวอย่าง: แคมเปญป้องกันการแพร่ระบาดของ COVID-19, แดชบอร์ดของ WHO
- กรณีตัวอย่างเฉพาะจากการใช้ภาพถ่ายดาวเทียม
- ในเยเมน มีการใช้ภาพถ่ายดาวเทียมเพื่อวิเคราะห์ประเภทพืชผลและความเสี่ยงด้านภูมิอากาศ เพื่อให้ข้อมูลแก่โครงการความมั่นคงทางอาหารของธนาคารโลก
- AI กับการขับเคลื่อนความก้าวหน้าทางวิทยาศาสตร์
- AlphaFold: โมเดลทำนายโครงสร้างโปรตีนที่ทำงานซึ่งเคยใช้เวลาหลายปีให้เสร็จได้ภายในไม่กี่ชั่วโมง และเปิดให้เหล่านักวิทยาศาสตร์เข้าถึงโครงสร้างโปรตีนทั้งหมดได้ฟรี
- โมเดล transformer: ถูกนำไปใช้ตรวจจับ hate speech ในมีมแบบ multimodal
- เทคโนโลยีระบุอัตลักษณ์ของสิ่งมีชีวิต: ช่วยปรับปรุงการติดตามชนิดพันธุ์ใกล้สูญพันธุ์ (เช่น วาฬ) และขยายไปสู่หลากหลายสปีชีส์
- ความเปลี่ยนแปลงในภาคสังคม
- ในช่วงกลางทศวรรษ 2010 การพูดถึงการใช้ข้อมูลยังเน้นที่ "การวัดผลกระทบ" เป็นหลัก
- ตอนนี้จุดเน้นได้เปลี่ยนมาอยู่ที่การใช้เครื่องมือด้านวิทยาการข้อมูลเพื่อเปลี่ยนวิธีดำเนินงานขององค์กรและมอบขีดความสามารถใหม่
- ปัจจุบัน การสนทนามุ่งไปที่สิ่งที่วิทยาการข้อมูลและ AI "ทำได้" มากกว่าสิ่งที่สามารถวัดได้
ข้อมูลที่ดีนำไปสู่โซลูชันที่ดี และการเข้าถึงข้อมูลก็ดีขึ้นอย่างมาก
- บทบาทของข้อมูลในชีวิตประจำวันเพิ่มขึ้น
- ทุกกิจกรรมตั้งแต่การซื้อสินค้า การใช้บริการฉุกเฉิน ไปจนถึงการไปโรงพยาบาล ล้วนสร้างข้อมูล
- เครื่องใช้ไฟฟ้า อุปกรณ์สวมใส่ รถยนต์ โทรศัพท์มือถือ และแอปพลิเคชัน ต่างก็เก็บข้อมูลการใช้งาน
- ความก้าวหน้าของเทคโนโลยีเซนเซอร์และกล้องทำให้การใช้ข้อมูลภาพและวิดีโอเพิ่มมากขึ้น
- การใช้ข้อมูลมี 2 ขั้นตอน
- บันทึกข้อมูลในรูปแบบดิจิทัลและทำให้สามารถสังเกตได้
- พัฒนาไปสู่การใช้ข้อมูลเพื่อเรียนรู้และค้นหารูปแบบ
- AI และแมชชีนเลิร์นนิงที่มีข้อมูลเป็นฐาน
- ข้อมูลที่มีปริมาณมากขึ้นและมีคุณภาพดีขึ้นช่วยสนับสนุนการค้นหารูปแบบใหม่และการพัฒนาอัลกอริทึม
- ตัวอย่าง: การตรวจหามะเร็ง, อัลกอริทึมแนะนำของ Spotify, ข้อมูลฝึกของ ChatGPT
- ลำดับชั้นวิทยาการข้อมูลของ Monica Rogati
- ความสามารถขั้นสูงของวิทยาการข้อมูลต้องอาศัยรากฐานข้อมูลที่แข็งแรง
- การลงทุนด้านโครงสร้างพื้นฐานข้อมูลอย่างชาญฉลาดคือฐานสำหรับการสร้างความสามารถระดับสูงขึ้นไป
- การใช้ข้อมูลเพื่อคุณค่าทางสังคม
- รัฐบาลและองค์กรขนาดใหญ่เปิดเผยข้อมูลสาธารณะมากขึ้น
- ประเภทข้อมูลที่ DrivenData นำมาใช้ ได้แก่:
- ข้อมูลสภาพอากาศ ข้อมูลการจราจร และข้อมูล OpenStreetMap: สำหรับการวางแผนการเดินอากาศและการสนับสนุนความยืดหยุ่นต่อภัยพิบัติ
- ภาพถ่ายดาวเทียม: สำหรับการทำแผนที่ขอบเขตน้ำท่วมและการประเมินชีวมวลป่าไม้
- ข้อมูลธุรกรรมบนมือถือ: สำหรับวิเคราะห์พฤติกรรมและทัศนคติทางการเงิน
- ข้อมูลแบบสำรวจ: สำหรับข้อมูลเชิงลึกด้านความคิดเห็นและพฤติกรรมในวงกว้าง
- ไฟล์บันทึกเสียง: สำหรับจำแนกระดับการรู้หนังสือของเด็ก
- ภาพความละเอียดสูง: สำหรับทำนายโอกาสการกลับมาเป็นซ้ำของมะเร็งผิวหนังชนิดเมลาโนมา
- ข้อมูลข้อความ: สำหรับวิเคราะห์แนวคิดทางคลินิกจากบันทึกความเห็นของแพทย์โดยอัตโนมัติ
- ความสำคัญของการเข้าถึงและการใช้งานข้อมูลได้จริง
- การเปิดเผยข้อมูลเพียงอย่างเดียวไม่เพียงพอ
- หากมีรูปแบบที่เครื่องอ่านได้ เอกสารประกอบที่ชัดเจน และกรณีการใช้งานที่ชัดเจน ก็จะช่วยเพิ่มการมีส่วนร่วมและการใช้งาน
- หลายองค์กรลงทุนกับการเก็บข้อมูล แต่กลับละเลยการลงทุนเพิ่มเติมเพื่อให้ข้อมูลนั้นถูกนำไปใช้
- การจัดทำเอกสารข้อมูลและตัวอย่างการประยุกต์ใช้มีความสำคัญไม่แพ้เงินรางวัลของการแข่งขัน
ความพยายามจะประสบความสำเร็จมากที่สุดเมื่อมุ่งไปที่ปัญหาเฉพาะและความต้องการของมนุษย์
- กับดักของแนวทางที่ยึดเทคโนโลยีเป็นศูนย์กลาง
- องค์กรที่มุ่งสร้างผลกระทบทางสังคมมักพยายามตามให้ทันเทรนด์เทคโนโลยีล่าสุด
- แม้ "Big Data" และเครื่องมือ AI จะดูเหมือนเป็นคำตอบสารพัดนึก แต่ในความเป็นจริงจะมีประสิทธิภาพเมื่อมุ่งแก้ปัญหาที่เฉพาะเจาะจง
- หัวใจสำคัญของการออกแบบโครงการที่ประสบความสำเร็จ
- กำหนดผู้ใช้และปัญหาให้ชัดเจน พร้อมตั้งเป้าหมายที่วัดผลได้เพื่อแก้ปัญหานั้น
- ใช้เครื่องมือการออกแบบที่ยึดมนุษย์เป็นศูนย์กลางเพื่อทำความเข้าใจว่าอะไรคือ "สิ่งที่ผู้คนต้องการ" และพัฒนาโซลูชันที่ก้าวข้ามสิ่งที่ "เป็นไปได้" ทางเทคนิค
- กรณีตัวอย่างที่เป็นรูปธรรม
- การตรวจจับน้ำเขียวจากสาหร่าย (CyFi)
- ร่วมมือกับ NASA เพื่อตรวจจับการเกิดน้ำเขียวจากไซยาโนแบคทีเรียที่เป็นอันตรายผ่านภาพถ่ายดาวเทียม
- ช่วยให้ผู้จัดการด้านทรัพยากรน้ำประเมินสถานะน้ำเขียวได้อย่างแม่นยำและจัดสรรทรัพยากรได้อย่างมีประสิทธิภาพ
- การระบุชนิดสัตว์ป่า (Zamba)
- ร่วมมือกับสถาบัน Max Planck เพื่อพัฒนาเครื่องมือระบุสัตว์อัตโนมัติโดยใช้ข้อมูลจากกล้องดักถ่าย
- เพิ่มความสะดวกในการใช้งานด้วย Zamba Cloud ที่ปรับปรุง UI โดยสะท้อนข้อเสนอแนะจากนักวิจัย
- การตรวจจับน้ำเขียวจากสาหร่าย (CyFi)
- ความสำคัญของมุมมองผู้ใช้
- การนิยามปัญหา
- ทำความเข้าใจปัญหาและความต้องการให้ชัดเจนผ่านการสัมภาษณ์ผู้ใช้และการรับฟังความคิดเห็น
- สะท้อนมุมมองความเป็นมนุษย์ที่อยู่เบื้องหลังจุดข้อมูล
- การส่งมอบโซลูชัน
- จำเป็นต้องมีการทดสอบ UI/UX และการสื่อสารที่ชัดเจน เพื่อให้ผู้ใช้สามารถใช้โซลูชันได้อย่างมีประสิทธิภาพและเข้าใจประโยชน์ของมัน
- ช่วยให้เข้าใจจุดแข็งและข้อจำกัดของโมเดลได้อย่างเป็นธรรมชาติ และอธิบายวิธีใช้งานผ่านกรณีตัวอย่างจริง
- การนิยามปัญหา
- บทสรุป
- บทบาทของนักวิทยาศาสตร์ข้อมูลคือการเชื่อมโยงความสามารถทางเทคนิคเข้ากับความต้องการของสังคม
- โครงการที่มีประสิทธิภาพที่สุดคือโครงการที่ไม่หมกมุ่นกับเทคโนโลยีล่าสุด แต่โฟกัสที่การแก้ปัญหาและผลลัพธ์ที่เป็นรูปธรรม
โซลูชันจะมีประสิทธิภาพที่สุดเมื่อผสานจุดแข็งของเครื่องจักรและมนุษย์
- ความเสี่ยงของความคาดหวังเกินจริงต่อ AI
- โมเดลวิทยาการข้อมูลและ AI ไม่ได้ทรงพลังรอบด้าน และทุกโมเดลต่างมีข้อจำกัดอยู่ในระดับหนึ่ง
- การนำ AI มาใช้เพียงอย่างเดียวไม่ได้รับประกันความสำเร็จ
- โซลูชันที่ดีที่สุดมาจากระบบที่ผสานจุดแข็งของเครื่องจักรและมนุษย์เข้าด้วยกัน
- กรณีของเครื่องมือ Zamba
- Zamba ทำนายแบบความน่าจะเป็นว่ามีสัตว์อยู่ในวิดีโอจากกล้องดักถ่ายสัตว์ป่าหรือไม่
- โมเดลอาจผิดพลาดได้ในบางครั้ง แต่ความน่าจะเป็นที่ให้มาช่วยให้สามารถวางกลยุทธ์การตรวจทานได้อย่างมีประสิทธิภาพ
- ตัวอย่าง: ตรวจทานวิดีโอที่มีโอกาสพบชิมแปนซีสูงก่อน หรือกำหนดค่าเกณฑ์ความน่าจะเป็นเพื่อจัดเป็นวิดีโอว่าง
- ผลลัพธ์คือสามารถระบุวิดีโอชิมแปนซีได้ 85% โดยตรวจทานวิดีโอน้อยกว่า 5% ของทั้งหมด
- ผลลัพธ์ของความร่วมมือระหว่างเครื่องจักรกับมนุษย์
- กรณี AI คัดกรองมะเร็งเต้านม: เมื่อรังสีแพทย์และ AI ทำงานร่วมกัน จะได้ความแม่นยำสูงกว่าการทำงานของแต่ละฝ่ายเพียงลำพัง
- เน้นความสำคัญของการตีความและการอธิบายผลของ AI: ต้องให้ข้อมูลที่ช่วยให้มนุษย์ประเมินผลลัพธ์ของ AI และนำไปผสานกับบริบทได้
- ตัวอย่าง: ในการแข่งขันระบุวาฬ มีการแสดงภาพคุณลักษณะที่โมเดลใช้จับคู่ปลาวาฬแต่ละตัว
- รูปแบบที่คล้ายกันใน Generative AI
- ฟีดแบ็กจากมนุษย์เป็นสิ่งจำเป็นต่อการพัฒนาเครื่องมือที่มีประโยชน์อย่าง ChatGPT
- ข้อมูลฟีดแบ็กช่วยปรับปรุงให้โมเดลเรียนรู้กรณีที่ยากขึ้นเรื่อย ๆ ได้
- การประเมินต้นทุนของข้อผิดพลาดและจุดที่ต้องปรับปรุง
- ปรับปรุงการออกแบบระบบด้วยคำถาม 2 ข้อ:
- "ถ้ามีโมเดลที่สมบูรณ์แบบ เราจะใช้อย่างไร?"
- "ถ้าโมเดลนั้นผิดพลาดเป็นครั้งคราว เราจะรับมืออย่างไร?"
- เพื่อให้เข้าใจขอบเขตการยอมรับข้อผิดพลาดของระบบและจุดที่ต้องมีการตรวจทานโดยมนุษย์
- ปรับปรุงการออกแบบระบบด้วยคำถาม 2 ข้อ:
- บทเรียนสำหรับองค์กร
- กรณีรัฐบาลเนเธอร์แลนด์ในปี 2021: มี 26,000 ครัวเรือนถูกกล่าวหาว่าฉ้อโกงสวัสดิการสังคมอย่างผิดพลาดจากอัลกอริทึมที่ไม่เหมาะสม
- การพึ่งพาอัลกอริทึมโดยไม่มีการตรวจทานจากมนุษย์อย่างเหมาะสมก่อให้เกิดต้นทุนทางสังคมสูง
- ในทางกลับกัน การผสานจุดแข็งของอัลกอริทึมและมนุษย์สามารถเพิ่มทั้งประสิทธิภาพและประสิทธิผลได้สูงสุด
มุมมองแบบสหสาขาและความยืดหยุ่นช่วยให้องค์กรได้ประโยชน์
- ประสบการณ์โครงการที่ครอบคลุมหลายสาขา
- การทำงานในหลายด้าน เช่น การเข้าถึงบริการทางการเงิน การรับมือการเปลี่ยนแปลงสภาพภูมิอากาศ และการดูแลสุขภาพ ทำให้เห็นประโยชน์ของมุมมองแบบสหสาขา
- รูปแบบของแมชชีนเลิร์นนิงในบริบทหนึ่งสามารถขยายไปประยุกต์ใช้กับสาขาอื่นได้
- ตัวอย่าง: การประยุกต์ข้ามกันระหว่างโมเดลคอมพิวเตอร์วิทัศน์เพื่ออนุรักษ์ป่าสาหร่ายเคลป์ กับโมเดลสำหรับตรวจหารอยโรคในชิ้นเนื้อปากมดลูก
- ความยืดหยุ่นของแนวทาง
- ปัญหาที่ต่างกันมากอย่างการตรวจพบศัตรูพืชในพืชผลตั้งแต่ระยะแรก และการดึงทักษะจากเรซูเม่ ต่างก็อิงอยู่บนการรู้จำชื่อเฉพาะ (NER)
- สามารถนำบทเรียนและประสบการณ์จากแนวทางเดิมไปใช้กับปัญหาอื่นได้ด้วยต้นทุนที่ต่ำกว่า
- กรณีตัวอย่างที่เป็นรูปธรรม
- แนวทางการประมวลผลภาษาธรรมชาติที่รู้จำพืชผล ศัตรูพืช โรค และสารเคมีจากข้อความ WhatsApp
- ช่วยให้เกษตรกรรายย่อยมองเห็นแนวโน้มใหม่ ๆ และปรับปรุงคำแนะนำที่อิงวิทยาศาสตร์ได้ดีขึ้น
- ความสมดุลระหว่างความเชี่ยวชาญกับมุมมองผู้ใช้
- การทำงานร่วมกับผู้เชี่ยวชาญเฉพาะด้านช่วยให้มั่นใจว่ามีบริบทที่เหมาะสมกับปัญหา
- รวมมุมมองของผู้ใช้ไว้ในกระบวนการวิทยาการข้อมูลเพื่อออกแบบโซลูชันที่เหมาะสม
- การค้นหา "งานที่คุ้มค่าจะทำ"
- ความเชี่ยวชาญทางเทคนิคเพียงอย่างเดียวไม่เพียงพอ แต่ต้องมีความเห็นอกเห็นใจ การสื่อสาร ความใฝ่รู้ และความยืดหยุ่น
- ระดมความคิดเพื่อหาขอบเขตที่แมชชีนเลิร์นนิงจะเพิ่มคุณค่าได้ พร้อมทำความเข้าใจอย่างลึกซึ้งว่าแนวทางนั้นมีไว้เพื่อใครและจะถูกใช้อย่างไร
- การตอบโจทย์ความต้องการที่หลากหลายขององค์กร
- ความต้องการของแต่ละองค์กรแตกต่างกัน ตั้งแต่งานวิจัยเชิงสำรวจไปจนถึงการทำต้นแบบและการนำขึ้นสู่การใช้งานจริง
- ร่วมมือกับพาร์ตเนอร์ที่หลากหลาย ตั้งแต่องค์กรผู้ให้ข้อมูลขนาดใหญ่ (เช่น Candid, NASA) ไปจนถึงองค์กรที่เพิ่งเริ่มสร้างระบบข้อมูล
- สิ่งสำคัญคือการรักษาความเหมาะสมของเทคโนโลยีไว้ พร้อมดึงความยืดหยุ่นจากประสบการณ์ที่หลากหลาย
ส่วนที่ยังคงท้าทาย
วิทยาการข้อมูลเป็นงานแบบวนซ้ำ และภาคสังคมยังลงทุนใน R&D ไม่เพียงพอ
- ธรรมชาติและคุณค่าของ R&D
- การวิจัยและพัฒนาเป็นกระบวนการเรียนรู้ที่ต้องอาศัยการลงทุนด้านทุน การทดลอง การทบทวน และความพร้อมที่จะยอมรับความล้มเหลว
- แนวทางที่ต้องการความแน่นอนและผลระยะสั้นมีข้อจำกัดในการรับมือกับขอบเขตปัญหาที่ภาคสังคมต้องแก้ไข
- การลงทุนระยะยาวและนวัตกรรมที่ไม่เป็นเส้นตรงคือสิ่งที่สร้างผลลัพธ์สำคัญ
- การลงทุน R&D ที่ไม่เพียงพอในภาคสังคม
- จากการสำรวจของ NSF ในปี 2022 พบว่า 94% ขององค์กรไม่แสวงหากำไรขนาดใหญ่ไม่ได้ทำกิจกรรม R&D เลย
- แม้ว่าวิทยาการข้อมูลจะเป็นกิจกรรมด้าน R&D เป็นหลัก แต่การลงทุนในด้านนี้ยังมีไม่เพียงพอ
- ลักษณะการทำงานแบบวนซ้ำของวิทยาการข้อมูล
- วิทยาการข้อมูลใช้การเรียนรู้แบบวนซ้ำและวงจรฟีดแบ็กเพื่อสร้างผลลัพธ์ที่ดีที่สุดและปรับปรุงประสิทธิภาพของบริการ
- ใช้เฟรมเวิร์กที่เน้นการทำซ้ำ เช่น หลักสูตรวิทยาการข้อมูลของ Harvard และ CRISP-DM (กระบวนการมาตรฐานสำหรับการทำเหมืองข้อมูล)
- ความสำคัญของวิทยาการข้อมูลที่ยึดมนุษย์เป็นศูนย์กลาง
- กระบวนการเรียนรู้มุ่งเน้นที่การออกแบบโซลูชันที่มีประสิทธิภาพ และผสานเข้ากับเฟรมเวิร์กนวัตกรรมที่ทำซ้ำได้
- การออกแบบที่ยึดมนุษย์เป็นศูนย์กลางช่วยเสริมความเชื่อมโยงระหว่างความต้องการจริงกับโซลูชัน
- กรณีความสำเร็จด้าน R&D ของภาคเอกชน
- บริษัทเอกชนตระหนักอย่างชัดเจนถึงคุณค่าของการใช้ข้อมูลผ่านกระบวนการ R&D
- ตัวอย่างนวัตกรรม AI ในช่วงหลังเป็นผลลัพธ์ที่คงเป็นไปไม่ได้หากไม่มีการลงทุน R&D อย่างต่อเนื่อง
- บทสรุป
- แม้ผลลัพธ์เริ่มต้นของโครงการ Data R&D จะไม่แน่นอน แต่กระบวนการสร้างคุณค่าจากข้อมูลนั้นเป็นวิธีการที่พิสูจน์แล้ว
- การลงทุนใน R&D อย่างต่อเนื่องและระยะยาวเป็นสิ่งจำเป็นในการเร่งนวัตกรรมและแก้โจทย์ท้าทายของภาคสังคม
การจ้างและสนับสนุนนักวิทยาศาสตร์ข้อมูลเป็นเรื่องยาก และนักวิทยาศาสตร์ข้อมูลที่ทำงานเพียงลำพังมีความพึงพอใจต่ำ
- ความยากจากมุมมองขององค์กร
- การจ้างงาน
- ยากที่จะระบุและประเมินผู้สมัครที่เหมาะสมเมื่อเดิมไม่มีนักวิทยาศาสตร์ข้อมูลอยู่ในองค์กร
- คำว่า "นักวิทยาศาสตร์ข้อมูล" มีความหมายไม่ชัดเจน เพราะครอบคลุมทักษะและประสบการณ์ที่หลากหลาย
- การดึงดูดและรักษาบุคลากร
- ความต้องการนักวิทยาศาสตร์ข้อมูลที่สูงทำให้เกิดตลาดแรงงานที่มีการแข่งขันสูง
- นอกเหนือจากแรงจูงใจในการแก้ปัญหาสังคมแล้ว ยังต้องมีงานด้านเทคนิคที่น่าสนใจ ค่าตอบแทนที่แข่งขันได้ และโอกาสพัฒนาความเชี่ยวชาญ
- ในการจ้างงานช่วงเริ่มต้น การมีองค์ประกอบเหล่านี้ยิ่งทำได้ยากกว่าเดิม
- การบริหารและการสนับสนุน
- องค์กรต้องกำหนดขอบเขตปัญหาให้ชัดเจน และจัดหาทิศทาง โครงสร้างพื้นฐาน และข้อมูล เพื่อให้นักวิทยาศาสตร์ข้อมูลรักษาประสิทธิภาพการทำงานได้
- หากขาดพื้นฐานด้านเทคนิค ก็มีแนวโน้มจะประเมินความยากของงานต่ำหรือสูงเกินไปได้ง่าย
- การจ้างงาน
- ความยากจากมุมมองของนักพัฒนา
- การเรียนรู้และการเติบโต
- วิทยาการข้อมูลเป็นสาขาที่พัฒนาอย่างรวดเร็ว โอกาสในการเรียนรู้และเติบโตภายในทีมจึงมีความสำคัญ
- ในสภาพแวดล้อมที่ทำ code review ให้ feedback ต่อโมเดล หรือแบ่งเบาภาระงานได้ยาก โอกาสในการเติบโตก็จะถูกจำกัด
- การขาดทิศทางและการสนับสนุน
- หากงานไม่ได้รับการสนับสนุนอย่างเหมาะสม ความพึงพอใจและประสิทธิภาพการทำงานของนักวิทยาศาสตร์ข้อมูลจะลดลง
- ความสนุกของงาน
- กระบวนการพูดคุยและแก้ปัญหาร่วมกับเพื่อนร่วมงานช่วยเพิ่มความพึงพอใจในการทำงาน
- แม้จะอาศัยเครือข่ายภายนอกเพื่อแก้ปัญหานี้ได้ แต่ความร่วมมือภายในองค์กรมักมีประสิทธิภาพมากกว่า
- การเรียนรู้และการเติบโต
- สัญญาณของการเปลี่ยนแปลง
- ช่วงหลังมานี้มีกรณีขององค์กรในภาคสังคมที่ตั้งทีมข้อมูลภายในองค์กรเองเพิ่มขึ้น
- DrivenData เข้าร่วมเป็นพาร์ตเนอร์ที่ช่วยสนับสนุนการจ้างงานนักวิทยาศาสตร์ข้อมูลและวิศวกรชุดแรก การ onboarding และการเปลี่ยนผ่านงาน
- แนวทางการทำงานร่วมกับทีมผู้เชี่ยวชาญด้านวิทยาการข้อมูลจากภายนอกเพื่อเสริมขีดความสามารถอย่างยืดหยุ่น เป็นประโยชน์ต่อทั้งองค์กรและนักวิทยาศาสตร์ข้อมูล
- แนวโน้มในอนาคต
- แม้บางองค์กรจะเริ่มประสบความสำเร็จในการสร้างทีมข้อมูล แต่ความต้องการทักษะด้านวิทยาการข้อมูลก็ยังคงสูง
- ความท้าทายในการสร้างทีมข้อมูลขึ้นมาตั้งแต่ต้นคาดว่าจะยังคงดำเนินต่อไป
โอเพนซอร์สยังพัฒนาโซลูชันสำหรับผู้ที่ไม่ใช่นักพัฒนาได้ไม่เพียงพอ
- ข้อจำกัดของโอเพนซอร์ส
- ซอฟต์แวร์โอเพนซอร์สมักพัฒนาได้อย่างมีประสิทธิภาพ เพราะชุมชนนักพัฒนามักเป็นผู้ใช้กลุ่มเดียวกัน
- ผู้มีส่วนร่วมมีแรงจูงใจในการปรับปรุงเครื่องมือที่ตนเองจะใช้งาน
- แต่สำหรับเครื่องมือที่มุ่งเป้าไปยังผู้ที่ไม่ใช่นักพัฒนาหรือผู้ที่ไม่ใช่ผู้เชี่ยวชาญ แรงจูงใจลักษณะนี้มักไม่เกิดขึ้น
- ความท้าทายของเครื่องมือสำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญ
- ในโครงการวิทยาการข้อมูล มักมีการพัฒนาวิธีการและเครื่องมือสำหรับผู้ที่ไม่ใช่นักพัฒนา
- แม้จะเผยแพร่เป็นโอเพนซอร์ส หากไม่มีการลงทุนและพัฒนาอย่างต่อเนื่อง โครงการก็อาจหยุดนิ่งหรือยุติลง
- หากจะพัฒนาไปเป็นโซลูชันที่ประสบความสำเร็จจริง หลังจากขั้นต้นแบบแล้วก็ยังต้องมีการพัฒนาเพิ่มเติมและการทดสอบนำร่องที่สอดคล้องกับการใช้งานจริง
- กรณีศึกษาเฉพาะ: Concept to Clinic
- ในปี 2017-18 มีการพัฒนาแอปพลิเคชันแบบเปิดที่ใช้ AI เพื่อช่วยนักรังสีเทคนิคประมวลผล CT scan
- มีการนำระบบแรงจูงใจเชิงโครงสร้างมาใช้ โดยมอบคะแนนและรางวัลเป็นเงินแก่ผู้มีส่วนร่วมเพื่อกระตุ้นการร่วมพัฒนา
- หากไม่มีแนวทางนี้ ก็มีความเป็นไปได้สูงว่าโครงการจะไม่สามารถพัฒนาต่อได้
- เงื่อนไขสู่ความสำเร็จของโอเพนซอร์สอย่างยั่งยืน
- การเปิดเป็นโอเพนซอร์สเพียงอย่างเดียว ไม่อาจรับประกันอิทธิพลระยะยาวได้
- หากจะพัฒนาจากต้นแบบไปเป็นโซลูชันสำหรับผู้ใช้ปลายทาง ต้องมีโรดแมปที่ชัดเจนและการสนับสนุนเงินทุนอย่างต่อเนื่อง
- เมื่อต้องพัฒนาแอปพลิเคชันสำคัญ โอเพนซอร์สเป็นเพียงส่วนหนึ่งของการเดินทาง ไม่ควรกลายเป็นเป้าหมายสุดท้าย
กระแส hype ทางเทคโนโลยีได้รับความสนใจมากเกินไป
- ภาคสังคมกับนวัตกรรมทางเทคโนโลยี
- ในช่วง 10 ปีที่ผ่านมา ภาคสังคมมีความเกี่ยวข้องอย่างใกล้ชิดกับคลื่นของนวัตกรรมเทคโนโลยีใหม่ ๆ
- องค์กรมักถูกดึงดูดให้รับเทคโนโลยีใหม่มาใช้เพื่อเพิ่มประสิทธิภาพภายใต้ทรัพยากรที่จำกัด
- แรงกดดันว่าหากไม่ตามกระแสเทคโนโลยีล่าสุดจะล้าหลัง ทำให้หลายองค์กรเปลี่ยนกลยุทธ์อยู่บ่อยครั้ง
- ปัญหาของการนำเทคโนโลยีที่ถูกโหมเกินจริงมาใช้
- เป็นเรื่องยากที่จะคัดแยกนวัตกรรมแกนหลักออกจากกระแส hype ทางเทคโนโลยี
- การนำเทคโนโลยีมาใช้มักนำไปสู่ความคาดหวังที่สูงเกินจริงและการดำเนินการที่ไม่เพียงพอ
- ตัวอย่าง:
- บล็อกเชน: แม้ความคาดหวังจะสูง แต่ประโยชน์เชิงรูปธรรมต่อภาคสังคมกลับมีน้อยมาก
- แอปมือถือ: แม้ไม่จำเป็นเสมอไป แต่แรงกดดันว่าเป็น "สิ่งจำเป็น" ทำให้เกิดการใช้จ่ายอย่างไม่มีประสิทธิภาพ
- ความสำคัญขององค์กรเทคโนโลยีเฉพาะทาง
- องค์กรผู้เชี่ยวชาญด้านเทคโนโลยีที่สามารถรับมือกับกระแส hype ได้อย่างมีประสิทธิภาพ มักสร้างผลงานได้ดีที่สุด
- DrivenData ทำงานร่วมกับ DataKind, DSSG Fellowship, Delta Analytics และอื่น ๆ โดยอาศัยความเชี่ยวชาญด้านเทคโนโลยี
- อย่างไรก็ตาม แม้แต่กลุ่มผู้เชี่ยวชาญเหล่านี้ก็ยังยากที่จะสะสมบทเรียนจากกระแส hype ในอดีตไว้อย่างเป็นระบบ
- การเปลี่ยนแปลงที่จำเป็น: ‘เขื่อนกันคลื่น’ สำหรับรับมือ hype ทางเทคโนโลยี
- จำเป็นต้องมีขีดความสามารถในการแยกนวัตกรรมที่ใช้ได้จริงออกจากความคาดหวังที่เกินจริง และระบุพัฒนาการสำคัญให้ได้
- ภาวะผู้นำด้านเทคโนโลยีที่เข้าใจทั้งเทคโนโลยีล้ำสมัยและมีมุมมองเชิงลึกต่อภาคสังคมเป็นสิ่งจำเป็น
- ปัจจุบันยังขาดทั้งภาวะผู้นำและระบบนิเวศลักษณะนี้ และจำเป็นต้องสร้างขึ้นเพื่อให้เกิดแนวทางที่ยั่งยืนและเป็นผู้ใหญ่มากขึ้น
- แนวทางเชิงกลยุทธ์ต่อเทคโนโลยีสมัยใหม่อย่าง AI
- AI มีศักยภาพมหาศาล แต่สิ่งที่ต้องการไม่ใช่แค่ความตื่นเต้น หากเป็นกลยุทธ์ที่รอบคอบและความเชี่ยวชาญเชิงลึก
- หากไม่สร้างรากฐานด้านข้อมูลที่แข็งแรง ก็เสี่ยงจะวนกลับเข้าสู่วงจรที่ไร้ประสิทธิภาพจากกระแส hype ทางเทคโนโลยีซ้ำอีก
- หากไม่มีการลงทุนและการวางแผนในระดับพื้นฐาน นวัตกรรมเทคโนโลยีในภาคสังคมก็ยากจะสร้างผลลัพธ์ที่แท้จริงได้
วิทยาการข้อมูลและ AI มีนัยด้านจริยธรรมสูง แต่การนำมาใช้อย่างรวดเร็วกลับแซงหน้าเครื่องมือและแนวปฏิบัติที่รองรับ
- การขยายตัวของวิทยาการข้อมูลและ AI กับความสำคัญด้านจริยธรรม
- วิทยาการข้อมูลและแมชชีนเลิร์นนิงถูกผสานเข้าไปในหลากหลายสาขา เช่น การแพทย์ การรับมือภัยพิบัติ และการตัดสินคดีอาญา
- ความเสี่ยงจากการใช้งานที่ผิดพลาดจึงสูงกว่าที่เคยเป็นมาอย่างมาก
- ความเป็นจริงที่ยังขาดการพิจารณาด้านจริยธรรม
- นักวิทยาศาสตร์ข้อมูลมีมุมมองเฉพาะตัวในการทำความเข้าใจนัยด้านจริยธรรมของโมเดลและ pipeline
- อย่างไรก็ตาม มุมมองเหล่านี้มักไม่ถูกบูรณาการเข้าไปในวงจรชีวิตของโครงการวิทยาการข้อมูล
- การพัฒนาเช็กลิสต์โอเพนซอร์สเพื่อรับมือกับ trade-off ด้านจริยธรรม
- มีการบูรณาการเข้ากับเวิร์กโฟลว์ด้านวิทยาการข้อมูล เพื่อให้สามารถอภิปราย trade-off ทางจริยธรรมได้
- หลักการสำคัญ:
- การตัดสินใจทางจริยธรรมควรมุ่งรับรู้ trade-off ที่สำคัญที่สุดในบริบทเฉพาะ พร้อมเดินหน้าอย่างมีความรับผิดชอบและลดอันตรายให้น้อยที่สุด
- ปัญหาด้านจริยธรรมเกิดขึ้นได้ในทุกช่วงของโครงการ ไม่ว่าจะเป็นการเก็บข้อมูล การจัดเก็บ การวิเคราะห์ การสร้างแบบจำลอง หรือการนำไปใช้งาน
- การอภิปรายด้านจริยธรรมมักถูกลดลำดับความสำคัญลงเพราะกำหนดการที่เร่งด่วนและข้อเรียกร้องต่าง ๆ
- เพื่อป้องกันสิ่งนี้ ต้องบูรณาการคำถามด้านจริยธรรมเข้ากับมิติอื่นของเวิร์กโฟลว์ และกันเวลาไว้โดยตั้งใจ
- ความเป็นธรรมของอัลกอริทึมและการบรรเทาอคติ
- โมเดลที่เรียนรู้จากข้อมูลที่มีอคติย่อมผลิตซ้ำความไม่เท่าเทียม จึงมีการพัฒนาเทคนิคเพื่อระบุและบรรเทาปัญหานี้
- ตัวอย่าง: การทำงานร่วมกับ Wellcome Trust เพื่อจัดทำกรณีการบรรเทาอคติโดยคำนึงถึงความเป็นธรรมในโมเดลพยากรณ์ความเครียดทางจิตใจ
- วิเคราะห์อคติผ่านตัวชี้วัดความเป็นธรรมเชิงปริมาณ และเสนอวิธีการบรรเทา
- ความสำคัญของการพิจารณาด้านจริยธรรมในยุค AI
- ในขณะที่ AI แพร่กระจายอย่างรวดเร็ว หลายบริษัทกลับยุบทีม responsible AI เพื่อลดต้นทุน
- ในภาคสังคม ความรับผิดชอบต่อผู้รับประโยชน์มีสูงกว่า ทำให้ต้นทุนของความล้มเหลวด้านจริยธรรมรุนแรงยิ่งกว่า
- หากไม่เสริมความแข็งแกร่งให้แนวปฏิบัติด้านจริยธรรม การนำ AI มาใช้ก็เสี่ยงจะก่อปัญหาที่ใหญ่กว่าเดิม
- บทสรุป
- การสร้างเครื่องมือและแนวปฏิบัติด้านจริยธรรมเพื่อรองรับการนำ AI มาใช้ มีความสำคัญกว่าที่เคย
- ต้องรับประกันความไว้วางใจและความยั่งยืนในภาคสังคมผ่านการใช้เทคโนโลยีอย่างมีความรับผิดชอบ
แนวโน้มต่อจากนี้
- การเปลี่ยนแปลงและโอกาสของวิทยาการข้อมูล
- ตลอด 10 ปีที่ผ่านมา วิทยาการข้อมูลได้ขับเคลื่อนการเปลี่ยนแปลงสำคัญในภาคส่วนเพื่อสังคม พร้อมทั้งเผชิญทั้งความสำเร็จและความท้าทาย
- แม้การตระหนักถึงศักยภาพของข้อมูลและ AI จะเพิ่มสูงขึ้น แต่ก็ยังมีคำถามสำคัญที่ต้องหาคำตอบ:
- จะนำความก้าวหน้าทางเทคโนโลยีที่เกิดขึ้นอย่างต่อเนื่องไปประยุกต์ใช้กับปัญหาสังคมที่ใหญ่ที่สุดได้อย่างเป็นรูปธรรมอย่างไร?
- จะรับประกันได้อย่างไรว่าผลประโยชน์จะไม่กระจุกตัวอยู่แค่ในบริษัทยักษ์ใหญ่ไม่กี่แห่ง?
- จะทำให้การนำเทคโนโลยีไปใช้อย่างมีความรับผิดชอบต่อธรรมชาติและมนุษยชาติเป็นจริงได้อย่างไร?
- ความสำคัญของบทเรียนที่ได้จากประสบการณ์
- ความพยายามที่ตั้งอยู่บนบทเรียนจากประสบการณ์ที่ผ่านมาให้ผลลัพธ์ที่ยิ่งใหญ่ที่สุด
- DrivenData ภาคภูมิใจที่ได้เป็นส่วนหนึ่งของชุมชนพันธมิตร ลูกค้า และนักพัฒนาที่ใช้ข้อมูลและ AI เพื่อประโยชน์ต่อสังคม
- หากคุณสนใจประเด็นคล้ายกันหรือมีแนวคิดเพิ่มเติม ก็ยินดีให้แบ่งปัน
- ความคาดหวังต่ออนาคต
- หาก 10 ปีที่ผ่านมาโดดเด่นเพียงใด 10 ปีข้างหน้าก็คาดว่าจะนำมาซึ่งการเปลี่ยนแปลงที่ยิ่งใหญ่ยิ่งกว่า
- ยังมีงานอีกมากที่ต้องทำ และยังมีอีกมากที่ต้องเรียนรู้
- เราตั้งตารออนาคตที่จะเผชิญกับความท้าทายเหล่านี้ ค้นหาความเป็นไปได้ใหม่ ๆ และสร้างผลกระทบทางสังคมที่ดียิ่งขึ้น
1 ความคิดเห็น
"ผู้มีความสามารถที่ดีที่สุดในรุ่นของฉันกำลังทุ่มความคิดไปกับการทำให้ผู้คนคลิกโฆษณา… น่าหงุดหงิดจริง ๆ"
พอมาคิดดูแล้วก็จริงนะครับ