10 ปีของบทเรียนด้านวิทยาการข้อมูลเพื่อประโยชน์ต่อสังคม

xguru · 2025-01-23T09:46:01+09:00

เมื่อ DrivenData เริ่มต้นขึ้นในปี 2014 การนำวิทยาการข้อมูลมาใช้เพื่อประโยชน์ต่อสังคมยังอยู่ในระยะเริ่มต้น ในเวลานั้น เทคโนโลยีด้านวิทยาการข้อมูลถูกใช้เป็นหลักในบริษัทอย่าง Netflix และ Amazon เพื่อการตลาดและการแนะนำคอนเทนต์ ขณะที่แทบไม่มีกรณีการใช้งานสำหรับองค์กรไม่แสวงหากำไร NGO กิจการเพื่อสังคม หรือบริการภาครัฐ เป้าหมายและภูมิหลังในช่วงเริ่มต้น บุคลากรด้านวิทยาการข้อมูลมีอยู่น้อยมากและมีต้นทุนการจ้างงานสูง และช่องว่างนี้ยิ่งรุนแรงกว่าเดิมในองค์กรที่ทำงานกับปัญหาสังคม เริ่มต้นจาก Harvard Innovation Lab โดยมีเป้าหมายเพื่อลดช่องว่างด้านทักษะวิทยาการข้อมูลสำหรับการแก้ปัญหาสังคม เป้าหมายคือการใช้เทคโนโลยีล้ำสมัยด้านวิทยาการข้อมูลและ crowdsourcing เพื่อแก้โจทย์ทางสังคมสำคัญของโลก คำพูดอ้างอิง 2 ประโยคที่สะท้อนมุมมองในเวลานั้น "การทำให้ Big Data มีประโยชน์ต่อการตัดสินใจด้านมนุษยธรรมคือความท้าทายและโอกาสสำคัญของยุคเครือข่าย" – UN OCHA "คนเก่งที่สุดในรุ่นของผมกำลังทุ่มความคิดไปกับการทำให้ผู้คนคลิกโฆษณา… มันน่าหงุดหงิดจริง ๆ" – Jeff Hammerbacher อดีตผู้จัดการข้อมูลของ Facebook ความเปลี่ยนแปลงตลอด 10 ปีที่ผ่านมา มีความพยายามหลากหลายในการประยุกต์ใช้วิทยาการข้อมูลและ AI เพื่อสร้างผลกระทบทางสังคม ร่วมงานกับพาร์ตเนอร์กว่า 80 รายในโครงการมากกว่า 150 โครงการ (เช่น ธนาคารโลก มูลนิธิ Bill & Melinda Gates และ NASA) จัดการแข่งขันด้านวิทยาการข้อมูลมากกว่า 75 รายการ พร้อมเงินรางวัลรวมกว่า $4.7 ล้าน ตลอด 10 ปีที่ผ่านมา DrivenData ได้สั่งสมแนวปฏิบัติที่ดีและบทเรียนจากการขับเคลื่อนประโยชน์สาธารณะผ่านวิทยาการข้อมูล ณ จุดนี้ ต้องการชวนคิดร่วมกันว่าอะไรได้ผล อะไรยังคงท้าทาย และควรเดินไปในทิศทางใดเพื่ออนาคตที่ดีกว่า พรีวิว 10 บทเรียนสำคัญ กรณีที่วิทยาการข้อมูลทำงานได้ดี วิทยาการข้อมูลสร้างผลกระทบที่มีความหมายต่อปัญหาสังคมได้ ข้อมูลที่ดีนำไปสู่โซลูชันที่ดี ความพยายามจะประสบความสำเร็จมากที่สุดเมื่อมุ่งไปที่ปัญหาเฉพาะและความต้องการของมนุษย์ มีประสิทธิภาพที่สุดเมื่อผสานจุดแข็งของเครื่องจักรและมนุษย์เข้าด้วยกัน มุมมองแบบสหวิทยาการและความยืดหยุ่นช่วยให้องค์กรได้เปรียบ สิ่งที่ยังคงท้าทาย วิทยาการข้อมูลเป็นงาน R&D ที่ต้องทำซ้ำอย่างต่อเนื่อง แต่ภาคสังคมยังลงทุนกับเรื่องนี้ไม่เพียงพอ การจ้างและสนับสนุนนักวิทยาการข้อมูลให้ดีเป็นเรื่องยาก โอเพนซอร์สยังขาดการพัฒนาโซลูชันสำหรับผู้ที่ไม่ใช่นักพัฒนา กระแส hype wave ของเทคโนโลยีได้รับความสนใจมากเกินไป วิทยาการข้อมูลและ AI มีนัยด้านจริยธรรมสูง แต่เครื่องมือและแนวปฏิบัติที่สนับสนุนการใช้อย่างมีจริยธรรมยังตามไม่ทัน ยุคสมัยกำลังเปลี่ยนไป ตลอด 10 ปีที่ผ่านมา ความเร็วของการพัฒนาเทคโนโลยีข้อมูลและ AI นั้นน่าทึ่งอย่างยิ่ง ปัจจัยนวัตกรรมสำคัญที่ทำให้สิ่งนี้เกิดขึ้นมีดังนี้: คอมพิวติ้งและพื้นที่จัดเก็บข้อมูล การขยายตัวของ cloud computing และ storage ทำให้สามารถเข้าถึงทรัพยากรที่จำเป็นได้ง่ายขึ้นและในต้นทุนที่ถูกลง ลดต้นทุนเริ่มต้นตั้งแต่การทดลองบน GPU ไปจนถึงการจัดวางคลัสเตอร์ที่ขยายได้สำหรับการรันโมเดลแบบเรียลไทม์ ดีปเลิร์นนิง ดีปเลิร์นนิงนำมาซึ่งการเปลี่ยนแปลงครั้งใหญ่ต่อวิทยาการข้อมูล มีสถาปัตยกรรมที่มีประสิทธิภาพเพิ่มขึ้นอย่างก้าวกระโดด เช่น generative adversarial networks (GAN), transformers, variational autoencoders และ graph neural networks ระบบนิเวศที่มี PyTorch และ TensorFlow เป็นศูนย์กลางได้พัฒนาอย่างต่อเนื่อง พร้อมด้วยเครื่องมือ ไลบรารี และโมเดลที่ฝึกล่วงหน้า ซึ่งช่วยเร่งความเร็วของการพัฒนา การเข้าถึงเทคโนโลยีที่แพร่หลายมากขึ้น วิทยาการข้อมูลถูกเรียกว่าเป็น "อาชีพที่เซ็กซี่ที่สุดแห่งศตวรรษที่ 21" และโอกาสในการเรียนรู้ก็เพิ่มขึ้นอย่างมาก ผู้คนจำนวนมากขึ้นได้เรียนรู้ทักษะพื้นฐานของวิทยาการข้อมูลผ่าน MOOCs, bootcamps และการแข่งขันด้านข้อมูล Generative AI การมาถึงของ large language models (LLM) กำลังเปลี่ยนวิธีการทำงาน ช่วยย่นเวลาที่ใช้กับงานซับซ้อนและเปิดความเป็นไปได้ใหม่ ๆ ยังมีการพิจารณาอยู่ว่า generative AI เป็นเพียงกระแสชั่วคราวหรือนวัตกรรมที่แท้จริง แต่สิ่งที่ชัดเจนคือ AI จะยังถูกใช้งานต่อไปอย่างต่อเนื่อง แม้จะมีการเปลี่ยนแปลงทางเทคโนโลยีเหล่านี้ แต่ก็ยังสังเกตเห็นรูปแบบร่วมหลายอย่างที่ข้ามพ้นเทคโนโลยีเฉพาะแต่ละแบบไปได้ บทความนี้จะพูดถึงทั้งสิ่งที่ได้ผลดีในช่วง 10 ปีที่ผ่านมา และสิ่งที่ยังคงเป็นความท้าทาย กรณีที่วิทยาการข้อมูลทำงานได้ดี วิทยาการข้อมูลสร้างผลกระทบที่มีความหมายต่อปัญหาสังคมได้ สถานการณ์เมื่อ 10 ปีก่อน ศักยภาพของเครื่องมือด้านวิทยาการข้อมูลนั้นชัดเจน แต่การประยุกต์ใช้เพื่อสร้างผลกระทบทางสังคมยังมีจำกัด การพูดคุยในเวลานั้นจำกัดอยู่เพียงไม่กี่กรณีตัวอย่าง และส่วนใหญ่เน้นไปที่ไอเดียเกี่ยวกับความเป็นไปได้ในอนาคต พัฒนาการในปัจจุบัน โมเดลแมชชีนเลิร์นนิงมีอิทธิพลต่อการตัดสินใจในหลากหลายสาขา เช่น การแพทย์และการจัดการทรัพยากรธรรมชาติ วิทยาการข้อมูลช่วยจัดการปัญหาอย่างสาหร่ายบูมที่เป็นอันตราย การประมงที่ไม่ยั่งยืน และภัยพิบัติทางธรรมชาติจากการเปลี่ยนแปลงสภาพภูมิอากาศ รวมถึงช่วยส่งเสริมการเข้าถึงบริการทางการเงินและการอนุรักษ์สัตว์ป่า ในภาคสาธารณะ การทำข้อมูลให้เห็นภาพได้กลายเป็นสื่อหลักสำหรับการรายงานข่าวและการสื่อสารสารสำคัญ ตัวอย่าง: แคมเปญป้องกันการแพร่ระบาดของ COVID-19, แดชบอร์ดของ WHO กรณีตัวอย่างเฉพาะจากการใช้ภาพถ่ายดาวเทียม ในเยเมน มีการใช้ภาพถ่ายดาวเทียมเพื่อวิเคราะห์ประเภทพืชผลและความเสี่ยงด้านภูมิอากาศ เพื่อให้ข้อมูลแก่โครงการความมั่นคงทางอาหารของธนาคารโลก AI กับการขับเคลื่อนความก้าวหน้าทางวิทยาศาสตร์ AlphaFold: โมเดลทำนายโครงสร้างโปรตีนที่ทำงานซึ่งเคยใช้เวลาหลายปีให้เสร็จได้ภายในไม่กี่ชั่วโมง และเปิดให้เหล่านักวิทยาศาสตร์เข้าถึงโครงสร้างโปรตีนทั้งหมดได้ฟรี โมเดล transformer: ถูกนำไปใช้ตรวจจับ hate speech ในมีมแบบ multimodal เทคโนโลยีระบุอัตลักษณ์ของสิ่งมีชีวิต: ช่วยปรับปรุงการติดตามชนิดพันธุ์ใกล้สูญพันธุ์ (เช่น วาฬ) และขยายไปสู่หลากหลายสปีชีส์ ความเปลี่ยนแปลงในภาคสังคม ในช่วงกลางทศวรรษ 2010 การพูดถึงการใช้ข้อมูลยังเน้นที่ "การวัดผลกระทบ" เป็นหลัก ตอนนี้จุดเน้นได้เปลี่ยนมาอยู่ที่การใช้เครื่องมือด้านวิทยาการข้อมูลเพื่อเปลี่ยนวิธีดำเนินงานขององค์กรและมอบขีดความสามารถใหม่ ปัจจุบัน การสนทนามุ่งไปที่สิ่งที่วิทยาการข้อมูลและ AI "ทำได้" มากกว่าสิ่งที่สามารถวัดได้ ข้อมูลที่ดีนำไปสู่โซลูชันที่ดี และการเข้าถึงข้อมูลก็ดีขึ้นอย่างมาก บทบาทของข้อมูลในชีวิตประจำวันเพิ่มขึ้น ทุกกิจกรรมตั้งแต่การซื้อสินค้า การใช้บริการฉุกเฉิน ไปจนถึงการไปโรงพยาบาล ล้วนสร้างข้อมูล เครื่องใช้ไฟฟ้า อุปกรณ์สวมใส่ รถยนต์ โทรศัพท์มือถือ และแอปพลิเคชัน ต่างก็เก็บข้อมูลการใช้งาน ความก้าวหน้าของเทคโนโลยีเซนเซอร์และกล้องทำให้การใช้ข้อมูลภาพและวิดีโอเพิ่มมากขึ้น การใช้ข้อมูลมี 2 ขั้นตอน บันทึกข้อมูลในรูปแบบดิจิทัลและทำให้สามารถสังเกตได้ พัฒนาไปสู่การใช้ข้อมูลเพื่อเรียนรู้และค้นหารูปแบบ AI และแมชชีนเลิร์นนิงที่มีข้อมูลเป็นฐาน ข้อมูลที่มีปริมาณมากขึ้นและมีคุณภาพดีขึ้นช่วยสนับสนุนการค้นหารูปแบบใหม่และการพัฒนาอัลกอริทึม ตัวอย่าง: การตรวจหามะเร็ง, อัลกอริทึมแนะนำของ Spotify, ข้อมูลฝึกของ ChatGPT ลำดับชั้นวิทยาการข้อมูลของ Monica Rogati ความสามารถขั้นสูงของวิทยาการข้อมูลต้องอาศัยรากฐานข้อมูลที่แข็งแรง การลงทุนด้านโครงสร้างพื้นฐานข้อมูลอย่างชาญฉลาดคือฐานสำหรับการสร้างความสามารถระดับสูงขึ้นไป การใช้ข้อมูลเพื่อคุณค่าทางสังคม รัฐบาลและองค์กรขนาดใหญ่เปิดเผยข้อมูลสาธารณะมากขึ้น ประเภทข้อมูลที่ DrivenData นำมาใช้ ได้แก่: ข้อมูลสภาพอากาศ ข้อมูลการจราจร และข้อมูล OpenStreetMap: สำหรับการวางแผนการเดินอากาศและการสนับสนุนความยืดหยุ่นต่อภัยพิบัติ ภาพถ่ายดาวเทียม: สำหรับการทำแผนที่ขอบเขตน้ำท่วมและการประเมินชีวมวลป่าไม้ ข้อมูลธุรกรรมบนมือถือ: สำหรับวิเคราะห์พฤติกรรมและทัศนคติทางการเงิน ข้อมูลแบบสำรวจ: สำหรับข้อมูลเชิงลึกด้านความคิดเห็นและพฤติกรรมในวงกว้าง ไฟล์บันทึกเสียง: สำหรับจำแนกระดับการรู้หนังสือของเด็ก ภาพความละเอียดสูง: สำหรับทำนายโอกาสการกลับมาเป็นซ้ำของมะเร็งผิวหนังชนิดเมลาโนมา ข้อมูลข้อความ: สำหรับวิเคราะห์แนวคิดทางคลินิกจากบันทึกความเห็นของแพทย์โดยอัตโนมัติ ความสำคัญของการเข้าถึงและการใช้งานข้อมูลได้จริง การเปิดเผยข้อมูลเพียงอย่างเดียวไม่เพียงพอ หากมีรูปแบบที่เครื่องอ่านได้ เอกสารประกอบที่ชัดเจน และกรณีการใช้งานที่ชัดเจน ก็จะช่วยเพิ่มการมีส่วนร่วมและการใช้งาน หลายองค์กรลงทุนกับการเก็บข้อมูล แต่กลับละเลยการลงทุนเพิ่มเติมเพื่อให้ข้อมูลนั้นถูกนำไปใช้ การจัดทำเอกสารข้อมูลและตัวอย่างการประยุกต์ใช้มีความสำคัญไม่แพ้เงินรางวัลของการแข่งขัน ความพยายามจะประสบความสำเร็จมากที่สุดเมื่อมุ่งไปที่ปัญหาเฉพาะและความต้องการของมนุษย์ กับดักของแนวทางที่ยึดเทคโนโลยีเป็นศูนย์กลาง องค์กรที่มุ่งสร้างผลกระทบทางสังคมมักพยายามตามให้ทันเทรนด์เทคโนโลยีล่าสุด แม้ "Big Data" และเครื่องมือ AI จะดูเหมือนเป็นคำตอบสารพัดนึก แต่ในความเป็นจริงจะมีประสิทธิภาพเมื่อมุ่งแก้ปัญหาที่เฉพาะเจาะจง หัวใจสำคัญของการออกแบบโครงการที่ประสบความสำเร็จ กำหนดผู้ใช้และปัญหาให้ชัดเจน พร้อมตั้งเป้าหมายที่วัดผลได้เพื่อแก้ปัญหานั้น ใช้เครื่องมือการออกแบบที่ยึดมนุษย์เป็นศูนย์กลางเพื่อทำความเข้าใจว่าอะไรคือ "สิ่งที่ผู้คนต้องการ" และพัฒนาโซลูชันที่ก้าวข้ามสิ่งที่ "เป็นไปได้" ทางเทคนิค กรณีตัวอย่างที่เป็นรูปธรรม การตรวจจับน้ำเขียวจากสาหร่าย (CyFi) ร่วมมือกับ NASA เพื่อตรวจจับการเกิดน้ำเขียวจากไซยาโนแบคทีเรียที่เป็นอันตรายผ่านภาพถ่ายดาวเทียม ช่วยให้ผู้จัดการด้านทรัพยากรน้ำประเมินสถานะน้ำเขียวได้อย่างแม่นยำและจัดสรรทรัพยากรได้อย่างมีประสิทธิภาพ การระบุชนิดสัตว์ป่า (Zamba) ร่วมมือกับสถาบัน Max Planck เพื่อพัฒนาเครื่องมือระบุสัตว์อัตโนมัติโดยใช้ข้อมูลจากกล้องดักถ่าย เพิ่มความสะดวกในการใช้งานด้วย Zamba Cloud ที่ปรับปรุง UI โดยสะท้อนข้อเสนอแนะจากนักวิจัย ความสำคัญของมุมมองผู้ใช้ การนิยามปัญหา ทำความเข้าใจปัญหาและความต้องการให้ชัดเจนผ่านการสัมภาษณ์ผู้ใช้และการรับฟังความคิดเห็น สะท้อนมุมมองความเป็นมนุษย์ที่อยู่เบื้องหลังจุดข้อมูล การส่งมอบโซลูชัน จำเป็นต้องมีการทดสอบ UI/UX และการสื่อสารที่ชัดเจน เพื่อให้ผู้ใช้สามารถใช้โซลูชันได้อย่างมีประสิทธิภาพและเข้าใจประโยชน์ของมัน ช่วยให้เข้าใจจุดแข็งและข้อจำกัดของโมเดลได้อย่างเป็นธรรมชาติ และอธิบายวิธีใช้งานผ่านกรณีตัวอย่างจริง บทสรุป บทบาทของนักวิทยาศาสตร์ข้อมูลคือการเชื่อมโยงความสามารถทางเทคนิคเข้ากับความต้องการของสังคม โครงการที่มีประสิทธิภาพที่สุดคือโครงการที่ไม่หมกมุ่นกับเทคโนโลยีล่าสุด แต่โฟกัสที่การแก้ปัญหาและผลลัพธ์ที่เป็นรูปธรรม โซลูชันจะมีประสิทธิภาพที่สุดเมื่อผสานจุดแข็งของเครื่องจักรและมนุษย์ ความเสี่ยงของความคาดหวังเกินจริงต่อ AI โมเดลวิทยาการข้อมูลและ AI ไม่ได้ทรงพลังรอบด้าน และทุกโมเดลต่างมีข้อจำกัดอยู่ในระดับหนึ่ง การนำ AI มาใช้เพียงอย่างเดียวไม่ได้รับประกันความสำเร็จ โซลูชันที่ดีที่สุดมาจากระบบที่ผสานจุดแข็งของเครื่องจักรและมนุษย์เข้าด้วยกัน กรณีของเครื่องมือ Zamba Zamba ทำนายแบบความน่าจะเป็นว่ามีสัตว์อยู่ในวิดีโอจากกล้องดักถ่ายสัตว์ป่าหรือไม่ โมเดลอาจผิดพลาดได้ในบางครั้ง แต่ความน่าจะเป็นที่ให้มาช่วยให้สามารถวางกลยุทธ์การตรวจทานได้อย่างมีประสิทธิภาพ ตัวอย่าง: ตรวจทานวิดีโอที่มีโอกาสพบชิมแปนซีสูงก่อน หรือกำหนดค่าเกณฑ์ความน่าจะเป็นเพื่อจัดเป็นวิดีโอว่าง ผลลัพธ์คือสามารถระบุวิดีโอชิมแปนซีได้ 85% โดยตรวจทานวิดีโอน้อยกว่า 5% ของทั้งหมด ผลลัพธ์ของความร่วมมือระหว่างเครื่องจักรกับมนุษย์ กรณี AI คัดกรองมะเร็งเต้านม: เมื่อรังสีแพทย์และ AI ทำงานร่วมกัน จะได้ความแม่นยำสูงกว่าการทำงานของแต่ละฝ่ายเพียงลำพัง เน้นความสำคัญของการตีความและการอธิบายผลของ AI: ต้องให้ข้อมูลที่ช่วยให้มนุษย์ประเมินผลลัพธ์ของ AI และนำไปผสานกับบริบทได้ ตัวอย่าง: ในการแข่งขันระบุวาฬ มีการแสดงภาพคุณลักษณะที่โมเดลใช้จับคู่ปลาวาฬแต่ละตัว รูปแบบที่คล้ายกันใน Generative AI ฟีดแบ็กจากมนุษย์เป็นสิ่งจำเป็นต่อการพัฒนาเครื่องมือที่มีประโยชน์อย่าง ChatGPT ข้อมูลฟีดแบ็กช่วยปรับปรุงให้โมเดลเรียนรู้กรณีที่ยากขึ้นเรื่อย ๆ ได้ การประเมินต้นทุนของข้อผิดพลาดและจุดที่ต้องปรับปรุง ปรับปรุงการออกแบบระบบด้วยคำถาม 2 ข้อ: "ถ้ามีโมเดลที่สมบูรณ์แบบ เราจะใช้อย่างไร?" "ถ้าโมเดลนั้นผิดพลาดเป็นครั้งคราว เราจะรับมืออย่างไร?" เพื่อให้เข้าใจขอบเขตการยอมรับข้อผิดพลาดของระบบและจุดที่ต้องมีการตรวจทานโดยมนุษย์ บทเรียนสำหรับองค์กร กรณีรัฐบาลเนเธอร์แลนด์ในปี 2021: มี 26,000 ครัวเรือนถูกกล่าวหาว่าฉ้อโกงสวัสดิการสังคมอย่างผิดพลาดจากอัลกอริทึมที่ไม่เหมาะสม การพึ่งพาอัลกอริทึมโดยไม่มีการตรวจทานจากมนุษย์อย่างเหมาะสมก่อให้เกิดต้นทุนทางสังคมสูง ในทางกลับกัน การผสานจุดแข็งของอัลกอริทึมและมนุษย์สามารถเพิ่มทั้งประสิทธิภาพและประสิทธิผลได้สูงสุด มุมมองแบบสหสาขาและความยืดหยุ่นช่วยให้องค์กรได้ประโยชน์ ประสบการณ์โครงการที่ครอบคลุมหลายสาขา การทำงานในหลายด้าน เช่น การเข้าถึงบริการทางการเงิน การรับมือการเปลี่ยนแปลงสภาพภูมิอากาศ และการดูแลสุขภาพ ทำให้เห็นประโยชน์ของมุมมองแบบสหสาขา รูปแบบของแมชชีนเลิร์นนิงในบริบทหนึ่งสามารถขยายไปประยุกต์ใช้กับสาขาอื่นได้ ตัวอย่าง: การประยุกต์ข้ามกันระหว่างโมเดลคอมพิวเตอร์วิทัศน์เพื่ออนุรักษ์ป่าสาหร่ายเคลป์ กับโมเดลสำหรับตรวจหารอยโรคในชิ้นเนื้อปากมดลูก ความยืดหยุ่นของแนวทาง ปัญหาที่ต่างกันมากอย่างการตรวจพบศัตรูพืชในพืชผลตั้งแต่ระยะแรก และการดึงทักษะจากเรซูเม่ ต่างก็อิงอยู่บนการรู้จำชื่อเฉพาะ (NER) สามารถนำบทเรียนและประสบการณ์จากแนวทางเดิมไปใช้กับปัญหาอื่นได้ด้วยต้นทุนที่ต่ำกว่า กรณีตัวอย่างที่เป็นรูปธรรม แนวทางการประมวลผลภาษาธรรมชาติที่รู้จำพืชผล ศัตรูพืช โรค และสารเคมีจากข้อความ WhatsApp ช่วยให้เกษตรกรรายย่อยมองเห็นแนวโน้มใหม่ ๆ และปรับปรุงคำแนะนำที่อิงวิทยาศาสตร์ได้ดีขึ้น ความสมดุลระหว่างความเชี่ยวชาญกับมุมมองผู้ใช้ การทำงานร่วมกับผู้เชี่ยวชาญเฉพาะด้านช่วยให้มั่นใจว่ามีบริบทที่เหมาะสมกับปัญหา รวมมุมมองของผู้ใช้ไว้ในกระบวนการวิทยาการข้อมูลเพื่อออกแบบโซลูชันที่เหมาะสม การค้นหา "งานที่คุ้มค่าจะทำ" ความเชี่ยวชาญทางเทคนิคเพียงอย่างเดียวไม่เพียงพอ แต่ต้องมีความเห็นอกเห็นใจ การสื่อสาร ความใฝ่รู้ และความยืดหยุ่น ระดมความคิดเพื่อหาขอบเขตที่แมชชีนเลิร์นนิงจะเพิ่มคุณค่าได้ พร้อมทำความเข้าใจอย่างลึกซึ้งว่าแนวทางนั้นมีไว้เพื่อใครและจะถูกใช้อย่างไร การตอบโจทย์ความต้องการที่หลากหลายขององค์กร ความต้องการของแต่ละองค์กรแตกต่างกัน ตั้งแต่งานวิจัยเชิงสำรวจไปจนถึงการทำต้นแบบและการนำขึ้นสู่การใช้งานจริง ร่วมมือกับพาร์ตเนอร์ที่หลากหลาย ตั้งแต่องค์กรผู้ให้ข้อมูลขนาดใหญ่ (เช่น Candid, NASA) ไปจนถึงองค์กรที่เพิ่งเริ่มสร้างระบบข้อมูล สิ่งสำคัญคือการรักษาความเหมาะสมของเทคโนโลยีไว้ พร้อมดึงความยืดหยุ่นจากประสบการณ์ที่หลากหลาย ส่วนที่ยังคงท้าทาย วิทยาการข้อมูลเป็นงานแบบวนซ้ำ และภาคสังคมยังลงทุนใน R&D ไม่เพียงพอ ธรรมชาติและคุณค่าของ R&D การวิจัยและพัฒนาเป็นกระบวนการเรียนรู้ที่ต้องอาศัยการลงทุนด้านทุน การทดลอง การทบทวน และความพร้อมที่จะยอมรับความล้มเหลว แนวทางที่ต้องการความแน่นอนและผลระยะสั้นมีข้อจำกัดในการรับมือกับขอบเขตปัญหาที่ภาคสังคมต้องแก้ไข การลงทุนระยะยาวและนวัตกรรมที่ไม่เป็นเส้นตรงคือสิ่งที่สร้างผลลัพธ์สำคัญ การลงทุน R&D ที่ไม่เพียงพอในภาคสังคม จากการสำรวจของ NSF ในปี 2022 พบว่า 94% ขององค์กรไม่แสวงหากำไรขนาดใหญ่ไม่ได้ทำกิจกรรม R&D เลย แม้ว่าวิทยาการข้อมูลจะเป็นกิจกรรมด้าน R&D เป็นหลัก แต่การลงทุนในด้านนี้ยังมีไม่เพียงพอ ลักษณะการทำงานแบบวนซ้ำของวิทยาการข้อมูล วิทยาการข้อมูลใช้การเรียนรู้แบบวนซ้ำและวงจรฟีดแบ็กเพื่อสร้างผลลัพธ์ที่ดีที่สุดและปรับปรุงประสิทธิภาพของบริการ ใช้เฟรมเวิร์กที่เน้นการทำซ้ำ เช่น หลักสูตรวิทยาการข้อมูลของ Harvard และ CRISP-DM (กระบวนการมาตรฐานสำหรับการทำเหมืองข้อมูล) ความสำคัญของวิทยาการข้อมูลที่ยึดมนุษย์เป็นศูนย์กลาง กระบวนการเรียนรู้มุ่งเน้นที่การออกแบบโซลูชันที่มีประสิทธิภาพ และผสานเข้ากับเฟรมเวิร์กนวัตกรรมที่ทำซ้ำได้ การออกแบบที่ยึดมนุษย์เป็นศูนย์กลางช่วยเสริมความเชื่อมโยงระหว่างความต้องการจริงกับโซลูชัน กรณีความสำเร็จด้าน R&D ของภาคเอกชน บริษัทเอกชนตระหนักอย่างชัดเจนถึงคุณค่าของการใช้ข้อมูลผ่านกระบวนการ R&D ตัวอย่างนวัตกรรม AI ในช่วงหลังเป็นผลลัพธ์ที่คงเป็นไปไม่ได้หากไม่มีการลงทุน R&D อย่างต่อเนื่อง บทสรุป แม้ผลลัพธ์เริ่มต้นของโครงการ Data R&D จะไม่แน่นอน แต่กระบวนการสร้างคุณค่าจากข้อมูลนั้นเป็นวิธีการที่พิสูจน์แล้ว การลงทุนใน R&D อย่างต่อเนื่องและระยะยาวเป็นสิ่งจำเป็นในการเร่งนวัตกรรมและแก้โจทย์ท้าทายของภาคสังคม การจ้างและสนับสนุนนักวิทยาศาสตร์ข้อมูลเป็นเรื่องยาก และนักวิทยาศาสตร์ข้อมูลที่ทำงานเพียงลำพังมีความพึงพอใจต่ำ ความยากจากมุมมองขององค์กร การจ้างงาน ยากที่จะระบุและประเมินผู้สมัครที่เหมาะสมเมื่อเดิมไม่มีนักวิทยาศาสตร์ข้อมูลอยู่ในองค์กร คำว่า "นักวิทยาศาสตร์ข้อมูล" มีความหมายไม่ชัดเจน เพราะครอบคลุมทักษะและประสบการณ์ที่หลากหลาย การดึงดูดและรักษาบุคลากร ความต้องการนักวิทยาศาสตร์ข้อมูลที่สูงทำให้เกิดตลาดแรงงานที่มีการแข่งขันสูง นอกเหนือจากแรงจูงใจในการแก้ปัญหาสังคมแล้ว ยังต้องมีงานด้านเทคนิคที่น่าสนใจ ค่าตอบแทนที่แข่งขันได้ และโอกาสพัฒนาความเชี่ยวชาญ ในการจ้างงานช่วงเริ่มต้น การมีองค์ประกอบเหล่านี้ยิ่งทำได้ยากกว่าเดิม การบริหารและการสนับสนุน องค์กรต้องกำหนดขอบเขตปัญหาให้ชัดเจน และจัดหาทิศทาง โครงสร้างพื้นฐาน และข้อมูล เพื่อให้นักวิทยาศาสตร์ข้อมูลรักษาประสิทธิภาพการทำงานได้ หากขาดพื้นฐานด้านเทคนิค ก็มีแนวโน้มจะประเมินความยากของงานต่ำหรือสูงเกินไปได้ง่าย ความยากจากมุมมองของนักพัฒนา การเรียนรู้และการเติบโต วิทยาการข้อมูลเป็นสาขาที่พัฒนาอย่างรวดเร็ว โอกาสในการเรียนรู้และเติบโตภายในทีมจึงมีความสำคัญ ในสภาพแวดล้อมที่ทำ code review ให้ feedback ต่อโมเดล หรือแบ่งเบาภาระงานได้ยาก โอกาสในการเติบโตก็จะถูกจำกัด การขาดทิศทางและการสนับสนุน หากงานไม่ได้รับการสนับสนุนอย่างเหมาะสม ความพึงพอใจและประสิทธิภาพการทำงานของนักวิทยาศาสตร์ข้อมูลจะลดลง ความสนุกของงาน กระบวนการพูดคุยและแก้ปัญหาร่วมกับเพื่อนร่วมงานช่วยเพิ่มความพึงพอใจในการทำงาน แม้จะอาศัยเครือข่ายภายนอกเพื่อแก้ปัญหานี้ได้ แต่ความร่วมมือภายในองค์กรมักมีประสิทธิภาพมากกว่า สัญญาณของการเปลี่ยนแปลง ช่วงหลังมานี้มีกรณีขององค์กรในภาคสังคมที่ตั้งทีมข้อมูลภายในองค์กรเองเพิ่มขึ้น DrivenData เข้าร่วมเป็นพาร์ตเนอร์ที่ช่วยสนับสนุนการจ้างงานนักวิทยาศาสตร์ข้อมูลและวิศวกรชุดแรก การ onboarding และการเปลี่ยนผ่านงาน แนวทางการทำงานร่วมกับทีมผู้เชี่ยวชาญด้านวิทยาการข้อมูลจากภายนอกเพื่อเสริมขีดความสามารถอย่างยืดหยุ่น เป็นประโยชน์ต่อทั้งองค์กรและนักวิทยาศาสตร์ข้อมูล แนวโน้มในอนาคต แม้บางองค์กรจะเริ่มประสบความสำเร็จในการสร้างทีมข้อมูล แต่ความต้องการทักษะด้านวิทยาการข้อมูลก็ยังคงสูง ความท้าทายในการสร้างทีมข้อมูลขึ้นมาตั้งแต่ต้นคาดว่าจะยังคงดำเนินต่อไป โอเพนซอร์สยังพัฒนาโซลูชันสำหรับผู้ที่ไม่ใช่นักพัฒนาได้ไม่เพียงพอ ข้อจำกัดของโอเพนซอร์ส ซอฟต์แวร์โอเพนซอร์สมักพัฒนาได้อย่างมีประสิทธิภาพ เพราะชุมชนนักพัฒนามักเป็นผู้ใช้กลุ่มเดียวกัน ผู้มีส่วนร่วมมีแรงจูงใจในการปรับปรุงเครื่องมือที่ตนเองจะใช้งาน แต่สำหรับเครื่องมือที่มุ่งเป้าไปยังผู้ที่ไม่ใช่นักพัฒนาหรือผู้ที่ไม่ใช่ผู้เชี่ยวชาญ แรงจูงใจลักษณะนี้มักไม่เกิดขึ้น ความท้าทายของเครื่องมือสำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญ ในโครงการวิทยาการข้อมูล มักมีการพัฒนาวิธีการและเครื่องมือสำหรับผู้ที่ไม่ใช่นักพัฒนา แม้จะเผยแพร่เป็นโอเพนซอร์ส หากไม่มีการลงทุนและพัฒนาอย่างต่อเนื่อง โครงการก็อาจหยุดนิ่งหรือยุติลง หากจะพัฒนาไปเป็นโซลูชันที่ประสบความสำเร็จจริง หลังจากขั้นต้นแบบแล้วก็ยังต้องมีการพัฒนาเพิ่มเติมและการทดสอบนำร่องที่สอดคล้องกับการใช้งานจริง กรณีศึกษาเฉพาะ: Concept to Clinic ในปี 2017-18 มีการพัฒนาแอปพลิเคชันแบบเปิดที่ใช้ AI เพื่อช่วยนักรังสีเทคนิคประมวลผล CT scan มีการนำระบบแรงจูงใจเชิงโครงสร้างมาใช้ โดยมอบคะแนนและรางวัลเป็นเงินแก่ผู้มีส่วนร่วมเพื่อกระตุ้นการร่วมพัฒนา หากไม่มีแนวทางนี้ ก็มีความเป็นไปได้สูงว่าโครงการจะไม่สามารถพัฒนาต่อได้ เงื่อนไขสู่ความสำเร็จของโอเพนซอร์สอย่างยั่งยืน การเปิดเป็นโอเพนซอร์สเพียงอย่างเดียว ไม่อาจรับประกันอิทธิพลระยะยาวได้ หากจะพัฒนาจากต้นแบบไปเป็นโซลูชันสำหรับผู้ใช้ปลายทาง ต้องมีโรดแมปที่ชัดเจนและการสนับสนุนเงินทุนอย่างต่อเนื่อง เมื่อต้องพัฒนาแอปพลิเคชันสำคัญ โอเพนซอร์สเป็นเพียงส่วนหนึ่งของการเดินทาง ไม่ควรกลายเป็นเป้าหมายสุดท้าย กระแส hype ทางเทคโนโลยีได้รับความสนใจมากเกินไป ภาคสังคมกับนวัตกรรมทางเทคโนโลยี ในช่วง 10 ปีที่ผ่านมา ภาคสังคมมีความเกี่ยวข้องอย่างใกล้ชิดกับคลื่นของนวัตกรรมเทคโนโลยีใหม่ ๆ องค์กรมักถูกดึงดูดให้รับเทคโนโลยีใหม่มาใช้เพื่อเพิ่มประสิทธิภาพภายใต้ทรัพยากรที่จำกัด แรงกดดันว่าหากไม่ตามกระแสเทคโนโลยีล่าสุดจะล้าหลัง ทำให้หลายองค์กรเปลี่ยนกลยุทธ์อยู่บ่อยครั้ง ปัญหาของการนำเทคโนโลยีที่ถูกโหมเกินจริงมาใช้ เป็นเรื่องยากที่จะคัดแยกนวัตกรรมแกนหลักออกจากกระแส hype ทางเทคโนโลยี การนำเทคโนโลยีมาใช้มักนำไปสู่ความคาดหวังที่สูงเกินจริงและการดำเนินการที่ไม่เพียงพอ ตัวอย่าง: บล็อกเชน: แม้ความคาดหวังจะสูง แต่ประโยชน์เชิงรูปธรรมต่อภาคสังคมกลับมีน้อยมาก แอปมือถือ: แม้ไม่จำเป็นเสมอไป แต่แรงกดดันว่าเป็น "สิ่งจำเป็น" ทำให้เกิดการใช้จ่ายอย่างไม่มีประสิทธิภาพ ความสำคัญขององค์กรเทคโนโลยีเฉพาะทาง องค์กรผู้เชี่ยวชาญด้านเทคโนโลยีที่สามารถรับมือกับกระแส hype ได้อย่างมีประสิทธิภาพ มักสร้างผลงานได้ดีที่สุด DrivenData ทำงานร่วมกับ DataKind, DSSG Fellowship, Delta Analytics และอื่น ๆ โดยอาศัยความเชี่ยวชาญด้านเทคโนโลยี อย่างไรก็ตาม แม้แต่กลุ่มผู้เชี่ยวชาญเหล่านี้ก็ยังยากที่จะสะสมบทเรียนจากกระแส hype ในอดีตไว้อย่างเป็นระบบ การเปลี่ยนแปลงที่จำเป็น: ‘เขื่อนกันคลื่น’ สำหรับรับมือ hype ทางเทคโนโลยี จำเป็นต้องมีขีดความสามารถในการแยกนวัตกรรมที่ใช้ได้จริงออกจากความคาดหวังที่เกินจริง และระบุพัฒนาการสำคัญให้ได้ ภาวะผู้นำด้านเทคโนโลยีที่เข้าใจทั้งเทคโนโลยีล้ำสมัยและมีมุมมองเชิงลึกต่อภาคสังคมเป็นสิ่งจำเป็น ปัจจุบันยังขาดทั้งภาวะผู้นำและระบบนิเวศลักษณะนี้ และจำเป็นต้องสร้างขึ้นเพื่อให้เกิดแนวทางที่ยั่งยืนและเป็นผู้ใหญ่มากขึ้น แนวทางเชิงกลยุทธ์ต่อเทคโนโลยีสมัยใหม่อย่าง AI AI มีศักยภาพมหาศาล แต่สิ่งที่ต้องการไม่ใช่แค่ความตื่นเต้น หากเป็นกลยุทธ์ที่รอบคอบและความเชี่ยวชาญเชิงลึก หากไม่สร้างรากฐานด้านข้อมูลที่แข็งแรง ก็เสี่ยงจะวนกลับเข้าสู่วงจรที่ไร้ประสิทธิภาพจากกระแส hype ทางเทคโนโลยีซ้ำอีก หากไม่มีการลงทุนและการวางแผนในระดับพื้นฐาน นวัตกรรมเทคโนโลยีในภาคสังคมก็ยากจะสร้างผลลัพธ์ที่แท้จริงได้ วิทยาการข้อมูลและ AI มีนัยด้านจริยธรรมสูง แต่การนำมาใช้อย่างรวดเร็วกลับแซงหน้าเครื่องมือและแนวปฏิบัติที่รองรับ การขยายตัวของวิทยาการข้อมูลและ AI กับความสำคัญด้านจริยธรรม วิทยาการข้อมูลและแมชชีนเลิร์นนิงถูกผสานเข้าไปในหลากหลายสาขา เช่น การแพทย์ การรับมือภัยพิบัติ และการตัดสินคดีอาญา ความเสี่ยงจากการใช้งานที่ผิดพลาดจึงสูงกว่าที่เคยเป็นมาอย่างมาก ความเป็นจริงที่ยังขาดการพิจารณาด้านจริยธรรม นักวิทยาศาสตร์ข้อมูลมีมุมมองเฉพาะตัวในการทำความเข้าใจนัยด้านจริยธรรมของโมเดลและ pipeline อย่างไรก็ตาม มุมมองเหล่านี้มักไม่ถูกบูรณาการเข้าไปในวงจรชีวิตของโครงการวิทยาการข้อมูล การพัฒนาเช็กลิสต์โอเพนซอร์สเพื่อรับมือกับ trade-off ด้านจริยธรรม มีการบูรณาการเข้ากับเวิร์กโฟลว์ด้านวิทยาการข้อมูล เพื่อให้สามารถอภิปราย trade-off ทางจริยธรรมได้ หลักการสำคัญ: การตัดสินใจทางจริยธรรมควรมุ่งรับรู้ trade-off ที่สำคัญที่สุดในบริบทเฉพาะ พร้อมเดินหน้าอย่างมีความรับผิดชอบและลดอันตรายให้น้อยที่สุด ปัญหาด้านจริยธรรมเกิดขึ้นได้ในทุกช่วงของโครงการ ไม่ว่าจะเป็นการเก็บข้อมูล การจัดเก็บ การวิเคราะห์ การสร้างแบบจำลอง หรือการนำไปใช้งาน การอภิปรายด้านจริยธรรมมักถูกลดลำดับความสำคัญลงเพราะกำหนดการที่เร่งด่วนและข้อเรียกร้องต่าง ๆ เพื่อป้องกันสิ่งนี้ ต้องบูรณาการคำถามด้านจริยธรรมเข้ากับมิติอื่นของเวิร์กโฟลว์ และกันเวลาไว้โดยตั้งใจ ความเป็นธรรมของอัลกอริทึมและการบรรเทาอคติ โมเดลที่เรียนรู้จากข้อมูลที่มีอคติย่อมผลิตซ้ำความไม่เท่าเทียม จึงมีการพัฒนาเทคนิคเพื่อระบุและบรรเทาปัญหานี้ ตัวอย่าง: การทำงานร่วมกับ Wellcome Trust เพื่อจัดทำกรณีการบรรเทาอคติโดยคำนึงถึงความเป็นธรรมในโมเดลพยากรณ์ความเครียดทางจิตใจ วิเคราะห์อคติผ่านตัวชี้วัดความเป็นธรรมเชิงปริมาณ และเสนอวิธีการบรรเทา ความสำคัญของการพิจารณาด้านจริยธรรมในยุค AI ในขณะที่ AI แพร่กระจายอย่างรวดเร็ว หลายบริษัทกลับยุบทีม responsible AI เพื่อลดต้นทุน ในภาคสังคม ความรับผิดชอบต่อผู้รับประโยชน์มีสูงกว่า ทำให้ต้นทุนของความล้มเหลวด้านจริยธรรมรุนแรงยิ่งกว่า หากไม่เสริมความแข็งแกร่งให้แนวปฏิบัติด้านจริยธรรม การนำ AI มาใช้ก็เสี่ยงจะก่อปัญหาที่ใหญ่กว่าเดิม บทสรุป การสร้างเครื่องมือและแนวปฏิบัติด้านจริยธรรมเพื่อรองรับการนำ AI มาใช้ มีความสำคัญกว่าที่เคย ต้องรับประกันความไว้วางใจและความยั่งยืนในภาคสังคมผ่านการใช้เทคโนโลยีอย่างมีความรับผิดชอบ แนวโน้มต่อจากนี้ การเปลี่ยนแปลงและโอกาสของวิทยาการข้อมูล ตลอด 10 ปีที่ผ่านมา วิทยาการข้อมูลได้ขับเคลื่อนการเปลี่ยนแปลงสำคัญในภาคส่วนเพื่อสังคม พร้อมทั้งเผชิญทั้งความสำเร็จและความท้าทาย แม้การตระหนักถึงศักยภาพของข้อมูลและ AI จะเพิ่มสูงขึ้น แต่ก็ยังมีคำถามสำคัญที่ต้องหาคำตอบ: จะนำความก้าวหน้าทางเทคโนโลยีที่เกิดขึ้นอย่างต่อเนื่องไปประยุกต์ใช้กับปัญหาสังคมที่ใหญ่ที่สุดได้อย่างเป็นรูปธรรมอย่างไร? จะรับประกันได้อย่างไรว่าผลประโยชน์จะไม่กระจุกตัวอยู่แค่ในบริษัทยักษ์ใหญ่ไม่กี่แห่ง? จะทำให้การนำเทคโนโลยีไปใช้อย่างมีความรับผิดชอบต่อธรรมชาติและมนุษยชาติเป็นจริงได้อย่างไร? ความสำคัญของบทเรียนที่ได้จากประสบการณ์ ความพยายามที่ตั้งอยู่บนบทเรียนจากประสบการณ์ที่ผ่านมาให้ผลลัพธ์ที่ยิ่งใหญ่ที่สุด DrivenData ภาคภูมิใจที่ได้เป็นส่วนหนึ่งของชุมชนพันธมิตร ลูกค้า และนักพัฒนาที่ใช้ข้อมูลและ AI เพื่อประโยชน์ต่อสังคม หากคุณสนใจประเด็นคล้ายกันหรือมีแนวคิดเพิ่มเติม ก็ยินดีให้แบ่งปัน ความคาดหวังต่ออนาคต หาก 10 ปีที่ผ่านมาโดดเด่นเพียงใด 10 ปีข้างหน้าก็คาดว่าจะนำมาซึ่งการเปลี่ยนแปลงที่ยิ่งใหญ่ยิ่งกว่า ยังมีงานอีกมากที่ต้องทำ และยังมีอีกมากที่ต้องเรียนรู้ เราตั้งตารออนาคตที่จะเผชิญกับความท้าทายเหล่านี้ ค้นหาความเป็นไปได้ใหม่ ๆ และสร้างผลกระทบทางสังคมที่ดียิ่งขึ้น

(drivendata.co)

13 คะแนน โดย xguru 2025-01-23 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อ DrivenData เริ่มต้นขึ้นในปี 2014 การนำวิทยาการข้อมูลมาใช้เพื่อประโยชน์ต่อสังคมยังอยู่ในระยะเริ่มต้น
ในเวลานั้น เทคโนโลยีด้านวิทยาการข้อมูลถูกใช้เป็นหลักในบริษัทอย่าง Netflix และ Amazon เพื่อการตลาดและการแนะนำคอนเทนต์ ขณะที่แทบไม่มีกรณีการใช้งานสำหรับองค์กรไม่แสวงหากำไร NGO กิจการเพื่อสังคม หรือบริการภาครัฐ
เป้าหมายและภูมิหลังในช่วงเริ่มต้น
- บุคลากรด้านวิทยาการข้อมูลมีอยู่น้อยมากและมีต้นทุนการจ้างงานสูง และช่องว่างนี้ยิ่งรุนแรงกว่าเดิมในองค์กรที่ทำงานกับปัญหาสังคม
- เริ่มต้นจาก Harvard Innovation Lab โดยมีเป้าหมายเพื่อลดช่องว่างด้านทักษะวิทยาการข้อมูลสำหรับการแก้ปัญหาสังคม
- เป้าหมายคือการใช้เทคโนโลยีล้ำสมัยด้านวิทยาการข้อมูลและ crowdsourcing เพื่อแก้โจทย์ทางสังคมสำคัญของโลก
คำพูดอ้างอิง 2 ประโยคที่สะท้อนมุมมองในเวลานั้น
- "การทำให้ Big Data มีประโยชน์ต่อการตัดสินใจด้านมนุษยธรรมคือความท้าทายและโอกาสสำคัญของยุคเครือข่าย" – UN OCHA
- "คนเก่งที่สุดในรุ่นของผมกำลังทุ่มความคิดไปกับการทำให้ผู้คนคลิกโฆษณา… มันน่าหงุดหงิดจริง ๆ" – Jeff Hammerbacher อดีตผู้จัดการข้อมูลของ Facebook
ความเปลี่ยนแปลงตลอด 10 ปีที่ผ่านมา
- มีความพยายามหลากหลายในการประยุกต์ใช้วิทยาการข้อมูลและ AI เพื่อสร้างผลกระทบทางสังคม
- ร่วมงานกับพาร์ตเนอร์กว่า 80 รายในโครงการมากกว่า 150 โครงการ (เช่น ธนาคารโลก มูลนิธิ Bill & Melinda Gates และ NASA)
- จัดการแข่งขันด้านวิทยาการข้อมูลมากกว่า 75 รายการ พร้อมเงินรางวัลรวมกว่า $4.7 ล้าน
ตลอด 10 ปีที่ผ่านมา DrivenData ได้สั่งสมแนวปฏิบัติที่ดีและบทเรียนจากการขับเคลื่อนประโยชน์สาธารณะผ่านวิทยาการข้อมูล
ณ จุดนี้ ต้องการชวนคิดร่วมกันว่าอะไรได้ผล อะไรยังคงท้าทาย และควรเดินไปในทิศทางใดเพื่ออนาคตที่ดีกว่า

พรีวิว 10 บทเรียนสำคัญ

กรณีที่วิทยาการข้อมูลทำงานได้ดี

วิทยาการข้อมูลสร้างผลกระทบที่มีความหมายต่อปัญหาสังคมได้
ข้อมูลที่ดีนำไปสู่โซลูชันที่ดี
ความพยายามจะประสบความสำเร็จมากที่สุดเมื่อมุ่งไปที่ปัญหาเฉพาะและความต้องการของมนุษย์
มีประสิทธิภาพที่สุดเมื่อผสานจุดแข็งของเครื่องจักรและมนุษย์เข้าด้วยกัน
มุมมองแบบสหวิทยาการและความยืดหยุ่นช่วยให้องค์กรได้เปรียบ

สิ่งที่ยังคงท้าทาย

วิทยาการข้อมูลเป็นงาน R&D ที่ต้องทำซ้ำอย่างต่อเนื่อง แต่ภาคสังคมยังลงทุนกับเรื่องนี้ไม่เพียงพอ
การจ้างและสนับสนุนนักวิทยาการข้อมูลให้ดีเป็นเรื่องยาก
โอเพนซอร์สยังขาดการพัฒนาโซลูชันสำหรับผู้ที่ไม่ใช่นักพัฒนา
กระแส hype wave ของเทคโนโลยีได้รับความสนใจมากเกินไป
วิทยาการข้อมูลและ AI มีนัยด้านจริยธรรมสูง แต่เครื่องมือและแนวปฏิบัติที่สนับสนุนการใช้อย่างมีจริยธรรมยังตามไม่ทัน

ยุคสมัยกำลังเปลี่ยนไป

ตลอด 10 ปีที่ผ่านมา ความเร็วของการพัฒนาเทคโนโลยีข้อมูลและ AI นั้นน่าทึ่งอย่างยิ่ง ปัจจัยนวัตกรรมสำคัญที่ทำให้สิ่งนี้เกิดขึ้นมีดังนี้:

คอมพิวติ้งและพื้นที่จัดเก็บข้อมูล
- การขยายตัวของ cloud computing และ storage ทำให้สามารถเข้าถึงทรัพยากรที่จำเป็นได้ง่ายขึ้นและในต้นทุนที่ถูกลง
- ลดต้นทุนเริ่มต้นตั้งแต่การทดลองบน GPU ไปจนถึงการจัดวางคลัสเตอร์ที่ขยายได้สำหรับการรันโมเดลแบบเรียลไทม์
ดีปเลิร์นนิง
- ดีปเลิร์นนิงนำมาซึ่งการเปลี่ยนแปลงครั้งใหญ่ต่อวิทยาการข้อมูล
- มีสถาปัตยกรรมที่มีประสิทธิภาพเพิ่มขึ้นอย่างก้าวกระโดด เช่น generative adversarial networks (GAN), transformers, variational autoencoders และ graph neural networks
- ระบบนิเวศที่มี PyTorch และ TensorFlow เป็นศูนย์กลางได้พัฒนาอย่างต่อเนื่อง พร้อมด้วยเครื่องมือ ไลบรารี และโมเดลที่ฝึกล่วงหน้า ซึ่งช่วยเร่งความเร็วของการพัฒนา
การเข้าถึงเทคโนโลยีที่แพร่หลายมากขึ้น
- วิทยาการข้อมูลถูกเรียกว่าเป็น "อาชีพที่เซ็กซี่ที่สุดแห่งศตวรรษที่ 21" และโอกาสในการเรียนรู้ก็เพิ่มขึ้นอย่างมาก
- ผู้คนจำนวนมากขึ้นได้เรียนรู้ทักษะพื้นฐานของวิทยาการข้อมูลผ่าน MOOCs, bootcamps และการแข่งขันด้านข้อมูล
Generative AI
- การมาถึงของ large language models (LLM) กำลังเปลี่ยนวิธีการทำงาน
- ช่วยย่นเวลาที่ใช้กับงานซับซ้อนและเปิดความเป็นไปได้ใหม่ ๆ
- ยังมีการพิจารณาอยู่ว่า generative AI เป็นเพียงกระแสชั่วคราวหรือนวัตกรรมที่แท้จริง แต่สิ่งที่ชัดเจนคือ AI จะยังถูกใช้งานต่อไปอย่างต่อเนื่อง

แม้จะมีการเปลี่ยนแปลงทางเทคโนโลยีเหล่านี้ แต่ก็ยังสังเกตเห็นรูปแบบร่วมหลายอย่างที่ข้ามพ้นเทคโนโลยีเฉพาะแต่ละแบบไปได้ บทความนี้จะพูดถึงทั้งสิ่งที่ได้ผลดีในช่วง 10 ปีที่ผ่านมา และสิ่งที่ยังคงเป็นความท้าทาย

กรณีที่วิทยาการข้อมูลทำงานได้ดี

วิทยาการข้อมูลสร้างผลกระทบที่มีความหมายต่อปัญหาสังคมได้

สถานการณ์เมื่อ 10 ปีก่อน
- ศักยภาพของเครื่องมือด้านวิทยาการข้อมูลนั้นชัดเจน แต่การประยุกต์ใช้เพื่อสร้างผลกระทบทางสังคมยังมีจำกัด
- การพูดคุยในเวลานั้นจำกัดอยู่เพียงไม่กี่กรณีตัวอย่าง และส่วนใหญ่เน้นไปที่ไอเดียเกี่ยวกับความเป็นไปได้ในอนาคต
พัฒนาการในปัจจุบัน
- โมเดลแมชชีนเลิร์นนิงมีอิทธิพลต่อการตัดสินใจในหลากหลายสาขา เช่น การแพทย์และการจัดการทรัพยากรธรรมชาติ
- วิทยาการข้อมูลช่วยจัดการปัญหาอย่างสาหร่ายบูมที่เป็นอันตราย การประมงที่ไม่ยั่งยืน และภัยพิบัติทางธรรมชาติจากการเปลี่ยนแปลงสภาพภูมิอากาศ รวมถึงช่วยส่งเสริมการเข้าถึงบริการทางการเงินและการอนุรักษ์สัตว์ป่า
- ในภาคสาธารณะ การทำข้อมูลให้เห็นภาพได้กลายเป็นสื่อหลักสำหรับการรายงานข่าวและการสื่อสารสารสำคัญ
  - ตัวอย่าง: แคมเปญป้องกันการแพร่ระบาดของ COVID-19, แดชบอร์ดของ WHO
กรณีตัวอย่างเฉพาะจากการใช้ภาพถ่ายดาวเทียม
- ในเยเมน มีการใช้ภาพถ่ายดาวเทียมเพื่อวิเคราะห์ประเภทพืชผลและความเสี่ยงด้านภูมิอากาศ เพื่อให้ข้อมูลแก่โครงการความมั่นคงทางอาหารของธนาคารโลก
AI กับการขับเคลื่อนความก้าวหน้าทางวิทยาศาสตร์
- AlphaFold: โมเดลทำนายโครงสร้างโปรตีนที่ทำงานซึ่งเคยใช้เวลาหลายปีให้เสร็จได้ภายในไม่กี่ชั่วโมง และเปิดให้เหล่านักวิทยาศาสตร์เข้าถึงโครงสร้างโปรตีนทั้งหมดได้ฟรี
- โมเดล transformer: ถูกนำไปใช้ตรวจจับ hate speech ในมีมแบบ multimodal
- เทคโนโลยีระบุอัตลักษณ์ของสิ่งมีชีวิต: ช่วยปรับปรุงการติดตามชนิดพันธุ์ใกล้สูญพันธุ์ (เช่น วาฬ) และขยายไปสู่หลากหลายสปีชีส์
ความเปลี่ยนแปลงในภาคสังคม
- ในช่วงกลางทศวรรษ 2010 การพูดถึงการใช้ข้อมูลยังเน้นที่ "การวัดผลกระทบ" เป็นหลัก
- ตอนนี้จุดเน้นได้เปลี่ยนมาอยู่ที่การใช้เครื่องมือด้านวิทยาการข้อมูลเพื่อเปลี่ยนวิธีดำเนินงานขององค์กรและมอบขีดความสามารถใหม่
- ปัจจุบัน การสนทนามุ่งไปที่สิ่งที่วิทยาการข้อมูลและ AI "ทำได้" มากกว่าสิ่งที่สามารถวัดได้

ข้อมูลที่ดีนำไปสู่โซลูชันที่ดี และการเข้าถึงข้อมูลก็ดีขึ้นอย่างมาก

บทบาทของข้อมูลในชีวิตประจำวันเพิ่มขึ้น
- ทุกกิจกรรมตั้งแต่การซื้อสินค้า การใช้บริการฉุกเฉิน ไปจนถึงการไปโรงพยาบาล ล้วนสร้างข้อมูล
- เครื่องใช้ไฟฟ้า อุปกรณ์สวมใส่ รถยนต์ โทรศัพท์มือถือ และแอปพลิเคชัน ต่างก็เก็บข้อมูลการใช้งาน
- ความก้าวหน้าของเทคโนโลยีเซนเซอร์และกล้องทำให้การใช้ข้อมูลภาพและวิดีโอเพิ่มมากขึ้น
การใช้ข้อมูลมี 2 ขั้นตอน
1. บันทึกข้อมูลในรูปแบบดิจิทัลและทำให้สามารถสังเกตได้
2. พัฒนาไปสู่การใช้ข้อมูลเพื่อเรียนรู้และค้นหารูปแบบ
AI และแมชชีนเลิร์นนิงที่มีข้อมูลเป็นฐาน
- ข้อมูลที่มีปริมาณมากขึ้นและมีคุณภาพดีขึ้นช่วยสนับสนุนการค้นหารูปแบบใหม่และการพัฒนาอัลกอริทึม
- ตัวอย่าง: การตรวจหามะเร็ง, อัลกอริทึมแนะนำของ Spotify, ข้อมูลฝึกของ ChatGPT
ลำดับชั้นวิทยาการข้อมูลของ Monica Rogati
- ความสามารถขั้นสูงของวิทยาการข้อมูลต้องอาศัยรากฐานข้อมูลที่แข็งแรง
- การลงทุนด้านโครงสร้างพื้นฐานข้อมูลอย่างชาญฉลาดคือฐานสำหรับการสร้างความสามารถระดับสูงขึ้นไป
การใช้ข้อมูลเพื่อคุณค่าทางสังคม
- รัฐบาลและองค์กรขนาดใหญ่เปิดเผยข้อมูลสาธารณะมากขึ้น
- ประเภทข้อมูลที่ DrivenData นำมาใช้ ได้แก่:
  - ข้อมูลสภาพอากาศ ข้อมูลการจราจร และข้อมูล OpenStreetMap: สำหรับการวางแผนการเดินอากาศและการสนับสนุนความยืดหยุ่นต่อภัยพิบัติ
  - ภาพถ่ายดาวเทียม: สำหรับการทำแผนที่ขอบเขตน้ำท่วมและการประเมินชีวมวลป่าไม้
  - ข้อมูลธุรกรรมบนมือถือ: สำหรับวิเคราะห์พฤติกรรมและทัศนคติทางการเงิน
  - ข้อมูลแบบสำรวจ: สำหรับข้อมูลเชิงลึกด้านความคิดเห็นและพฤติกรรมในวงกว้าง
  - ไฟล์บันทึกเสียง: สำหรับจำแนกระดับการรู้หนังสือของเด็ก
  - ภาพความละเอียดสูง: สำหรับทำนายโอกาสการกลับมาเป็นซ้ำของมะเร็งผิวหนังชนิดเมลาโนมา
  - ข้อมูลข้อความ: สำหรับวิเคราะห์แนวคิดทางคลินิกจากบันทึกความเห็นของแพทย์โดยอัตโนมัติ
ความสำคัญของการเข้าถึงและการใช้งานข้อมูลได้จริง
- การเปิดเผยข้อมูลเพียงอย่างเดียวไม่เพียงพอ
- หากมีรูปแบบที่เครื่องอ่านได้ เอกสารประกอบที่ชัดเจน และกรณีการใช้งานที่ชัดเจน ก็จะช่วยเพิ่มการมีส่วนร่วมและการใช้งาน
- หลายองค์กรลงทุนกับการเก็บข้อมูล แต่กลับละเลยการลงทุนเพิ่มเติมเพื่อให้ข้อมูลนั้นถูกนำไปใช้
- การจัดทำเอกสารข้อมูลและตัวอย่างการประยุกต์ใช้มีความสำคัญไม่แพ้เงินรางวัลของการแข่งขัน

ความพยายามจะประสบความสำเร็จมากที่สุดเมื่อมุ่งไปที่ปัญหาเฉพาะและความต้องการของมนุษย์

กับดักของแนวทางที่ยึดเทคโนโลยีเป็นศูนย์กลาง
- องค์กรที่มุ่งสร้างผลกระทบทางสังคมมักพยายามตามให้ทันเทรนด์เทคโนโลยีล่าสุด
- แม้ "Big Data" และเครื่องมือ AI จะดูเหมือนเป็นคำตอบสารพัดนึก แต่ในความเป็นจริงจะมีประสิทธิภาพเมื่อมุ่งแก้ปัญหาที่เฉพาะเจาะจง
หัวใจสำคัญของการออกแบบโครงการที่ประสบความสำเร็จ
- กำหนดผู้ใช้และปัญหาให้ชัดเจน พร้อมตั้งเป้าหมายที่วัดผลได้เพื่อแก้ปัญหานั้น
- ใช้เครื่องมือการออกแบบที่ยึดมนุษย์เป็นศูนย์กลางเพื่อทำความเข้าใจว่าอะไรคือ "สิ่งที่ผู้คนต้องการ" และพัฒนาโซลูชันที่ก้าวข้ามสิ่งที่ "เป็นไปได้" ทางเทคนิค
กรณีตัวอย่างที่เป็นรูปธรรม
- การตรวจจับน้ำเขียวจากสาหร่าย (CyFi)
  - ร่วมมือกับ NASA เพื่อตรวจจับการเกิดน้ำเขียวจากไซยาโนแบคทีเรียที่เป็นอันตรายผ่านภาพถ่ายดาวเทียม
  - ช่วยให้ผู้จัดการด้านทรัพยากรน้ำประเมินสถานะน้ำเขียวได้อย่างแม่นยำและจัดสรรทรัพยากรได้อย่างมีประสิทธิภาพ
- การระบุชนิดสัตว์ป่า (Zamba)
  - ร่วมมือกับสถาบัน Max Planck เพื่อพัฒนาเครื่องมือระบุสัตว์อัตโนมัติโดยใช้ข้อมูลจากกล้องดักถ่าย
  - เพิ่มความสะดวกในการใช้งานด้วย Zamba Cloud ที่ปรับปรุง UI โดยสะท้อนข้อเสนอแนะจากนักวิจัย
ความสำคัญของมุมมองผู้ใช้
- การนิยามปัญหา
  - ทำความเข้าใจปัญหาและความต้องการให้ชัดเจนผ่านการสัมภาษณ์ผู้ใช้และการรับฟังความคิดเห็น
  - สะท้อนมุมมองความเป็นมนุษย์ที่อยู่เบื้องหลังจุดข้อมูล
- การส่งมอบโซลูชัน
  - จำเป็นต้องมีการทดสอบ UI/UX และการสื่อสารที่ชัดเจน เพื่อให้ผู้ใช้สามารถใช้โซลูชันได้อย่างมีประสิทธิภาพและเข้าใจประโยชน์ของมัน
  - ช่วยให้เข้าใจจุดแข็งและข้อจำกัดของโมเดลได้อย่างเป็นธรรมชาติ และอธิบายวิธีใช้งานผ่านกรณีตัวอย่างจริง
บทสรุป
- บทบาทของนักวิทยาศาสตร์ข้อมูลคือการเชื่อมโยงความสามารถทางเทคนิคเข้ากับความต้องการของสังคม
- โครงการที่มีประสิทธิภาพที่สุดคือโครงการที่ไม่หมกมุ่นกับเทคโนโลยีล่าสุด แต่โฟกัสที่การแก้ปัญหาและผลลัพธ์ที่เป็นรูปธรรม

โซลูชันจะมีประสิทธิภาพที่สุดเมื่อผสานจุดแข็งของเครื่องจักรและมนุษย์

ความเสี่ยงของความคาดหวังเกินจริงต่อ AI
- โมเดลวิทยาการข้อมูลและ AI ไม่ได้ทรงพลังรอบด้าน และทุกโมเดลต่างมีข้อจำกัดอยู่ในระดับหนึ่ง
- การนำ AI มาใช้เพียงอย่างเดียวไม่ได้รับประกันความสำเร็จ
- โซลูชันที่ดีที่สุดมาจากระบบที่ผสานจุดแข็งของเครื่องจักรและมนุษย์เข้าด้วยกัน
กรณีของเครื่องมือ Zamba
- Zamba ทำนายแบบความน่าจะเป็นว่ามีสัตว์อยู่ในวิดีโอจากกล้องดักถ่ายสัตว์ป่าหรือไม่
- โมเดลอาจผิดพลาดได้ในบางครั้ง แต่ความน่าจะเป็นที่ให้มาช่วยให้สามารถวางกลยุทธ์การตรวจทานได้อย่างมีประสิทธิภาพ
  - ตัวอย่าง: ตรวจทานวิดีโอที่มีโอกาสพบชิมแปนซีสูงก่อน หรือกำหนดค่าเกณฑ์ความน่าจะเป็นเพื่อจัดเป็นวิดีโอว่าง
  - ผลลัพธ์คือสามารถระบุวิดีโอชิมแปนซีได้ 85% โดยตรวจทานวิดีโอน้อยกว่า 5% ของทั้งหมด
ผลลัพธ์ของความร่วมมือระหว่างเครื่องจักรกับมนุษย์
- กรณี AI คัดกรองมะเร็งเต้านม: เมื่อรังสีแพทย์และ AI ทำงานร่วมกัน จะได้ความแม่นยำสูงกว่าการทำงานของแต่ละฝ่ายเพียงลำพัง
- เน้นความสำคัญของการตีความและการอธิบายผลของ AI: ต้องให้ข้อมูลที่ช่วยให้มนุษย์ประเมินผลลัพธ์ของ AI และนำไปผสานกับบริบทได้
  - ตัวอย่าง: ในการแข่งขันระบุวาฬ มีการแสดงภาพคุณลักษณะที่โมเดลใช้จับคู่ปลาวาฬแต่ละตัว
รูปแบบที่คล้ายกันใน Generative AI
- ฟีดแบ็กจากมนุษย์เป็นสิ่งจำเป็นต่อการพัฒนาเครื่องมือที่มีประโยชน์อย่าง ChatGPT
- ข้อมูลฟีดแบ็กช่วยปรับปรุงให้โมเดลเรียนรู้กรณีที่ยากขึ้นเรื่อย ๆ ได้
การประเมินต้นทุนของข้อผิดพลาดและจุดที่ต้องปรับปรุง
- ปรับปรุงการออกแบบระบบด้วยคำถาม 2 ข้อ:
  1. "ถ้ามีโมเดลที่สมบูรณ์แบบ เราจะใช้อย่างไร?"
  2. "ถ้าโมเดลนั้นผิดพลาดเป็นครั้งคราว เราจะรับมืออย่างไร?"
- เพื่อให้เข้าใจขอบเขตการยอมรับข้อผิดพลาดของระบบและจุดที่ต้องมีการตรวจทานโดยมนุษย์
บทเรียนสำหรับองค์กร
- กรณีรัฐบาลเนเธอร์แลนด์ในปี 2021: มี 26,000 ครัวเรือนถูกกล่าวหาว่าฉ้อโกงสวัสดิการสังคมอย่างผิดพลาดจากอัลกอริทึมที่ไม่เหมาะสม
- การพึ่งพาอัลกอริทึมโดยไม่มีการตรวจทานจากมนุษย์อย่างเหมาะสมก่อให้เกิดต้นทุนทางสังคมสูง
- ในทางกลับกัน การผสานจุดแข็งของอัลกอริทึมและมนุษย์สามารถเพิ่มทั้งประสิทธิภาพและประสิทธิผลได้สูงสุด

มุมมองแบบสหสาขาและความยืดหยุ่นช่วยให้องค์กรได้ประโยชน์

ประสบการณ์โครงการที่ครอบคลุมหลายสาขา
- การทำงานในหลายด้าน เช่น การเข้าถึงบริการทางการเงิน การรับมือการเปลี่ยนแปลงสภาพภูมิอากาศ และการดูแลสุขภาพ ทำให้เห็นประโยชน์ของมุมมองแบบสหสาขา
- รูปแบบของแมชชีนเลิร์นนิงในบริบทหนึ่งสามารถขยายไปประยุกต์ใช้กับสาขาอื่นได้
  - ตัวอย่าง: การประยุกต์ข้ามกันระหว่างโมเดลคอมพิวเตอร์วิทัศน์เพื่ออนุรักษ์ป่าสาหร่ายเคลป์ กับโมเดลสำหรับตรวจหารอยโรคในชิ้นเนื้อปากมดลูก
ความยืดหยุ่นของแนวทาง
- ปัญหาที่ต่างกันมากอย่างการตรวจพบศัตรูพืชในพืชผลตั้งแต่ระยะแรก และการดึงทักษะจากเรซูเม่ ต่างก็อิงอยู่บนการรู้จำชื่อเฉพาะ (NER)
- สามารถนำบทเรียนและประสบการณ์จากแนวทางเดิมไปใช้กับปัญหาอื่นได้ด้วยต้นทุนที่ต่ำกว่า
กรณีตัวอย่างที่เป็นรูปธรรม
- แนวทางการประมวลผลภาษาธรรมชาติที่รู้จำพืชผล ศัตรูพืช โรค และสารเคมีจากข้อความ WhatsApp
- ช่วยให้เกษตรกรรายย่อยมองเห็นแนวโน้มใหม่ ๆ และปรับปรุงคำแนะนำที่อิงวิทยาศาสตร์ได้ดีขึ้น
ความสมดุลระหว่างความเชี่ยวชาญกับมุมมองผู้ใช้
- การทำงานร่วมกับผู้เชี่ยวชาญเฉพาะด้านช่วยให้มั่นใจว่ามีบริบทที่เหมาะสมกับปัญหา
- รวมมุมมองของผู้ใช้ไว้ในกระบวนการวิทยาการข้อมูลเพื่อออกแบบโซลูชันที่เหมาะสม
การค้นหา "งานที่คุ้มค่าจะทำ"
- ความเชี่ยวชาญทางเทคนิคเพียงอย่างเดียวไม่เพียงพอ แต่ต้องมีความเห็นอกเห็นใจ การสื่อสาร ความใฝ่รู้ และความยืดหยุ่น
- ระดมความคิดเพื่อหาขอบเขตที่แมชชีนเลิร์นนิงจะเพิ่มคุณค่าได้ พร้อมทำความเข้าใจอย่างลึกซึ้งว่าแนวทางนั้นมีไว้เพื่อใครและจะถูกใช้อย่างไร
การตอบโจทย์ความต้องการที่หลากหลายขององค์กร
- ความต้องการของแต่ละองค์กรแตกต่างกัน ตั้งแต่งานวิจัยเชิงสำรวจไปจนถึงการทำต้นแบบและการนำขึ้นสู่การใช้งานจริง
- ร่วมมือกับพาร์ตเนอร์ที่หลากหลาย ตั้งแต่องค์กรผู้ให้ข้อมูลขนาดใหญ่ (เช่น Candid, NASA) ไปจนถึงองค์กรที่เพิ่งเริ่มสร้างระบบข้อมูล
- สิ่งสำคัญคือการรักษาความเหมาะสมของเทคโนโลยีไว้ พร้อมดึงความยืดหยุ่นจากประสบการณ์ที่หลากหลาย

ส่วนที่ยังคงท้าทาย

วิทยาการข้อมูลเป็นงานแบบวนซ้ำ และภาคสังคมยังลงทุนใน R&D ไม่เพียงพอ

ธรรมชาติและคุณค่าของ R&D
- การวิจัยและพัฒนาเป็นกระบวนการเรียนรู้ที่ต้องอาศัยการลงทุนด้านทุน การทดลอง การทบทวน และความพร้อมที่จะยอมรับความล้มเหลว
- แนวทางที่ต้องการความแน่นอนและผลระยะสั้นมีข้อจำกัดในการรับมือกับขอบเขตปัญหาที่ภาคสังคมต้องแก้ไข
- การลงทุนระยะยาวและนวัตกรรมที่ไม่เป็นเส้นตรงคือสิ่งที่สร้างผลลัพธ์สำคัญ
การลงทุน R&D ที่ไม่เพียงพอในภาคสังคม
- จากการสำรวจของ NSF ในปี 2022 พบว่า 94% ขององค์กรไม่แสวงหากำไรขนาดใหญ่ไม่ได้ทำกิจกรรม R&D เลย
- แม้ว่าวิทยาการข้อมูลจะเป็นกิจกรรมด้าน R&D เป็นหลัก แต่การลงทุนในด้านนี้ยังมีไม่เพียงพอ
ลักษณะการทำงานแบบวนซ้ำของวิทยาการข้อมูล
- วิทยาการข้อมูลใช้การเรียนรู้แบบวนซ้ำและวงจรฟีดแบ็กเพื่อสร้างผลลัพธ์ที่ดีที่สุดและปรับปรุงประสิทธิภาพของบริการ
- ใช้เฟรมเวิร์กที่เน้นการทำซ้ำ เช่น หลักสูตรวิทยาการข้อมูลของ Harvard และ CRISP-DM (กระบวนการมาตรฐานสำหรับการทำเหมืองข้อมูล)
ความสำคัญของวิทยาการข้อมูลที่ยึดมนุษย์เป็นศูนย์กลาง
- กระบวนการเรียนรู้มุ่งเน้นที่การออกแบบโซลูชันที่มีประสิทธิภาพ และผสานเข้ากับเฟรมเวิร์กนวัตกรรมที่ทำซ้ำได้
- การออกแบบที่ยึดมนุษย์เป็นศูนย์กลางช่วยเสริมความเชื่อมโยงระหว่างความต้องการจริงกับโซลูชัน
กรณีความสำเร็จด้าน R&D ของภาคเอกชน
- บริษัทเอกชนตระหนักอย่างชัดเจนถึงคุณค่าของการใช้ข้อมูลผ่านกระบวนการ R&D
- ตัวอย่างนวัตกรรม AI ในช่วงหลังเป็นผลลัพธ์ที่คงเป็นไปไม่ได้หากไม่มีการลงทุน R&D อย่างต่อเนื่อง
บทสรุป
- แม้ผลลัพธ์เริ่มต้นของโครงการ Data R&D จะไม่แน่นอน แต่กระบวนการสร้างคุณค่าจากข้อมูลนั้นเป็นวิธีการที่พิสูจน์แล้ว
- การลงทุนใน R&D อย่างต่อเนื่องและระยะยาวเป็นสิ่งจำเป็นในการเร่งนวัตกรรมและแก้โจทย์ท้าทายของภาคสังคม

การจ้างและสนับสนุนนักวิทยาศาสตร์ข้อมูลเป็นเรื่องยาก และนักวิทยาศาสตร์ข้อมูลที่ทำงานเพียงลำพังมีความพึงพอใจต่ำ

ความยากจากมุมมองขององค์กร
- การจ้างงาน
  - ยากที่จะระบุและประเมินผู้สมัครที่เหมาะสมเมื่อเดิมไม่มีนักวิทยาศาสตร์ข้อมูลอยู่ในองค์กร
  - คำว่า "นักวิทยาศาสตร์ข้อมูล" มีความหมายไม่ชัดเจน เพราะครอบคลุมทักษะและประสบการณ์ที่หลากหลาย
- การดึงดูดและรักษาบุคลากร
  - ความต้องการนักวิทยาศาสตร์ข้อมูลที่สูงทำให้เกิดตลาดแรงงานที่มีการแข่งขันสูง
  - นอกเหนือจากแรงจูงใจในการแก้ปัญหาสังคมแล้ว ยังต้องมีงานด้านเทคนิคที่น่าสนใจ ค่าตอบแทนที่แข่งขันได้ และโอกาสพัฒนาความเชี่ยวชาญ
  - ในการจ้างงานช่วงเริ่มต้น การมีองค์ประกอบเหล่านี้ยิ่งทำได้ยากกว่าเดิม
- การบริหารและการสนับสนุน
  - องค์กรต้องกำหนดขอบเขตปัญหาให้ชัดเจน และจัดหาทิศทาง โครงสร้างพื้นฐาน และข้อมูล เพื่อให้นักวิทยาศาสตร์ข้อมูลรักษาประสิทธิภาพการทำงานได้
  - หากขาดพื้นฐานด้านเทคนิค ก็มีแนวโน้มจะประเมินความยากของงานต่ำหรือสูงเกินไปได้ง่าย
ความยากจากมุมมองของนักพัฒนา
- การเรียนรู้และการเติบโต
  - วิทยาการข้อมูลเป็นสาขาที่พัฒนาอย่างรวดเร็ว โอกาสในการเรียนรู้และเติบโตภายในทีมจึงมีความสำคัญ
  - ในสภาพแวดล้อมที่ทำ code review ให้ feedback ต่อโมเดล หรือแบ่งเบาภาระงานได้ยาก โอกาสในการเติบโตก็จะถูกจำกัด
- การขาดทิศทางและการสนับสนุน
  - หากงานไม่ได้รับการสนับสนุนอย่างเหมาะสม ความพึงพอใจและประสิทธิภาพการทำงานของนักวิทยาศาสตร์ข้อมูลจะลดลง
- ความสนุกของงาน
  - กระบวนการพูดคุยและแก้ปัญหาร่วมกับเพื่อนร่วมงานช่วยเพิ่มความพึงพอใจในการทำงาน
  - แม้จะอาศัยเครือข่ายภายนอกเพื่อแก้ปัญหานี้ได้ แต่ความร่วมมือภายในองค์กรมักมีประสิทธิภาพมากกว่า
สัญญาณของการเปลี่ยนแปลง
- ช่วงหลังมานี้มีกรณีขององค์กรในภาคสังคมที่ตั้งทีมข้อมูลภายในองค์กรเองเพิ่มขึ้น
- DrivenData เข้าร่วมเป็นพาร์ตเนอร์ที่ช่วยสนับสนุนการจ้างงานนักวิทยาศาสตร์ข้อมูลและวิศวกรชุดแรก การ onboarding และการเปลี่ยนผ่านงาน
- แนวทางการทำงานร่วมกับทีมผู้เชี่ยวชาญด้านวิทยาการข้อมูลจากภายนอกเพื่อเสริมขีดความสามารถอย่างยืดหยุ่น เป็นประโยชน์ต่อทั้งองค์กรและนักวิทยาศาสตร์ข้อมูล
แนวโน้มในอนาคต
- แม้บางองค์กรจะเริ่มประสบความสำเร็จในการสร้างทีมข้อมูล แต่ความต้องการทักษะด้านวิทยาการข้อมูลก็ยังคงสูง
- ความท้าทายในการสร้างทีมข้อมูลขึ้นมาตั้งแต่ต้นคาดว่าจะยังคงดำเนินต่อไป

โอเพนซอร์สยังพัฒนาโซลูชันสำหรับผู้ที่ไม่ใช่นักพัฒนาได้ไม่เพียงพอ

ข้อจำกัดของโอเพนซอร์ส
- ซอฟต์แวร์โอเพนซอร์สมักพัฒนาได้อย่างมีประสิทธิภาพ เพราะชุมชนนักพัฒนามักเป็นผู้ใช้กลุ่มเดียวกัน
- ผู้มีส่วนร่วมมีแรงจูงใจในการปรับปรุงเครื่องมือที่ตนเองจะใช้งาน
- แต่สำหรับเครื่องมือที่มุ่งเป้าไปยังผู้ที่ไม่ใช่นักพัฒนาหรือผู้ที่ไม่ใช่ผู้เชี่ยวชาญ แรงจูงใจลักษณะนี้มักไม่เกิดขึ้น
ความท้าทายของเครื่องมือสำหรับผู้ที่ไม่ใช่ผู้เชี่ยวชาญ
- ในโครงการวิทยาการข้อมูล มักมีการพัฒนาวิธีการและเครื่องมือสำหรับผู้ที่ไม่ใช่นักพัฒนา
- แม้จะเผยแพร่เป็นโอเพนซอร์ส หากไม่มีการลงทุนและพัฒนาอย่างต่อเนื่อง โครงการก็อาจหยุดนิ่งหรือยุติลง
- หากจะพัฒนาไปเป็นโซลูชันที่ประสบความสำเร็จจริง หลังจากขั้นต้นแบบแล้วก็ยังต้องมีการพัฒนาเพิ่มเติมและการทดสอบนำร่องที่สอดคล้องกับการใช้งานจริง
กรณีศึกษาเฉพาะ: Concept to Clinic
- ในปี 2017-18 มีการพัฒนาแอปพลิเคชันแบบเปิดที่ใช้ AI เพื่อช่วยนักรังสีเทคนิคประมวลผล CT scan
- มีการนำระบบแรงจูงใจเชิงโครงสร้างมาใช้ โดยมอบคะแนนและรางวัลเป็นเงินแก่ผู้มีส่วนร่วมเพื่อกระตุ้นการร่วมพัฒนา
- หากไม่มีแนวทางนี้ ก็มีความเป็นไปได้สูงว่าโครงการจะไม่สามารถพัฒนาต่อได้
เงื่อนไขสู่ความสำเร็จของโอเพนซอร์สอย่างยั่งยืน
- การเปิดเป็นโอเพนซอร์สเพียงอย่างเดียว ไม่อาจรับประกันอิทธิพลระยะยาวได้
- หากจะพัฒนาจากต้นแบบไปเป็นโซลูชันสำหรับผู้ใช้ปลายทาง ต้องมีโรดแมปที่ชัดเจนและการสนับสนุนเงินทุนอย่างต่อเนื่อง
- เมื่อต้องพัฒนาแอปพลิเคชันสำคัญ โอเพนซอร์สเป็นเพียงส่วนหนึ่งของการเดินทาง ไม่ควรกลายเป็นเป้าหมายสุดท้าย

กระแส hype ทางเทคโนโลยีได้รับความสนใจมากเกินไป

ภาคสังคมกับนวัตกรรมทางเทคโนโลยี
- ในช่วง 10 ปีที่ผ่านมา ภาคสังคมมีความเกี่ยวข้องอย่างใกล้ชิดกับคลื่นของนวัตกรรมเทคโนโลยีใหม่ ๆ
- องค์กรมักถูกดึงดูดให้รับเทคโนโลยีใหม่มาใช้เพื่อเพิ่มประสิทธิภาพภายใต้ทรัพยากรที่จำกัด
- แรงกดดันว่าหากไม่ตามกระแสเทคโนโลยีล่าสุดจะล้าหลัง ทำให้หลายองค์กรเปลี่ยนกลยุทธ์อยู่บ่อยครั้ง
ปัญหาของการนำเทคโนโลยีที่ถูกโหมเกินจริงมาใช้
- เป็นเรื่องยากที่จะคัดแยกนวัตกรรมแกนหลักออกจากกระแส hype ทางเทคโนโลยี
- การนำเทคโนโลยีมาใช้มักนำไปสู่ความคาดหวังที่สูงเกินจริงและการดำเนินการที่ไม่เพียงพอ
- ตัวอย่าง:
  - บล็อกเชน: แม้ความคาดหวังจะสูง แต่ประโยชน์เชิงรูปธรรมต่อภาคสังคมกลับมีน้อยมาก
  - แอปมือถือ: แม้ไม่จำเป็นเสมอไป แต่แรงกดดันว่าเป็น "สิ่งจำเป็น" ทำให้เกิดการใช้จ่ายอย่างไม่มีประสิทธิภาพ
ความสำคัญขององค์กรเทคโนโลยีเฉพาะทาง
- องค์กรผู้เชี่ยวชาญด้านเทคโนโลยีที่สามารถรับมือกับกระแส hype ได้อย่างมีประสิทธิภาพ มักสร้างผลงานได้ดีที่สุด
- DrivenData ทำงานร่วมกับ DataKind, DSSG Fellowship, Delta Analytics และอื่น ๆ โดยอาศัยความเชี่ยวชาญด้านเทคโนโลยี
- อย่างไรก็ตาม แม้แต่กลุ่มผู้เชี่ยวชาญเหล่านี้ก็ยังยากที่จะสะสมบทเรียนจากกระแส hype ในอดีตไว้อย่างเป็นระบบ
การเปลี่ยนแปลงที่จำเป็น: ‘เขื่อนกันคลื่น’ สำหรับรับมือ hype ทางเทคโนโลยี
- จำเป็นต้องมีขีดความสามารถในการแยกนวัตกรรมที่ใช้ได้จริงออกจากความคาดหวังที่เกินจริง และระบุพัฒนาการสำคัญให้ได้
- ภาวะผู้นำด้านเทคโนโลยีที่เข้าใจทั้งเทคโนโลยีล้ำสมัยและมีมุมมองเชิงลึกต่อภาคสังคมเป็นสิ่งจำเป็น
- ปัจจุบันยังขาดทั้งภาวะผู้นำและระบบนิเวศลักษณะนี้ และจำเป็นต้องสร้างขึ้นเพื่อให้เกิดแนวทางที่ยั่งยืนและเป็นผู้ใหญ่มากขึ้น
แนวทางเชิงกลยุทธ์ต่อเทคโนโลยีสมัยใหม่อย่าง AI
- AI มีศักยภาพมหาศาล แต่สิ่งที่ต้องการไม่ใช่แค่ความตื่นเต้น หากเป็นกลยุทธ์ที่รอบคอบและความเชี่ยวชาญเชิงลึก
- หากไม่สร้างรากฐานด้านข้อมูลที่แข็งแรง ก็เสี่ยงจะวนกลับเข้าสู่วงจรที่ไร้ประสิทธิภาพจากกระแส hype ทางเทคโนโลยีซ้ำอีก
- หากไม่มีการลงทุนและการวางแผนในระดับพื้นฐาน นวัตกรรมเทคโนโลยีในภาคสังคมก็ยากจะสร้างผลลัพธ์ที่แท้จริงได้

วิทยาการข้อมูลและ AI มีนัยด้านจริยธรรมสูง แต่การนำมาใช้อย่างรวดเร็วกลับแซงหน้าเครื่องมือและแนวปฏิบัติที่รองรับ

การขยายตัวของวิทยาการข้อมูลและ AI กับความสำคัญด้านจริยธรรม
- วิทยาการข้อมูลและแมชชีนเลิร์นนิงถูกผสานเข้าไปในหลากหลายสาขา เช่น การแพทย์ การรับมือภัยพิบัติ และการตัดสินคดีอาญา
- ความเสี่ยงจากการใช้งานที่ผิดพลาดจึงสูงกว่าที่เคยเป็นมาอย่างมาก
ความเป็นจริงที่ยังขาดการพิจารณาด้านจริยธรรม
- นักวิทยาศาสตร์ข้อมูลมีมุมมองเฉพาะตัวในการทำความเข้าใจนัยด้านจริยธรรมของโมเดลและ pipeline
- อย่างไรก็ตาม มุมมองเหล่านี้มักไม่ถูกบูรณาการเข้าไปในวงจรชีวิตของโครงการวิทยาการข้อมูล
การพัฒนาเช็กลิสต์โอเพนซอร์สเพื่อรับมือกับ trade-off ด้านจริยธรรม
- มีการบูรณาการเข้ากับเวิร์กโฟลว์ด้านวิทยาการข้อมูล เพื่อให้สามารถอภิปราย trade-off ทางจริยธรรมได้
- หลักการสำคัญ:
  - การตัดสินใจทางจริยธรรมควรมุ่งรับรู้ trade-off ที่สำคัญที่สุดในบริบทเฉพาะ พร้อมเดินหน้าอย่างมีความรับผิดชอบและลดอันตรายให้น้อยที่สุด
  - ปัญหาด้านจริยธรรมเกิดขึ้นได้ในทุกช่วงของโครงการ ไม่ว่าจะเป็นการเก็บข้อมูล การจัดเก็บ การวิเคราะห์ การสร้างแบบจำลอง หรือการนำไปใช้งาน
  - การอภิปรายด้านจริยธรรมมักถูกลดลำดับความสำคัญลงเพราะกำหนดการที่เร่งด่วนและข้อเรียกร้องต่าง ๆ
  - เพื่อป้องกันสิ่งนี้ ต้องบูรณาการคำถามด้านจริยธรรมเข้ากับมิติอื่นของเวิร์กโฟลว์ และกันเวลาไว้โดยตั้งใจ
ความเป็นธรรมของอัลกอริทึมและการบรรเทาอคติ
- โมเดลที่เรียนรู้จากข้อมูลที่มีอคติย่อมผลิตซ้ำความไม่เท่าเทียม จึงมีการพัฒนาเทคนิคเพื่อระบุและบรรเทาปัญหานี้
- ตัวอย่าง: การทำงานร่วมกับ Wellcome Trust เพื่อจัดทำกรณีการบรรเทาอคติโดยคำนึงถึงความเป็นธรรมในโมเดลพยากรณ์ความเครียดทางจิตใจ
  - วิเคราะห์อคติผ่านตัวชี้วัดความเป็นธรรมเชิงปริมาณ และเสนอวิธีการบรรเทา
ความสำคัญของการพิจารณาด้านจริยธรรมในยุค AI
- ในขณะที่ AI แพร่กระจายอย่างรวดเร็ว หลายบริษัทกลับยุบทีม responsible AI เพื่อลดต้นทุน
- ในภาคสังคม ความรับผิดชอบต่อผู้รับประโยชน์มีสูงกว่า ทำให้ต้นทุนของความล้มเหลวด้านจริยธรรมรุนแรงยิ่งกว่า
- หากไม่เสริมความแข็งแกร่งให้แนวปฏิบัติด้านจริยธรรม การนำ AI มาใช้ก็เสี่ยงจะก่อปัญหาที่ใหญ่กว่าเดิม
บทสรุป
- การสร้างเครื่องมือและแนวปฏิบัติด้านจริยธรรมเพื่อรองรับการนำ AI มาใช้ มีความสำคัญกว่าที่เคย
- ต้องรับประกันความไว้วางใจและความยั่งยืนในภาคสังคมผ่านการใช้เทคโนโลยีอย่างมีความรับผิดชอบ

แนวโน้มต่อจากนี้

การเปลี่ยนแปลงและโอกาสของวิทยาการข้อมูล
- ตลอด 10 ปีที่ผ่านมา วิทยาการข้อมูลได้ขับเคลื่อนการเปลี่ยนแปลงสำคัญในภาคส่วนเพื่อสังคม พร้อมทั้งเผชิญทั้งความสำเร็จและความท้าทาย
- แม้การตระหนักถึงศักยภาพของข้อมูลและ AI จะเพิ่มสูงขึ้น แต่ก็ยังมีคำถามสำคัญที่ต้องหาคำตอบ:
  - จะนำความก้าวหน้าทางเทคโนโลยีที่เกิดขึ้นอย่างต่อเนื่องไปประยุกต์ใช้กับปัญหาสังคมที่ใหญ่ที่สุดได้อย่างเป็นรูปธรรมอย่างไร?
  - จะรับประกันได้อย่างไรว่าผลประโยชน์จะไม่กระจุกตัวอยู่แค่ในบริษัทยักษ์ใหญ่ไม่กี่แห่ง?
  - จะทำให้การนำเทคโนโลยีไปใช้อย่างมีความรับผิดชอบต่อธรรมชาติและมนุษยชาติเป็นจริงได้อย่างไร?
ความสำคัญของบทเรียนที่ได้จากประสบการณ์
- ความพยายามที่ตั้งอยู่บนบทเรียนจากประสบการณ์ที่ผ่านมาให้ผลลัพธ์ที่ยิ่งใหญ่ที่สุด
- DrivenData ภาคภูมิใจที่ได้เป็นส่วนหนึ่งของชุมชนพันธมิตร ลูกค้า และนักพัฒนาที่ใช้ข้อมูลและ AI เพื่อประโยชน์ต่อสังคม
- หากคุณสนใจประเด็นคล้ายกันหรือมีแนวคิดเพิ่มเติม ก็ยินดีให้แบ่งปัน
ความคาดหวังต่ออนาคต
- หาก 10 ปีที่ผ่านมาโดดเด่นเพียงใด 10 ปีข้างหน้าก็คาดว่าจะนำมาซึ่งการเปลี่ยนแปลงที่ยิ่งใหญ่ยิ่งกว่า
- ยังมีงานอีกมากที่ต้องทำ และยังมีอีกมากที่ต้องเรียนรู้
- เราตั้งตารออนาคตที่จะเผชิญกับความท้าทายเหล่านี้ ค้นหาความเป็นไปได้ใหม่ ๆ และสร้างผลกระทบทางสังคมที่ดียิ่งขึ้น

1 ความคิดเห็น

halfenif 2025-01-23

"ผู้มีความสามารถที่ดีที่สุดในรุ่นของฉันกำลังทุ่มความคิดไปกับการทำให้ผู้คนคลิกโฆษณา… น่าหงุดหงิดจริง ๆ"

พอมาคิดดูแล้วก็จริงนะครับ

10 ปีของบทเรียนด้านวิทยาการข้อมูลเพื่อประโยชน์ต่อสังคม

พรีวิว 10 บทเรียนสำคัญ

กรณีที่วิทยาการข้อมูลทำงานได้ดี

สิ่งที่ยังคงท้าทาย

ยุคสมัยกำลังเปลี่ยนไป

กรณีที่วิทยาการข้อมูลทำงานได้ดี

วิทยาการข้อมูลสร้างผลกระทบที่มีความหมายต่อปัญหาสังคมได้

ข้อมูลที่ดีนำไปสู่โซลูชันที่ดี และการเข้าถึงข้อมูลก็ดีขึ้นอย่างมาก

ความพยายามจะประสบความสำเร็จมากที่สุดเมื่อมุ่งไปที่ปัญหาเฉพาะและความต้องการของมนุษย์

โซลูชันจะมีประสิทธิภาพที่สุดเมื่อผสานจุดแข็งของเครื่องจักรและมนุษย์

มุมมองแบบสหสาขาและความยืดหยุ่นช่วยให้องค์กรได้ประโยชน์

ส่วนที่ยังคงท้าทาย

วิทยาการข้อมูลเป็นงานแบบวนซ้ำ และภาคสังคมยังลงทุนใน R&D ไม่เพียงพอ

โอเพนซอร์สยังพัฒนาโซลูชันสำหรับผู้ที่ไม่ใช่นักพัฒนาได้ไม่เพียงพอ

กระแส hype ทางเทคโนโลยีได้รับความสนใจมากเกินไป

แนวโน้มต่อจากนี้

บทความที่เกี่ยวข้อง

1 ความคิดเห็น