- สรุปการถกเถียงและคำตอบจากโพสต์ในซับเรดดิต /r/DataScience
- ผู้เขียนรู้สึกกังขากับความจริงที่ว่า วิทยาการข้อมูลถูกนำไปใช้ภายใต้ชื่อ “Generative AI” โดยไม่มีการตรวจสอบและประเมินผล
- ในความเป็นจริง มีเพียงการคำนวณ z-score แบบง่าย ๆ ด้วยโค้ดที่ ChatGPT สร้างขึ้น และ ยังเดินหน้าไปจนเกือบจะ deploy โดยไม่มีการประเมินประสิทธิภาพของโมเดลเลย
- ในชุมชนมีการชี้ตรงกันถึง วัฒนธรรมองค์กรแบบ “ถ้าใช้การได้ก็ deploy เลย”, การขาดการตรวจสอบ, การเลี่ยงความรับผิดชอบ และ การยอมสละจริยธรรมทางวิทยาศาสตร์
- ผู้ปฏิบัติงานจำนวนมากต่างเจอปัญหาคล้ายกัน และแสดงความกังวลอย่างหนักต่อแนวโน้มที่ กำลังตกต่ำไปเป็น “วิทยาศาสตร์เทียม”
- อย่างไรก็ดี บางส่วนก็เสนอว่า ควรเข้าใจด้านการใช้งานจริงของการทดลองที่รวดเร็วและวิธีแก้ปัญหาที่เรียบง่ายด้วย พร้อมย้ำถึงมุมมองที่สมดุล
Data Science Has Become a Pseudo-Science
- ผู้เขียนเรียนจบปริญญาโทและเอกจากยุโรป และทำงานด้านวิทยาการข้อมูลสลับไปมาระหว่างภาคอุตสาหกรรมกับภาควิชาการมา 10 ปี
- ในช่วง 2 ปีที่ผ่านมา มีปรากฏการณ์ที่ อ้างผลลัพธ์ออกมาโดยไม่มีการตรวจสอบใด ๆ ภายใต้ชื่อ “Generative AI” เพิ่มมากขึ้น
- ตัวอย่างเช่น ในโปรเจ็กต์ที่มีเป้าหมายเป็นการตรวจจับความผิดปกติของอนุกรมเวลา มีเพียงการ คำนวณ z-score ของความต่างของค่าเฉลี่ยด้วยโค้ดที่ ChatGPT สร้างขึ้น และกลับมีการพูดคุยเรื่อง deploy ทั้งที่ไม่มีตัวชี้วัดประสิทธิภาพใด ๆ
- วิธีแบบนี้คือภาพของ วิทยาศาสตร์เทียมที่ตั้งคำถามกับกล่องดำแล้วทำตามคำตอบโดยปราศจากการคิดเชิงวิทยาศาสตร์ และถึงขั้น ห้ามตั้งคำถามด้วยซ้ำ
- ด้วยเหตุนี้ ผู้เขียนจึงกำลังกังวลว่าจะกลับไปสู่วงวิชาการดีหรือไม่ และเขียนโพสต์นี้เพื่อถามว่า เพื่อนร่วมสายงานเองก็มีประสบการณ์ร่วมกับปรากฏการณ์นี้เหมือนกันหรือไม่
สรุปความคิดเห็น
ความเห็นที่เห็นพ้องหลัก ๆ
- ปรัชญาแบบ “ถ้าใช้ได้ก็ deploy เลย” แพร่หลายมาก (
u/Illustrious-Pound266)
- มี กรณีสตาร์ทอัพที่พังเพราะเน้น AI โดยไม่มีการตรวจสอบหรือ roadmap เช่นกัน (
u/gothicserp3nt)
- อคติหรือการเลือกปฏิบัติที่ไม่ได้ตั้งใจไม่ได้ถูกตรวจสอบอย่างเหมาะสม (
u/tehMarzipanEmperor)
- ในบริษัทส่วนใหญ่ RAG หรือ AI ถูกนำไปห่อหุ้มให้ดูเกินจริง และขับเคลื่อนด้วยการโชว์มากกว่าความแม่นยำ (
u/castleking, u/flowanvindir)
- บรรยากาศของงานจริงคือ "performance theater" (
u/Ty4Readin, u/faulerauslaender)
- การ deploy อย่างรีบเร่ง, รายงานที่ดูหรูแต่มีแต่เปลือก, การนำ AI มาใช้โดยไม่มีการวัดผล กลายเป็นเรื่องปกติ (
u/glittering_tiger8996, u/Emergency-Job4136)
- หลายคนก็มองว่า สถานการณ์แบบนี้มีมานานแล้ว และ GenAI เป็นเพียงเครื่องมือที่ทำให้มันโจ่งแจ้งขึ้น (
u/RoomyRoots, u/303uru, u/TARehman)
- ถึง อธิบายได้ยากและความน่าเชื่อถือต่ำ แต่ก็ถูกเลือกใช้เพราะเร็ว
- ความรับผิดชอบในการอธิบายการตัดสินใจขององค์กรกำลังหายไป (
u/empathic_psychopath8, u/Jollyhrothgar)
มุมมองอีกด้าน
- ถ้าแนวทางที่เรียบง่ายสามารถแก้ปัญหาได้ ก็ควร ยอมรับในเชิงปฏิบัติ (
u/AnarkittenSurprise)
- หลายความเห็นระบุว่า DS เดิมทีก็มีองค์ประกอบที่ไม่วิทยาศาสตร์ปะปนอยู่แล้ว หรือเป็นเพียง “วิทยาศาสตร์แค่ในชื่อ” (
u/TaiChuanDoAddct, u/Time-Combination4710, u/LighterningZ)
- สิ่งสำคัญไม่ใช่แค่การใช้เครื่องมือ AI แต่คือความสามารถในการใช้อย่างมีความรับผิดชอบ (
u/Dror_sim, u/ResearchMindless6419)
- มีคำวิจารณ์ประเภท “มีข้อมูลแต่ไม่มีตรรกะ” และ “แค่รันแพ็กเกจโดยไม่มีความรู้สถิติ” (
u/gyp_casino, u/tmotytmoty)
- หลายคนเห็นว่า สิ่งที่สำคัญจริง ๆ คือความรู้โดเมนและการคิดเชิงคณิตศาสตร์ ส่วน AI/การเขียนโค้ดเป็นเพียงเครื่องมือ (
u/MightBeRong, u/Dror_sim)
ปัญหาเชิงระบบและการศึกษา
- หลักสูตร MSDS มีประโยชน์ในเชิงวิชาการ แต่หลายครั้งไม่เกี่ยวกับการหางาน (
u/throwaway_ghost_122)
- คุณภาพการศึกษากำลังลดลง และเมื่อมีความต้องการแบบเอาแค่ปริญญามากขึ้น คุณภาพโดยรวมของสายงานก็ลดลงตาม (
u/Yam_Cheap)
- แม้แต่ในวงวิชาการเองก็มี แนวโน้มของงานวิจัยที่ไม่ผ่านการตรวจสอบและการวิเคราะห์แบบผิวเผิน มากขึ้น ดังนั้นวงวิชาการก็ไม่ใช่ข้อยกเว้น (
u/joule_3am, u/Mishtle)
การแชร์ประสบการณ์ตามอุตสาหกรรม
- ธุรกิจประกันและเฮลท์แคร์มีข้อกำกับเข้มงวด จึงยังต้องการการตรวจสอบความสมเหตุสมผลและการพิจารณาทางกฎหมาย (
u/Mishtle, u/mikka1)
- ตรงกันข้าม สตาร์ทอัพ ฝ่ายขาย เกม และบางส่วนของภาคการผลิต เน้นความเร็วและการโชว์เป็นหลัก (
u/Vercingetorex89, u/Brackens_World)
- แม้แต่ภาครัฐก็เริ่มให้ระบบตรวจสอบในอดีตพังทลายลงเพราะการนำ ChatGPT มาใช้ (
u/TheFluffyEngineer, u/joule_3am)
ความกังขาและความคิดอยากหนีออกไป
- มีคนทำงานจำนวนมากที่ กำลังคิดจะออกจากสายงานหรือเปลี่ยนกลับไปสู่วงวิชาการ (
u/thro0away12, u/Emotional_Plane_3500, u/candidFIRE)
- ขณะเดียวกัน ก็มีมุมมองเชิงบวกบางส่วนว่า นี่อาจเป็นโอกาสให้คนที่มีฝีมือจริงโดดเด่นขึ้นมาได้ (
u/OddEditor2467, u/sideshowbob01)
การเสียดสีและความยอมจำนน
- “ทุกวันนี้ แค่ import pandas ก็เป็น data scientist ได้แล้ว” (
u/vesnikos)
- ความจริงที่ว่า แทนที่จะเน้นการคิดเชิงความน่าจะเป็นและการตรวจสอบทางวิทยาศาสตร์ กลับกลายเป็นการเอาใจหัวหน้าเป็นหลัก (
u/tmotytmoty, u/WignerVille)
- มีมุมมองแบบยอมรับความจริงจำนวนมากว่า “เมื่อก่อนก็เป็นแบบนี้ ตอนนี้ก็ยังเป็นแบบนี้ และ DS ในองค์กรก็ยากจะเรียกว่าเป็นวิทยาศาสตร์อยู่แล้ว” (
u/TaiChuanDoAddct, u/LighterningZ)
บทสรุป
- บทความนี้และความคิดเห็นต่าง ๆ แสดงให้เห็นชัดว่า งานวิทยาการข้อมูลในช่วงหลังถูกขับเคลื่อนด้วยการส่งมอบงานให้เร็วและการตลาด AI มากกว่าความสอดคล้องเชิงวิทยาศาสตร์และการตรวจสอบ
- มีความกังวลอย่างลึกซึ้งต่อทั้ง การที่ป้ายชื่อ “Generative AI” ปิดกั้นคำวิจารณ์อย่างมีเหตุผล และ โครงสร้างที่ทำให้โค้ดซึ่งไม่ผ่านการตรวจสอบถูกนำไป deploy ได้ทันที
- แม้ทั้งวงวิชาการและอุตสาหกรรมจะไม่ได้สมบูรณ์แบบ แต่การที่วิทยาการข้อมูลจะกลับไปเป็น ‘วิทยาศาสตร์’ อย่างแท้จริงได้ จำเป็นต้องอาศัย การคิดเชิงวิพากษ์ภายในชุมชน การศึกษา และการทบทวนวัฒนธรรมการทำงานจริง ซึ่งทำให้ประเด็นนี้น่าจะยังถูกถกเถียงต่อไป
2 ความคิดเห็น
ลิงก์ใช้งานไม่ได้ครับ
https://reddit.com/r/datascience/…
ขอบคุณครับ แก้ไขให้แล้วครับ