- งานวิจัยการทำนายหน้าที่ของเอนไซม์โดยใช้ โมเดลดีปเลิร์นนิง ได้รับความสนใจและการอ้างอิงอย่างมาก ขณะที่งานวิจัยที่ ตรวจสอบข้อเท็จจริง และชี้ข้อผิดพลาดกลับแทบไม่ได้รับความสนใจ
- งานวิจัยที่ใช้ โมเดลแบบ Transformer ฝึกกับข้อมูลเอนไซม์ 22 ล้านรายการ เพื่อทำนายหน้าที่ของเอนไซม์ที่ยังไม่ถูกยืนยัน 450 รายการ ได้รับการตีพิมพ์ใน Nature Communications
- อย่างไรก็ตาม งานวิจัยติดตามผลเปิดเผยว่า มีทั้ง การทำนายผิดหลายร้อยกรณี ข้อมูลซ้ำซ้อน และข้อสรุปที่เป็นไปไม่ได้ทางชีววิทยา
- หากไม่มี การวิเคราะห์เชิงลึกจากผู้เชี่ยวชาญ ก็ยากที่จะประเมินความน่าเชื่อถือของผลลัพธ์จาก AI และความเสี่ยงที่ข้อมูลผิดจะถูกเผยแพร่ต่อก็ยิ่งสูงขึ้น
- ความสำคัญของ การตรวจสอบข้อมูลพื้นฐานและการบูรณาการความรู้เฉพาะสาขา จึงกลับมาได้รับการตอกย้ำ มากกว่าการไล่ตามโมเดล AI ที่หวือหวา
Deep learning gets the glory, deep fact checking gets ignored
- งานวิจัยการทำนายหน้าที่ของเอนไซม์ด้วยดีปเลิร์นนิง ฝึกจากข้อมูลเอนไซม์ 22 ล้านรายการ และใช้โมเดล Transformer เพื่อทำนายหน้าที่ของเอนไซม์ที่ยังไม่ถูกยืนยัน 450 รายการ ได้รับความสนใจอย่างมากหลังตีพิมพ์ใน Nature Communications
- แต่ในงานวิจัยติดตามผล กลับพบ การทำนายผิดหลายร้อยกรณี การซ้ำกับฐานข้อมูลเดิม ผลลัพธ์ที่เป็นไปไม่ได้ทางชีววิทยา และข้อผิดพลาดซ้ำๆ จำนวนมาก
- ตัวอย่างเช่น AI ทำนายหน้าที่ของยีนหนึ่งใน E. coli ผิด ทั้งที่งานวิจัยก่อนหน้านี้ได้แสดงไว้แล้วว่ายีนนั้นไม่ได้มีหน้าที่ดังกล่าว
- งานวิจัยที่เปิดเผยข้อผิดพลาดเหล่านี้ถูกเผยแพร่บน bioRxiv แต่มีทั้งยอดเข้าชมและการอ้างอิงน้อยมาก สะท้อน ปัญหาของโครงสร้างแรงจูงใจในการตีพิมพ์
- ผู้เชี่ยวชาญชี้ว่า การตรวจสอบข้อมูลและความเชี่ยวชาญเฉพาะสาขา สำคัญยิ่งกว่าการทำ AI modeling และเตือนถึงความเสี่ยงที่ข้อมูลผิดจะถูกส่งต่อผ่านฐานข้อมูลอีกทอดหนึ่ง
The Problem of Determining Enzyme Function
- เอนไซม์มีบทบาทในการเร่งปฏิกิริยาสำคัญในสิ่งมีชีวิต และมีการจัดหมวดหมู่หน้าที่ต่างๆ ด้วย หมายเลข Enzyme Commission (EC)
- งานทำนายหมายเลข EC จากลำดับกรดอะมิโนถือว่า เหมาะกับแมชชีนเลิร์นนิง เพราะมีทั้งอินพุตและเอาต์พุตที่ชัดเจน
- ในฐานข้อมูล UniProt มีการจัดเก็บเอนไซม์และหมายเลข EC มากกว่า 22 ล้านรายการ จึงมี ข้อมูลสำหรับฝึกจำนวนมาก
An Approach with Transformers (AI model)
- ทีมวิจัยใช้โมเดลที่ประกอบด้วย Transformer, convolution layers และ linear layers เพื่อทำนายหน้าที่ของเอนไซม์ที่ยังไม่ถูกยืนยัน
- จุดที่น่าสนใจคือ เพื่อให้ โมเดลตีความได้ มากขึ้น พวกเขาวิเคราะห์ว่า high attention region มีความหมายทางชีววิทยาหรือไม่
- จากเอนไซม์ที่ยังไม่ถูกยืนยัน 450 รายการ มีเพียง 3 รายการเท่านั้นที่ถูกตรวจสอบด้วย การทดลอง (in vitro) และถูกอ้างว่าเป็นหลักฐานว่าทำนายได้ถูกต้อง
The Errors
- ในผลลัพธ์ 'ใหม่' 450 รายการที่ตีพิมพ์ในวารสาร Nature นั้น 135 รายการมีอยู่แล้วในฐานข้อมูลเดิม
- 148 รายการมีการทำซ้ำสูงมาก เช่น การทำนายหน้าที่ของเอนไซม์เดียวกันซ้ำหลายครั้ง ซึ่งยืนยันได้ว่าเป็นข้อผิดพลาดที่ เป็นไปไม่ได้ทางชีววิทยา จำนวนมาก
- ยังพบกรณีทำนายผิดว่าเป็นเอนไซม์สังเคราะห์สารที่ E. coli ไม่ได้สร้างขึ้นเอง หรือผลที่ขัดแย้งกับผลการทดลองเดิมอีกหลายกรณี
- มีการตั้งข้อสงสัยถึง ความเป็นไปได้ของ data leakage และพบว่าความผิดพลาดเกิดขึ้นบ่อยในพื้นที่ที่ไม่มี ground truth จริงให้เทียบ
The Microbiology Detective
- ในงานวิจัยติดตามผล Dr. de Crécy-Lagard พบว่าเอนไซม์ตัวหนึ่ง (yciO) ในผลการทำนายของบทความ Nature ขัดแย้งอย่างชัดเจนกับงานวิจัยในอดีต
- แม้ yciO และ TsaC จะมีความเกี่ยวข้องกันในเชิงวิวัฒนาการ แต่ การทดลองจริงพิสูจน์ซ้ำหลายครั้งว่า yciO ไม่สามารถทำหน้าที่แทน TsaC ได้
- เรื่องนี้แสดงให้เห็นข้อจำกัดของ อัลกอริทึมที่มองว่าความคล้ายกันของโครงสร้างหมายถึงหน้าที่เดียวกัน
- การระบุหน้าที่ของเอนไซม์จำเป็นต้องพิจารณาหลักฐานหลายด้านร่วมกัน เช่น บริบทรอบยีน การจับกับซับสเตรต และเส้นทางเมแทบอลิซึม
Hundreds of Likely Erroneous Results
- ทีมงานของบทความติดตามผลยืนยันว่า จากผลการทำนาย 450 รายการในบทความ Nature มี 135 รายการที่ถูกบันทึกไว้ในฐานข้อมูลแล้ว
- อีก 148 รายการถูกวิเคราะห์ว่าเกิดจากปัญหา เช่น การทำนายหน้าที่เดิมซ้ำ อคติของข้อมูล การขาดคุณลักษณะสำคัญ และข้อจำกัดของสถาปัตยกรรม
- หลายผลลัพธ์สามารถพิสูจน์ได้ว่าเป็นข้อผิดพลาดจากบริบททางชีววิทยาหรือการตรวจสอบวรรณกรรมเดิม
Rethinking Enzyme Classification and “True Unknowns”
- ในการทำนายหน้าที่ของเอนไซม์ มีสองโจทย์ที่ปะปนกันอยู่ คือ การถ่ายทอดหน้าที่ที่รู้แล้ว (propagation) และ การค้นพบหน้าที่ที่ไม่เคยรู้มาก่อนจริงๆ (discovery)
- Supervised ML มีข้อจำกัดโดยธรรมชาติเมื่อต้องทำนายหน้าที่ที่ไม่เคยมีใครรู้มาก่อนจริงๆ
- เมื่อการทำนายผิดถูกป้อนเข้าไปในฐานข้อมูลอย่าง UniProt และถูกใช้ฝึกโมเดลรอบถัดไป ก็จะเกิด วงจรของข้อผิดพลาด ขึ้น
Need for Domain Expertise
- ต่างจาก งานวิจัย AI งานด้านการตรวจสอบข้อมูลและการวิเคราะห์เชิงลึกโดยผู้เชี่ยวชาญเฉพาะสาขามีแรงจูงใจน้อยกว่า จึงดึงดูดความสนใจจากนักวิจัยได้น้อย
- งานวิจัยยังชี้ว่า หนึ่งในสาเหตุที่โครงการ AI ความเสี่ยงสูงล้มเหลวคือ การนำความรู้เฉพาะสาขามาใช้ไม่เพียงพอ
- งานวิจัยดีปเลิร์นนิงส่วนใหญ่ไม่ได้ผ่านการตรวจสอบอย่างละเอียดจากผู้เชี่ยวชาญเฉพาะสาขา และแม้งานจะดูน่าประทับใจภายนอก แต่ในความเป็นจริงอาจมีข้อผิดพลาดจำนวนมาก
บทสรุปและข้อเสนอแนะ
- บทความนี้ย้ำถึงความสำคัญของ การตรวจสอบข้อมูลพื้นฐานและการบูรณาการความรู้เฉพาะสาขา มากกว่าการพัฒนาโมเดล AI ที่ดูหวือหวา
- ผู้เขียนเสนอว่าแรงจูงใจและการสนับสนุนด้านงานวิจัยควร มุ่งไปยังงานตรวจสอบที่มีสาระจริง มากขึ้น
- สิ่งนี้สะท้อนว่า การตรวจสอบข้อผิดพลาดและการยกระดับคุณภาพข้อมูล อาจมีส่วนช่วยต่อพัฒนาการของ AI ในระยะยาวได้มากกว่า
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
คิดว่าผู้คนมักลืมกันบ่อย ๆ ว่ามีความเป็นไปได้ที่จะเกิด data leakage ควรตั้งสมมติฐานไว้ก่อนเสมอว่ามีการรั่วไหล จนกว่าจะมีหลักฐานที่หนักแน่นจริง ๆ ว่าไม่มี และภาระในการพิสูจน์ว่าไม่มีการรั่วไหลก็ควรเป็นหน้าที่ของผู้เขียนเอง สำหรับชุดข้อมูลขนาดเล็ก ปัญหานี้ยิ่งเกิดได้ง่ายกว่า เพราะสามารถไล่ดูข้อมูลทั้งหมดได้เอง จึงยิ่งเปิดช่องให้เกิดขึ้นได้ ความผิดพลาดเล็กน้อยที่ทำให้ข้อมูลเสียเป็นเรื่องที่พบได้บ่อยมาก ตอนนี้ชุดข้อมูลมีขนาดมหาศาลจนมนุษย์ตรวจทั้งหมดไม่ได้ ทุกคนก็รู้ว่าการกรองข้อมูลย่อมไม่สมบูรณ์ ดังนั้นจึงเป็นไปไม่ได้ที่จะเชื่ออย่างจริงจังว่าไม่มีการรั่วไหล อาจพูดได้ว่า “ได้ทำการกรองแล้ว” แต่จะพูดว่า “ไม่มีการรั่วไหลจริง ๆ” ไม่ได้ แม้แต่ในชุดข้อมูลที่เราเข้าถึงได้จริง เรายังเจอปัญหาบ่อย ๆ ทั้งที่เจอเรื่องแบบนี้ซ้ำแล้วซ้ำเล่า ก็ยังไม่เข้าใจว่าทำไมถึงยังชอบตั้งสมมติฐานว่าข้อมูลไม่มีปัญหา บางทีอาจเป็นการหลอกตัวเองเพราะความคาดหวังที่สูงเกินไป หากจะซ่อมปัญหา เราต้องมองความจริงให้ตรงก่อน
ทุกระบบย่อมมีข้อบกพร่อง ประเด็นจริงคือเรายอมรับข้อบกพร่องได้มากแค่ไหน ตัวอย่างเช่น ใน Medicare และ Medicade มีกรณีทุจริตอยู่ 7.66% ซึ่งคิดเป็นมูลค่ามหาศาล แต่ก็ไม่ได้แปลว่าระบบล้มเหลวทั้งหมด เพราะอีก 93% ยังทำงานได้ถูกต้อง เช่นเดียวกับโมเดล AI ถ้าอัตราความผิดพลาดอยู่ที่ 10% ก็ไม่ได้หมายความว่าระบบทั้งหมดแย่ แต่ควรถกกันว่าระดับนั้นยอมรับได้หรือไม่ ดู ข้อมูลอ้างอิง
มองว่าประเด็นเรื่องภาระในการพิสูจน์ไม่ได้เป็นแนวทางกำกับความเชื่ออย่างที่หลายคนคิดกัน
คิดว่าก่อนที่ AI จะไปทำวิจัยใหม่ ๆ อย่างน้อยควรต้องทำการจำลองงานวิจัยเดิมให้สำเร็จก่อน เช่น เอางานวิจัยด้าน deep learning ให้ AI แล้วให้มันลงมือ implement ออกมา แบบนี้จึงจะประเมินความสามารถที่แท้จริงได้ ถ้าพื้นฐานแบบนี้ยังทำไม่ได้ ก็ยากจะคาดหวังไอเดียใหม่ ๆ
ตอนแรกนึกว่าจะมีคนเสนอว่า “ให้ AI อ่านแค่ครึ่งแรกของงานวิจัย แล้วให้มันเติมส่วนที่เหลือเอง” ถ้าแค่การตรวจสอบระดับนี้ยังทำไม่ได้ ก็ไม่คิดว่า AI จะสร้างการค้นพบที่เป็นนวัตกรรมได้
OpenAI ทำ benchmark ที่เกี่ยวกับเรื่องนี้ไว้แล้ว ลิงก์ paperbench
ควรมีระบบบันทึกที่ตรวจสอบย้อนหลังได้อย่างโปร่งใสทั้งหมด และต้องรับประกันด้วยว่างานวิจัยนั้นไม่เคยถูกเปิดเผยให้ชุดข้อมูลเห็นมาก่อน งานวิจัยเองก็มีการทุจริตทางวิชาการเกิดขึ้นเป็นครั้งคราว และ LLM ก็สามารถสร้างข้อมูลเท็จขึ้นมาได้อย่างหน้าตาเฉย
ตัวอย่างเช่น อาจให้ AI ดูข้อมูลสถิติการทดลองจากบางงานวิจัย แล้วให้มันสร้างข้อมูลดิบกลับขึ้นมาใหม่
ไอเดียนี้ไม่เพียงน่าสนใจมาก แต่ยังอาจช่วยแก้ปัญหาการตรวจสอบความสามารถในการทำซ้ำผลได้ระดับหนึ่งด้วย อย่างไรก็ตาม ต่อให้เป็นงานวิจัยที่ AI จำลองขึ้นมา มนุษย์ก็ยังต้องตรวจละเอียดอยู่ดี ในทางปฏิบัติทุกวันนี้ LLM ยังมีบทบาทที่ใช้งานได้อีกหลายแบบ เช่น ช่วยตรวจโค้ดประมวลผลข้อมูลในกระบวนการ peer review หรือช่วยค้นเอกสารและใช้ระดมความคิด
"Nature Communications" กับ "Nature" มีสถานะต่างกันโดยสิ้นเชิง ไม่ควรเรียกเหมือนเป็นสิ่งเดียวกัน และ altmetrics ก็เป็นตัวเลขที่แทบไม่มีความหมาย ถ้าไม่ได้ตั้งใจจะวัดกระแสความสนใจของสาธารณะ มันก็แทบไม่เกี่ยวกับการอ้างอิงทางวิทยาศาสตร์เลย
หากดูงานวิจัย deep learning ส่วนใหญ่ มักไม่ค่อยเห็นผู้เชี่ยวชาญโดเมนมาตรวจผลลัพธ์อย่างละเอียดมากนัก เลยสงสัยว่างานที่ดูน่าประทับใจจำนวนไม่น้อยอาจไม่ผ่านการตรวจสอบที่เข้มงวด แต่ในสายงานของตัวเอง งานวิจัย AI ดูเหมือนจะถูกอ่านตรวจทั้งโดยตนเองและผู้เชี่ยวชาญคนอื่นพอสมควร เพียงแต่ผลงานทางคอมพิวเตอร์หรือซอฟต์แวร์ดูเหมือนจะตรวจสอบง่ายกว่าทางชีววิทยา (หรืออาจเป็นเพราะตนเองไม่รู้ชีววิทยาลึกพอก็ได้)
ในสาขาชีววิทยา แค่การตรวจสอบความถูกต้องของ label เองก็กินเวลาหลายปี กรณีที่ OP ยกมาเป็นตัวอย่างก็บังเอิญเป็นเคสที่โชคดีมาก เพราะมีคนใช้เวลาหลายปีตรวจสอบค่าที่ทำนายไว้บางอย่างล่วงหน้าแล้ว ส่วนใหญ่ไม่มีใครยอมเอาอาชีพ 3~5 ปีของตัวเองไปเสี่ยงกับการตรวจผลทำนายจากโมเดลแบบสุ่ม ๆ
ในสายงานของฉัน เวลาในงานวิจัยใช้เทคนิคแบบนั้น ผู้คนมักตรวจละเอียดและวิจารณ์กันจริงจัง ปัญหาคือคนจากสาขาอื่นจำนวนมากมักไม่รับฟังคำวิจารณ์เหล่านี้อย่างจริงจัง
มีคนเสนอว่าสิ่งที่ AI ต้องการคือ subsystem สำหรับ 'ตรวจสอบความเป็นจริง' สำหรับ LLM แล้ว มันเหมือนการปล่อยเสียงรบกวนจากจิตใต้สำนึกของเราออกมาไม่หยุด จริง ๆ แล้วสมองของเรามีตัวกรองภายในประมาณว่า “สิ่งที่ฉันพูดเป็นความจริงที่พิสูจน์หักล้างได้หรือไม่?” ซึ่งช่วยกรองคำโกหกออกไป (แน่นอนว่ามีการแซวต่อว่า ระบบนี้ก็ไม่ได้ใช้ได้กับทุกคน)
เห็นด้วยอย่างยิ่ง หลายเดือนก่อนในคืนดึก ๆ ตอนที่กึ่งหลับกึ่งตื่น ฉันรับรู้ว่าสมองตัวเองกำลังสร้างวลีและความคิดต่าง ๆ ออกมาอย่างต่อเนื่อง และบางครั้งก็รู้สึกได้ชัดมากว่าไอเดียเหล่านั้นถูกกรองจนกลายเป็นประโยคที่เป็นระเบียบ แม้จะเป็นประสบการณ์แปลกส่วนตัว แต่ก็ทำให้รู้สึกว่า AI เองก็จำเป็นต้องมีอัลกอริทึมแบบนี้จริง ๆ ถ้าได้เรียนปริญญาเอกก็อยากหยิบเรื่องนี้ไปทำวิจัย
ระบบ 'ตรวจสอบความเป็นจริง' ของมนุษย์คล้ายกับ discriminator ใน GAN แต่ได้รับอิทธิพลจากอารมณ์อย่างมาก งานวิจัยทางจิตวิทยาพบว่า วงจรตัดสินจริงเท็จของมนุษย์เริ่มต้นจากสัญญาณทางอารมณ์เสมอ และรากของมันก็มาจากความเชื่อ เมื่อมีคนพูดอะไรที่ขัดกับความเชื่อของฉันอย่างแรง ปฏิกิริยาทางอารมณ์จะมาก่อน แล้วค่อยมีการตัดสินด้วยเหตุผลตามมา
สอดคล้องกับประสบการณ์ที่ได้ใช้ LLM ในฐานะนักวิจัย ประทับใจมากกับความสามารถในการเข้าใจและสร้างข้อความ แต่ก็มักผิดหวังเสมอเมื่อมันตอบปัญหาที่ยากและยังไม่มีคำตอบได้อย่างฉับไว คำถามที่ซับซ้อนควรต้องใช้เวลาคิด แต่ LLM มักตอบด้วยความมั่นใจโดยไม่มีทั้งความลึกและการไตร่ตรอง (แม้ว่าคำตอบจะผิดสนิทก็ตาม)
รู้สึกว่าเป็นบทความที่ยอดเยี่ยมของ Rachel Thomas และเป็นอีกกรณีที่ย้ำข้ออ้างว่า deep learning สุดท้ายแล้วคือเครื่องมือค้นคืนข้อมูลแบบ [generative] ข้อมูลฝึกแม้จะสะท้อนโดเมนของโลกจริง แต่โดยเนื้อแท้แล้วเป็นชุดข้อมูลที่สูญเสียรายละเอียดอย่างมาก ตัวอย่างเช่น ข้อมูล/label ทางพันธุกรรมไม่ได้แทนโครงสร้างจริงของชีววิทยาได้อย่างสมบูรณ์ ดังนั้นผลลัพธ์จึงมักผิดหรือไร้ความหมายได้ ตรงกันข้าม เวลาที่มันแม่นยำผิดปกติ ก็ควรสงสัยด้วยว่าด้วยธรรมชาติของ LLM ที่เป็นเครื่องมือค้นข้อมูลตามการออกแบบ อาจมี data leakage ปะปนอยู่ ในเชิงทฤษฎีสารสนเทศ ข้อจำกัดของชุดข้อมูลคือความเสี่ยงที่ไม่รู้ตัวซึ่งมีร่วมกันในทุกโมเดล สรุปแล้ว มองว่านี่ไม่ใช่ปัญหาของอัลกอริทึม แต่เป็นปัญหาของชุดข้อมูลฝึก เราทำงานในโดเมนภาษาธรรมชาติได้ยืดหยุ่นมาก และแม้แต่เด็กก็อ่านแล้วพอรู้ได้ว่ามันสมเหตุสมผลหรือไม่ ความสำเร็จของ LLM ใน NLP ก็อาศัยข้อมูลประเภทนี้ แต่ในสาขาซับซ้อนที่ข้อมูลต้นทางไม่อาจถ่ายทอดแก่นแท้ได้ครบถ้วน ก็ย่อมมีข้อจำกัดมากกว่า
กังวลว่าข้อมูลเท็จกำลังแทรกซึมเข้าสู่วงการวิทยาศาสตร์ด้วย ชี้ว่าภาพของคำพูดเร้าอารมณ์ที่ไร้หลักฐานกลับได้รับความสนใจมากกว่างานวิจัยจริงนั้น เริ่มปรากฏในวิทยาศาสตร์คล้ายกับที่เห็นในโซเชียลมีเดีย แต่ก็ไม่อาจมอง Twitter กับวารสาร Nature ว่าอยู่ระดับเดียวกันได้ เดิมยังเชื่อว่าวารสารชั้นนำและระบบ peer review เป็น 'แนวป้องกันด่านสุดท้าย' ต่อปัญหานี้ จึงเกิดคำถามว่ากรณีนี้ถือเป็นความล้มเหลวของ Nature หรือไม่
ควรจำไว้ว่ามีสถิติชี้ว่า ยิ่งเป็นวารสารที่มีอิมแพ็กต์สูง อัตราการถอนบทความและสัดส่วนงานที่ยังไม่ผ่านการตรวจสอบก็ยิ่งสูง สาเหตุรากเหง้าของปัญหานี้ยังถกเถียงกันได้ แต่บทความหนึ่งชิ้นไม่ได้พิสูจน์ความจริง สิ่งที่น่าเชื่อถือจริงคือการที่หลายสถาบัน หลายทีมวิจัย ตรวจสอบผลลัพธ์เดียวกันอย่างเป็นอิสระ
ปัญหาข้อมูลเท็จในวงการวิทยาศาสตร์ไม่ได้เพิ่งเริ่มใหญ่ขึ้นตอนนี้ ความจริงคือมีการถกเถียงเรื่อง 'วิกฤตการทำซ้ำผล' กันต่อเนื่องมาหลายปีแล้ว
รู้สึกผิดหวังที่งานวิจัยผิด ๆ ไม่ได้อยู่แค่ในข่าววิทยาศาสตร์สำหรับสาธารณะ แต่ยังได้ตีพิมพ์ในวารสารชั้นนำด้วย อย่างกรณีบทความ ML Quantum Wormhole มองว่านี่ไม่ใช่แค่ความผิดพลาด แต่เป็นตัวอย่างของการที่ทั้งนักวิจัยและผู้รีวิวละเลยการตรวจสอบที่เหมาะสมกันมากเกินไป เดิมทีฉันก็สงสัยระบบวารสารแบบเดิมอยู่แล้วและอยากเห็นการตีพิมพ์วิชาการที่เสรีกว่า แต่ตอนนี้กลับรู้สึกว่าวารสารเองกำลังกัดกร่อนความน่าเชื่อถือของตัวเอง ที่น่ากังวลที่สุดคือสุดท้ายเรื่องแบบนี้จะยิ่งทำลายความเชื่อมั่นของสาธารณะต่อวิทยาศาสตร์ เพราะสาธารณชนมองไม่เห็นความละเอียดอ่อนของข้อถกเถียงภายในวงการ และเหตุการณ์เช่นนี้ก็ยิ่งเป็นข้ออ้างให้อีกฝั่งที่ต่อต้านวิทยาศาสตร์
ทำให้นึกถึง Bullshit asymmetry principle (กฎของ Brandolini) ลิงก์หลักการนี้
เรามักมีแนวโน้มโปรโมตอย่างหวือหวาเฉพาะความสำเร็จ ML/AI เพียงครั้งเดียวที่สวยงาม และเมินความพยายามอีกหลายสิบครั้งที่ล้มเหลวไป