ดีปเลิร์นนิงได้รับความสนใจ แต่การตรวจสอบข้อเท็จจริงเชิงลึกกลับถูกมองข้าม

(rachel.fast.ai)

3 คะแนน โดย GN⁺ 2025-06-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

งานวิจัยที่ฝึก Transformer ด้วยข้อมูลเอนไซม์ 22 ล้านรายการเพื่อทำนายหน้าที่ของเอนไซม์ที่ยังไม่ทราบ 450 รายการ ได้ตีพิมพ์ใน Nature Communications และได้รับความสนใจติด 5% แรกของ Altmetric แต่ preprint ฉบับต่อมาที่ตรวจสอบข้อผิดพลาดในวงกว้างกลับได้รับความสนใจน้อยกว่ามาก
การทำนายหน้าที่ของเอนไซม์อาจดูเหมือนเป็นปัญหาการทาย หมายเลข EC จากลำดับกรดอะมิโน แต่การตัดสินจริงต้องอาศัยหลักฐานทางชีววิทยา เช่น ความคล้ายคลึงเชิงโครงสร้าง บริบทรอบยีน การ dock ของซับสเตรต และการปรากฏร่วมกันในเส้นทางเมแทบอลิซึม
จากการทำนาย “novel” 450 รายการ มี 135 รายการอยู่ใน UniProt อยู่แล้ว และ 148 รายการแสดงรูปแบบที่แปลกในเชิงชีววิทยา เช่น หน้าที่ที่จำเพาะมากแบบเดียวกันถูกทำซ้ำสูงสุด 12 ครั้ง
กรณี yciO แสดงให้เห็นว่าประสิทธิภาพบนชุดทดสอบและ การตรวจสอบแบบ in vitro เพียงไม่กี่รายการยังไม่เพียงพอ; yciO คล้าย TsaC ในเชิงโครงสร้าง แต่งานวิจัยเดิมและความแตกต่างของ activity ของเอนไซม์ชี้ว่าไม่ได้ทำหน้าที่หลักเดียวกัน
โมเดลแบบ supervised learning อาจมีประโยชน์ในการกระจาย label หน้าที่ที่รู้แล้วไปยังกลุ่มหน้าที่เดียวกัน แต่มีข้อจำกัดในการค้นพบ หน้าที่ที่ไม่ทราบจริง ๆ และ label ที่ผิดอาจแพร่ต่อไปผ่านฐานข้อมูลอย่าง UniProt ไปสู่การฝึกโมเดลรุ่นถัด ๆ ไป

ความต่างระหว่างบทความทำนายเอนไซม์ด้วย AI กับการตรวจสอบติดตามผล

งานวิจัยต้นฉบับฝึกและประเมิน โมเดลที่ใช้ Transformer ด้วยชุดข้อมูลที่มีเอนไซม์ 22 ล้านรายการและหมายเลข EC จากนั้นทำนายหน้าที่ของเอนไซม์ราว 450 รายการที่ยังไม่ทราบหน้าที่
ได้ตีพิมพ์ใน Functional annotation of enzyme-encoding genes using deep learning with transformer layers | Nature Communications และมียอดเข้าชม 22,000 ครั้ง รวมถึงได้รับความสนใจติด 5% แรกของผลงานวิจัยทั้งหมดตามเกณฑ์ Altmetric
บทความตรวจสอบติดตามผล Limitations of Current Machine-Learning Models in Predicting Enzymatic Functions for Uncharacterized Proteins | bioRxiv พบข้อผิดพลาดร้ายแรงและผลลัพธ์หลายร้อยรายการที่มีความเป็นไปได้สูงว่าผิดในการทำนายของบทความต้นฉบับ แต่ไม่ได้รับยอดเข้าชมหรือการอ้างอิงเท่าบทความต้นฉบับ
กรณีนี้เผยให้เห็นว่าเป็นเรื่องยากที่จะประเมินความถูกต้องของผลลัพธ์ AI ในสาขาชีววิทยา หากไม่มี ความเชี่ยวชาญเชิงโดเมนอย่างลึกซึ้ง

ทำไมการทำนายหน้าที่ของเอนไซม์จึงยาก

เอนไซม์เร่งปฏิกิริยาในสิ่งมีชีวิต และ หมายเลข Enzyme Commission (EC) จัดหมวดหมู่หน้าที่ของเอนไซม์หลายพันแบบเป็นลำดับชั้น
เมื่อมองว่า input คือลำดับกรดอะมิโนที่ประกอบเป็นโปรตีน และ output คือหมายเลข EC ปัญหานี้ดูเหมาะกับแมชชีนเลิร์นนิง
UniProt มีเอนไซม์มากกว่า 22 ล้านรายการพร้อมหมายเลข EC จึงนำมาใช้เป็นชุดข้อมูลฝึกขนาดใหญ่ได้
แต่การตัดสินหน้าที่ของเอนไซม์ไม่ได้อาศัยเพียงความคล้ายคลึงของลำดับหรือโครงสร้างก็เพียงพอ และความสัมพันธ์เชิงวิวัฒนาการที่หน้าที่แยกออกจากกันเป็นหลุมพรางที่พบได้บ่อย

แนวทาง Transformer และผลงานที่ดูดีภายนอก

บทความใน Nature Communications ใช้ โมเดลดีปเลิร์นนิงแบบ Transformer เพื่อทำนายหน้าที่ของเอนไซม์ที่ก่อนหน้านี้ยังไม่ทราบหน้าที่
โครงสร้างโมเดลเป็นแนวทางที่นำมาจาก BERT ประกอบด้วย Transformer encoder สองชุด เลเยอร์ convolution สองชั้น และเลเยอร์เชิงเส้น
ทีมวิจัยตรวจสอบว่าบริเวณที่มี attention สูงมีความหมายทางชีววิทยาหรือไม่ และสรุปว่าโมเดลได้เรียนรู้ความหมายพื้นฐานและยังให้ความสามารถในการตีความได้ด้วย
ใช้การแบ่งชุด train/validation/test แบบมาตรฐานบนชุดข้อมูลที่มีหลายล้านรายการ และนำโมเดลไปใช้กับชุดข้อมูลที่ไม่มี ground truth เพื่อสร้างการทำนายใหม่ราว 450 รายการ
จากนั้นสุ่มเลือกสามรายการไปทดสอบแบบ in vitro และยืนยันว่าการทำนายนั้นถูกต้อง

ข้อผิดพลาดและรูปแบบซ้ำที่ปรากฏ

การวิเคราะห์ติดตามผลสรุปว่าการทำนาย “novel” หลายร้อยรายการในบทความ Nature Communications แทบจะแน่นอนว่าเป็นข้อผิดพลาด
บทความต้นฉบับทำผลงานได้ดีบนชุดทดสอบที่กันไว้ แต่การตรวจสอบภายหลังพบความเป็นไปได้ของ data leakage
จากผลลัพธ์ “novel” 450 รายการ:
- 135 รายการมีอยู่ใน UniProt อยู่แล้ว จึงไม่ใช่ของใหม่จริง
- 148 รายการแสดงรูปแบบผิดปกติที่หน้าที่เอนไซม์ซึ่งจำเพาะมากแบบเดียวกันถูกทำซ้ำในยีนของ E. coli สูงสุดถึง 12 ครั้ง
การทำซ้ำเช่นนี้ไม่น่าเป็นไปได้ในเชิงชีววิทยา และ bias, ความไม่สมดุลของข้อมูล, การขาด feature ที่เกี่ยวข้อง, ข้อจำกัดของสถาปัตยกรรม และการปรับเทียบความไม่แน่นอนไม่เพียงพอ อาจทำให้โมเดลฝืนให้ label ที่พบบ่อยในข้อมูลฝึก
YjhQ ถูกทำนายว่าเป็น mycothiol synthase แต่ E. coli ไม่สังเคราะห์ mycothiol
YrhB ถูกทำนายว่าสังเคราะห์สารประกอบชนิดหนึ่ง แต่สารประกอบดังกล่าวถูกทำนายไว้แล้วว่า QueD enzyme เป็นผู้สังเคราะห์ และ QueD mutant E. coli ไม่สามารถสังเคราะห์สารนั้นได้ จึงแสดงว่าไม่ใช่หน้าที่ของ YrhB

บทบาทของความรู้โดเมนที่กรณี yciO แสดงให้เห็น

yciO ซึ่งเป็นหนึ่งในตัวอย่างที่นำไปทดสอบ in vitro เป็นเอนไซม์ที่ Dr. de Crécy-Lagard ศึกษามานานกว่า 10 ปี
บทความต้นฉบับสรุปว่า yciO ทำหน้าที่เดียวกับ TsaC แต่งานวิจัยเดิมไม่สนับสนุนข้อสรุปนี้
TsaC เป็นยีนจำเป็นใน E. coli และแม้ yciO จะอยู่ใน genome เดียวกัน และแม้ yciO จะถูก overexpress ความจำเป็นของ TsaC ก็ไม่ได้หายไป
activity ของ yciO ที่ Kim et al. รายงานต่ำกว่า TsaC มากกว่า 4 ลำดับขนาด หรือ อ่อนกว่ามากกว่า 10,000 เท่า
yciO และ TsaC คล้ายกันในเชิงโครงสร้าง และ yciO วิวัฒนาการมาจากบรรพบุรุษของ TsaC แต่การที่หน้าที่หลากหลายขึ้นหลังการ duplication ของยีนเป็นเรื่องพบได้ทั่วไปในวิวัฒนาการของโปรตีนและเอนไซม์
ในการจัดจำแนกหน้าที่ของเอนไซม์ นอกเหนือจากความคล้ายคลึงเชิงโครงสร้างแล้ว หลักฐานต่อไปนี้ก็สำคัญ
- neighborhood context ของยีน
- การ dock ของซับสเตรต
- การปรากฏร่วมกันของยีนในเส้นทางเมแทบอลิซึม
- คุณลักษณะอื่น ๆ ของเอนไซม์

แยก “การกระจายหน้าที่ที่รู้แล้ว” ออกจาก “การค้นพบหน้าที่ที่ไม่ทราบจริง ๆ”

การระบุหน้าที่ของเอนไซม์มีปัญหาสองแบบที่ปะปนกันอยู่
- ปัญหาการกระจาย label หน้าที่ที่รู้แล้ว ไปยังเอนไซม์ในกลุ่มหน้าที่เดียวกัน
- ปัญหาการค้นพบหน้าที่ที่ไม่เป็นที่รู้จักจริง ๆ
โดยการออกแบบแล้ว โมเดลแมชชีนเลิร์นนิงแบบ supervised learning ไม่สามารถใช้ทำนายหน้าที่ของ true unknowns ได้
แมชชีนเลิร์นนิงอาจมีประโยชน์ในการกระจายหน้าที่ที่รู้แล้วไปยังเอนไซม์เพิ่มเติม
แต่ข้อผิดพลาดต่อไปนี้อาจเกิดขึ้นได้
- ไม่สามารถกระจาย label ที่ควรกระจาย
- กระจาย label ที่ไม่ควรกระจาย
- ความผิดพลาดในการ curation
- ความผิดพลาดในการทดลอง
หากหน้าที่ที่ผิดถูกใส่เข้าไปในฐานข้อมูลออนไลน์สำคัญอย่าง UniProt ก็อาจถูกใช้เป็นข้อมูลฝึกของโมเดลทำนายถัดไป ทำให้ข้อผิดพลาดแพร่ต่อไปมากขึ้น
ปัญหานี้อาจขยายตัวเมื่อเวลาผ่านไป

ผลตอบแทนที่ต่ำของงานตรวจสอบข้อมูล

งานสร้างโมเดล AI ได้รับรางวัลและการสนับสนุนมากกว่างานตรวจสอบข้อมูลพื้นฐานอย่างละเอียดและผสานความรู้เชิงโดเมนลึก ๆ
Everyone Wants to do the Model Work, not the Data Work ศึกษาผู้ปฏิบัติงานด้านแมชชีนเลิร์นนิงหลายสิบคนที่เข้าร่วมโครงการ AI ความเสี่ยงสูง และมองว่าความเชี่ยวชาญด้านโดเมนประยุกต์ที่ไม่เพียงพอเป็นหนึ่งในสาเหตุหลักของความล้มเหลวร้ายแรง
การประเมินผลลัพธ์ AI นอกสาขาความเชี่ยวชาญของตนเองอาจเป็นเรื่องยากมากหรืออาจเป็นไปไม่ได้
บทความดีปเลิร์นนิงจำนวนมากถูกอ่านในสภาพที่ผู้เชี่ยวชาญโดเมนยังไม่ได้ตรวจสอบคุณภาพของผลลัพธ์อย่างละเอียด
งานตรวจสอบการทำนายเอนไซม์หลายร้อยรายการอาจดูไม่หวือหวาเท่าการสร้างโมเดล AI แต่สำคัญต่อคุณภาพของผลลัพธ์มากกว่า
ระบบแรงจูงใจที่มุ่งเน้นวิธีแก้ปัญหา AI ที่ดูโดดเด่นอย่างไม่สมดุล อาจทำให้ต้องแลกกับผลลัพธ์ที่มีคุณภาพ

1 ความคิดเห็น

GN⁺ 2025-06-04

ความคิดเห็นจาก Hacker News

เคยเจอเรื่องคล้าย ๆ กันมาก่อน ผมลองโยน BERT ใส่ข้อมูลเอนไซม์ ดู ในการประเมินก็ดูปกติดี แต่พอเจอสภาพแวดล้อมจริงก็พังเละ นี่เป็นกรณีคลาสสิกของการ “overfit กับบรรยากาศ”
พูดตามตรง ถ้าเป็นแค่การจำแนกประเภทแบบง่าย ๆ ผมจะเลือก SVM หรือ logistic regression ได้ทุกเมื่อ Transformer นั้นเท่ก็จริง แต่ถ้าข้อมูลไม่สะอาดมาก ๆ มันจะพูดมั่วอย่างมั่นใจ คล้ายกับให้ข้อสอบปรนัยไร้สาระแก่ GPT แล้วมันก็เลือกอะไรสักอย่างพร้อมพูดอย่างมั่นใจมาก
ช่วงนี้เลยไปทางดึง embedding จากโมเดลใหญ่ ๆ แล้ววาง classifier ง่าย ๆ ทับอีกชั้น ทำงานได้ดีกว่า เร็วกว่า และวุ่นวายน้อยกว่า
- Transformer ได้คะแนนเต็มใน test set แต่พอเจอความเป็นจริงก็หน้าคะมำทันที ผมเองก็เคยเต้นดีใจว่า “ว้าว accuracy 92%!” แต่สุดท้ายพบว่าแค่สร้าง pattern matcher ที่ทายลักษณะเล็ก ๆ น้อย ๆ ของชุดข้อมูลได้อย่างมั่นใจเท่านั้น
- คุณอาจรู้อยู่แล้ว แต่วิธีเอา embedding จากโมเดลใหญ่ ๆ แล้ววาง classifier ทับนั้น ในภาพกว้างเรียกว่า transfer learning
- ใช่ แต่ถึงอย่างนั้นมันก็ยังเป็นการใช้ Transformer ทางอ้อมอยู่ดี
- น่าขันตรงที่คอมเมนต์นี้เองอ่านแล้วเหมือนถูกสร้างโดย Transformer หรือพูดให้ตรงคือ ChatGPT
- เป็นคำถามคนละประเด็นนิดหน่อยนะ คุณคิดว่า SVM มีประโยชน์แค่ไหนใน production? โดยทั่วไปผมรู้สึกว่ามันช้ากว่าอัลกอริทึมอื่นมากจนไม่ค่อยคุ้มที่จะใช้
ก่อนจะให้ AI ทำวิจัย คงต้องให้มัน ทำซ้ำ งานวิจัยให้ได้ก่อน เช่น ให้บทความเกี่ยวกับเทคนิค deep learning บางอย่าง แล้วให้มันสร้าง implementation ของบทความนั้น
ถ้าทำแบบนั้นไม่ได้ ก็ไม่คาดหวังว่ามันจะสร้างไอเดียใหม่ ๆ ได้
- reproducibility คือเส้นฐาน จนกว่าโมเดลจะอ่าน เข้าใจ และ implement งานวิจัยเดิมได้อย่างถูกต้องและเสถียร คำว่า “นักวิทยาศาสตร์ AI” ก็ส่วนใหญ่ยังเป็นแค่การสร้างแบรนด์
- OpenAI ทำ benchmark สำหรับเรื่องนี้ไว้แล้ว: https://openai.com/index/paperbench/
- สำหรับ LLM ต้องมี audit trail ที่ครบถ้วนมาก และต้องรับประกันด้วยว่าบทความนั้นไม่ได้อยู่ใน dataset ที่ไหนเลย
  การทุจริตในวงวิชาการมีไม่บ่อย แต่ก็ใช่ว่าไม่มี LLM แค่มีช่องนิดเดียวก็สร้างข้อมูลขึ้นมาเองและโกหกได้
- นึกว่าจะพูดว่า “ให้ส่วนต้นของบทความ หรือก็คือ prompt แก่ AI แล้วให้มันเขียนส่วนที่เหลือให้เสร็จ เพื่อทดสอบว่าสามารถสร้างวิทยาศาสตร์ที่เทียบเท่าผลวิจัยได้ไหม” ถ้าทำแบบนั้นไม่ได้ ก็ไม่คาดหวังว่ามันจะสร้างไอเดียใหม่ ๆ ได้
- หรืออาจให้บทความที่เต็มไปด้วยสถิติจากการสังเกตการทดลอง แล้วให้มันสร้าง ข้อมูลดิบ ขึ้นมาใหม่ก็ได้
ได้ยินมาว่ามีนักวิจัยคนหนึ่งใช้เวลา 6 เดือนเพื่อตรวจสอบผลลัพธ์ของบทความที่ตีพิมพ์แล้ว สุดท้ายสิ่งที่ได้รับมีแค่คำว่า “ขอบคุณที่ชี้ให้เห็น”
เขาพูดเงียบ ๆ ว่า “บางงานสำคัญไม่ใช่เพราะมันมองเห็นได้ แต่เพราะมันกันไม่ให้คนอื่นเดินไปผิดทาง”
ผมเชื่อว่า ถ้าเราไม่แม้แต่จะมีความตั้งใจตรวจสอบอย่างระมัดระวังว่าคำทำนายตรงกับความจริงหรือไม่ ต่อให้เทคโนโลยีดูน่าประทับใจแค่ไหน มันก็เป็นเพียงภาพลวงตาชั่วครู่เท่านั้น
- อาจไม่ได้รางวัลโนเบล แต่ในแง่ของความสำเร็จและคุณค่าที่เพิ่มให้มนุษยชาติ เขานำหน้า พนักงานบริษัท ส่วนใหญ่ไปไกลมาก หวังว่าเราจะพูดแบบนั้นได้กับงานของเราในช่วง 10 ปีที่ผ่านมาเช่นกัน
ส่วนที่ว่า “จากการตรวจสอบภายหลัง มีความเป็นไปได้ว่ามีข้อมูลรั่วไหล” ดูเหมือนมักถูกลืมกันไป จนกว่าจะมีหลักฐานคัดค้านที่แข็งแรงออกมา ทุกคนควรสันนิษฐานว่ามี data leakage
ไม่ใช่หน้าที่ของผู้อ่านหรือผู้สงสัยที่จะพิสูจน์ว่ามี leakage แต่เป็นหน้าที่ของผู้เขียนที่จะพิสูจน์ว่าไม่มี
ใน dataset ขนาดเล็ก data leakage เกิดขึ้นได้ง่าย ต่อให้เป็น dataset ที่มองดูทั้งชุดด้วยตาได้ leakage ก็ยังแทรกเข้ามาได้ง่ายมาก และมักเกิดขึ้นโดยเจ้าตัวไม่รู้ ปัจจัยละเอียดอ่อนทำให้ข้อมูลพังได้ง่าย
ตอนนี้เราจัดการกับ dataset ขนาดมหึมาที่ไม่มีทางให้คนตรวจทั้งหมดได้ เราก็รู้ว่าวิธีกรองไม่สมบูรณ์ แล้วทำไมถึงเชื่อได้ว่าไม่มี leakage? คุณพูดได้ว่ากรองแล้ว แต่พูดไม่ได้ว่าไม่มี leakage
ยิ่งกว่านั้น แม้ใน dataset ที่เข้าถึงได้ เราก็ยังพบการปนเปื้อนอยู่เรื่อย ๆ เท่ากับมีหลักฐานเพิ่มขึ้นเรื่อย ๆ ว่าเรื่องแบบนี้เกิดขึ้นบ่อยจริง
แล้วทำไมยังสันนิษฐานต่อไปว่าไม่มีการปนเปื้อน? เพราะกระแส hype หรือเปล่า? พูดตรง ๆ มันฟังเหมือนการโกหกตัวเองเพราะอยากเชื่อ เราแก้ปัญหาแบบนี้ไม่ได้ด้วยการหลอกตัวเอง
- ทุกระบบมีปัญหา คำถามที่ดีกว่าคือ threshold ที่ยอมรับได้ อยู่ตรงไหน
  เช่น อัตราการรับสิทธิ์โดยทุจริตของ Medicare และ Medicaid อยู่ที่ 7.66% เป็นมูลค่าหลายพันล้านดอลลาร์และยังมีพื้นที่ให้ปรับปรุง แต่ก็ไม่ได้แปลว่าทั้งระบบล้มเหลว ใน 93% ของกรณี ระบบยังให้ความคุ้มครองตามที่ตั้งใจไว้
  โมเดลเหล่านี้ก็อาจเป็นแบบเดียวกัน ถ้าอัตราการปนเปื้อนอยู่ที่ 10% ทั้งระบบถือว่าแย่หรือเป็นระดับที่พอรับได้?
  [1]: https://www.cms.gov/newsroom/fact-sheets/fiscal-year-2024-im...
- การที่ burden of proof อยู่ตรงไหน ไม่ได้เป็นเกณฑ์ชี้ขาดว่าควรเชื่ออะไร มากเท่าที่คนออนไลน์มักคิดกัน
สิ่งที่ผมคาดการณ์ไว้เกิดขึ้นตามนั้นเลย: https://news.ycombinator.com/context?id=44041114 https://news.ycombinator.com/context?id=41786908
เหมือนกับคำว่า “AI เขียนโค้ดได้” ถ้าปัญหาไม่ได้อยู่ใน training set มันก็จะล้มเหลวอย่างอลังการต่อไป แต่ผู้คนก็ประหลาดใจกันทุกครั้ง
- ฝั่ง “AI เขียนโค้ดได้” นั้น ถ้าใช้ทางอ้อมก็ไปได้ไกลพอสมควร เสริม workflow ของ software engineer ตัวจริง และใส่ guardrail อย่าง linter กับ test เข้าไป
  ส่วนยาก ๆ อย่าง architecture, design, review มันยังทำไม่ได้ แต่ส่วนที่ซ้ำ ๆ และเป็นปัญหาที่แก้ไว้แล้ว ซึ่งกินเวลาของวิศวกรส่วนใหญ่ มันเอาไปได้มหาศาล การรับประกันคุณภาพยังให้มนุษย์ทำ ดังนั้นการเพิ่ม productivity 2–5 เท่าโดยไม่เสียคุณภาพก็เป็นไปได้มาก
  แต่ถ้าไม่มีการจัดการและไม่ตรวจสอบ ก็ยังแทนงานทั้งหมดของมนุษย์คนใดคนหนึ่งได้ไม่ดีเลย ยังห่างไกลมาก
“ในบทความวิจัยด้านดีปเลิร์นนิงส่วนใหญ่ที่ผมอ่าน ไม่ได้มีผู้เชี่ยวชาญโดเมนมาค่อย ๆ ไล่ตรวจผลลัพธ์อย่างละเอียดเพื่อประเมินคุณภาพของเอาต์พุตเลย แล้วในบรรดาบทความที่ดูน่าประทับใจภายนอก จะมีสักกี่ชิ้นที่ทนต่อการตรวจสอบอย่างละเอียดไม่ได้?”
จริงหรือ? ผมเคยอ่านบทความ AI ในสาขาของผมอยู่หลายฉบับ และเท่าที่รู้ผู้เชี่ยวชาญโดเมนอื่น ๆ ก็อ่านกันเยอะเหมือนกัน เพียงแต่ดูเหมือนว่างานที่อิงวิทยาการคอมพิวเตอร์/ซอฟต์แวร์โดยทั่วไปตรวจสอบได้ง่ายกว่าชีววิทยา หรือไม่ก็อาจเป็นเพราะผมแทบไม่รู้เรื่องชีววิทยาเลยก็ได้
- การตรวจสอบป้ายกำกับทางชีววิทยาใช้เวลาเป็นปี ๆ ได้ง่าย ๆ ตัวอย่างในบทความต้นฉบับใกล้เคียงกับ ความบังเอิญครั้งใหญ่ที่โชคดี ที่มีใครบางคนทุ่มเวลาไปหลายปีแล้วกับหนึ่งในป้ายกำกับโปรตีนที่ถูกทำนายไว้
  คงไม่มีใครยอมเดิมพันอาชีพ 3–5 ปีเพื่อตรวจสอบการทำนายแบบสุ่มของโมเดลหรอก
- การอ่านบทความ การตรวจสอบผลลัพธ์ และการรับรองความถูกต้อง เป็นคนละเรื่องกัน ผมเองก็อ่านบทความเยอะ แต่โดยปกติจะดู ข้อมูลพื้นฐาน ก็ต่อเมื่อจะนำข้อมูลนั้นไปใช้ซ้ำเพื่อวัตถุประสงค์อื่น
  พอดูแบบนั้นก็มักเจอข้อผิดพลาดของป้ายกำกับคำตอบที่ถูกต้องได้ค่อนข้างเร็ว แน่นอนว่าโมเดลส่วนใหญ่ไม่ได้มีประสิทธิภาพดีพอที่ข้อผิดพลาดแบบนี้จะส่งผลต่อผลลัพธ์มากนัก
- ในภาษาศาสตร์ ผมรู้สึกว่าผู้คนอ่านบทความที่ใช้เทคนิคเหล่านี้ค่อนข้างละเอียดและก็มีคำวิจารณ์ออกมาด้วย แต่เพราะผู้คนไม่ค่อยถือว่า นักภาษาศาสตร์ เป็นเรื่องจริงจัง คนในสาขาที่เกี่ยวข้องจึงเมินคำวิจารณ์เหล่านั้น
ไม่ควรเรียก Nature Communications ว่า “Nature” อำนาจบารมีต่างกันโดยสิ้นเชิง และ altmetrics ก็ไม่ได้เกี่ยวข้องมากนัก เว้นแต่ว่าต้องการวัดกระแสความร้อนแรงในหมู่สาธารณะ
- อัปเดต: ดูเหมือนผู้เขียนจะได้อ่านและแก้ไขแล้ว
สอดคล้องกับ ประสบการณ์กับ LLM อันจำกัดของผมในฐานะนักวิจัยมาก ความเข้าใจภาษาหนังสือและการเรียบเรียงประโยคที่เห็นภายนอกนั้นน่าประทับใจมาก
แต่การไปให้ถึงคำตอบที่ดีที่สุดเท่าที่เป็นไปได้ โดยเฉพาะกับคำถามที่ยังไม่มีคำตอบนั้นเป็นคนละเรื่อง คำตอบที่ปล่อยออกมาแทบจะทันทีสำหรับคำถามที่ปกติอาจใช้เวลาครึ่งวันแล้วยังสรุปไม่ได้ มักไม่น่าพอใจเท่าไร
คำถามที่ซับซ้อนต้องใช้เวลาในการสำรวจ จนถึงตอนนี้ LLM มีแนวโน้มจะให้คำตอบที่ดูมั่นใจ บางครั้งผิดโดยสิ้นเชิง แทนที่จะยอมรับสภาวะที่ยังหาข้อสรุปไม่ได้ แม้ในสถานการณ์ที่มันควรสรุปไม่ได้เพราะขีดความสามารถไม่พอ
เป็นบทความที่ยอดเยี่ยมของ Rachel Thomas
เรื่องนี้ดูเหมือนเป็นอีกเหตุผลหนึ่งว่า เพราะดีปเลิร์นนิงพึ่งพาข้อมูลฝึกที่เป็นตัวแทนของโดเมนพื้นฐานแบบสูญเสียข้อมูลมาก สุดท้ายมันจึงทำงานได้เพียงในฐานะ การค้นคืนข้อมูลเชิงกำเนิด กล่าวคือเป็นนกแก้วเชิงสุ่มนั่นเอง
เนื่องจากข้อมูลยีนหรือป้ายกำกับไม่ได้แทนชีววิทยาซึ่งเป็นโดเมนพื้นฐานได้อย่างสมบูรณ์เสมอไป เอาต์พุตจึงอาจเป็นเท็จ ใช้ไม่ได้ หรือไม่สมเหตุสมผล
ในกรณีที่ทำงานได้ดีมาก มักมี data leakage เพราะ LLM โดยการออกแบบแล้วเป็นเครื่องมือค้นคืนข้อมูล มองจากมุมทฤษฎีสารสนเทศ ในโมเดลใด ๆ ย่อมมี “สิ่งที่ไม่รู้ว่าตัวเองไม่รู้” ในระดับพื้นฐานอยู่
ข้อสรุปของผมคือ มันใกล้เคียงกับความผิดของ ชุดข้อมูลฝึก มากกว่าความผิดของอัลกอริทึม
มนุษย์ทำงานในขอบเขตภาษาธรรมชาติได้อย่างยืดหยุ่น และแม้แต่เด็กก็อ่านและประเมินได้ว่าข้อความสมเหตุสมผลหรือไม่ นี่อธิบายความสำเร็จของโมเดลที่ฝึกด้วยการประมวลผลภาษาธรรมชาติ
แต่ในสาขาที่ข้อมูลฝึกเป็นตัวแทนของโดเมนพื้นฐานแบบมีการสูญเสียข้อมูล ก็หลีกเลี่ยงไม่ได้ที่จะไม่สมบูรณ์
- ปฏิทรรศน์ของ LLM สมัยใหม่อยู่ตรงที่มันไม่ได้แทนโดเมนพื้นฐานโดยตรง แต่สามารถแทนข้อมูลที่นำเสนอเป็นข้อความได้ ดังนั้นมันจึงแทน ข้อมูลบางอย่าง ได้ แต่สิ่งนั้นคืออะไรกันแน่และถูกแทนอย่างไรนั้นไม่ได้ชัดเจนเสมอไป
  embedding space สามารถแทนความสัมพันธ์ระหว่างคำ ประโยค และย่อหน้าได้ และสิ่งเหล่านี้อาจบรรจุข้อมูลเกี่ยวกับโดเมนพื้นฐานอยู่ ดังนั้นเมื่อสืบค้นความสัมพันธ์นั้นผ่านข้อความ จึงได้คำตอบที่ดูสมเหตุสมผล ปัญหาคือข้อความเป็นวิธีเข้ารหัสที่ยุ่งเหยิง ทำให้ไม่ชัดเจนเสมอว่าความสัมพันธ์นั้นแทนอะไร
  จุดอ่อนอีกอย่างคือความเป็นเชิงกำเนิด เพื่อทำให้เป็นเชิงกำเนิด แทนที่จะ hardcode คำถามและคำตอบที่เป็นไปได้ทั้งหมดไว้ในฐานข้อมูล มันผลักข้อมูลบางส่วนไปให้อัลกอริทึม นั่นคือการทำนายโทเคนถัดไป ผลคือสามารถถามคำถาม/พรอมป์แบบไม่แม่นยำแต่เป็นเชิงความน่าจะเป็นได้ และเกิดข้อดีคือถามอะไรก็ได้
  แต่อัลกอริทึมเดี่ยวใด ๆ ก็ไม่สามารถเข้ารหัสคำตอบที่เป็นไปได้ทั้งหมดสำหรับคำถามที่เป็นไปได้ทั้งหมดในโดเมนหนึ่งได้อย่างถูกต้อง ดังนั้นความละเอียดแม่นยำของข้อมูลบางส่วนจึงสูญเสียไป ผมมอง LLM ปัจจุบันแบบนี้
- แม้จะลดทอนการถกเถียงให้ง่ายลงและสมมติว่าคำกล่าวว่า LLM คือ การค้นคืนข้อมูลเชิงกำเนิด นั้นถูกต้องเต็มที่ LLM ก็ยังจะคงอยู่ต่อไป
  ลองคิดดูว่านักพัฒนาระดับจูเนียร์ที่ต่ำกว่าค่าเฉลี่ยหรือระดับเฉลี่ยทำงานอย่างไรในการเขียนโปรแกรม พวกเขา “ค้นหา” ข้อมูลแก้ปัญหาจาก Stack Overflow หรือ tutorial
  การมอบเครื่องมืออัตโนมัติ AI ที่ทำมาอย่างดีให้กับนักพัฒนาทุกคน ก็คล้ายกับการมีนักพัฒนาจูเนียร์หนึ่งคนคอยรับมอบงานน่าเบื่อและเรียบง่ายให้แต่ละคน โดยไม่ต้องกังวลว่าจูเนียร์จะไม่เติบโตเพราะติดแต่งานง่าย ๆ หากมีเครื่องมืออย่าง static code analysis และ test พร้อมเพียงพอ เครื่องมือ AI ก็น่าจะทำวงจรทำงาน รันเครื่องมือ แก้ปัญหา ได้ค่อนข้างดี
  ราคาของเครื่องมือนั้นน่าจะราว 1/30 ของต้นทุนนักพัฒนาจูเนียร์ไม่ใช่หรือ? ถ้าเช่นนั้นเราก็มีเวลาให้กับงานสำคัญมากขึ้น รวมถึงการสอนนักพัฒนาจูเนียร์ตัวจริงด้วย
  ผมยังไม่คิดว่า AI ไปถึงจุดนั้นอย่างสมบูรณ์แล้ว แต่โมเดลพื้นฐานในปัจจุบันก็อาจเพียงพอที่จะไปถึงตรงนั้นได้ หากเชื่อมต่อและประกอบใช้อย่างถูกต้อง
- ผมสงสัยว่า กระบวนการคิด ที่นำไปสู่สถานการณ์ที่ Rachel Thomas อธิบายนั้น ใช้ได้กับสาขาอื่นในระดับหนึ่งด้วยหรือไม่ เป็นบทความสำคัญและผมเห็นด้วย
ชี้ให้เห็นหนึ่งในปัญหาหลักของวัฏจักรการโฆษณาเกินจริงของ AI ในปัจจุบันได้ดี เรากำลัง optimize ความสนใจ ไม่ใช่ความถูกต้อง
และนี่ไม่ใช่ปัญหาเฉพาะชีววิทยา ในการประยุกต์ใช้ machine learning ในหลายสาขา ตั้งแต่วิทยาศาสตร์ภูมิอากาศ กฎหมาย ไปจนถึงการแพทย์ ก็เห็นรูปแบบคล้ายกัน

ดีปเลิร์นนิงได้รับความสนใจ แต่การตรวจสอบข้อเท็จจริงเชิงลึกกลับถูกมองข้าม

ความต่างระหว่างบทความทำนายเอนไซม์ด้วย AI กับการตรวจสอบติดตามผล

ทำไมการทำนายหน้าที่ของเอนไซม์จึงยาก

แนวทาง Transformer และผลงานที่ดูดีภายนอก

ข้อผิดพลาดและรูปแบบซ้ำที่ปรากฏ

บทบาทของความรู้โดเมนที่กรณี yciO แสดงให้เห็น

แยก “การกระจายหน้าที่ที่รู้แล้ว” ออกจาก “การค้นพบหน้าที่ที่ไม่ทราบจริง ๆ”

ผลตอบแทนที่ต่ำของงานตรวจสอบข้อมูล

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News