สิ่งที่ผมเรียนรู้หลังถูกกระแสโฆษณาเกินจริงของ AI เพื่อวิทยาศาสตร์หลอก

(understandingai.org)

3 คะแนน โดย GN⁺ 2025-05-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ผู้เขียนซึ่งเคยวิจัยฟิสิกส์พลาสมาที่ Princeton เปลี่ยนทิศทางในปี 2018 เพราะเห็นว่า AI อาจเร่งงานวิจัยฟิสิกส์ได้ แต่ในความเป็นจริง AI สำหรับแก้ PDE เปราะบางกว่าที่คาดไว้มาก
PINN ดูเหมือนเป็นแนวทางที่เรียบง่ายและใช้ได้ทั่วไป แต่แค่ปรับตัวอย่างง่าย ๆ เพียงเล็กน้อยก็ทำให้ได้คำตอบที่ถูกต้องยาก และ แม้ปรับจูนก็ยังสร้างความเสถียร ไม่ได้
เมื่อตรวจสอบงานวิจัย 76 ฉบับเกี่ยวกับ PDE ในพลศาสตร์ของไหล พบว่าในบรรดางานที่อ้างว่าดีกว่าวิธีเชิงตัวเลขมาตรฐาน มี 60 ฉบับ หรือ 79% ใช้ baseline ที่อ่อน และกรณีที่ความเร็วเพิ่มขึ้นมากก็อาศัยการเปรียบเทียบที่ไม่เป็นธรรม
การใช้ AI ในวิทยาศาสตร์เพิ่มจาก 2% ในปี 2015 เป็นเกือบ 8% ในปี 2022 แต่การเพิ่มขึ้นนี้อาจเชื่อมโยงกับ แรงจูงใจด้านการอ้างอิงผลงาน อาชีพ และการดึงทุน มากกว่าวิทยาศาสตร์เอง
AI อาจสร้างผลงานได้ในด้านการพับตัวของโปรตีน การพยากรณ์อากาศ และการค้นพบยาใหม่ แต่ข้อสรุปกว้าง ๆ ว่า AI จะเร่งวิทยาศาสตร์อย่างปฏิวัติวงการนั้นควรมองอย่างระมัดระวัง เพราะมี survivorship bias, data leakage, baseline ที่อ่อน และ cherry-picking

เหตุผลที่เปลี่ยนทิศทางจากฟิสิกส์พลาสมาไปสู่ AI

ในปี 2018 ผู้เขียนซึ่งเป็นนักศึกษาปริญญาเอกปีที่ 2 ด้านฟิสิกส์พลาสมาที่ Princeton เปลี่ยนโฟกัสงานวิจัยไปเป็น machine learning
- ไม่ได้มีโปรเจกต์เฉพาะเจาะจง แต่คิดว่าหากใช้ AI เร่งงานวิจัยฟิสิกส์ได้ ก็อาจสร้างผลกระทบได้มากกว่า
- ผู้เขียนระบุด้วยว่าเงินเดือนที่สูงในสาย AI ก็เป็นแรงจูงใจเช่นกัน
ต่อมาจึงเลือกศึกษา การใช้ AI แก้สมการเชิงอนุพันธ์ย่อย (PDE) ซึ่ง Yann LeCun เรียกว่าเป็น “pretty hot topic”
PDE คือสมการคณิตศาสตร์ที่ใช้จำลองระบบฟิสิกส์ และมีความสำคัญในฟิสิกส์เชิงคำนวณกับการจำลองทางวิศวกรรม
- ห้องแล็บของผู้เขียนใช้ PDE เพื่อจำลองพฤติกรรมของพลาสมาภายในเตาปฏิกรณ์ฟิวชันและพลาสมาในสสารระหว่างดาว
โมเดล AI ที่ใช้แก้ PDE เป็นโมเดล deep learning แบบปรับแต่งเฉพาะงาน ซึ่งใกล้เคียงกับ AlphaFold มากกว่า ChatGPT

ความเปราะบางที่ปรากฏในการทดลอง PINN

วิธีแรกที่ลองคือ physics-informed neural network(PINN)
- PINN ไม่ได้แทนคำตอบของ PDE เป็นกริดพิกเซล แต่แทนคำตอบด้วย neural network และใส่สมการไว้ใน loss function
- งานวิจัย PINN รุ่นแรกอ้างว่าได้ผลกับปัญหาคลาสสิก เช่น ของไหล กลศาสตร์ควอนตัม ระบบปฏิกิริยา-การแพร่ และคลื่นน้ำตื้นไม่เชิงเส้น และถูกอ้างอิงไปแล้วหลายร้อยครั้ง
แม้ดูเหมือนเป็นวิธีทั่วไปที่เรียบง่ายและสวยงาม แต่การทดลองจริงกลับไม่เป็นไปตามคาด
- เมื่อนำหนึ่งในตัวอย่างจากบทความแรกที่มีอิทธิพลสูงอย่าง 1D Burgers’ ไปเปลี่ยนเป็น PDE ง่ายอีกแบบคือ 1D Vlasov ก็ไม่ได้คำตอบที่ดูถูกต้อง
- หลังปรับจูนอย่างมากจึงได้ผลลัพธ์ที่พอดูได้ แต่กับ PDE ที่ซับซ้อนขึ้นเล็กน้อย เช่น 1D Vlasov-Poisson ก็ยังไม่ได้คำตอบที่ดี
- เพื่อนจากมหาวิทยาลัยอื่นก็เล่าว่าใช้ PINN แล้วไม่ได้ผลลัพธ์ที่ดีเช่นกัน
ดูเหมือนว่าผู้เขียนบทความ PINN ต้นฉบับเองก็สังเกตเห็นว่า setting บางแบบให้ผลลัพธ์น่าประทับใจกับสมการหนึ่ง แต่ล้มเหลวกับอีกสมการหนึ่งได้
- อย่างไรก็ตาม ในบทความไม่ได้มีกรณีที่ PINN ล้มเหลว
- ผู้เขียนเองก็ไม่ได้ส่งผลการทดลองที่ล้มเหลวเป็นบทความ แต่เผยแพร่เพียงโปสเตอร์ในงานประชุมที่ไม่ค่อยเป็นที่รู้จัก

บทเรียนจาก PINN และการประเมินในปัจจุบัน

บทเรียนแรกคือ ไม่ควรรับผลวิจัย AI ตามที่เห็นตรงหน้าโดยไม่ตั้งคำถาม
- นักวิทยาศาสตร์ส่วนใหญ่ไม่ได้ตั้งใจหลอกใคร แต่แรงจูงใจให้นำเสนอผลลัพธ์ที่เป็นบวกนั้นแรงมาก จนอาจทำให้ผู้อ่านเข้าใจผิดได้
- ผู้เขียนสรุปว่ายิ่งเป็นบทความอิทธิพลสูงที่มีผลลัพธ์น่าประทับใจ ก็ยิ่งควรมองอย่างสงสัยมากขึ้น
บทเรียนที่สองคือ กรณีที่วิธี AI ล้มเหลวแทบไม่ถูกตีพิมพ์
- ต้องใช้เวลา 2 ปีจึงมีบทความที่พูดถึง failure modes ของ PINN และปัจจุบันบทความนั้นถูกอ้างอิงมากกว่า 1,000 ครั้ง
- สิ่งนี้ชี้ว่ามีนักวิจัยจำนวนมากที่อาจเจอปัญหาคล้ายกันกับ PINN
ข้อสรุปที่สามคือ PINN ไม่ใช่แนวทางที่ผู้เขียนอยากใช้
- ผู้เขียนประเมินว่า PINN เรียบง่ายและสวยงาม แต่ ไม่เสถียร เกินไป จุกจิก และช้า
บทความ PINN ต้นฉบับในปัจจุบัน หลังผ่านไป 6 ปี มี การอ้างอิง 14,000 ครั้ง
- ตามเกณฑ์ของผู้เขียน นี่เป็นบทความด้าน numerical analysis ในศตวรรษที่ 21 ที่ถูกอ้างอิงมากที่สุด และน่าจะเหลืออีก 1-2 ปีก่อนจะกลายเป็นบทความ numerical analysis ที่ถูกอ้างอิงมากเป็นอันดับสองตลอดกาล
ในปัญหาการแก้ PDE โดยตรง เป็นที่ยอมรับกันอย่างกว้างขวางว่าโดยทั่วไป PINN แข่งขันกับวิธี numerical analysis มาตรฐานไม่ได้ แต่ประสิทธิภาพใน inverse problems ยังเป็นที่ถกเถียง
- ผู้สนับสนุนอ้างว่า PINN ได้ผลเป็นพิเศษกับ inverse problems
- นักวิจัยบางคนโต้แย้งแนวคิดนี้อย่างหนัก
- ผู้เขียนไม่รู้ว่าฝ่ายใดถูก และมองว่าในอนาคต PINN อาจถูกประเมินว่าเป็นฟองสบู่การอ้างอิงขนาดใหญ่ก็ได้

ความมองโลกในแง่ดีเกินไปที่เกิดจาก baseline ที่อ่อน

ในวิทยานิพนธ์ปริญญาเอก ผู้เขียนมุ่งไปที่โมเดล deep learning ที่จัดการคำตอบ PDE เป็นชุดพิกเซลบนกริดหรือกราฟ คล้ายกับ solver แบบดั้งเดิม
- แนวทางนี้ดูมีความเป็นไปได้มากกว่า PINN สำหรับ PDE ที่ขึ้นกับเวลาและซับซ้อน ซึ่งห้องแล็บให้ความสนใจ
- งานวิจัยหลายฉบับอ้างว่าสามารถแก้ PDE ได้เร็วกว่าวิธี numerical analysis มาตรฐานหลายลำดับขนาด
โดยเฉพาะกรณี PDE ด้านพลศาสตร์ของไหล เช่น สมการ Navier-Stokes ทำให้ผู้เขียนและอาจารย์ที่ปรึกษามีกำลังใจ
- สมการที่อธิบายพลาสมาในเตาปฏิกรณ์ฟิวชันก็มีโครงสร้างทางคณิตศาสตร์คล้ายกัน จึงคาดหวังว่าจะได้ความเร็วที่เพิ่มขึ้นคล้ายกัน
- ในทางทฤษฎี นี่อาจช่วยจำลองระบบที่ใหญ่ขึ้น ปรับแต่งแบบออกแบบได้เร็วขึ้น และเร่งงานวิจัย
แต่ความน่าเชื่อถือและความทนทานของโมเดล AI อาจเป็นปัญหาร้ายแรง
- หากการจำลองที่เร็วขึ้นเชื่อถือได้น้อยลง ก็ต้องตรวจสอบว่าการแลกเปลี่ยนนั้นคุ้มค่าหรือไม่
- ความพยายามส่วนใหญ่ในการทำให้โมเดลน่าเชื่อถือขึ้นล้มเหลว และทำให้ผู้เขียนเริ่มสงสัยต่อศักยภาพที่ AI แสดงให้เห็นในการเร่ง PDE
บทความโปรไฟล์สูงกล่าวว่า AI แก้สมการ Navier-Stokes ได้เร็วกว่าวิธี numerical analysis มาตรฐานหลายลำดับขนาด แต่ baseline ที่ใช้ไม่ใช่วิธี numerical analysis ที่เร็วที่สุด
- เมื่อเปรียบเทียบกับวิธี numerical analysis ที่พัฒนากว่า AI ก็ไม่ได้เร็วกว่า หรือเร็วกว่าเพียงเล็กน้อยมากที่สุด

ผลการตรวจสอบ 76 ฉบับ: 79% ใช้ baseline ที่อ่อน

ผู้เขียนและอาจารย์ที่ปรึกษาตรวจสอบงานวิจัยที่ใช้ AI เพื่อแก้ PDE ด้านพลศาสตร์ของไหลอย่างเป็นระบบ และตีพิมพ์เป็น บทความ
ในบรรดาบทความ 76 ฉบับที่อ้างว่าดีกว่าวิธี numerical analysis มาตรฐาน มี 60 ฉบับ หรือ 79% ใช้ baseline ที่อ่อน
- ไม่ได้เปรียบเทียบกับวิธี numerical analysis ที่พัฒนากว่า หรือ
- ไม่ได้เปรียบเทียบภายใต้เงื่อนไขเดียวกัน
สัดส่วน baseline ที่อ่อน: {p:79}
บทความที่แสดงความเร็วเพิ่มขึ้นอย่างมากทั้งหมดเปรียบเทียบกับ baseline ที่อ่อน
- ยิ่งผลลัพธ์น่าประทับใจ ก็ยิ่งดูมีแนวโน้มว่าจะเปรียบเทียบอย่างไม่เป็นธรรม
ผลการตรวจสอบยังยืนยัน reporting bias อีกครั้ง
- นักวิจัยมีแนวโน้มไม่ค่อยรายงานผลลัพธ์เชิงลบ
- baseline ที่อ่อนทำให้ได้ผลลัพธ์เชิงบวกเกินจริง และ reporting bias ทำให้ผลลัพธ์เชิงลบถูกรายงานน้อยกว่าความเป็นจริง
บทความนี้จุดชนวนการถกเถียงเกี่ยวกับ AI ใน computational science และ engineering
- Lorena Barba มองว่าผลลัพธ์นี้เป็นหลักฐานสนับสนุนความกังวลต่อกระแส AI ที่เกินจริงและความมองโลกในแง่ดีที่ไม่เป็นวิทยาศาสตร์
- Stephan Hoyer จาก Google Research ประเมินว่าเป็นบทความที่สรุปได้ดีว่าเหตุใดเขาจึงย้ายจาก AI for PDEs ไปสู่การพยากรณ์อากาศและการสร้างแบบจำลองสภาพภูมิอากาศ
- Johannes Brandstetter โต้แย้งว่า AI อาจให้ผลลัพธ์ที่ดีกว่าในแอปพลิเคชันอุตสาหกรรมที่ซับซ้อนกว่า และอนาคตของสาขานี้ยังมีแนวโน้มสดใส

วิธีตรวจสอบที่จำเป็นในสาขา PDE

วันหนึ่ง AI อาจมีประโยชน์ในแอปพลิเคชันเฉพาะบางอย่างที่เกี่ยวข้องกับการแก้ PDE
แต่ในตอนนี้ยังไม่มีเหตุผลมากนักให้มองโลกในแง่ดี
- วิธี AI ไม่มี หลักประกันเชิงทฤษฎี แบบที่วิธี numerical analysis มาตรฐานมี
- และยังขาดความทนทานที่ผ่านการตรวจสอบเชิงประจักษ์
ทิศทางที่ต้องทุ่มเทมากขึ้นมีสองด้าน
- งานวิจัยที่พยายามให้ได้ ความน่าเชื่อถือ ในระดับเดียวกับวิธี numerical analysis
- red teaming ที่ตรวจสอบวิธี AI อย่างเข้มข้น
หน่วยงานให้ทุนวิจัยควรสร้างแรงจูงใจให้นักวิทยาศาสตร์จัดทำ challenge problems สำหรับ PDE
- การแข่งขันทุกสองปี CASP ซึ่งช่วยจัดจังหวะและรวมศูนย์งานวิจัยด้านการพับตัวของโปรตีนมาตลอด 30 ปี ถูกเสนอเป็นโมเดลที่เป็นไปได้

กรณีจริงที่ AI เร่งวิทยาศาสตร์ได้ และข้อจำกัด

การพับตัวของโปรตีนเป็นกรณีตัวอย่างสำคัญของนวัตกรรมวิทยาศาสตร์ที่ขับเคลื่อนด้วย AI
- ถูกกล่าวถึงในฐานะกรณีที่เชื่อมโยงกับข่าวประชาสัมพันธ์รางวัลโนเบลสาขาเคมีปี 2024
ยังมีตัวอย่างความสำเร็จอื่น ๆ ด้วย
- การพยากรณ์อากาศ: การพยากรณ์ด้วย AI มีความแม่นยำสูงกว่าการพยากรณ์แบบดั้งเดิมที่อิงฟิสิกส์ได้สูงสุด 20% แต่ความละเอียดเชิงพื้นที่ยังต่ำอยู่
- การค้นพบยาใหม่: ข้อมูลเบื้องต้นแสดงว่ายาที่ค้นพบโดย AI ประสบความสำเร็จมากกว่าใน clinical phase 1 แต่ไม่เป็นเช่นนั้นใน clinical phase 2
- หากแนวโน้มนี้ดำรงอยู่ต่อไป อัตราความสำเร็จรวมจนถึงการอนุมัติยาใหม่อาจเพิ่มขึ้นเกือบสองเท่า
บริษัท AI แวดวงวิชาการ หน่วยงานรัฐ และสื่อ นำเสนอ AI มากขึ้นเรื่อย ๆ ไม่ใช่แค่ในฐานะเครื่องมือวิทยาศาสตร์ที่มีประโยชน์ แต่เป็นเทคโนโลยีที่จะสร้าง “transformational impact” ต่อวิทยาศาสตร์
LLM ในปัจจุบัน ตามคำของ DeepMind ยังคงมีปัญหากับความคิดสร้างสรรค์และการให้เหตุผลที่ลึกกว่าซึ่งนักวิทยาศาสตร์มนุษย์พึ่งพา
หากระบบ AI ขั้นสูงในจินตนาการวันหนึ่งสามารถทำให้กระบวนการวิทยาศาสตร์เป็นอัตโนมัติทั้งหมดได้ ก็จะเปลี่ยนแปลงและเร่งวิทยาศาสตร์ แต่ผู้เขียนไม่คาดว่าสิ่งนั้นจะเกิดขึ้นเร็ว ๆ นี้ หรือเกิดขึ้นจริง

เหตุผลที่นักวิทยาศาสตร์นำ AI มาใช้

การที่การใช้ AI ในวิทยาศาสตร์เพิ่มขึ้นเพียงอย่างเดียว ไม่เพียงพอจะสรุปว่า AI มีประโยชน์ต่อวิทยาศาสตร์
เหตุผลที่นักวิทยาศาสตร์ย้ายไปหา AI อาจเป็นเพราะเป็นประโยชน์ต่อ ตัวนักวิทยาศาสตร์เอง มากกว่าวิทยาศาสตร์
- ผู้เขียนเองในปี 2018 ก็เชื่ออย่างจริงใจว่า AI อาจมีประโยชน์ต่อฟิสิกส์พลาสมา แต่เงินเดือนสูง โอกาสงานที่ดี และชื่อเสียงทางวิชาการก็เป็นแรงจูงใจสำคัญ
- ผู้บริหารระดับสูงของสถาบันวิจัยมักสนใจ ศักยภาพในการดึงทุน ของ AI มากกว่าประเด็นทางเทคนิค
งานวิจัยต่อมาระบุว่านักวิทยาศาสตร์ที่ใช้ AI มีแนวโน้มสูงกว่าที่จะตีพิมพ์บทความที่ถูกอ้างอิงสูง และโดยเฉลี่ยได้รับ การอ้างอิงมากกว่า 3 เท่า
แม้ AI จะสร้างผลลัพธ์น่าประทับใจในวิทยาศาสตร์ ก็ไม่ได้แปลว่ามันได้ทำสิ่งที่เป็นประโยชน์ต่อวิทยาศาสตร์เสมอไป
- หลายกรณีอาจเป็นเพียงการแสดง ศักยภาพ ที่ AI อาจมีประโยชน์ในภายหลัง
นักวิทยาศาสตร์ที่วิจัย AI มักทำงานย้อนกลับ คือสมมติว่า AI คือคำตอบ แล้วค่อยหาปัญหามาให้แก้ แทนที่จะเริ่มจากการหาปัญหาและหาวิธีแก้
- วิธีแบบ “hammer in search of a nail” นี้อาจนำไปสู่ปัญหาที่ถูกแก้ไปแล้ว หรือปัญหาที่ไม่ได้สร้างความรู้ทางวิทยาศาสตร์ใหม่

Survivorship bias และวิกฤตการทำซ้ำผล

หากต้องการประเมินความสำเร็จของ AI-for-science ควรดูที่วิทยาศาสตร์จริง แต่การอาศัยวรรณกรรมวิทยาศาสตร์อย่างเดียวไม่น่าเชื่อถือพอ
ปัญหาแรกคือ survivorship bias
- มีการประเมินว่าในงานวิจัย AI แทบไม่มีการตีพิมพ์ผลลัพธ์เชิงลบ
- เมื่อกรณีล้มเหลวหายไป ความพยายามประเมินผลกระทบของ AI ต่อวิทยาศาสตร์ก็จะบิดเบือน
สิ่งนี้คล้ายกับปัญหาที่รู้จักกันจาก replication crisis
- หากผลลัพธ์ที่ไม่มีนัยสำคัญทางสถิติถูกกรองออกจากวรรณกรรม ก็จะทำให้ประเมินผลลัพธ์ เช่น ผลการรักษา สูงเกินจริง
- ความไม่ต่อเนื่องอย่างฉับพลันรอบค่า -1.96 และ 1.96 ในการกระจายค่า z ของงานวิจัยทางการแพทย์ บ่งชี้ว่าผลลัพธ์ที่ต่ำกว่าเกณฑ์นัยสำคัญอาจไม่ได้ถูกตีพิมพ์ หรือข้อมูลอาจถูกปรับแต่ง
ใน AI-for-science เกณฑ์การคัดเลือกไม่ได้เป็นนัยสำคัญทางสถิติ แต่ใกล้เคียงกับว่าชุดวิธีที่เสนอเอาชนะแนวทางอื่นได้หรือทำงานใหม่สำเร็จหรือไม่
- ดังนั้นกรณี AI ที่สำเร็จจึงถูกรายงานบ่อย ส่วนผลลัพธ์ที่ไม่สำเร็จแทบไม่ถูกตีพิมพ์
Arvind Narayanan และ Sayash Kapoor จาก Princeton รวบรวมรายการข้อผิดพลาดเชิงระเบียบวิธีที่เรียกว่า data leakage จากบทความ 648 ฉบับใน 30 สาขา
- data leakage ทำให้ผลลัพธ์ในแต่ละกรณีมองโลกในแง่ดีเกินจริง
- พวกเขามองว่าวิทยาศาสตร์ที่ใช้ AI กำลังเผชิญวิกฤตการทำซ้ำผล

กับดักสี่อย่างที่ทำให้มองโลกในแง่ดีเกินไป

แม้แต่กรณีความสำเร็จที่ตีพิมพ์แล้ว ก็อาจนำไปสู่ข้อสรุปที่ประเมินศักยภาพทางวิทยาศาสตร์ของ AI สูงเกินจริง
รายละเอียดและความรุนแรงแตกต่างกันไปในแต่ละสาขา แต่กับดักหลักแบ่งได้เป็นสี่ประเภท
- Data leakage
  - หากข้อมูลฝึกและข้อมูลประเมินปะปนกันผิดพลาด ประสิทธิภาพของโมเดลจะดูสูงกว่าความเป็นจริง
- Baseline ที่อ่อน
  - หากให้ AI แข่งขันกับคู่เทียบที่อ่อน แทนที่จะเป็นวิธี numerical analysis ล่าสุด ความแตกต่างด้านประสิทธิภาพจะถูกขยายเกินจริง
- Cherry-picking
  - หากเลือกแสดงเฉพาะ setting ที่สำเร็จ failure modes และขอบเขตการใช้งานจะหายไปจากวรรณกรรม
- การรายงานผิด
  - ปัญหาหลักยังคงเป็น ผลประโยชน์ทับซ้อน ของผู้ที่ประเมินโมเดล AI และได้ประโยชน์จากการประเมินนั้นด้วย
  - DeepMind อ้างในปี 2023 ว่าค้นพบ โครงสร้างผลึก 2.2 ล้านรายการ และขยายจำนวนวัสดุเสถียรที่มนุษย์รู้จักขึ้นอีกหนึ่งลำดับขนาด
  - ต่อมานักวัสดุศาสตร์วิเคราะห์สารประกอบเหล่านั้นและประเมินว่า “mostly junk” พร้อมเสนออย่างสุภาพว่าบทความนั้นไม่ได้รายงานวัสดุใหม่
  - บทความของ Aidan Toner-Rodgers นักศึกษาบัณฑิต MIT เรื่องการค้นพบวัสดุใหม่ด้วย AI เคยอยู่ในฉบับร่างในฐานะตัวอย่างความสำเร็จ แต่ถูกถอดออกหลัง MIT ประกาศว่ากำลังผลักดันการถอนบทความเพราะข้อกังวลด้านความซื่อสัตย์ของงานวิจัย
  - ข้อกล่าวหาเรื่องการฉ้อโกงอย่างชัดเจนต่างจากปัญหาเชิงระเบียบวิธีที่ละเอียดอ่อนซึ่งกล่าวถึงในบทความนี้ แต่การที่บทความนั้นได้รับความสนใจมากจากสื่อ แสดงให้เห็นแรงจูงใจหลากหลายในการกล่าวเกินจริงถึงประสิทธิผลของเทคนิค AI

สรุป: ใกล้เคียงเครื่องมือค่อยเป็นค่อยไปที่ให้ผลไม่สม่ำเสมอ มากกว่าการปฏิวัติ

การใช้ AI ในงานวิจัยวิทยาศาสตร์เพิ่มขึ้นอย่างรวดเร็ว
- สัดส่วนการใช้ AI ในสิ่งพิมพ์วิทยาศาสตร์ทั้งหมดเพิ่มจาก 2% ในปี 2015 เป็น เกือบ 8% ในปี 2022
- อัตราการใช้ AI: {l:2,8}
- ไม่ใช่แค่คอมพิวเตอร์ไซแอนซ์ แต่การนำไปใช้เพิ่มขึ้นอย่างรวดเร็วในฟิสิกส์ เคมี ชีววิทยา แพทยศาสตร์ และสังคมศาสตร์ด้วย
ยอมรับได้ว่า AI อาจสร้าง breakthrough ทางวิทยาศาสตร์ได้
- ความกังวลอยู่ที่ ขนาดและความถี่ ของ breakthrough เหล่านั้น
- ยังไม่ชัดเจนว่า AI แสดงศักยภาพจริงมากพอหรือไม่ จนควรให้ผู้คน การศึกษา เวลา และเงินทุนจำนวนมากย้ายเข้าสู่ paradigm เดียวนี้
เนื่องจากแต่ละสาขาวิทยาศาสตร์มีประสบการณ์กับ AI ต่างกัน จึงต้องระวังการเหมารวม
อย่างไรก็ตาม บทเรียนสามข้อจากประสบการณ์ของผู้เขียนอาจใช้ได้กับหลายสาขา
- การนำ AI มาใช้เพิ่มขึ้นส่วนหนึ่งเกิดจากมันเป็นประโยชน์ต่อนักวิทยาศาสตร์มากกว่าวิทยาศาสตร์
- ผลลัพธ์เชิงลบแทบไม่ถูกตีพิมพ์ ทำให้ AI-for-science เผชิญ survivorship bias
- ผลลัพธ์เชิงบวกที่ตีพิมพ์แล้วมีแนวโน้มมองศักยภาพของ AI ในแง่ดีเกินไป
ยังไม่รู้ว่า AI จะช่วยพลิกกลับภาวะผลผลิตทางวิทยาศาสตร์ลดลงและความก้าวหน้าทางวิทยาศาสตร์ชะงักงันได้หรือไม่
- หากไม่มี breakthrough สำคัญของ AI ขั้นสูง AI ก็น่าจะเป็นเครื่องมือธรรมดาสำหรับ ความก้าวหน้าทางวิทยาศาสตร์แบบค่อยเป็นค่อยไปและไม่สม่ำเสมอ มากกว่าเครื่องมือปฏิวัติวงการ

1 ความคิดเห็น

GN⁺ 2025-05-21

ความคิดเห็นบน Hacker News

เป็นบทความที่น่าสนใจ เทคนิคที่เพิ่งเกิดใหม่มีความเสี่ยงเสมอที่จะได้รับ ความสนใจมากเกินไป เมื่อเทียบกับคุณค่าจริง
ประโยคสำคัญในบทความคือ “นักวิทยาศาสตร์ส่วนใหญ่ไม่ได้ตั้งใจจะหลอกใคร แต่เพราะมีแรงจูงใจอย่างแรงกล้าที่จะนำเสนอผลลัพธ์ที่เป็นประโยชน์ต่อฝ่ายตน ผู้อ่านจึงยังมีความเสี่ยงที่จะถูกหลอกอยู่” การเข้าใจว่าผู้คนพูดอยู่ภายใต้ โครงสร้างแรงจูงใจ แบบใด มักช่วยได้มากในการตีความคำพูดของพวกเขา
- มีคนที่ตระหนักว่าแค่ติดคำว่า AI ก็ทำเงินได้มากและขอทุนวิจัยได้ แต่สุดท้ายแล้วซอฟต์แวร์ไหน ๆ ก็น่าจะมี แมชชีนเลิร์นนิง อยู่บ้างไม่มากก็น้อย ไม่ได้มีอะไรใหม่ และการใช้งานในปัจจุบันก็ไม่ได้ยอดเยี่ยมหรือแม่นยำเป็นพิเศษ
เรื่องนี้โดยรวมดูเหมือนเป็นการวนซ้ำปัญหาเดิม ๆ ของแวดวงวิชาการ มันไม่ใช่การแสวงหาความจริงอีกต่อไป แต่ไปมุ่งที่ จำนวนการอ้างอิง และการสร้างอาชีพ ส่วน AI ก็เป็นแค่อีกหัวข้อหนึ่งที่เรื่องแบบนี้เกิดขึ้น
- ไม่อยากเหมารวม แต่จากการทำงานไปมาระหว่าง ศูนย์ HPC หลายแห่งในเยอรมนี เห็นรูปแบบว่ามีคนจำนวนมากที่ถูกดันออกมาจากฟิสิกส์มารวมตัวกัน และเงินทุนวิจัย AI จำนวนไม่น้อยที่ถูกจัดสรรมาก็ถูกคนกลุ่มนี้ดูดซับไป ผลลัพธ์คือมีโครงการ ML4Science เกิดขึ้นมากมาย
  โดยส่วนตัวรู้สึกเสียดาย ศูนย์ HPC ไม่ได้มีอยู่เพื่อให้นักฟิสิกส์ใช้เท่านั้น และโดยเฉพาะในเยอรมนี ถ้ามีทุนวิจัยด้าน AI ก็ควรทำ งานวิจัยแกนหลักของ AI ให้มากกว่านี้
- ถ้าพูดอย่างเป็นธรรม ปัญหาเรื่องการสร้างอาชีพน่าจะเป็นผลข้างเคียงที่แวดวงวิชาการสืบทอดมาพร้อมกับการหลงใหลภาคเอกชนมากขึ้น
  สิ่งหนึ่งที่ได้เรียนรู้จากการทำงานเป็นนักพัฒนาซอฟต์แวร์คือ ทุกการตัดสินใจถูกทำจากมุมมองแบบเน้นความก้าวหน้าในอาชีพและเห็นแก่ตัว สิ่งที่สำคัญกลายเป็นว่าอะไรดูน่าประทับใจที่สุดและช่วยให้ตัวบุคคลก้าวนำหน้า มากกว่าอะไรคือสิ่งที่ดีที่สุด พองานจบ มันก็ไม่ใช่ปัญหาของคนนั้นอีกต่อไป และเอาเข้าจริงก็ยากจะโทษพวกเขาได้ แนวคิดแบบนี้แพร่หลายมากจนถ้าไม่เข้าร่วมด้วยก็จะกลายเป็นคนซื่อที่เสียเปรียบ คนอื่น ๆ จะทำแบบนั้น และสุดท้ายก็แซงหน้าคุณไป ผลลัพธ์อาจเหมือนเดิม แต่คุณจะเสียเปรียบมากกว่า
- ไม่แน่ใจว่าเรื่องนี้ควรถูกตีความในความหมายไหนว่า “ไม่ใช่การแสวงหาความจริงอีกต่อไป” ตรงกันข้าม มันไม่ใช่กรณีที่ชัดเจนมากของการ ค้นหาและค้นพบความจริง หรอกหรือ
- ไม่เข้าใจจริง ๆ ว่าทำไมต้องมีคำว่า “อีกต่อไป” ตรงนี้
โชคดีที่มีโอกาสได้ทดลอง ตัววิเคราะห์โครงสร้างคล้าย FEM ที่ใช้ AI อยู่บ้าง
แม้ในกรณีที่ดีที่สุด สำหรับปัญหาเชิงเส้นและการเสียรูปเล็กน้อย ก็แค่พอใช้ได้เท่านั้น ระดับประมาณว่าโมเดลให้ผลลัพธ์แบบค่อนข้างหยาบใน 30 วินาที แทนที่จะได้ผลลัพธ์ใกล้คำตอบแม่นยำในราว 5 นาที พอเริ่มใส่องค์ประกอบไม่เชิงเส้นเข้าไป ก็พังไปเลย
อาจจะพอสำหรับการเลือกแนวคิดในระดับสูงมาก ๆ แต่แม้แบบนั้นก็ยังไม่ค่อยดี ผมค่อนข้างมั่นใจว่าบางตัวแทบเป็นแค่ ตัวตรวจจับความโค้ง เท่านั้น คือทำให้เส้นตรงเป็นสีน้ำเงิน จุดที่มีความโค้งมากเป็นสีแดง แล้วส่วนที่เหลือก็อินเตอร์โพเลตเอา
- จะใช้โมเดลแบบนี้เป็น ตัวประมวลผลล่วงหน้า สำหรับวิธีทำซ้ำได้ไหม
- ถ้าอย่างนั้นมันก็ดูใกล้กับตัววิเคราะห์แบบ “หลักการที่สอง” มากกว่า เป็นโครงสร้างที่ไม่สามารถสังเคราะห์สิ่งที่ไม่เคยเห็นมาก่อนได้
ไม่ได้เป็นผู้สนับสนุน AI เลย แต่ปัญหาที่ ผลลัพธ์เชิงลบ ไม่ถูกตีพิมพ์ และทุกคนพูดเกินจริงเกี่ยวกับผลลัพธ์ของตัวเองในบทความวิจัยนั้น น่าเสียดายที่ไม่ได้จำกัดอยู่แค่ AI มันเป็นผลจากวิธีที่นักวิทยาศาสตร์ถูกประเมิน และจากอุตสาหกรรมสิ่งพิมพ์ทางวิทยาศาสตร์ที่โหยหาผู้ชมเหมือนสื่อดั้งเดิม
อย่างไรก็ดี ฤดูหนาวกำลังจะมาไม่ใช่หรือ
- ใช่ ไม่ใช่ปัญหาเฉพาะ AI แต่ในงานวิจัย AI มักเห็นข้อความที่ความหมายจริง ๆ คือ “ถ้าใส่ GPU หนึ่งล้านล้านตัวแล้วรันไปตลอดกาล ก็จะได้ {เบนช์มาร์กมหัศจรรย์}” หรือไม่ก็ “ถ้าประเมินกับชุดข้อมูลชีวิตจริงลับสุดยอดของเรา ซึ่งเราอ้างว่าจะให้เมื่อร้องขอแต่พอขอจริงจะเมิน คุณจะเห็นกราฟที่แสดงให้เห็นว่าเราฉลาดแค่ไหน”
  แน่นอนว่าหลายครั้งเป็นบทความเพื่อชิงพื้นที่ก่อน แต่ถ้าบทความแบบนี้ออกมาจากบริษัทใหญ่ ต่อให้มีข้อบกพร่องชัดเจนก็ไม่อาจแค่เมินแล้วผ่านไปได้
  สุดท้ายคือ การแข่งขันด้านทรัพยากร ในฐานะอดีตนักวิจัยจากมหาวิทยาลัยงบน้อย เราแข่งขันไม่ได้ เหมือนถูกบังคับให้เชื่อตัวเลขที่ถูกส่งต่อในวรรณกรรมว่าเป็น “เบนช์มาร์ก” โดยไม่มีความสามารถในการทำซ้ำ
- หลังจากตีพิมพ์บทความชุดแรกเกี่ยวกับการประยุกต์ใช้ AI เชิงปฏิบัติเมื่อสิบห้าปีกว่านิด ๆ แล้วก็ย้ายไปสาขาอื่น ก่อนจะถูกดึงกลับมาอีกครั้งเมื่อไม่นานนี้
  เห็นด้วยว่านี่เป็นปัญหาของวิทยาศาสตร์โดยรวม แต่ AI ดูเหมือนจะดึงดูดนักวิจัยที่ไล่ตามชื่อเสียงและเงินได้มากเป็นพิเศษ จากประสบการณ์ที่จำกัดของผม ข้อกล่าวอ้างที่เกินจริง และการเลือกข้อมูลเฉพาะส่วนที่เข้าทางดูสุดโต่งกว่า และแม้แต่นักวิจัยที่มีความรับผิดชอบก็ยังค่อย ๆ พูดเกินจริงเพื่อให้แข่งขันได้
- AI เป็น แม่เหล็กของกระแสร้อนแรงเกินจริง ในตอนนี้ รอยร้าวจึงมองเห็นได้ชัดขึ้นเท่านั้น
- แต่ AI ทำให้การเขียนบทความที่ดูน่าเชื่อถือทำได้ง่ายขึ้น
ไม่ค่อยเข้าใจว่าทำไมผู้คนในที่อย่าง HN ถึงมีมุมมองต่อ AI/ML แตกต่างกันขนาดนี้
เรื่องแบบนี้ไม่เคยเห็นมาก่อนเลย ก่อนหน้านี้แทบไม่มีระบบหรือวิธีการที่ทำสิ่งอย่างการสร้างโค้ดจากการป้อนข้อความได้จริง ๆ
แม้แต่สัปดาห์ที่แล้ว พอขอสคริปต์แบ่งส่วนภาพที่มี UI พื้นฐาน Claude ก็ทำให้ได้ในไม่ถึง 1 นาที
ตัวอย่างที่จะเรียกว่าเป็นนวัตกรรมมีมากมายมหาศาล สแตก การสร้างภาพ ทั้งหมดเป็นสิ่งใหม่โดยสิ้นเชิง
บทความบล็อกนี้ยุติธรรมพอแล้ว และก็จริงที่หัวข้อนี้มีความร้อนแรงเกินจริงอยู่บ้าง แต่ถ้ามองเฉพาะนักวิจัยทุกคนที่ต้องเขียนโค้ดเพื่อการวิจัย AI ก็ทำให้มีประสิทธิภาพขึ้นได้มากแล้ว
ยิ่งไปกว่านั้น ผมมองว่าเราเข้าสู่ยุคใหม่แล้ว เป็นยุคที่กลับมาให้ความสำคัญกับข้อมูลอย่างจริงจังมาก ๆ เมื่อไม่กี่ปีก่อนเคยพูดกันว่า “อินเทอร์เน็ตไม่ลืม” แต่ไม่นานก็ได้ตระหนักว่าอินเทอร์เน็ตเองก็เริ่มลืมเหมือนกัน Google ลบหน้าเว็บและยกเลิกฟีเจอร์แคช และให้ความรู้สึกว่าไม่ใส่ใจอีกต่อไปเพราะไม่รู้ว่าจะใช้ข้อมูลอย่างไร
แล้ว AI ก็ปรากฏขึ้น ข้อมูลไม่เพียงกลับมาเป็นราชาอีกครั้ง แต่ตอนนี้เรายังอยู่ท่ามกลาง ยุคแห่งการเสริมแรง ด้วย เมื่อให้ฟีดแบ็ก ระบบก็จะนำฟีดแบ็กนั้นไปสะท้อนในการเรียนรู้
หัวข้อ AI/ML ถูกพูดถึงในทุกมิติ ทั้งฮาร์ดแวร์ อัลกอริทึม กรณีการใช้งาน ข้อมูล เครื่องมือ โปรโตคอล ฯลฯ เรากำลังผสานมัน สร้างเพื่อมัน และสร้างบนมัน เพียงแต่ต้องใช้เวลาสักหน่อย ถึงอย่างนั้นความเร็วของความคืบหน้าก็ยังบ้าคลั่งจนน่าหายใจไม่ทัน
จะมีเพดานจริง ๆ หรือไม่ คงต้องรออีกไม่กี่ปีจึงจะรู้ได้ หากจะทดลองสถาปัตยกรรมและอัลกอริทึม AI ให้มากกว่านี้มาก ๆ ก็ต้องมี GPU และศูนย์ข้อมูลที่ใหญ่ขึ้นอีก คอขวดนั้นชัดเจน แม้แต่บริษัทใหญ่ ๆ ก็ยังฝึกโมเดลขนาดใหญ่หนึ่งตัวเป็นเวลาหลายสัปดาห์หรือหลายเดือน
- ส่วนที่ว่า “แม้แต่สัปดาห์ที่แล้ว พอขอสคริปต์แบ่งส่วนภาพที่มี UI พื้นฐาน Claude ก็ทำให้ได้ในไม่ถึง 1 นาที” ในมุมของเรา มันใกล้เคียงกับการคัดลอกและวางจาก Stack Overflow ในแบบที่เท่มากกว่า เลยฟังดูเหมือน “ถาม Google หาร้านอาหารใกล้ ๆ แล้วเจอใน 500ms เครื่อง C64 ของผมทำไม่ได้”
  มันน่าประทับใจและมีประโยชน์จริง ๆ อันนี้ใช่ แต่ฟังเหมือน “มันเรียนรู้วิธีสำรวจโลกจริง จึงแก้ปัญหาที่เกี่ยวข้องทั้งหมดได้แล้ว” ทั้งที่สิ่งที่แก้ได้จริงคือ “ค้นหาอย่างสวยงามในฐานข้อมูล GIS” เมื่อความแปลกใหม่จางลง เราก็เริ่มเห็นภาพจริงแทนสิ่งที่เคยจินตนาการไว้
  พูดให้ชัดขึ้น สิ่งที่คุณนึกถึงเมื่อพูดว่า “Claude สร้างขึ้นมา” คือ AI “คิด” สร้าง ontology แล้วให้เหตุผลบนสิ่งนั้นจนสรุปได้ว่าสคริปต์นี้คือผลลัพธ์ที่ถูกต้อง แต่สิ่งที่เกิดขึ้นจริงคืออินพุตมีความสัมพันธ์กับเอาต์พุตนี้ตามแพตเทิร์นที่เคยเห็นจากตัวอย่างนับล้านล้าน ไม่มีทั้ง ontology และไม่มีทั้ง การให้เหตุผล แน่นอนว่ายังคงน่าประทับใจและมีประโยชน์มาก แต่เมื่อเวลาผ่านไป ความมหัศจรรย์ก็จะจางลง ข้อจำกัดนั้นชัดเจนอยู่แล้ว
- ที่ว่า “ไม่เข้าใจว่าทำไมผู้คนในที่อย่าง HN ถึงมีมุมมองต่อ AI/ML แตกต่างกันขนาดนี้” นั่นเป็นเพราะเมื่อมองจากมุมของแต่ละคน ทุกฝ่ายล้วนเป็นผู้กระทำที่มีเหตุผล ทั้งคนที่เชียร์ AI และคนที่ลดทอนความร้อนแรงเกินจริง ต่างก็มีเหตุผลที่สมเหตุสมผลของตัวเอง
  มีเหตุผลที่จะมองว่าเทคโนโลยีใหม่นี้เป็นสิ่งพลิกโฉม และก็มีเหตุผลที่จะระแวดระวัง การขโมยข้อมูล ขนาดใหญ่และการไม่ใส่ใจความเป็นส่วนตัว
  ก่อนอื่นต้องยอมรับและเคารพว่าทุกประเด็นย่อมมีความคิดที่หลากหลาย ลองเอาตัวเองออกจากสมการชั่วครู่ แล้วทำความเข้าใจฝ่ายตรงข้าม ต้องเข้าใจจริง ๆ
  ต้องลองสวมรองเท้าของคนอื่นแล้วเดินไปให้นาน
- สำหรับคำกล่าวที่ว่า “ถ้ามองเฉพาะนักวิจัยทุกคนที่ต้องเขียนโค้ดเพื่อการวิจัย AI ก็ทำให้มีประสิทธิภาพขึ้นได้มากแล้ว” สิ่งที่นักวิทยาศาสตร์ต้องการไม่ใช่ประสิทธิภาพ แต่คือ ความถูกต้องแม่นยำ บั๊กซอฟต์แวร์เป็นสาเหตุใหญ่ของข้อผิดพลาดทางวิทยาศาสตร์และการทำซ้ำผลไม่ได้อยู่แล้ว เช่นกรณีนี้: https://www.vice.com/en/article/a-code-glitch-may-have-cause...
  คุณภาพการเขียนโปรแกรมในสภาพแวดล้อมการวิจัยขึ้นชื่อว่าไม่สม่ำเสมออย่างมากไม่ต่างจากในอุตสาหกรรม แต่ในการวิจัย ข้อผิดพลาดเล็กน้อยก็อาจทำลายผลลัพธ์ทั้งหมดของงานวิจัยได้ ในสภาพแวดล้อมอย่างห้องแล็บ คุณไม่สามารถเขียนซอฟต์แวร์แบบจิตรกรอิมเพรสชันนิสต์ หรือเวอร์ชัน AI ของมันได้ คุณต้องรู้จริง ๆ ว่าตัวเองกำลังป้อนอะไรเข้าไป
  ถ้าไม่สนว่ามันถูกต้องหรือไม่ AI ก็ทำให้คุณมีประสิทธิภาพขึ้นได้ มันอาจยอดเยี่ยมสำหรับการสร้างภาพงานวอลเลย์บอลชายหาดฤดูร้อน แต่การใช้เขียนโค้ดในสภาพแวดล้อมทางวิทยาศาสตร์เป็นแนวคิดที่หายนะ
- ในทางกลับกัน เรื่องเล่าที่ว่า “AI จะปฏิวัติวิทยาศาสตร์” ให้ความรู้สึกว่าไปไกลเกินกว่า ระดับที่หลักฐานรองรับ อยู่มาก
- HN มักจะแตกเป็นสองฝั่งเสมอเมื่อถกกันว่า “เทคโนโลยีที่กำลังร้อนแรงในตอนนี้เป็นของจริงแค่ไหน และเป็นการอวดอ้างเกินจริงแค่ไหน”
  เคยเห็นเรื่องแบบนี้มาหลายครั้งแล้ว และตัวเองก็เคยยืนอยู่คนละฝั่งกันไปตามเทคโนโลยีและช่วงเวลา
  สำหรับผม มันเหมือนฉากที่เห็นอยู่เสมอ
ตอนแรกบทความดูเหมือนจะบอกเป็นนัยว่า AI ในวงการวิทยาศาสตร์โดยรวม หรืออย่างน้อย AI ในสาขาของผู้เขียน ล้วนเป็นการอวดอ้างเกินจริง แต่ดูเหมือนข้อไม่พอใจจะมุ่งไปที่สถาปัตยกรรมเฉพาะอย่าง PINN และตอนท้ายยังบอกด้วยว่าได้ใช้โมเดลดีปเลิร์นนิงอื่นสำเร็จในการคำนวณ PDE ให้เร็วกว่าวิธีวิเคราะห์เชิงตัวเลขแบบดั้งเดิม
- เป็นปัญหาที่กว้างกว่า PINN มาก เรื่องที่ว่า PINN แย่มากนั้นเป็นที่รู้กันแพร่หลายมานานแล้ว แต่ความล้มเหลวโดยรวมของการใช้แมชชีนเลิร์นนิงกับปัญหาฟิสิกส์นั้นแพร่กระจายกว้างกว่ามาก
  โดยทั่วไปแล้ว แมชชีนเลิร์นนิงจะโดดเด่นในกรณีที่มีข้อมูลการทดลองค่อนข้างมากในโดเมนที่ค่อนข้างแคบ ศักย์ระหว่างอะตอมแบบแมชชีนเลิร์นนิง ที่มีมาตั้งแต่ทศวรรษ 1990 เป็นตัวอย่างเช่นนั้น การจำลองสภาพอากาศก็อาจเป็นไปได้เช่นกัน แต่ไม่อยากวิจารณ์ด้านนั้น หรืออีกกรณีคือเมื่อมีข้อมูลมากอย่างเหลือเชื่อและฝึกโมเดลขนาดมหึมาจริง ๆ สิ่งนี้คือสิ่งที่เราเรียกว่า AI เหตุผลที่ AlphaFold ประสบความสำเร็จก็โดยพื้นฐานแล้วเป็นแบบนี้ และ AlphaFold เองก็ให้ผลลัพธ์ไม่ดีหากใส่อินพุตที่ห่างไกลจากจุดใด ๆ ในข้อมูลฝึก
  แต่แมชชีนเลิร์นนิงส่วนใหญ่สำหรับปัญหาฟิสิกส์อยู่ที่ไหนสักแห่งตรงกลาง ข้อมูลการทดลองมีไม่พอ และข้อมูลจำลองก็มีต้นทุนสร้างสูงเกินไปจนมีไม่เพียงพอ โมเดลก็ยังไม่ใหญ่พอ เพราะถ้าใหญ่เกินไป การอนุมานก็จะช้าลงอยู่ดี แต่ก็ยังคาดหวังให้โมเดลเหล่านี้เรียนรู้ฟิสิกส์ในขอบเขตกว้างมาก
  หลังจากนั้นทุกคนก็กระโดดขึ้นรถไฟกระแสฮype เพราะลองทำได้ง่ายเกินไป ทุกคนได้ผลลัพธ์ห่วยแบบเดียวกัน แต่ก็ยังตีพิมพ์ ถ้าห้องแล็บหรือ PI มีชื่อเสียงพอ หรือจัดรูปปัญหาให้ดูแปลกใหม่และดูเป็นวิทยาศาสตร์/คณิตศาสตร์ ก็สามารถได้ลงวารสารหรือประชุมดี ๆ และถูกอ้างอิงมากมาย แต่สุดท้ายผลลัพธ์ก็เหมือนเดิม คือทำซ้ำข้อมูลฝึกได้ระดับหนึ่ง แล้วสรุปว่า ปัญหาการ generalize เป็นเรื่องที่ต้องมีใครสักคนศึกษาเพิ่มเติม
- ผู้เขียนได้ตีพิมพ์บทความเต็มที่ให้ การวิเคราะห์อย่างเป็นระบบ กับหลายโมเดล และมีส่วนหนึ่งพูดถึงเรื่องนั้นโดยเฉพาะ ดังนั้นจึงไม่ใช่เรื่องของ PINN อย่างเดียว
- ต่อให้เปลี่ยน PINN เป็นวิธีแก้ปัญหาแบบ “AI” อะไรก็ตาม มันก็ยังน่าจะถูกอวดอ้างเกินจริงอยู่ดี
  จนถึงตอนนี้ การประเมิน “AI” อย่างสมจริงมีแค่การยอมรับว่ามันมีประโยชน์เฉพาะในการช่วยให้ผู้เชี่ยวชาญข้ามงานน่าเบื่อไปได้นิดหน่อย และต้องตรวจเอาต์พุตซ้ำสามรอบ
ส่วนที่ว่า “หลังจากล้มเหลวมาหลายสัปดาห์ ผมส่งข้อความไปหาเพื่อนที่มหาวิทยาลัยอื่น และเขาก็บอกว่าเคยลองใช้ PINN แล้วแต่ไม่ได้ผลดี” แม้จะไม่ได้เกี่ยวข้องกับ AI โดยตรงมากนัก แต่ทำให้นึกถึงบทเรียนที่ได้เรียนรู้ช้าเกินไประหว่างทำวิจัยในมหาวิทยาลัย นั่นคือ การร่วมมือกันอย่างต่อเนื่อง สำคัญมาก เพราะช่วยให้หลีกเลี่ยงการไปเหยียบซ้ำพื้นที่ที่คนอื่นล้มเหลวมาแล้ว
- มองได้ด้วยไหมว่านี่คือความจำเป็นที่นักวิจัยควรตีพิมพ์ การทดลองที่ล้มเหลว ด้วย
- นี่เป็นอีกเหตุผลหนึ่งที่ทำให้รู้สึกว่าแนวคิดเรื่อง AI agent สำหรับวิทยาศาสตร์ไม่ค่อยสมเหตุสมผล งานวิจัยเป็นชุดของกิจกรรมที่ต้องร่วมมือกันอย่างยิ่ง นักวิจัยที่ทบทวนวรรณกรรมได้ดีมาก แต่ไม่เคยคุยกับใครจริง ๆ และไม่ไปประชุมวิชาการเลย จะยอดเยี่ยมได้แค่ไหนกัน
การวิเคราะห์ยอดเยี่ยมและตัวอย่างก็ตรงประเด็น อีกปัญหาหนึ่งของงานวิจัยเกี่ยวกับ AI คือ แม้ว่าบทความจำนวนมากจะค่อนข้างใหม่ และจำนวนไม่น้อยก็ไม่ได้ตีพิมพ์ในที่ที่ “เหมาะสม” จริง ๆ แต่แค่ดู Google Scholar ก็เห็นว่าถูกอ้างอิงไปทั่ว
ยังมีประเด็นว่าการทำซ้ำผลลัพธ์และตรวจสอบความถูกต้องของคำกล่าวบางอย่างทำได้ยาก และงานวิจัยเมื่อ 4 ปีก่อนใช้โมเดลชุดหนึ่ง แต่การทดสอบตอนนี้ใช้โมเดลอีกชุดที่มีข้อมูลฝึกต่างกัน จึงยากที่จะระบุว่าอะไรมีผลต่อผลลัพธ์จริง ๆ และข้อสรุปนั้นใช้ได้เฉพาะกับคุณสมบัติบางอย่างของโมเดลเก่า หรือ สามารถ generalize ได้ กันแน่
- ไม่ใช่นักวิทยาศาสตร์หรือนักวิจัย แต่เรื่องอะไรก็ตามที่อิงสถิติและการตีความข้อมูล ทำให้เริ่มสงสัยทันที
ชื่อเรื่องเปลี่ยนไปหรือเปล่า หรือผมเริ่มเห็นภาพหลอนแล้ว
ชื่อคือ “I got fooled by AI-for-science hype—here's what it taught me”
- ใช่ เปลี่ยนจริง โดยส่วนตัวคิดว่าแย่ลงด้วย เปลี่ยนจากชื่อเดิม
  ที่นี่ควรใช้ชื่อเดิม เว้นแต่จะมีปัญหาร้ายแรง
  ชื่อเดิมนี้ไม่มีปัญหาร้ายแรง เว้นแต่ว่าการสรุปอย่างแม่นยำถึงเนื้อหาที่นักศึกษาปริญญาเอกวิจารณ์อย่างระมัดระวังต่อการมีส่วนร่วมของ AI ที่น่าสงสัยในงานวิจัยวิทยาศาสตร์ จะถือว่าเป็นปัญหาร้ายแรง
- ไม่ใช่ภาพหลอน: https://web.archive.org/web/20250520152757/https://news.ycom...
บทความนี้ดูเหมือนจะไม่ใช่บทความเกี่ยวกับ AI เท่าไร แต่เป็นเรื่องของการฝึกฝนหนึ่งในหน้าที่ที่ไม่ค่อยถูกพูดถึงของการเรียนปริญญาเอก นั่นคือ ความสามารถในการอ่านข้ออ้างทางวิชาการ
ข้ออ้างในบทความวิชาการไม่น่าประหลาดใจ เพราะมันเป็นผลผลิตตามธรรมชาติของโครงสร้างแรงจูงใจปะปนกันที่เมื่อเวลาผ่านไปเราเรียกว่า “วิทยาศาสตร์” การวางผลผลิตของวิทยาศาสตร์ให้อยู่ในบริบทที่ถูกต้อง และเข้าใจว่า “บทความวิชาการ” เป็นผลผลิตของ ระบบสังคม-เทคนิค ที่มีความซับซ้อนทั้งหมดตามมานั้น ต้องอาศัยการฝึกฝนเป็นเวลานาน

สิ่งที่ผมเรียนรู้หลังถูกกระแสโฆษณาเกินจริงของ AI เพื่อวิทยาศาสตร์หลอก

เหตุผลที่เปลี่ยนทิศทางจากฟิสิกส์พลาสมาไปสู่ AI

ความเปราะบางที่ปรากฏในการทดลอง PINN

บทเรียนจาก PINN และการประเมินในปัจจุบัน

ความมองโลกในแง่ดีเกินไปที่เกิดจาก baseline ที่อ่อน

ผลการตรวจสอบ 76 ฉบับ: 79% ใช้ baseline ที่อ่อน

วิธีตรวจสอบที่จำเป็นในสาขา PDE

กรณีจริงที่ AI เร่งวิทยาศาสตร์ได้ และข้อจำกัด

เหตุผลที่นักวิทยาศาสตร์นำ AI มาใช้

Survivorship bias และวิกฤตการทำซ้ำผล

กับดักสี่อย่างที่ทำให้มองโลกในแง่ดีเกินไป

Data leakage

Baseline ที่อ่อน

Cherry-picking

การรายงานผิด

สรุป: ใกล้เคียงเครื่องมือค่อยเป็นค่อยไปที่ให้ผลไม่สม่ำเสมอ มากกว่าการปฏิวัติ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News