เมื่อตรวจสอบซ้ำงานวิจัยที่อ้างว่า “Frontier AI ชนะเครื่องมือแพทย์เฉพาะทาง” — ความสอดคล้องระหว่างผู้ให้คะแนน 0.10 และผู้ให้คะแนนก็คือผู้เข้าแข่งเอง
(flamehaven.space)สรุปย่อ
- งานวิจัย "General-purpose large language models outperform specialized clinical AI tools on medical benchmarks" ที่ตีพิมพ์ใน Nature Medicine เมื่อวันที่ 12 มิถุนายน 2026 ระบุว่าโมเดล frontier แบบใช้งานทั่วไปอย่าง GPT-5.2, Gemini 3.1 Pro และ Claude Opus 4.6 ทำผลงานเหนือกว่าเครื่องมือ AI สำหรับการแพทย์โดยเฉพาะอย่าง OpenEvidence และ UpToDate AI
- OpenEvidence และ UpToDate AI เป็นเครื่องมือสนับสนุนการตัดสินใจทางคลินิกที่แพทย์ใช้ค้นหาหลักฐานแบบเรียลไทม์ระหว่างตรวจรักษา และเป็นผลิตภัณฑ์ที่ใช้งานจริงในโรงพยาบาลอยู่แล้ว
- งานวิจัยแพร่กระจายอย่างรวดเร็วทันทีหลังเผยแพร่ และหลังจากนั้นมีการตั้งข้อสงสัยเรื่องผลประโยชน์ทับซ้อนว่า ผู้เขียนดำเนินธุรกิจ AI ทางการแพทย์ที่เป็นคู่แข่งเอง และเคยขอเข้าถึง API ของ OpenEvidence แต่ถูกปฏิเสธ
- เมื่อผู้เขียนบทความนี้ตรวจสอบระเบียบวิธีวิจัยซ้ำด้วยตนเอง พบข้อบกพร่องทางสถิติหลายประการที่ทำให้ยากจะสนับสนุนอันดับผลลัพธ์ดังกล่าว
โครงสร้างของงานวิจัยและข้อสรุปในภาพรวม
- ประเมินเป็นสามขั้นตอน
- ใช้ข้อสอบ MedQA 500 ข้อเพื่อประเมินความรู้ทางการแพทย์
- ใช้ HealthBench 500 ข้อเพื่อประเมินความสอดคล้องทางคลินิก
- ให้แพทย์สหรัฐฯ 12 คนประเมินคำถามทางคลินิกจริง 100 รายการ (RCQ) รวมทั้งหมด 1,800 การประเมิน
- ข้อสรุปคือโมเดล frontier นำหน้าเครื่องมือคลินิกเฉพาะทางในทั้งสามการประเมิน และขนาดของโมเดลกับวิธีการ alignment อาจเป็นปัจจัยสำคัญกว่าการปรับแต่งเฉพาะโดเมน
ปัญหาความน่าเชื่อถือของการให้คะแนน
- ค่า Krippendorff's alpha ซึ่งแสดงความสอดคล้องระหว่างผู้ให้คะแนนใน RCQ อยู่ที่ 0.10~0.20
- ตัวชี้วัดนี้หากเป็น 0 หมายถึงระดับที่ตรงกันโดยบังเอิญ และ 1 หมายถึงเห็นพ้องกันสมบูรณ์ โดยทั่วไปหากจะใช้เพื่อจัดอันดับมักต้องมีค่าอย่างน้อย 0.67
- กราฟหลักของงานวิจัย (Figure 2c ที่แสดงว่าโมเดลใดเหนือกว่าโมเดลใด) มาจากค่าเฉลี่ยของคะแนนที่มีการเห็นพ้องกันต่ำเช่นนี้
โครงสร้างที่คณะกรรมการตัดสินเป็นผู้ถูกประเมินเอง
- การประเมิน HealthBench ใช้วิธีให้ LLM ให้คะแนนคำตอบของ LLM อื่น แต่คณะกรรมการตัดสินประกอบด้วยเพียงสามโมเดลที่เป็นผู้ถูกประเมินเอง ได้แก่ GPT-5.2, Gemini 3.1 Pro และ Claude Opus 4.6
- เครื่องมือเฉพาะทางคลินิกถูกตัดออกจากคณะกรรมการตัดสิน
- HealthBench เป็น benchmark ที่ OpenAI สร้างขึ้น และ GPT-5.2 ของ OpenAI เองก็ถูกประเมินบน benchmark เดียวกันนี้
- self-preference bias หรืออคติที่ให้คะแนนตัวเองหรือโมเดลในสายใกล้เคียงกันอย่างเอื้อเฟื้อ เป็นปรากฏการณ์ที่รู้จักกันอยู่แล้ว และโครงสร้างนี้ไม่มีมาตรการกรองอคติดังกล่าว
ปัญหาที่คล้ายกับการเห็นข้อสอบล่วงหน้า
- MedQA และ HealthBench เป็นข้อมูลที่เผยแพร่บนอินเทอร์เน็ตมานานแล้ว
- เนื่องจากโมเดล frontier ถูกฝึกด้วยข้อความจากอินเทอร์เน็ตปริมาณมหาศาล จึงมีความเป็นไปได้ว่าเคยพบทั้งคำถามและคำตอบเหล่านี้แล้วระหว่างกระบวนการฝึก
- งานวิจัยยอมรับความเป็นไปได้นี้ แต่ไม่ได้คำนวณว่ามันส่งผลต่อผลลัพธ์จริงมากเพียงใด
ปัญหาการประมวลผลทางสถิติ
- งานวิจัยปฏิบัติต่อข้อมูลสังเกต 1,704 รายการ ซึ่งมาจากการที่หลายโมเดลและหลายผู้ประเมินให้คะแนนคำถามเดียวกัน ราวกับว่าแต่ละรายการเป็นอิสระต่อกัน
- คะแนนที่มาจากคำถามเดียวกันมีความสัมพันธ์กันเพราะความยากของคำถามนั้น หากละเลยประเด็นนี้จะเกิด pseudoreplication ที่ทำให้ผลดูมีความแน่นอนทางสถิติมากกว่าความเป็นจริง
- อีกประเด็นหนึ่งคือผล Fisher's exact test ที่เปรียบเทียบอัตราการปฏิเสธของ UpToDate 19% กับ Google AI Overview 6% ในงานวิจัยระบุว่า P=0.10
- แต่เมื่อคำนวณโดยตรงจากข้อมูลดิบ (19/100 เทียบกับ 6/100) ค่า p อยู่ที่ประมาณ 0.009 ซึ่งถือเป็นความแตกต่างที่มีนัยสำคัญตามระดับนัยสำคัญ 0.05 ที่งานวิจัยระบุไว้ และหากไม่เปิดเผยวิธีการปรับแก้ ก็จำเป็นต้องอธิบายความต่างนี้
ปัญหาที่เงื่อนไขการประเมินเองแตกต่างกัน
- โมเดล frontier ถูกประเมินผ่าน API แบบ deterministic ที่ temperature 0
- เครื่องมือคลินิกถูกประเมินผ่านอินเทอร์เฟซเบราว์เซอร์ ซึ่งผลลัพธ์อาจต่างกันทุกครั้ง และ prompt ภายในก็ไม่ได้เปิดเผย
- คำตอบที่ถูกปฏิเสธถูกตัดออกจากการรวมผล UpToDate ปฏิเสธ 19% ทำให้เหลือคะแนนเฉพาะคำถามที่ค่อนข้างง่ายกว่า ขณะที่โมเดล frontier ปฏิเสธเพียง 1~3% จึงยังคงมีคะแนนจากการกระจายของคำถามทั้งหมดเกือบครบถ้วน
เมื่อใช้ benchmark อื่น ผลลัพธ์ก็เปลี่ยนไป
- งานวิจัย medRxiv อีกชิ้นนำ benchmark ด้าน triage เดียวกัน ซึ่งเคยแสดงให้เห็นว่า ChatGPT Health ประเมินความเร่งด่วนต่ำเกินไป (undertriage) ในสถานการณ์ฉุกเฉินจริง 51.6% ไปใช้กับ OpenEvidence
- อัตราการประเมินต่ำเกินไปของ OpenEvidence อยู่ที่ 12.5% หรือประมาณหนึ่งในสี่ของ ChatGPT Health
- แม้เป็นเครื่องมือเดียวกัน ผลลัพธ์อาจต่างกันมากตาม benchmark ที่ใช้ประเมิน การเลือก benchmark จึงเป็นตัวแปรที่กำหนดข้อสรุปเอง
ทำไมงานวิจัยนี้จึงสำคัญในตอนนี้
- OpenEvidence เป็นเครื่องมือที่แพทย์สหรัฐฯ หลายหมื่นคนใช้ระหว่างตรวจรักษาทุกวันอยู่แล้ว การเปรียบเทียบนี้ไม่ใช่คำถามเชิงวิชาการ แต่เป็นคำถามว่าวันนี้โรงพยาบาลควรนำเครื่องมือใดมาใช้
- ปี 2026 เป็นช่วงที่โรงพยาบาลและบริษัทประกันเริ่มทำสัญญาจัดซื้อ AI ทางการแพทย์จริง ๆ งานวิจัย benchmark เพียงชิ้นเดียวอาจถูกนำไปใช้เป็นหลักฐานกำหนดสัญญาและการตัดสินใจนำระบบไปใช้ได้โดยตรง
- งานวิจัยที่ตีพิมพ์ใน Nature Medicine มีอำนาจความน่าเชื่อถือและแพร่กระจายทันทีหลังเผยแพร่ การทบทวนซ้ำที่พบข้อบกพร่องเชิงโครงสร้างออกมาหลังจากนั้นไม่กี่วัน แต่แพทย์ได้เปลี่ยนเนื้อหาการอบรมไปแล้วตั้งแต่วันนั้น
- เมื่อถูกสะท้อนเข้าไปในการตัดสินใจจัดซื้อหรือแนวทางเวชปฏิบัติแล้ว แม้ภายหลังจะพบข้อบกพร่อง การย้อนกลับสัญญาและแนวปฏิบัติก็ต้องใช้เวลาและต้นทุน
- งานวิจัย benchmark ด้าน AI ทางการแพทย์ยังคงทะลักออกมาอย่างต่อเนื่อง แต่โครงสร้างพื้นฐานและบุคลากรที่จะตรวจสอบซ้ำอย่างเป็นอิสระตามไม่ทันความเร็วนั้น นี่ไม่ใช่ปัญหาของงานวิจัยชิ้นเดียว แต่เป็นปัญหาเชิงโครงสร้างที่จะเกิดซ้ำ
ข้อสรุป
- บทความนี้ไม่ได้อ้างว่าทิศทางของงานวิจัยผิด
- แต่การให้คณะกรรมการตัดสินให้คะแนนตัวเอง ความสอดคล้องระหว่างผู้ให้คะแนนที่ต่ำ ความเป็นไปได้ของการปนเปื้อนข้อมูลฝึก และข้อผิดพลาดในการประมวลผลทางสถิติ เกิดขึ้นพร้อมกัน ผลลัพธ์ที่สะสมข้อบกพร่องระดับนี้ไม่ควรถูกใช้เป็นตัวกำหนดสัญญาจัดซื้อและแนวทางเวชปฏิบัติ
- งานวิจัยแสดงความมั่นใจในข้อสรุป แต่ข้อมูลไม่สามารถรองรับความมั่นใจนั้นได้ ปัญหาไม่ใช่เจตนาของผู้เขียน แต่เป็นโครงสร้างที่ปล่อยให้ความมั่นใจถูกเผยแพร่ก่อนการตรวจสอบ
- ในขณะที่ AI ทางการแพทย์กำลังเข้าสู่โรงพยาบาล สิ่งที่ควรถูกจัดให้มีก่อน ไม่ใช่งานวิจัย benchmark อีกชิ้นหนึ่ง แต่เป็นระบบตรวจสอบอิสระสำหรับตรวจสอบงานวิจัยเหล่านั้น หากความเร็วของข้อกล่าวอ้างยังนำหน้าความเร็วของการตรวจสอบเช่นตอนนี้ เหตุการณ์แบบเดียวกันก็จะเกิดซ้ำในงานวิจัยชิ้นถัดไป
ยังไม่มีความคิดเห็น