- ในงานวิจัยของ Harvard โมเดลการให้เหตุผล o1 ของ OpenAI แสดงความแม่นยำสูงกว่าแพทย์มนุษย์ในการวินิจฉัยเบื้องต้นแบบ คัดแยกผู้ป่วย (triage) ในห้องฉุกเฉิน และ LLM ถูกประเมินว่าเหนือกว่ามาตรฐานอ้างอิงส่วนใหญ่ของการให้เหตุผลทางคลินิก
- ในการทดลองที่ให้อ่านเวชระเบียนอิเล็กทรอนิกส์มาตรฐานของผู้ป่วย 76 คน ที่มาห้องฉุกเฉินของโรงพยาบาลในบอสตัน o1 ให้การวินิจฉัยที่ถูกต้องหรือใกล้เคียงมากได้ 67% ส่วนแพทย์มนุษย์ 2 คนทำได้ 50–55%
- เมื่อมีรายละเอียดเพิ่มเติม ความแม่นยำของ AI เพิ่มเป็น 82% ขณะที่ผู้เชี่ยวชาญมนุษย์อยู่ที่ 70–79% แต่ความแตกต่างนี้ไม่มีนัยสำคัญทางสถิติ
- AI ยังทำได้ดีกว่าแพทย์ 46 คนในโจทย์ด้าน การวางแผนการรักษาระยะยาว เช่น การให้ยาปฏิชีวนะหรือการวางแผนดูแลระยะท้าย โดยในกรณีศึกษาทางคลินิก 5 กรณี AI ได้คะแนน 89% ส่วนแพทย์มนุษย์ที่ใช้ข้อมูลอ้างอิงเดิมได้ 34%
- งานวิจัยนี้เปรียบเทียบเฉพาะข้อมูลผู้ป่วยที่ถ่ายทอดเป็นข้อความได้ และไม่ได้ทดสอบ สัญญาณที่ไม่ใช่คำพูด จึงมีข้อจำกัดว่าบทบาทของมันใกล้เคียงกับการเป็น ความเห็นที่สอง จากเอกสาร มากกว่าการแทนที่แพทย์จริงในภาคสนาม
ผลลัพธ์สำคัญของการทดลองคัดแยกผู้ป่วยฉุกเฉินของ Harvard
- งานวิจัยของ Harvard พบว่าระบบ AI ทำผลงานได้ดีกว่าแพทย์มนุษย์ในด้านความแม่นยำของการวินิจฉัยในสถานการณ์ คัดแยกผู้ป่วย (triage) ของเวชศาสตร์ฉุกเฉิน
- ผลลัพธ์ที่เผยแพร่ใน Science มาจากการทดลองที่เปรียบเทียบคำตอบของแพทย์หลายร้อยคนกับคำตอบของ AI และผู้เชี่ยวชาญอิสระประเมินว่า AI แสดงให้เห็นถึง “ความก้าวหน้าที่แท้จริง” ในการให้เหตุผลทางคลินิก
- โมเดลภาษาขนาดใหญ่ (LLM) ถูกประเมินว่า “ก้าวข้ามมาตรฐานอ้างอิงส่วนใหญ่ของการให้เหตุผลทางคลินิก”
- ความได้เปรียบของ AI เด่นชัดเป็นพิเศษในสถานการณ์ คัดแยกผู้ป่วยเบื้องต้นในห้องฉุกเฉิน ที่มีข้อมูลจำกัดและต้องตัดสินใจอย่างรวดเร็ว
การทดลองวินิจฉัยผู้ป่วยห้องฉุกเฉิน 76 คน
- ในการทดลองกับผู้ป่วย 76 คน ที่มาถึงห้องฉุกเฉินของโรงพยาบาลในบอสตัน AI และแพทย์มนุษย์ 2 คนอ่านเวชระเบียนอิเล็กทรอนิกส์มาตรฐานเดียวกันแล้วทำการวินิจฉัย
- เวชระเบียนอิเล็กทรอนิกส์โดยทั่วไปประกอบด้วยสัญญาณชีพ ข้อมูลประชากร และข้อความไม่กี่ประโยคจากพยาบาลที่อธิบายเหตุผลที่ผู้ป่วยมารับการรักษาที่โรงพยาบาล
- โมเดลการให้เหตุผล o1 ของ OpenAI สามารถหาการวินิจฉัยที่ถูกต้องหรือใกล้เคียงมากได้ใน 67% ของกรณี ขณะที่แพทย์มนุษย์มีความแม่นยำ 50–55%
- เมื่อมีการให้รายละเอียดเพิ่มเติม ความแม่นยำในการวินิจฉัยของ AI เพิ่มเป็น 82% ขณะที่ผู้เชี่ยวชาญมนุษย์ทำได้ 70–79% แต่ความแตกต่างนี้ไม่มีนัยสำคัญทางสถิติ
การทดลองวางแผนการรักษาระยะยาว
- AI ยังทำได้ดีกว่ากลุ่มแพทย์มนุษย์ที่ใหญ่กว่าในงาน การวางแผนการรักษาระยะยาว เช่น การเสนอแนวทางยาปฏิชีวนะหรือการวางแผนกระบวนการดูแลระยะท้าย
- AI และแพทย์ 46 คนได้ทบทวนกรณีศึกษาทางคลินิก 5 กรณี และ AI จัดทำแผนที่ดีกว่าแพทย์มนุษย์ที่ใช้ข้อมูลอ้างอิงเดิมอย่างมีนัยสำคัญ
- คะแนนอยู่ที่ AI 89% ขณะที่แพทย์มนุษย์ที่ใช้ข้อมูลอ้างอิงแบบเดิม เช่น เสิร์ชเอนจิน ได้ 34%
ข้อจำกัดของงานวิจัยและการเปลี่ยนบทบาทในภาคการแพทย์
- งานวิจัยนี้เปรียบเทียบมนุษย์กับ AI โดยใช้เฉพาะข้อมูลผู้ป่วยที่สามารถถ่ายทอดเป็นข้อความได้
- ความสามารถของ AI ในการอ่าน สัญญาณที่ไม่ใช่คำพูด เช่น ระดับความเจ็บปวดของผู้ป่วยหรือรูปลักษณ์ที่มองเห็น ยังไม่ได้ถูกทดสอบ
- ดังนั้น AI จึงมีบทบาทใกล้เคียงกับแพทย์ที่ให้ ความเห็นที่สอง จากเอกสาร มากกว่าจะบอกว่าได้แทนที่แพทย์ห้องฉุกเฉินจริงแล้ว
- Arjun Manrai ผู้ดูแลสถาบันวิจัย AI แห่ง Harvard Medical School กล่าวว่า ผลลัพธ์นี้ไม่ได้หมายความว่า AI จะมาแทนที่แพทย์ แต่หมายถึงกำลังมี “การเปลี่ยนแปลงทางเทคโนโลยีที่ลึกซึ้งมาก” ซึ่งจะปรับโฉมวงการแพทย์
- Adam Rodman แพทย์จาก Beth Israel Deaconess medical centre ในบอสตัน ซึ่งเป็นสถานที่ทำวิจัย มองว่า AI LLM เป็นหนึ่งใน “เทคโนโลยีที่ทรงอิทธิพลที่สุดในรอบหลายทศวรรษ”
- Rodman คาดว่าในอีก 10 ปีข้างหน้า AI จะไม่ได้มาแทนที่แพทย์ แต่จะเข้าร่วมใน โมเดลการดูแลแบบสามฝ่าย ใหม่ ที่มีแพทย์ ผู้ป่วย และระบบ AI ทำงานร่วมกัน
กรณีศึกษาทางคลินิกและการให้เหตุผลของ AI
- ในหนึ่งกรณีจากงานวิจัยของ Harvard ผู้ป่วยมีภาวะลิ่มเลือดอุดตันในปอดและอาการทรุดลง
- แพทย์มนุษย์ตัดสินว่ายาต้านการแข็งตัวของเลือดกำลังล้มเหลว แต่ AI จับประเด็นได้ว่าผู้ป่วยมี ประวัติโรคลูปัส ซึ่งอาจทำให้เกิดการอักเสบในปอดได้
- ภายหลังยืนยันว่าการประเมินของ AI ถูกต้อง
การใช้ AI ทางการแพทย์ที่กำลังแพร่หลายอยู่แล้ว
- งานวิจัย ที่เผยแพร่เมื่อเดือนที่แล้วระบุว่า แพทย์ในสหรัฐฯ ราว 1 ใน 5 คน ใช้ AI ช่วยการวินิจฉัยอยู่แล้ว
- ในสหราชอาณาจักร แพทย์ 16% ใช้ AI ทุกวัน และอีก 15% ใช้ทุกสัปดาห์
- ตาม แบบสำรวจล่าสุดของ Royal College of Physicians หนึ่งในการใช้งานที่พบบ่อยของแพทย์ในสหราชอาณาจักรคือ การตัดสินใจทางคลินิก
- สิ่งที่แพทย์ในสหราชอาณาจักรกังวลมากที่สุดคือความผิดพลาดของ AI และความเสี่ยงด้านความรับผิดชอบ
- แม้จะมีการลงทุนหลายพันล้านดอลลาร์ในบริษัท AI ด้านสุขภาพ แต่คำถามเรื่องผลกระทบจากความผิดพลาดของ AI ก็ยังคงมีอยู่
- Rodman กล่าวว่า ปัจจุบันยังไม่มีกรอบอย่างเป็นทางการสำหรับระบุความรับผิด และย้ำว่าท้ายที่สุดแล้วผู้ป่วยต้องการให้มนุษย์เป็นผู้ชี้นำการตัดสินใจเรื่องความเป็นความตายและการรักษาที่ยากลำบาก
การประเมินจากผู้เชี่ยวชาญภายนอกและข้อควรระวัง
- ศาสตราจารย์ Ewen Harrison ผู้ร่วมอำนวยการศูนย์สารสนเทศทางการแพทย์แห่ง University of Edinburgh ประเมินว่างานวิจัยนี้มีความสำคัญ และระบบลักษณะนี้ไม่ได้อยู่แค่ระดับการสอบผ่านการแพทย์หรือแก้โจทย์ทดสอบเทียมอีกต่อไป
- Harrison มองว่า AI เริ่มมีลักษณะเป็น เครื่องมือความเห็นที่สอง ที่มีประโยชน์ต่อแพทย์ โดยเฉพาะเมื่อจำเป็นต้องพิจารณาความเป็นไปได้ของการวินิจฉัยที่กว้างขึ้นและไม่พลาดประเด็นสำคัญ
- Wei Xing จากคณะวิทยาศาสตร์คณิตศาสตร์และกายภาพแห่ง University of Sheffield มองว่าผลลัพธ์อื่นบางส่วนชี้ว่าแพทย์อาจเผลอทำตามคำตอบของ AI โดยไม่รู้ตัว แทนที่จะคิดอย่างอิสระ
- Xing กล่าวว่าเมื่อ AI ถูกใช้ในสภาพแวดล้อมทางคลินิกเป็นกิจวัตรมากขึ้น แนวโน้มเช่นนี้อาจยิ่งเพิ่มขึ้น
- Xing ชี้ว่าข้อมูลยังไม่เพียงพอว่า AI ทำการวินิจฉัยได้แย่ลงกับผู้ป่วยกลุ่มใด เช่น ผู้สูงอายุหรือผู้ป่วยที่ไม่ได้ใช้ภาษาอังกฤษเป็นภาษาแม่หรือไม่
- Xing กล่าวว่า งานวิจัยนี้ไม่ได้พิสูจน์ว่า AI ปลอดภัยสำหรับการใช้งานทางคลินิกในชีวิตประจำวัน หรือว่าประชาชนควรใช้เครื่องมือ AI ที่เข้าถึงได้อย่างเสรีแทนคำแนะนำทางการแพทย์
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
งานวิจัยแบบนี้ทำให้ เกณฑ์วัดพังได้ง่ายมาก เลยต้องระวังอย่างมากเรื่องความน่าเชื่อถือ
ตัวอย่างเช่น มีงานวิจัยล่าสุดที่ AI เอาชนะรังสีแพทย์ในการอ่านเอกซเรย์ แต่จริง ๆ แล้ว AI ไม่ได้เข้าถึงภาพเอกซเรย์ด้วยซ้ำ: https://arxiv.org/pdf/2603.21687
มันเป็นเกณฑ์วัดเดิมสำหรับ “ความเข้าใจเอกซเรย์ทรวงอกทั่วไปผ่าน visual question answering ขนาดใหญ่” และก็ไม่ได้ถูกทำให้พังโดยเจตนา
ยิ่งไปกว่านั้น ในการอ่านเอกซเรย์ มนุษย์ซึ่งเป็นรังสีแพทย์ได้ดูภาพเอกซเรย์จริง ๆ แต่ในบริบทของบทความนี้ แพทย์มนุษย์ไม่ได้วินิจฉัยผู้ป่วยฉุกเฉินจากการดูแค่โน้ตเพียงอย่างเดียว
มันเหมือนสั่งให้ทำงานที่ทั้งไม่จำเป็น ไม่คุ้นเคย และไม่เคยฝึกมา แล้วค่อยบอกว่า “AI ทำได้ดีกว่า” ดังนั้นต่อให้โน้ตไม่ได้หลุดคำตอบผ่านทางอ้อมแปลก ๆ ก็ไม่น่าแปลกใจ
ไม่ได้หมายความว่างานวิจัยนี้ผิดแน่ ๆ หรือจงใจหลอกลวง แต่ผมคงไม่สรุปแรง ๆ จาก งานวิจัยชิ้นเดียว
สุดท้ายแล้ว การแพทย์คือเรื่องของความรู้ ประสบการณ์ สติปัญญา และอาจรวมถึง การจดจำรูปแบบ ซึ่งสิ่งเหล่านี้ดูเป็นเรื่องที่โมเดล AI ที่ดีที่สุด โดยเฉพาะโมเดลที่โฟกัสด้านการแพทย์ จะเหนือกว่ามนุษย์ส่วนใหญ่รวมถึงแพทย์ได้มาก
ถ้าเราตั้งสมมติฐานแบบนี้กับวิศวกรซอฟต์แวร์อยู่แล้ว ก็ต้องใช้กับสาขานี้ด้วย และในทางปฏิบัติ ช่วงไม่กี่เดือนที่ผ่านมา ทุกครั้งที่ผมไปหาแพทย์ รวมถึงเข้าห้องฉุกเฉินสองครั้ง ผมเห็นทุกคนใช้ ChatGPT อยู่จริง ๆ ไม่ได้พูดเล่น มันน่าตกใจมาก
เลยสงสัยจริง ๆ ว่า ถ้าไม่นับเรื่องความรับผิดชอบและจริยธรรม มองกันล้วน ๆ แล้ว มี ความสามารถเฉพาะ หรือชุดความสามารถอะไรที่ทำให้เชื่อได้ว่า AI ทางการแพทย์ระดับบนจะไม่สามารถตามทันหรือแซงแพทย์มนุษย์ที่เก่งมากได้อย่างถาวร หรืออย่างน้อยก็ในอีกหลายสิบปีข้างหน้า?
ในงานนี้มันจัด ระดับความรุนแรงฉุกเฉิน ผิดไปประมาณครึ่งหนึ่ง
ตัวเลขในพาดหัวอ้างอิงผลจากการวินิจฉัยเบื้องต้นโดยดูแค่โน้ตของพยาบาลเท่านั้น ส่วนตัวผมเดาว่าในชุดกรณีศึกษาที่คัดมา โมเดลภาษาขนาดใหญ่น่าจะกล้าเดามากกว่าแพทย์
มันดูเป็นข้อสรุปที่สมเหตุสมผลมาก แต่ก็ข้ามความเป็นไปได้อื่นไป เช่น เอกซเรย์เองทำให้ผลลัพธ์ไม่แม่นยำขึ้นหรือเปล่า?
ผมแปลกใจที่ทั้งบทความและงานวิจัยดูโอเวอร์พอสมควร นี่คือการให้แพทย์มาแข่งในเงื่อนไขที่ออกแบบมาให้โมเดลภาษาขนาดใหญ่ได้เปรียบอย่างมาก และ ไม่ได้เป็นตัวแทนของการดูแลรักษาทางคลินิก
กรณีการให้เหตุผลแบบนี้เป็นเครื่องมือการเรียนรู้ ไม่ใช่ benchmark สำหรับแพทย์
การวินิจฉัยขึ้นอยู่กับการอธิบายผู้ป่วยให้ถูกต้องตั้งแต่แรก และข้อมูลที่เก็บมาก็แตกต่างกันไปตามการวินิจฉัยแยกโรค
หนึ่งในความสามารถของแพทย์คือการรวบรวมข้อมูลจากหลายแหล่งและคัดสิ่งสำคัญออกมา ผู้ป่วยอาจอธิบายไม่ชัด หรือสื่อสารแบบไม่ใช้คำพูด หรืออาจต้องได้ข้อมูลจากผู้ดูแลหรือครอบครัว
การซักประวัติเองก็เป็นทักษะ การตรวจร่างกายก็เช่นกัน แต่ที่นี่ข้อมูลเหล่านั้นถูกป้อนมาให้เสร็จแล้ว
โดยเฉพาะถ้าเป็นคำถามที่อาจอยู่ในข้อมูลฝึกของ o1 การที่มันเหนือกว่าแพทย์ในแง่การจับรูปแบบจากข้อความล้วน ๆ ก็ไม่ได้น่าแปลกใจเลย แต่ดูไม่ใช่การเปรียบเทียบที่มีประโยชน์ทางคลินิกนัก
การตัดสินใจว่าจะตรวจอะไร จะถ่ายภาพหรือไม่ จะคัดข้อมูลที่ไม่จำเป็นออกจากประวัติอย่างไร ทั้งหมดนี้ก็เป็นทักษะแยกต่างหากและแยกจากการสร้างข้อวินิจฉัยได้ยาก
ในบางกรณี แม้การเลือก X จะได้เปรียบเชิงความน่าจะเป็น แต่ความต่างอาจไม่มาก และทางเลือกที่ปลอดภัยกว่าคือการตัดความเป็นไปได้อื่นออกก่อน หรือเริ่มการรักษาที่ปลอดภัยซึ่งครอบคลุมหลายความเป็นไปได้
การได้ “คะแนนสูง” ในการประเมินแบบนี้ไม่ได้แปลว่าเป็นการรักษาพยาบาลที่ดีเสมอไป
แม้ผมจะไม่ให้น้ำหนักกับงานวิจัยนี้มากนัก แต่คิดว่าหลายคนน่าจะยอมรับได้ว่า โมเดลภาษาขนาดใหญ่สำหรับการวินิจฉัยตนเอง มีประโยชน์
ในสหรัฐฯ การได้รับความสนใจและการรักษาจากแพทย์เป็นเรื่องยาก จนในที่สุดคนก็ต้องช่วยตัวเอง
เมื่อ 10 ปีก่อน แพทย์ยังบ่นว่าคนไข้ชอบเอาสิ่งที่หาได้จาก Google มาพูด แต่ตอนนี้ผมมองว่าไม่มีทางเลือกอื่น
ตัวอย่างเช่น ผมไปหาผู้เชี่ยวชาญด้านเท้าและข้อเท้าเพราะมีปัญหาที่เท้าและข้อเท้า ปัญหาที่เท้าวินิจฉัยจากเอกซเรย์ได้ แต่เรื่องข้อเท้าแพทย์กลับยักไหล่บอกว่าเอกซเรย์ไม่เห็นอะไร
เวลา 15 นาทีที่จัดไว้หมดลง แล้วผมก็เดินออกมาโดยไม่รู้ทั้งสาเหตุและวิธีแก้ แต่ถามโมเดลภาษาขนาดใหญ่แค่ 5 นาที มันก็ให้ สาเหตุของปัญหาข้อเท้าที่ฟังดูเป็นไปได้ และยังสอดคล้องกับการวินิจฉัยเรื่องเท้าด้วย
ถ้าบริษัทด้านสุขภาพเลือกใช้ AI เพื่อเพิ่มจำนวนคนไข้ต่อวัน แทนที่จะใช้เพื่อปรับปรุงการดูแลผู้ป่วย สถานการณ์น่าจะแย่ลงกว่าเดิมด้วยซ้ำ
การบอกว่า “ให้ AI กับแพทย์มนุษย์สองคนอ่านเวชระเบียนอิเล็กทรอนิกส์มาตรฐานชุดเดียวกัน” หมายถึงการจำกัดความสามารถของแพทย์มนุษย์
แพทย์มนุษย์สามารถได้ข้อมูลมากกว่านั้นมากเพียงแค่สังเกตผู้ป่วยแวบเดียว
https://entropicthoughts.com/arithmetic-models-better-than-y...
ให้ AI ช่วยทบทวนบันทึกและเสนอรายการวินิจฉัยที่เป็นไปได้ แล้วให้แพทย์ตรวจดูผู้ป่วยก่อนกลับมาทบทวนอีกครั้ง แบบนี้น่าจะดี
อีกอย่าง โรคที่พบบ่อยก็ยังพบบ่อยจริง ๆ ผมเองก็สงสัยว่าสุดท้ายสิ่งนี้ทำให้ทั้งแพทย์และโมเดลภาษาขนาดใหญ่มีอคติมากแค่ไหน
ถ้ามีคนมาด้วยอาการน้ำมูกไหลกับไอ แล้ววินิจฉัยว่าเป็นไข้หวัดใหญ่ ส่วนใหญ่ก็มักจะถูก
แพทย์กับพยาบาลชอบเพราะไม่ต้องพิมพ์เอง แต่การตรวจทานข้อผิดพลาดจากการถอดเสียงที่เกิดขึ้นค่อนข้างบ่อยกลับเละเทะมาก
จากนั้นก็เอาข้อความถอดเสียงที่มีตำหนินี้ไปป้อนให้ระบบ AI วินิจฉัยต่อได้เลย AI จะรับมันเป็นความจริงทั้งหมด แต่แพทย์อาจหยุดแล้วถามว่า “เดี๋ยวก่อน อะไรเนี่ย?”
ผมเคยใช้โมเดลภาษาขนาดใหญ่ช่วยวินิจฉัยทั้งของตัวเอง ของภรรยา และแม้แต่ของสุนัข
ผมเชื่อมากว่ามีโอกาสใหญ่สำหรับ สัตวแพทย์ที่ขับเคลื่อนด้วย AI โดยเฉพาะถ้าทำต่อยอดไปถึงการให้คลินิกสัตวแพทย์ในพื้นที่เสนอราคาแข่งขันกันสำหรับการรักษาหรือการผ่าตัดได้
ราคาของคลินิกสัตวแพทย์ในพื้นที่ต่างกันได้มากกว่า 10 เท่า แม่ผมกับแม่ยายซึ่งอายุ 80 ทั้งคู่ มักโดนสัตวแพทย์ที่คิดราคาเกินจริงเล่นงาน และเพราะสัตว์เลี้ยงเป็นส่วนสำคัญของชีวิต พวกเธอจึงเปราะบางต่อแรงกดดันมาก
ผมไม่เข้าใจปฏิกิริยาเชิงลบที่นี่เลย แค่คอมพิวเตอร์ทำได้ถึงราว 30% ก็ถือว่าน่าทึ่งแล้ว
ดูเหมือนจะมีความเป็นปฏิปักษ์ต่อ AI และต่อแล็บแนวหน้าพวก OpenAI หรือฝั่ง Google มากเกินไปจนไม่สมเหตุสมผล
สำหรับผม ประเด็นสำคัญคือ AI ได้รับบันทึกเคสของผู้ป่วย แต่ ไม่ได้เห็นผู้ป่วยโดยตรง
นี่ต่างจากวิธีที่แพทย์ได้รับการฝึก และเป็นการจำกัดสิ่งที่แพทย์ทำได้โดยไม่จำเป็น คุณค่าส่วนใหญ่ที่แพทย์มอบให้มาจากการพูดคุยกับผู้ป่วย
พาดหัวทำให้ฟังเหมือน AI กำลังจะแทนที่แพทย์ แต่ในความเป็นจริงมันใกล้กับคำว่า “AI ทำงานแคบ ๆ นี้ได้ดีกว่าแพทย์” มากกว่า
และโน้ตที่ใช้ก็น่าจะถูกเขียนโดยแพทย์ตั้งแต่แรกด้วย
รางวัลที่แท้จริงคือการทำให้ชุดแพทย์+AI ดีกว่าแพทย์ล้วน ๆ ถ้าแพทย์ต้องอ่านบันทึกเคสแล้วสรุปผล ตอนนี้อย่างน้อยก็มีข้อเสนอจาก AI ที่ใช้ได้ดีพอสมควรให้หยิบมาใช้
ยิ่งมีเรื่องเดิมพันสูง เราก็ควรจะ วิจารณ์ให้มากขึ้น ไม่ใช่น้อยลง
ความสงสัยแบบมีวิจารณญาณ เป็นเครื่องมือที่มีประโยชน์มหาศาล แม้จะมากเกินไปก็ตาม
ผมอายุ 60 ปี และได้สร้างเครื่องมือช่วยทางการแพทย์ด้วย AI [1] เอง ใช้มันอย่างกว้างขวางกับอาการหลายอย่าง และพอใจมาก
หลังจากวิเคราะห์ผลตรวจบางอย่างแล้ว มันยังแนะนำตัวชี้วัดที่แพทย์ไม่ได้พิจารณาในตอนแรกด้วย
มันไม่ได้มาแทนแพทย์ แต่เป็นเครื่องมือที่มีประโยชน์มากสำหรับการวินิจฉัยตนเองในอาการง่าย ๆ และการขอ ความเห็นที่สอง
[1] https://mediconsulta.net (DeepSeek)
ผมสงสัยว่า 33% นั้นเป็นสับเซตของ 50~45% หรือเปล่า
ถ้าไม่ใช่สับเซต ความผิดพลาดนั้นร้ายแรงแค่ไหน? มีผู้เสียชีวิตมากขึ้นไหม? ใช้เวลาฟื้นตัวนานขึ้นไหม? ความต่างนั้นนำไปสู่อะไรจริง ๆ?
งานวิจัย: https://www.science.org/doi/10.1126/science.adz4433 (30 เมษายน 2026)
ความต่างระหว่าง 67% กับ 55% ใหญ่มากแค่ไหน? งานวิจัยนี้ใช้ผู้ป่วยชุดเดียวกับที่แพทย์ดูหรือไม่?
ถ้าไม่ได้เปรียบเทียบเคียงกันว่าทั้งสองฝั่งประเมินแต่ละกรณีอย่างไรและทำไมถึงได้ข้อสรุปต่างกัน ผมไม่รู้ว่ามันจะมีประสิทธิผลทางวิทยาศาสตร์ได้มากแค่ไหน
ใครจะรับประกันได้ว่าในอีก 43% ที่เหลือ แพทย์จะไม่สามารถพบ จุดบอด ที่ AI มองไม่เห็น
เครื่องมือมีไว้เพื่อผสานแรง ไม่ใช่เพื่อทดแทน
การโยนตัวเลขเปอร์เซ็นต์แบบนี้ใส่สาธารณะถือว่าค่อนข้างไร้ความรับผิดชอบ