OpenAI o1 วินิจฉัยผู้ป่วยห้องฉุกเฉินได้แม่นยำ 67% ขณะที่แพทย์คัดแยกทำได้ 50–55%

(theguardian.com)

1 คะแนน โดย GN⁺ 1 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ในงานวิจัยของ Harvard โมเดลการให้เหตุผล o1 ของ OpenAI แสดงความแม่นยำสูงกว่าแพทย์มนุษย์ในการวินิจฉัยเบื้องต้นแบบ คัดแยกผู้ป่วย (triage) ในห้องฉุกเฉิน และ LLM ถูกประเมินว่าเหนือกว่ามาตรฐานอ้างอิงส่วนใหญ่ของการให้เหตุผลทางคลินิก
ในการทดลองที่ให้อ่านเวชระเบียนอิเล็กทรอนิกส์มาตรฐานของผู้ป่วย 76 คน ที่มาห้องฉุกเฉินของโรงพยาบาลในบอสตัน o1 ให้การวินิจฉัยที่ถูกต้องหรือใกล้เคียงมากได้ 67% ส่วนแพทย์มนุษย์ 2 คนทำได้ 50–55%
เมื่อมีรายละเอียดเพิ่มเติม ความแม่นยำของ AI เพิ่มเป็น 82% ขณะที่ผู้เชี่ยวชาญมนุษย์อยู่ที่ 70–79% แต่ความแตกต่างนี้ไม่มีนัยสำคัญทางสถิติ
AI ยังทำได้ดีกว่าแพทย์ 46 คนในโจทย์ด้าน การวางแผนการรักษาระยะยาว เช่น การให้ยาปฏิชีวนะหรือการวางแผนดูแลระยะท้าย โดยในกรณีศึกษาทางคลินิก 5 กรณี AI ได้คะแนน 89% ส่วนแพทย์มนุษย์ที่ใช้ข้อมูลอ้างอิงเดิมได้ 34%
งานวิจัยนี้เปรียบเทียบเฉพาะข้อมูลผู้ป่วยที่ถ่ายทอดเป็นข้อความได้ และไม่ได้ทดสอบ สัญญาณที่ไม่ใช่คำพูด จึงมีข้อจำกัดว่าบทบาทของมันใกล้เคียงกับการเป็น ความเห็นที่สอง จากเอกสาร มากกว่าการแทนที่แพทย์จริงในภาคสนาม

ผลลัพธ์สำคัญของการทดลองคัดแยกผู้ป่วยฉุกเฉินของ Harvard

งานวิจัยของ Harvard พบว่าระบบ AI ทำผลงานได้ดีกว่าแพทย์มนุษย์ในด้านความแม่นยำของการวินิจฉัยในสถานการณ์ คัดแยกผู้ป่วย (triage) ของเวชศาสตร์ฉุกเฉิน
ผลลัพธ์ที่เผยแพร่ใน Science มาจากการทดลองที่เปรียบเทียบคำตอบของแพทย์หลายร้อยคนกับคำตอบของ AI และผู้เชี่ยวชาญอิสระประเมินว่า AI แสดงให้เห็นถึง “ความก้าวหน้าที่แท้จริง” ในการให้เหตุผลทางคลินิก
โมเดลภาษาขนาดใหญ่ (LLM) ถูกประเมินว่า “ก้าวข้ามมาตรฐานอ้างอิงส่วนใหญ่ของการให้เหตุผลทางคลินิก”
ความได้เปรียบของ AI เด่นชัดเป็นพิเศษในสถานการณ์ คัดแยกผู้ป่วยเบื้องต้นในห้องฉุกเฉิน ที่มีข้อมูลจำกัดและต้องตัดสินใจอย่างรวดเร็ว

การทดลองวินิจฉัยผู้ป่วยห้องฉุกเฉิน 76 คน

ในการทดลองกับผู้ป่วย 76 คน ที่มาถึงห้องฉุกเฉินของโรงพยาบาลในบอสตัน AI และแพทย์มนุษย์ 2 คนอ่านเวชระเบียนอิเล็กทรอนิกส์มาตรฐานเดียวกันแล้วทำการวินิจฉัย
เวชระเบียนอิเล็กทรอนิกส์โดยทั่วไปประกอบด้วยสัญญาณชีพ ข้อมูลประชากร และข้อความไม่กี่ประโยคจากพยาบาลที่อธิบายเหตุผลที่ผู้ป่วยมารับการรักษาที่โรงพยาบาล
โมเดลการให้เหตุผล o1 ของ OpenAI สามารถหาการวินิจฉัยที่ถูกต้องหรือใกล้เคียงมากได้ใน 67% ของกรณี ขณะที่แพทย์มนุษย์มีความแม่นยำ 50–55%
เมื่อมีการให้รายละเอียดเพิ่มเติม ความแม่นยำในการวินิจฉัยของ AI เพิ่มเป็น 82% ขณะที่ผู้เชี่ยวชาญมนุษย์ทำได้ 70–79% แต่ความแตกต่างนี้ไม่มีนัยสำคัญทางสถิติ

การทดลองวางแผนการรักษาระยะยาว

AI ยังทำได้ดีกว่ากลุ่มแพทย์มนุษย์ที่ใหญ่กว่าในงาน การวางแผนการรักษาระยะยาว เช่น การเสนอแนวทางยาปฏิชีวนะหรือการวางแผนกระบวนการดูแลระยะท้าย
AI และแพทย์ 46 คนได้ทบทวนกรณีศึกษาทางคลินิก 5 กรณี และ AI จัดทำแผนที่ดีกว่าแพทย์มนุษย์ที่ใช้ข้อมูลอ้างอิงเดิมอย่างมีนัยสำคัญ
คะแนนอยู่ที่ AI 89% ขณะที่แพทย์มนุษย์ที่ใช้ข้อมูลอ้างอิงแบบเดิม เช่น เสิร์ชเอนจิน ได้ 34%

ข้อจำกัดของงานวิจัยและการเปลี่ยนบทบาทในภาคการแพทย์

งานวิจัยนี้เปรียบเทียบมนุษย์กับ AI โดยใช้เฉพาะข้อมูลผู้ป่วยที่สามารถถ่ายทอดเป็นข้อความได้
ความสามารถของ AI ในการอ่าน สัญญาณที่ไม่ใช่คำพูด เช่น ระดับความเจ็บปวดของผู้ป่วยหรือรูปลักษณ์ที่มองเห็น ยังไม่ได้ถูกทดสอบ
ดังนั้น AI จึงมีบทบาทใกล้เคียงกับแพทย์ที่ให้ ความเห็นที่สอง จากเอกสาร มากกว่าจะบอกว่าได้แทนที่แพทย์ห้องฉุกเฉินจริงแล้ว
Arjun Manrai ผู้ดูแลสถาบันวิจัย AI แห่ง Harvard Medical School กล่าวว่า ผลลัพธ์นี้ไม่ได้หมายความว่า AI จะมาแทนที่แพทย์ แต่หมายถึงกำลังมี “การเปลี่ยนแปลงทางเทคโนโลยีที่ลึกซึ้งมาก” ซึ่งจะปรับโฉมวงการแพทย์
Adam Rodman แพทย์จาก Beth Israel Deaconess medical centre ในบอสตัน ซึ่งเป็นสถานที่ทำวิจัย มองว่า AI LLM เป็นหนึ่งใน “เทคโนโลยีที่ทรงอิทธิพลที่สุดในรอบหลายทศวรรษ”
Rodman คาดว่าในอีก 10 ปีข้างหน้า AI จะไม่ได้มาแทนที่แพทย์ แต่จะเข้าร่วมใน โมเดลการดูแลแบบสามฝ่าย ใหม่ ที่มีแพทย์ ผู้ป่วย และระบบ AI ทำงานร่วมกัน

กรณีศึกษาทางคลินิกและการให้เหตุผลของ AI

ในหนึ่งกรณีจากงานวิจัยของ Harvard ผู้ป่วยมีภาวะลิ่มเลือดอุดตันในปอดและอาการทรุดลง
แพทย์มนุษย์ตัดสินว่ายาต้านการแข็งตัวของเลือดกำลังล้มเหลว แต่ AI จับประเด็นได้ว่าผู้ป่วยมี ประวัติโรคลูปัส ซึ่งอาจทำให้เกิดการอักเสบในปอดได้
ภายหลังยืนยันว่าการประเมินของ AI ถูกต้อง

การใช้ AI ทางการแพทย์ที่กำลังแพร่หลายอยู่แล้ว

งานวิจัย ที่เผยแพร่เมื่อเดือนที่แล้วระบุว่า แพทย์ในสหรัฐฯ ราว 1 ใน 5 คน ใช้ AI ช่วยการวินิจฉัยอยู่แล้ว
ในสหราชอาณาจักร แพทย์ 16% ใช้ AI ทุกวัน และอีก 15% ใช้ทุกสัปดาห์
ตาม แบบสำรวจล่าสุดของ Royal College of Physicians หนึ่งในการใช้งานที่พบบ่อยของแพทย์ในสหราชอาณาจักรคือ การตัดสินใจทางคลินิก
สิ่งที่แพทย์ในสหราชอาณาจักรกังวลมากที่สุดคือความผิดพลาดของ AI และความเสี่ยงด้านความรับผิดชอบ
แม้จะมีการลงทุนหลายพันล้านดอลลาร์ในบริษัท AI ด้านสุขภาพ แต่คำถามเรื่องผลกระทบจากความผิดพลาดของ AI ก็ยังคงมีอยู่
Rodman กล่าวว่า ปัจจุบันยังไม่มีกรอบอย่างเป็นทางการสำหรับระบุความรับผิด และย้ำว่าท้ายที่สุดแล้วผู้ป่วยต้องการให้มนุษย์เป็นผู้ชี้นำการตัดสินใจเรื่องความเป็นความตายและการรักษาที่ยากลำบาก

การประเมินจากผู้เชี่ยวชาญภายนอกและข้อควรระวัง

ศาสตราจารย์ Ewen Harrison ผู้ร่วมอำนวยการศูนย์สารสนเทศทางการแพทย์แห่ง University of Edinburgh ประเมินว่างานวิจัยนี้มีความสำคัญ และระบบลักษณะนี้ไม่ได้อยู่แค่ระดับการสอบผ่านการแพทย์หรือแก้โจทย์ทดสอบเทียมอีกต่อไป
Harrison มองว่า AI เริ่มมีลักษณะเป็น เครื่องมือความเห็นที่สอง ที่มีประโยชน์ต่อแพทย์ โดยเฉพาะเมื่อจำเป็นต้องพิจารณาความเป็นไปได้ของการวินิจฉัยที่กว้างขึ้นและไม่พลาดประเด็นสำคัญ
Wei Xing จากคณะวิทยาศาสตร์คณิตศาสตร์และกายภาพแห่ง University of Sheffield มองว่าผลลัพธ์อื่นบางส่วนชี้ว่าแพทย์อาจเผลอทำตามคำตอบของ AI โดยไม่รู้ตัว แทนที่จะคิดอย่างอิสระ
Xing กล่าวว่าเมื่อ AI ถูกใช้ในสภาพแวดล้อมทางคลินิกเป็นกิจวัตรมากขึ้น แนวโน้มเช่นนี้อาจยิ่งเพิ่มขึ้น
Xing ชี้ว่าข้อมูลยังไม่เพียงพอว่า AI ทำการวินิจฉัยได้แย่ลงกับผู้ป่วยกลุ่มใด เช่น ผู้สูงอายุหรือผู้ป่วยที่ไม่ได้ใช้ภาษาอังกฤษเป็นภาษาแม่หรือไม่
Xing กล่าวว่า งานวิจัยนี้ไม่ได้พิสูจน์ว่า AI ปลอดภัยสำหรับการใช้งานทางคลินิกในชีวิตประจำวัน หรือว่าประชาชนควรใช้เครื่องมือ AI ที่เข้าถึงได้อย่างเสรีแทนคำแนะนำทางการแพทย์

1 ความคิดเห็น

GN⁺ 1 시간 전

ความคิดเห็นจาก Hacker News

งานวิจัยแบบนี้ทำให้ เกณฑ์วัดพังได้ง่ายมาก เลยต้องระวังอย่างมากเรื่องความน่าเชื่อถือ
ตัวอย่างเช่น มีงานวิจัยล่าสุดที่ AI เอาชนะรังสีแพทย์ในการอ่านเอกซเรย์ แต่จริง ๆ แล้ว AI ไม่ได้เข้าถึงภาพเอกซเรย์ด้วยซ้ำ: https://arxiv.org/pdf/2603.21687
มันเป็นเกณฑ์วัดเดิมสำหรับ “ความเข้าใจเอกซเรย์ทรวงอกทั่วไปผ่าน visual question answering ขนาดใหญ่” และก็ไม่ได้ถูกทำให้พังโดยเจตนา
ยิ่งไปกว่านั้น ในการอ่านเอกซเรย์ มนุษย์ซึ่งเป็นรังสีแพทย์ได้ดูภาพเอกซเรย์จริง ๆ แต่ในบริบทของบทความนี้ แพทย์มนุษย์ไม่ได้วินิจฉัยผู้ป่วยฉุกเฉินจากการดูแค่โน้ตเพียงอย่างเดียว
มันเหมือนสั่งให้ทำงานที่ทั้งไม่จำเป็น ไม่คุ้นเคย และไม่เคยฝึกมา แล้วค่อยบอกว่า “AI ทำได้ดีกว่า” ดังนั้นต่อให้โน้ตไม่ได้หลุดคำตอบผ่านทางอ้อมแปลก ๆ ก็ไม่น่าแปลกใจ
ไม่ได้หมายความว่างานวิจัยนี้ผิดแน่ ๆ หรือจงใจหลอกลวง แต่ผมคงไม่สรุปแรง ๆ จาก งานวิจัยชิ้นเดียว
- สำหรับงานวิจัยชิ้นนี้โดยเฉพาะ ผมเห็นด้วย แต่ในระยะยาวผมไม่ค่อยเข้าใจแนวคิดที่ว่าแพทย์จะเก่งกว่าโมเดล AI เสมอไป
  สุดท้ายแล้ว การแพทย์คือเรื่องของความรู้ ประสบการณ์ สติปัญญา และอาจรวมถึง การจดจำรูปแบบ ซึ่งสิ่งเหล่านี้ดูเป็นเรื่องที่โมเดล AI ที่ดีที่สุด โดยเฉพาะโมเดลที่โฟกัสด้านการแพทย์ จะเหนือกว่ามนุษย์ส่วนใหญ่รวมถึงแพทย์ได้มาก
  ถ้าเราตั้งสมมติฐานแบบนี้กับวิศวกรซอฟต์แวร์อยู่แล้ว ก็ต้องใช้กับสาขานี้ด้วย และในทางปฏิบัติ ช่วงไม่กี่เดือนที่ผ่านมา ทุกครั้งที่ผมไปหาแพทย์ รวมถึงเข้าห้องฉุกเฉินสองครั้ง ผมเห็นทุกคนใช้ ChatGPT อยู่จริง ๆ ไม่ได้พูดเล่น มันน่าตกใจมาก
  เลยสงสัยจริง ๆ ว่า ถ้าไม่นับเรื่องความรับผิดชอบและจริยธรรม มองกันล้วน ๆ แล้ว มี ความสามารถเฉพาะ หรือชุดความสามารถอะไรที่ทำให้เชื่อได้ว่า AI ทางการแพทย์ระดับบนจะไม่สามารถตามทันหรือแซงแพทย์มนุษย์ที่เก่งมากได้อย่างถาวร หรืออย่างน้อยก็ในอีกหลายสิบปีข้างหน้า?
- น่าสนใจที่งานวิจัยล่าสุดซึ่งใช้ ChatGPT Health กลับได้ผลค่อนข้างต่างออกไป: https://www.nature.com/articles/s41591-026-04297-7
  ในงานนี้มันจัด ระดับความรุนแรงฉุกเฉิน ผิดไปประมาณครึ่งหนึ่ง
- ถ้าอ่านบทความจนจบ จะเห็นว่าเมื่อให้ทั้งแพทย์และโมเดลภาษาขนาดใหญ่อ่าน บันทึกเคสทั้งหมด ช่องว่างนั้นก็หายไปตามเกณฑ์นัยสำคัญทางสถิติ
  ตัวเลขในพาดหัวอ้างอิงผลจากการวินิจฉัยเบื้องต้นโดยดูแค่โน้ตของพยาบาลเท่านั้น ส่วนตัวผมเดาว่าในชุดกรณีศึกษาที่คัดมา โมเดลภาษาขนาดใหญ่น่าจะกล้าเดามากกว่าแพทย์
- แพทย์เองก็พลาดได้เพราะ อคติทางการรับรู้ ของมนุษย์ และก็ดูสมเหตุสมผลว่าคนเรามักยึดติดกับรูปแบบที่ตัวเองคุ้นเคยที่สุด
- ผมยังอ่านงานที่ลิงก์ไว้ไม่จบ แต่สมมติฐานที่ว่าถ้าไม่ให้เข้าถึงเอกซเรย์แล้วผลลัพธ์จะกลายเป็นภาพลวงตาหรือเรื่องหลอกตานั้นน่าสนใจดี
  มันดูเป็นข้อสรุปที่สมเหตุสมผลมาก แต่ก็ข้ามความเป็นไปได้อื่นไป เช่น เอกซเรย์เองทำให้ผลลัพธ์ไม่แม่นยำขึ้นหรือเปล่า?
ผมแปลกใจที่ทั้งบทความและงานวิจัยดูโอเวอร์พอสมควร นี่คือการให้แพทย์มาแข่งในเงื่อนไขที่ออกแบบมาให้โมเดลภาษาขนาดใหญ่ได้เปรียบอย่างมาก และ ไม่ได้เป็นตัวแทนของการดูแลรักษาทางคลินิก
กรณีการให้เหตุผลแบบนี้เป็นเครื่องมือการเรียนรู้ ไม่ใช่ benchmark สำหรับแพทย์
การวินิจฉัยขึ้นอยู่กับการอธิบายผู้ป่วยให้ถูกต้องตั้งแต่แรก และข้อมูลที่เก็บมาก็แตกต่างกันไปตามการวินิจฉัยแยกโรค
หนึ่งในความสามารถของแพทย์คือการรวบรวมข้อมูลจากหลายแหล่งและคัดสิ่งสำคัญออกมา ผู้ป่วยอาจอธิบายไม่ชัด หรือสื่อสารแบบไม่ใช้คำพูด หรืออาจต้องได้ข้อมูลจากผู้ดูแลหรือครอบครัว
การซักประวัติเองก็เป็นทักษะ การตรวจร่างกายก็เช่นกัน แต่ที่นี่ข้อมูลเหล่านั้นถูกป้อนมาให้เสร็จแล้ว
โดยเฉพาะถ้าเป็นคำถามที่อาจอยู่ในข้อมูลฝึกของ o1 การที่มันเหนือกว่าแพทย์ในแง่การจับรูปแบบจากข้อความล้วน ๆ ก็ไม่ได้น่าแปลกใจเลย แต่ดูไม่ใช่การเปรียบเทียบที่มีประโยชน์ทางคลินิกนัก
การตัดสินใจว่าจะตรวจอะไร จะถ่ายภาพหรือไม่ จะคัดข้อมูลที่ไม่จำเป็นออกจากประวัติอย่างไร ทั้งหมดนี้ก็เป็นทักษะแยกต่างหากและแยกจากการสร้างข้อวินิจฉัยได้ยาก
- เราควรดูการวิเคราะห์กรณีวินิจฉัยผิดด้วย เป้าหมายของแพทย์มนุษย์ไม่ใช่การได้ความแม่นยำสูงสุด แต่คือการลด อันตรายรวมต่อผู้ป่วย
  ในบางกรณี แม้การเลือก X จะได้เปรียบเชิงความน่าจะเป็น แต่ความต่างอาจไม่มาก และทางเลือกที่ปลอดภัยกว่าคือการตัดความเป็นไปได้อื่นออกก่อน หรือเริ่มการรักษาที่ปลอดภัยซึ่งครอบคลุมหลายความเป็นไปได้
  การได้ “คะแนนสูง” ในการประเมินแบบนี้ไม่ได้แปลว่าเป็นการรักษาพยาบาลที่ดีเสมอไป
แม้ผมจะไม่ให้น้ำหนักกับงานวิจัยนี้มากนัก แต่คิดว่าหลายคนน่าจะยอมรับได้ว่า โมเดลภาษาขนาดใหญ่สำหรับการวินิจฉัยตนเอง มีประโยชน์
ในสหรัฐฯ การได้รับความสนใจและการรักษาจากแพทย์เป็นเรื่องยาก จนในที่สุดคนก็ต้องช่วยตัวเอง
เมื่อ 10 ปีก่อน แพทย์ยังบ่นว่าคนไข้ชอบเอาสิ่งที่หาได้จาก Google มาพูด แต่ตอนนี้ผมมองว่าไม่มีทางเลือกอื่น
ตัวอย่างเช่น ผมไปหาผู้เชี่ยวชาญด้านเท้าและข้อเท้าเพราะมีปัญหาที่เท้าและข้อเท้า ปัญหาที่เท้าวินิจฉัยจากเอกซเรย์ได้ แต่เรื่องข้อเท้าแพทย์กลับยักไหล่บอกว่าเอกซเรย์ไม่เห็นอะไร
เวลา 15 นาทีที่จัดไว้หมดลง แล้วผมก็เดินออกมาโดยไม่รู้ทั้งสาเหตุและวิธีแก้ แต่ถามโมเดลภาษาขนาดใหญ่แค่ 5 นาที มันก็ให้ สาเหตุของปัญหาข้อเท้าที่ฟังดูเป็นไปได้ และยังสอดคล้องกับการวินิจฉัยเรื่องเท้าด้วย
- ผมไม่คิดว่าการใช้โมเดลภาษาขนาดใหญ่ในทางการแพทย์จะเป็นคำตอบที่เหมาะสมต่อปัญหาระบบสาธารณสุขของสหรัฐฯ
  ถ้าบริษัทด้านสุขภาพเลือกใช้ AI เพื่อเพิ่มจำนวนคนไข้ต่อวัน แทนที่จะใช้เพื่อปรับปรุงการดูแลผู้ป่วย สถานการณ์น่าจะแย่ลงกว่าเดิมด้วยซ้ำ
การบอกว่า “ให้ AI กับแพทย์มนุษย์สองคนอ่านเวชระเบียนอิเล็กทรอนิกส์มาตรฐานชุดเดียวกัน” หมายถึงการจำกัดความสามารถของแพทย์มนุษย์
แพทย์มนุษย์สามารถได้ข้อมูลมากกว่านั้นมากเพียงแค่สังเกตผู้ป่วยแวบเดียว
- จะพูดแบบเดียวกันกับ AI ก็ได้นี่?
- ในทางกลับกัน ก็มีคำพูดว่า “แทบไม่มีอะไรอันตรายไปกว่าผู้เชี่ยวชาญที่เข้าถึงข้อมูลซึ่งเปิดให้ตีความได้อย่างไร้ขอบเขตเหมือนการสัมภาษณ์ทางคลินิก”
  https://entropicthoughts.com/arithmetic-models-better-than-y...
- เห็นด้วย ผมคิดว่าวิธีใช้เทคโนโลยีนี้ที่ดีที่สุดคือเอาจุดแข็งของทั้งสองฝั่งมาใช้ร่วมกัน
  ให้ AI ช่วยทบทวนบันทึกและเสนอรายการวินิจฉัยที่เป็นไปได้ แล้วให้แพทย์ตรวจดูผู้ป่วยก่อนกลับมาทบทวนอีกครั้ง แบบนี้น่าจะดี
  อีกอย่าง โรคที่พบบ่อยก็ยังพบบ่อยจริง ๆ ผมเองก็สงสัยว่าสุดท้ายสิ่งนี้ทำให้ทั้งแพทย์และโมเดลภาษาขนาดใหญ่มีอคติมากแค่ไหน
  ถ้ามีคนมาด้วยอาการน้ำมูกไหลกับไอ แล้ววินิจฉัยว่าเป็นไข้หวัดใหญ่ ส่วนใหญ่ก็มักจะถูก
- รู้สึกว่าเป็นข้อสังเกตที่สำคัญมาก และนอกเหนือจากนี้ ก็น่าสนใจถ้าจะลองใส่วิดีโอสั้น ๆ หรือรูปภาพให้ AI ใช้ประโยชน์ได้ด้วย
- แถมตอนนี้เครือข่ายบริการสุขภาพก็กำลังกดดันให้แพทย์ใช้ ซอฟต์แวร์ถอดเสียงด้วย AI เพื่อกรอกเวชระเบียนอิเล็กทรอนิกส์
  แพทย์กับพยาบาลชอบเพราะไม่ต้องพิมพ์เอง แต่การตรวจทานข้อผิดพลาดจากการถอดเสียงที่เกิดขึ้นค่อนข้างบ่อยกลับเละเทะมาก
  จากนั้นก็เอาข้อความถอดเสียงที่มีตำหนินี้ไปป้อนให้ระบบ AI วินิจฉัยต่อได้เลย AI จะรับมันเป็นความจริงทั้งหมด แต่แพทย์อาจหยุดแล้วถามว่า “เดี๋ยวก่อน อะไรเนี่ย?”
ผมเคยใช้โมเดลภาษาขนาดใหญ่ช่วยวินิจฉัยทั้งของตัวเอง ของภรรยา และแม้แต่ของสุนัข
ผมเชื่อมากว่ามีโอกาสใหญ่สำหรับ สัตวแพทย์ที่ขับเคลื่อนด้วย AI โดยเฉพาะถ้าทำต่อยอดไปถึงการให้คลินิกสัตวแพทย์ในพื้นที่เสนอราคาแข่งขันกันสำหรับการรักษาหรือการผ่าตัดได้
ราคาของคลินิกสัตวแพทย์ในพื้นที่ต่างกันได้มากกว่า 10 เท่า แม่ผมกับแม่ยายซึ่งอายุ 80 ทั้งคู่ มักโดนสัตวแพทย์ที่คิดราคาเกินจริงเล่นงาน และเพราะสัตว์เลี้ยงเป็นส่วนสำคัญของชีวิต พวกเธอจึงเปราะบางต่อแรงกดดันมาก
ผมไม่เข้าใจปฏิกิริยาเชิงลบที่นี่เลย แค่คอมพิวเตอร์ทำได้ถึงราว 30% ก็ถือว่าน่าทึ่งแล้ว
ดูเหมือนจะมีความเป็นปฏิปักษ์ต่อ AI และต่อแล็บแนวหน้าพวก OpenAI หรือฝั่ง Google มากเกินไปจนไม่สมเหตุสมผล
- จริงที่บรรยากาศเชิงลบต่อ AI มีเยอะ แต่การศึกษานี้ก็มีข้อจำกัดจริง
  สำหรับผม ประเด็นสำคัญคือ AI ได้รับบันทึกเคสของผู้ป่วย แต่ ไม่ได้เห็นผู้ป่วยโดยตรง
  นี่ต่างจากวิธีที่แพทย์ได้รับการฝึก และเป็นการจำกัดสิ่งที่แพทย์ทำได้โดยไม่จำเป็น คุณค่าส่วนใหญ่ที่แพทย์มอบให้มาจากการพูดคุยกับผู้ป่วย
  พาดหัวทำให้ฟังเหมือน AI กำลังจะแทนที่แพทย์ แต่ในความเป็นจริงมันใกล้กับคำว่า “AI ทำงานแคบ ๆ นี้ได้ดีกว่าแพทย์” มากกว่า
  และโน้ตที่ใช้ก็น่าจะถูกเขียนโดยแพทย์ตั้งแต่แรกด้วย
  รางวัลที่แท้จริงคือการทำให้ชุดแพทย์+AI ดีกว่าแพทย์ล้วน ๆ ถ้าแพทย์ต้องอ่านบันทึกเคสแล้วสรุปผล ตอนนี้อย่างน้อยก็มีข้อเสนอจาก AI ที่ใช้ได้ดีพอสมควรให้หยิบมาใช้
- ผมไม่รู้ว่าทำไมถึงไม่เข้าใจ ความเห็นวิจารณ์ที่ได้โหวตสูงส่วนใหญ่ก็อธิบายเหตุผลไว้ค่อนข้างดี และเหตุผลเหล่านั้นก็ไม่ได้เทคนิคจ๋ามาก
  ยิ่งมีเรื่องเดิมพันสูง เราก็ควรจะ วิจารณ์ให้มากขึ้น ไม่ใช่น้อยลง
- คนก็พูดแบบนั้นกับ Enron เหมือนกัน
  ความสงสัยแบบมีวิจารณญาณ เป็นเครื่องมือที่มีประโยชน์มหาศาล แม้จะมากเกินไปก็ตาม
- พูดตรง ๆ ว่าผมดีใจที่คนรู้จักในวงการแพทย์เริ่มรู้สึกถึง ความหวาดกลัวเชิงอัตถิภาวนิยม แบบเดียวกับที่ผมรู้สึกว่า AI อาจมาแย่งงาน จากอาชีพรายได้สูงที่มั่นคงสบายและมีลักษณะกึ่งคาร์เทลคอยหนุนหลัง
ผมอายุ 60 ปี และได้สร้างเครื่องมือช่วยทางการแพทย์ด้วย AI [1] เอง ใช้มันอย่างกว้างขวางกับอาการหลายอย่าง และพอใจมาก
หลังจากวิเคราะห์ผลตรวจบางอย่างแล้ว มันยังแนะนำตัวชี้วัดที่แพทย์ไม่ได้พิจารณาในตอนแรกด้วย
มันไม่ได้มาแทนแพทย์ แต่เป็นเครื่องมือที่มีประโยชน์มากสำหรับการวินิจฉัยตนเองในอาการง่าย ๆ และการขอ ความเห็นที่สอง
[1] https://mediconsulta.net (DeepSeek)
ผมสงสัยว่า 33% นั้นเป็นสับเซตของ 50~45% หรือเปล่า
ถ้าไม่ใช่สับเซต ความผิดพลาดนั้นร้ายแรงแค่ไหน? มีผู้เสียชีวิตมากขึ้นไหม? ใช้เวลาฟื้นตัวนานขึ้นไหม? ความต่างนั้นนำไปสู่อะไรจริง ๆ?
งานวิจัย: https://www.science.org/doi/10.1126/science.adz4433 (30 เมษายน 2026)
ความต่างระหว่าง 67% กับ 55% ใหญ่มากแค่ไหน? งานวิจัยนี้ใช้ผู้ป่วยชุดเดียวกับที่แพทย์ดูหรือไม่?
ถ้าไม่ได้เปรียบเทียบเคียงกันว่าทั้งสองฝั่งประเมินแต่ละกรณีอย่างไรและทำไมถึงได้ข้อสรุปต่างกัน ผมไม่รู้ว่ามันจะมีประสิทธิผลทางวิทยาศาสตร์ได้มากแค่ไหน
ใครจะรับประกันได้ว่าในอีก 43% ที่เหลือ แพทย์จะไม่สามารถพบ จุดบอด ที่ AI มองไม่เห็น
เครื่องมือมีไว้เพื่อผสานแรง ไม่ใช่เพื่อทดแทน
การโยนตัวเลขเปอร์เซ็นต์แบบนี้ใส่สาธารณะถือว่าค่อนข้างไร้ความรับผิดชอบ

OpenAI o1 วินิจฉัยผู้ป่วยห้องฉุกเฉินได้แม่นยำ 67% ขณะที่แพทย์คัดแยกทำได้ 50–55%

ผลลัพธ์สำคัญของการทดลองคัดแยกผู้ป่วยฉุกเฉินของ Harvard

การทดลองวินิจฉัยผู้ป่วยห้องฉุกเฉิน 76 คน

การทดลองวางแผนการรักษาระยะยาว

ข้อจำกัดของงานวิจัยและการเปลี่ยนบทบาทในภาคการแพทย์

กรณีศึกษาทางคลินิกและการให้เหตุผลของ AI

การใช้ AI ทางการแพทย์ที่กำลังแพร่หลายอยู่แล้ว

การประเมินจากผู้เชี่ยวชาญภายนอกและข้อควรระวัง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News