ผู้ตรวจสอบของออนแทรีโอเผย AI จดบันทึกสำหรับแพทย์ผิดพลาดซ้ำๆ ในข้อเท็จจริงพื้นฐาน

(theregister.com)

1 คะแนน โดย GN⁺ 5 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

พบว่าใน ระบบ AI Scribe 20 ระบบ ที่ออนแทรีโออนุมัติให้ผู้ให้บริการทางการแพทย์ใช้งาน มีการละข้อมูลสำคัญ แทรกข้อมูลผิด และสร้างเนื้อหาที่ไม่ได้มีการพูดขึ้นมา
การประเมินการจัดซื้อใช้วิธีเทียบ ไฟล์บันทึกเสียงจำลองระหว่างแพทย์-ผู้ป่วย กับบันทึกการรักษาที่ AI สร้างขึ้นโดยผู้เชี่ยวชาญทางการแพทย์ และมี 9 ระบบที่ถึงขั้นแต่งข้อเสนอแผนการรักษาขึ้นมาด้วย
12 ระบบใส่ ข้อมูลยาไม่ถูกต้อง และ 17 ระบบพลาด รายละเอียดสำคัญด้านสุขภาพจิต ของผู้ป่วยที่มีอยู่ในไฟล์บันทึกเสียง
OntarioMD แนะนำให้แพทย์ตรวจทานบันทึกที่ AI สร้างด้วยตนเอง แต่ในระบบที่ได้รับอนุมัติ ไม่มีระบบใด มีฟังก์ชันบังคับยืนยันความถูกต้อง
ในคะแนนประเมินนั้น การมี ฐานปฏิบัติการในประเทศ มีสัดส่วน 30% ขณะที่ความแม่นยำของบันทึกทางการแพทย์มีเพียง 4% และการควบคุมอคติกับการประเมินความเสี่ยง·ความเป็นส่วนตัวมีอย่างละ 2%

รายงานการตรวจสอบและวิธีประเมิน

รายงานเกี่ยวกับสถานะการใช้งาน AI ในภาครัฐ ของ Office of the Auditor General of Ontario ในแคนาดา มีเนื้อหาเกี่ยวกับการประเมินโครงการ AI Scribe ของกระทรวงสาธารณสุขออนแทรีโอ
โครงการนี้ครอบคลุมการจัดซื้อเครื่องมือ AI สำหรับจดบันทึกที่มุ่งใช้กับแพทย์ พยาบาลเวชปฏิบัติ และบุคลากรทางการแพทย์อื่นๆ
ในกระบวนการจัดซื้อ มีการใช้ ไฟล์บันทึกเสียงจำลองระหว่างแพทย์-ผู้ป่วย และให้ผู้เชี่ยวชาญทางการแพทย์เปรียบเทียบไฟล์ต้นฉบับกับบันทึกการรักษาที่ AI สร้างขึ้นเพื่อพิจารณาความถูกต้อง

ข้อผิดพลาดที่ตรวจพบ

จาก 20 ระบบ มี 9 ระบบที่ แต่งข้อมูล ซึ่งไม่ได้ถูกพูดถึงในไฟล์บันทึกเสียง และสร้างข้อเสนอแผนการรักษาสำหรับผู้ป่วยขึ้นมา
รายงานตัวอย่างมี ข้อมูลผิดที่อาจร้ายแรง เช่น “ไม่พบก้อนเนื้อ” หรือ “ผู้ป่วยมีอาการวิตกกังวล” ทั้งที่เนื้อหาเหล่านี้ไม่ได้ถูกพูดถึงในไฟล์บันทึกเสียง
จาก 20 ระบบ มี 12 ระบบที่ใส่ ข้อมูลยาไม่ถูกต้อง ลงในบันทึกผู้ป่วย
จาก 20 ระบบ มี 17 ระบบที่พลาด รายละเอียดสำคัญเกี่ยวกับสุขภาพจิต ของผู้ป่วยที่ถูกกล่าวถึงในไฟล์บันทึกเสียง
มี 6 ระบบที่ละประเด็นสุขภาพจิตของผู้ป่วยทั้งหมดหรือบางส่วน หรือพลาดรายละเอียดสำคัญ

การตรวจทานด้วยตนเองและมาตรการป้องกัน

OntarioMD ซึ่งสนับสนุนการนำเทคโนโลยีใหม่มาใช้โดยแพทย์และมีส่วนเกี่ยวข้องกับกระบวนการจัดซื้อ AI Scribe แนะนำให้แพทย์ตรวจทานความถูกต้องของบันทึกที่ AI สร้างขึ้นด้วยตนเอง
ตามรายงานการตรวจสอบ ไม่มีระบบ AI Scribe ที่ได้รับอนุมัติระบบใดมี ฟังก์ชันบังคับยืนยัน ว่าแพทย์ได้ตรวจสอบความถูกต้องแล้ว

ปัญหาเรื่องน้ำหนักการประเมิน

ผลงานที่อยู่ในระดับต่ำส่วนหนึ่งเชื่อมโยงกับปัญหา น้ำหนักการประเมิน
30% ของคะแนนประเมินแพลตฟอร์มถูกจัดสรรให้กับการมี ฐานปฏิบัติการในออนแทรีโอ ขณะที่ความแม่นยำของบันทึกทางการแพทย์คิดเป็นเพียง 4% ของคะแนนรวม
การควบคุมอคติ คิดเป็น 2% ของคะแนนประเมินทั้งหมด ขณะที่การประเมินภัยคุกคาม·ความเสี่ยง·ความเป็นส่วนตัวอยู่ที่ 2% และการปฏิบัติตาม SOC 2 Type 2 อยู่ที่ 4%
น้ำหนักลักษณะนี้อาจนำไปสู่การคัดเลือกผู้ขายที่สร้างเวชระเบียนไม่ถูกต้องหรือมีอคติได้ หรือไม่มีมาตรการเพียงพอในการปกป้องข้อมูลสุขภาพส่วนบุคคลที่อ่อนไหว

การตอบสนองของกระทรวงสาธารณสุขออนแทรีโอ

The Register ได้สอบถาม Ontario Health Ministry ถึงจุดยืนต่อรายงานดังกล่าวและมีแผนจะปฏิบัติตามข้อเสนอแนะของโครงการ AI Scribe หรือไม่ แต่ยังไม่ได้รับคำตอบในทันที
โฆษกกระทรวงสาธารณสุขกล่าวกับ CBC เมื่อวันพุธว่า ขณะนี้มีแพทย์มากกว่า 5,000 คนในออนแทรีโอเข้าร่วมโครงการ AI Scribe และยังไม่ทราบรายงานความเสียหายต่อผู้ป่วยที่เกี่ยวข้องกับเทคโนโลยีนี้

1 ความคิดเห็น

GN⁺ 5 시간 전

ความคิดเห็นจาก Hacker News

ตอนนี้มุมมองต่ออนาคตของเทคโนโลยี AI โดยรวมเปลี่ยนจากมองร้ายมาเป็นมองดีมากขึ้นแล้ว แต่ถึงโมเดลจะพัฒนาไปมากแค่ไหน เรื่องที่ยังติดใจมากคือ ความผิดพลาดในข้อเท็จจริงพื้นฐาน ยังคงอยู่
เวลาใช้ Claude Opus สร้างสูตรอาหารให้ตรงกับรสนิยมและรสชาติที่ต้องการ มันเหมือนเวทมนตร์ แต่พอพลาดเรื่องพื้นฐานอย่างการแปลงหน่วยช้อนโต๊ะกับช้อนชา ความเชื่อใจก็หายวับไปทันที
มันให้ความรู้สึกเหมือนตัวละครในหนังที่ดูปกติดีแทบทั้งหมด แต่มีบางอย่างแปลก ๆ แล้วสุดท้ายกลายเป็นซอมบี้ และกรณีของตัวจดโน้ตนี้ก็คล้ายกัน คือเกือบจะใช้งานได้ดีอยู่แล้วแต่กลับพังตรงรายละเอียดสำคัญ
เวลาเห็นความล้มเหลวแบบนี้ ก็ยิ่งสงสัยว่า AI ยุคปัจจุบันแม้จะทำงานเจ๋ง ๆ ได้ถ้าจัดการดีพอ แต่จะอยู่บนเส้นทางที่ถูกต้องไปสู่ ปัญญาที่แท้จริง หรือไม่
- เห็นด้วย นี่คือ ช่องว่างระหว่างความสามารถกับความน่าเชื่อถือ ที่วงการไม่ค่อยพูดถึงกัน
  ดูเหมือนวงการ AI จะพยายามกลบเกลื่อนความจริงที่ว่าความสามารถกับความน่าเชื่อถือเป็นคุณสมบัติที่ต่างกันโดยพื้นฐาน เรามักใช้คำว่า “แม่นยำ” กับ “เชื่อถือได้” เหมือนมีความหมายเดียวกัน แต่ถึงโมเดลจะผ่าน benchmark ได้ดี ก็ยังอาจเป็นความเสี่ยงในสภาพแวดล้อมการใช้งานจริงได้
  ผลลัพธ์ล่าสุดของ METR ก็สะท้อนการตอบสนองต่อการเพิ่มขึ้นของความสามารถอย่างมาก แต่คนพูดกันน้อยกว่าว่าการวัดนั้นใช้เกณฑ์ อัตราความสำเร็จ 50% ส่วนตัวชี้วัดเสริมที่ใช้เกณฑ์อัตราความสำเร็จ 80% กลับมีช่วงเวลางานที่สั้นลงมาก: https://metr.org/
  ผมทำระบบ AI สำหรับองค์กร แต่ไม่เคยเห็นองค์กรไหนยอมรับความน่าเชื่อถือ 50% เลย ไม่ต้องพูดถึง 80%
- ผมเคยสงสัยว่า LLM เป็นเส้นทางที่ถูกต้องไปสู่ AGI หรือเปล่า แต่ก็ยังทึ่งอยู่เรื่อย ๆ ว่ามันถูกผลักไปได้ไกลแค่ไหนผ่านการขยายวิธีใช้งาน, harness สำหรับ LLM, และการออกแบบบริบทที่ดีขึ้น
  พอเห็น LLM ดูเหมือนจะสามารถออกแบบ prompt และบริบทให้ตัวเองได้จริง ๆ ก็ทำให้รู้สึกว่ามันอาจไม่ต้องพึ่งการชี้นำจากมนุษย์ตลอดไป
  สำหรับงานข้อเท็จจริงตรงไปตรงมาที่มีวิธีทำชัดเจน LLM ไม่ใช่เครื่องมือที่เหมาะ และถ้า harness แยกไม่ออกว่างานแบบนั้นควรถูกส่งต่อไปยังเครื่องมือที่ทำงานได้แน่นอนกว่านี้ ก็ถือว่าเป็นความล้มเหลวของ harness
  เหมือนเวลาที่ต้องใช้ “ทักษะ” เมื่อจำเป็น งานบางอย่างก็ควรถูกส่งต่อให้เครื่องมือหรือ “สมอง” เฉพาะทาง
  AGI ตัวแรกมีแนวโน้มจะไม่ใช่สมองเดี่ยว แต่เป็น ระบบประกอบซับซ้อน ที่มี LLM หลายตัว, harness, ทักษะ, และระบบย่อยเฉพาะโดเมนหรือเฉพาะงานทำงานร่วมกัน
- ถ้า Claude ประเมินค่าการแปลงหน่วยสูงเกินไปเป็นบางครั้ง มันอาจมาจากความต่างระหว่างช้อนโต๊ะแบบออสเตรเลียกับแบบสหรัฐฯ
  ช้อนโต๊ะแบบออสเตรเลีย คือ 4 ช้อนชา/20mL ส่วนแบบสหรัฐฯ คือ 3 ช้อนชา/15mL ดังนั้นความผิดพลาดนี้พอจะอธิบายได้บางส่วนจากความซับซ้อนของโลกจริง
  แต่ถ้ามันตอบว่า 3.14 ช้อนชาหรือ 2 ช้อนชา ก็คงอีกเรื่องหนึ่ง
- อุปมานี้ทำให้นึกถึงนิ้วมือและมือประหลาด ๆ ของโมเดลสร้างภาพเมื่อปีก่อน
  ตอนนี้ปัญหานั้นแทบถูกแก้ไปแล้ว และทุกวันนี้ยังสร้างวิดีโอที่แยกจากของจริงได้ยากอีกด้วย
  เพราะงั้นผมเลยเชื่อว่า ความผิดพลาดแบบละเอียดอ่อน พวกนี้ก็จะค่อย ๆ ลดลงต่อไป จนสุดท้ายแทบสังเกตไม่ออกในเกือบทุกงาน
- เมื่อวานผมใช้ opus 4.6 ผ่าน Copilot เพื่อ ระดมความคิดแบบ rubber duck สำหรับฟีเจอร์ใหญ่ที่ต้องใช้ความรอบคอบมาก
  ได้แรงบันดาลใจกลับมา แต่ก็ตีความเรื่องพื้นฐานมาก ๆ ผิดเหมือนกัน ผมเลยยังไม่แน่ใจว่าเป็นปัญหาจากตัวมันหรือจากทักษะการใช้งานของผมเอง
ที่ทำงานผมใช้ตัวจดโน้ต LLM สำหรับการประชุม และช่วงหลัง CIO โกรธมากจนต้องเข้ามาแทรก เพราะบอกว่า vendor รับปากแล้วไม่ทำตาม
CIO ไม่ได้อยู่ในการประชุมที่มี “คำรับปาก” นั้น แต่ผมอยู่ และความจริงคือไม่มีใครรับปากอะไรเลย การพูดคุยมีความละเอียดอ่อนกว่าที่สรุปโดย LLM มาก
ผมยังเห็นมันพลาดได้เวลาการสนทนาไม่เป็นเส้นตรง เช่น เวลาคุยไปมาระหว่างทีม SOC เรื่อง alert ล่าสุดหรือการตอบสนองต่อ incident มันอาจจับใจความรวมได้ แต่ถ้าต้องพึ่ง ความถูกต้องแม่นยำ นี่ผิดหนักได้จริง
มันอาจเหมาะกับบันทึกตอนพยาบาลซักประวัติเบื้องต้นในโรงพยาบาล เช่น อาการหลัก น้ำหนัก ส่วนสูง หรือสรุปการเปลี่ยนแปลงล่าสุด แต่ถ้าเป็นบทสนทนาละเอียดและเชิงเทคนิคกับแพทย์ ผมจะไม่ไว้ใจมัน
ในแง่ compliance ด้วย ผมก็สงสัยว่าโรงพยาบาลน่าจะอยากใช้แค่ transcript มากกว่าปล่อยให้มันมาเขียนบันทึกใหม่ แต่ก็ไม่แน่ใจ
- ช่วงวันแม่ล่าสุด ผมฝากข้อความเสียงไว้ให้แม่ เพราะแม่ไม่รับสาย เป็นข้อความธรรมดาแบบมนุษย์มาก ๆ ประมาณว่า “เสียดายที่คุยไม่ได้ โทรกลับคืนนี้หรือพรุ่งนี้ตอนสะดวกก็ได้ ไว้คุยกัน รักนะ บ๊ายบาย”
  คืนนั้นแม่โทรกลับมา คุยกันนิดหน่อย แล้วก็ถามอย่างระมัดระวังว่า “เอ่อ... มีอะไรสำคัญที่ลูกต้องบอกแม่หรือเปล่า?” ซึ่งทำให้ผมงงมาก
  สุดท้ายพบว่าสรุปโดย LLM ในการแจ้งเตือนสายเรียกเข้าทำให้ข้อความเสียงที่ 75% เป็นเพียงถ้อยคำกันกระแทกเชิงความสัมพันธ์ที่ไม่มีความหมายเฉพาะอะไร กลายเป็น ประโยคเชิงงานที่แข็งและเป็นทางการเกินไป จนบรรยากาศดูน่ากังวล
  มันให้ความหมายเกินจริงกับคำอย่าง “อยากคุย” หรือ “ถามว่าช่วงไหนสะดวก” แต่ละคำ จนข้อความดูเหมือนมีเรื่องสำคัญ คลุมเครือ และเร่งด่วนที่ผมกำลังพยายามจะพูด
  ผลคือแม่กังวลนิดหน่อย และผมก็หงุดหงิดมากที่คำทักทายธรรมดาดันจบแบบนั้น สงสัยยุคนี้คงต้องยัด LLM สรุปแบบกึ่งสุกกึ่งดิบเข้าไปในทุกอย่าง
- จากการรักษาที่ผมเคยได้รับทั้งหมด ผมสามารถขอแก้บันทึกย้อนหลังได้เสมอ และเกือบครึ่งหนึ่งมีข้อผิดพลาดที่มีนัยสำคัญ
  ควรตรวจบันทึกสรุปทันทีเสมอ และถ้ามีปัญหาก็ควรติดต่อแพทย์ให้เร็วที่สุด
  ปกติแพทย์จะแก้ให้เองได้ และดีที่สุดคือต้องทำตอนที่ทุกคนยังจำเรื่องนั้นได้อยู่
- ผมก็สงสัยเหมือนกันว่าทำไมไม่ทำเป็น transcript แล้วจบไป
  โดยเฉพาะถ้าจะมีการอ้างอิง transcript ยาว ๆ อยู่เรื่อย ๆ มนุษย์ก็แค่ใส่สรุปแบบ manual ไว้ข้าง ๆ ตรงที่คิดว่าจำเป็นก็พอ
  จากประสบการณ์ของผม ปฏิสัมพันธ์แบบนี้มักไม่ได้มีข้อมูลขยะที่ตัดทิ้งได้เยอะขนาดนั้น และรายละเอียดต่าง ๆ ก็สำคัญมากทีเดียว
- Transcript นี่ทั้งดีเกินไป และก็ยังดีไม่พอในเวลาเดียวกัน พอมีเนื้อหาเชิงกำเนิดเข้ามายิ่งแย่กว่าเดิม
  ด้านที่ดีเกินไปคือ ในสภาพแวดล้อมเชิงพาณิชย์หลายแห่ง การบันทึก transcript ต่อเนื่องเป็นสิ่งต้องห้าม เพราะรายละเอียดบางอย่างอาจกลายเป็นหลักฐานที่ถูกเปิดเผยได้ง่ายและกลายเป็นความเสี่ยงทางธุรกิจ
  รายงานการประชุมหรือสรุปสามารถละการสนทนาที่อ่อนไหวหรือระบุแค่ข้อสรุปโดยไม่ลงรายละเอียด และยังเปิดทางให้ป้องกันการตีความด้วย “ความกำกวมเชิงกลยุทธ์”
  ส่วนด้านที่ยังดีไม่พอคือ แม้แต่การรู้จำเสียงพูดก็ยังเป็นกระบวนการเชิงความน่าจะเป็น ในผลลัพธ์การประเมินจริงอาจมีข้อมูลของคำหรือวลีทางเลือกอยู่มากพอ ๆ กับคำที่ถูกเลือก ทำให้มีช่องให้แทนคำที่ไม่ได้พูดจริงหรือสร้างความประทับใจผิดได้
  ปัญหานี้ยิ่งหนักขึ้นเพราะคนมักคิดว่า transcript จากระบบรู้จำเสียง เป็นบันทึกที่เชื่อถือได้แบบมีอำนาจ
  แล้วถ้ายังเอาการอนุมานเชิงกำเนิดอย่างการสรุปมาซ้อนอีก ปัญหาทั้งสองก็ยิ่งขยายใหญ่ขึ้น ในมุมที่ปรึกษากฎหมาย สรุปที่มีคำค้นเจาะจงน้อยกว่าและทำให้ความรับผิดกับรายละเอียดพร่ามัวลง อาจถูกยอมรับได้ง่ายกว่า
- จากประสบการณ์ผม transcript ทำงานได้ค่อนข้างดี และในกรณีแบบนี้ควรถือ transcript เป็นข้อเท็จจริงอ้างอิงหลัก
เพิ่งเจอกับตัวไม่นานนี้เลย ผมได้รับการวินิจฉัยว่าเป็น runner's knee แต่สรุปโดย AI กลับเขียนว่าผมถูกวินิจฉัยว่าเป็นโรคกระดูกพรุน ปวดสะโพก และเดินลำบาก ทั้งที่ไม่เคยมีการพูดหรือสื่อถึงเรื่องพวกนั้นเลย
ควรตรวจ transcript เสมอ โดยเฉพาะเพราะตัวถอดความแบบ LLM มักชอบใส่อาการทั่วไปที่ไม่มีอยู่จริง หรือยืนยันการวินิจฉัยทั่วไปที่ตรงแค่บางรายละเอียดแต่ไม่ตรงในส่วนอื่น
บันทึกที่ผิดสามารถส่งผลแรงต่อการรักษาครั้งถัดไปและค่าใช้จ่ายได้ จึงต้องแก้ให้เรียบร้อย
นอกจากกรณีง่าย ๆ และพบบ่อยไม่กี่แบบแล้ว ประมาณ 50% ของสรุป “AI” ที่ผมได้รับมีบางอย่างผิด ส่วนใหญ่มักเป็นการบอกว่ามีอาการที่จริงไม่มี และบางครั้งก็มีการแต่งเรื่องที่ร้ายแรงกว่านั้นแบบครั้งนี้
LLM ไม่ใช่ซอฟต์แวร์ speech-to-text ทั่วไป และไม่ควรถูกปฏิบัติเหมือนเป็นแบบนั้น มันใส่ทั้งประโยคที่ไม่เคยพูดจริงเข้าไปได้ และในเวชระเบียน เรื่องแบบนี้ยอมรับไม่ได้เด็ดขาด
- ผมเคยเห็นกับตาว่า Zoom LLM summary เอาคำพูดที่ไม่มีใครพูด ไปโยนให้คนคนหนึ่ง จนกลายเป็นปัญหาใหญ่
  ต่อมามีคนอีกคนที่ไม่ได้เข้าประชุมมาอ่านสรุปนั้นแล้วเกิดการโต้เถียงใหญ่โต เพราะประเด็นนั้นเป็นเรื่องอ่อนไหวสำหรับเขาอยู่แล้วจากข้อถกเถียงภายในบริษัทที่ค้างอยู่
  แม้ผู้เข้าร่วมทุกคนจะยืนยันว่าเป็นข้อผิดพลาด แต่จังหวะเวลาดันประจวบเหมาะจนคนนั้นรับได้ยาก เพราะสรุปของ LLM นำเสนอเนื้อหาเหมือนเป็นการยืนยันข้อกังวลที่ก่อนหน้านี้ผู้เข้าร่วมบางคนเคยพยายามทำให้ดูเล็กลง
  สุดท้ายเรื่องบานปลายถึงขั้นผู้บริหารออกนโยบายว่าอย่าเชื่อ ผลลัพธ์เชิงกำเนิด หากไม่มีการตรวจสอบยืนยันอย่างอิสระ อย่างน้อยก็เหมือนได้บทเรียนกันไป
แต่จริง ๆ แล้วมนุษย์แม่นยำแค่ไหนกัน? ผมเคยขอเวชระเบียนย้อนหลัง 5 ปีออกมา หนามากเหมือนหนังสือเล่มหนึ่ง
ผมไม่คิดว่ามนุษย์จะอ่านทั้งหมดนั้นแล้วทำอะไรที่มีความหมายได้ง่ายนัก
ถ้าให้เครื่องมือ AI ช่วยไล่ดู มันอาจผิดหรือสรุปเกินหลักฐานได้แน่นอน แต่ความเร็วในการตรวจคร่าว ๆ จับจุดแปลก ๆ โต้แย้งสิ่งนั้น แล้วไปสู่คำตอบที่ถูกต้อง อาจเร็วกว่าการนัดคุยกับพยาบาลหรือแพทย์เสียอีก
แทนที่จะชี้แต่ข้อบกพร่องของความไม่สมบูรณ์แบบ เราน่าจะโฟกัสกับวิธีใช้เครื่องมือพวกนี้และวิธีโต้แย้งส่วนที่แปลกหรือผิด เพื่อให้ทำงานได้มากขึ้น
ตัวจดโน้ต AI ที่ผมใช้ในที่ทำงานบันทึกเสียงประชุมด้วย และแนบ ลิงก์ timestamp ไปยังตำแหน่งนั้นในไฟล์เสียงให้กับแต่ละโน้ต เพื่อจะได้ตรวจย้อนเองได้ทันที
ในสภาพแวดล้อม HIPAA วิธีนี้คงซับซ้อนกว่า แต่สำหรับงานสำคัญอย่างการแพทย์ วิธีแบบนี้เป็นสิ่งจำเป็น
- ตอนออกแบบประสบการณ์ผู้ใช้ที่มี AI เป็นส่วนหนึ่ง เราเรียกสิ่งนี้ว่า การติดตามที่มาของแหล่งข้อมูล
  มันเป็นองค์ประกอบสำคัญของความไว้วางใจ ความน่าเชื่อถือ และ compliance
  ถ้าระบบซอฟต์แวร์รวมผลลัพธ์ LLM แบบนี้ไว้ แต่ไม่เปิดเผยที่มาของผลลัพธ์เพื่อให้มนุษย์ประเมินและตรวจสอบได้ อย่างดีที่สุดก็คือประสบการณ์ผู้ใช้ที่แย่ และอย่างเลวร้ายที่สุดก็คืออันตราย
- ฟังดูไม่ใช่ “ตัวจดโน้ต” เท่าไร แต่เหมือน เสิร์ชเอนจินสำหรับตัวอย่างเสียง มากกว่า
  ถ้าอยากได้ความแม่นยำ สุดท้ายก็ต้องฟังทั้งหมดอยู่ดี
- วิธีนั้นสุดท้ายก็ต้องลงเอยด้วยหนึ่งในสามทาง
  ไม่ก็ต้องมีใครสักคนฟังเสียงประชุมทั้งหมดเพื่อตรวจทุกโน้ต ซึ่งกินทั้งเวลาและคน ไม่ก็ให้ผู้เข้าร่วมตรวจโน้ตจากความจำซึ่งเสี่ยงต่อความผิดพลาด หรือไม่ก็ให้ผู้เข้าร่วมเทียบกับโน้ตของตัวเองจนความหมายของตัวจดโน้ต AI หายไป
  ในทางปฏิบัติ ผมไม่คิดว่าการใช้ AI จะยอมรับได้ไม่ว่าในรูปแบบไหน ในบริบทที่ความถูกต้องสำคัญ แต่ก็ยากที่จะทำให้คนยอมรับความจริงข้อนั้น
ในฐานะคนแคนาดา ผมตื่นเต้นกับความเป็นไปได้ที่ AI จะช่วยคืนเวลาให้แพทย์และลดภาระให้ระบบสาธารณสุข แต่เรื่องนี้ก็น่ากลัว
เรายังไปไม่ถึงจุดนั้น อนาคตอาจต้องมี การอบรม AI สำหรับแพทย์
ตอนนี้มีคอนโดบางแห่งที่ให้บริการพบแพทย์ออนไลน์ผ่าน iPad ที่เป็นทรัพย์สินของผู้ให้บริการทางการแพทย์อยู่แล้ว และมันช่วยเลี่ยงความยุ่งยากของขั้นตอนนัดแพทย์ประจำตัว
ผมยังคิดว่าทิศทางของนวัตกรรมโดยรวมถูกต้อง แต่ต้องใช้เวลา บางครั้งก็รู้สึกว่า AI ถูกปล่อยออกมาเร็วเกินไป
- ผมคิดว่าเรากำลังใช้เทคโนโลยีนี้ผิดทาง ตัวอย่างเช่น แทนที่จะโยนมันเข้าไปในงานถอดความแล้วหวังผลลัพธ์สมบูรณ์แบบ เราควรใช้จุดแข็งของ LLM เพื่อยกระดับคุณภาพของข้อมูลนำเข้าให้ทุกฝ่ายได้ประโยชน์
  ถ้าจะยกตัวอย่างเรื่องช่วยคืนเวลาให้แพทย์ การพบแพทย์ของผู้ป่วยมักกระจัดกระจาย ผู้ป่วยพูดหลายปัญหาพร้อมกัน และแพทย์ก็มีเวลาจำกัดพร้อมภาระต้องอธิบายตามข้อกำกับซึ่งมีผลต่อการรักษา
  ต่อให้มี transcript สมบูรณ์แบบ โครงสร้างแบบนี้ก็ยังทำให้ทุกฝ่ายเสียประโยชน์อยู่ดี และ LLM ก็ไม่มีทางสมบูรณ์แบบ มันทำได้แค่ autocomplete
  ผมนึกภาพให้ผู้ป่วยโต้ตอบกับ AI ฝั่งรับเรื่อง ที่ยอมฟังการพูดวกไปวนมาหลายชั่วโมงหรือช่วงที่ผู้ป่วยวิตกกังวล แล้วสรุปความต้องการพร้อมข้อมูลคัดกรองที่เกี่ยวข้องซึ่งได้รับการยืนยันจากผู้ดูแล ส่งให้แพทย์ตรวจต่อ
  ณ จุดนั้นยังอาจมีข้อมูลที่มีประโยชน์อย่างการเข้าถึงยา หรือเงื่อนไขของประกัน ที่นำเสนอโดยให้แพทย์ยืนยันก่อน และผู้ป่วยก็มีเวลาทำความเข้าใจระบบ รวบรวม และเติมเต็มข้อมูลได้โดยไม่ต้องถูกกดดันเรื่องเวลา
  เป้าหมายคือยกระดับคุณภาพของบทสนทนา ให้แพทย์โฟกัสกับผู้ป่วยได้มากขึ้น และไม่ให้ความต้องการในการพูดคุยของผู้ป่วยกลบการรักษา ในงานแพทย์มีแบบฟอร์มและ checklist มาก และผมคิดว่า autocomplete สามารถช่วยเพิ่มประสิทธิภาพในการทำสิ่งเหล่านั้นได้
ผมอยู่โตรอนโต และหมอของผมจะถามทุกครั้งว่าโอเคไหมถ้าจะใช้ตัวจดโน้ต AI ซึ่งผมก็อนุญาต
หลังจบการตรวจ หมอจะไล่ดูโน้ตและแก้ไข และก็บ่นบ่อย ๆ ว่าต้องพูดกับคอมพิวเตอร์มากกว่าพูดกับผมเสียอีก
โชคดีที่เขาเป็นหมอที่ดีเลยมีการ ตรวจทานภายหลัง แบบนี้ แต่ก็ให้ความรู้สึกว่าเรื่องนี้กำลังถูกยัดเยียดให้แพทย์ทั้งที่พวกเขาอาจไม่ได้ต้องการ
ทุกวันนี้คนที่เข้าร่วมประชุมควรพูดดัง ๆ ว่า: “โปรดทราบ: คำพูดที่ AI ตีความในที่ประชุมนี้อาจไม่ถูกต้อง”
ผมทำแบบนี้ในการประชุมทุกครั้ง
รายงานที่ลิงก์มาดูแทบไม่มีประโยชน์เลย ไม่มีข้อมูลเรื่อง อัตราความผิดพลาด หรือขนาดตัวอย่างเลย จึงไม่รู้ว่าที่บอกว่า 9 จาก 20 ระบบ “บิดเบือนข้อมูลและเสนอแนะต่อแผนการรักษาผู้ป่วย” นั้น เกิดขึ้นสิบครั้งจากสิบครั้งหรือหนึ่งครั้งจากพันครั้งกันแน่
ต่อให้สมมติว่าอัตราความผิดพลาดของระบบสูง ผมก็ยังสงสัยว่าทำไมถึงมีการนำไปใช้
การทดสอบดูเหมือนจะง่ายมาก ดังนั้นถ้ามันห่วยจริง ก็ไม่น่ามีเหตุผลที่แพทย์ โรงพยาบาล หรือรัฐบาลจะโดนหลอกให้ซื้อ
- ตามบทความบอกว่า “30% ของคะแนนประเมินแพลตฟอร์มขึ้นอยู่กับการมีฐานตั้งอยู่ใน Ontario ภายในประเทศเพียงอย่างเดียว ขณะที่ความถูกต้องของเวชระเบียนคิดเป็นแค่ 4% ของคะแนนรวม”
  ความถูกต้อง จึงแทบไม่ใช่แกนหลักของการประเมินเลย และดูเหมือน Ontario จะไม่ได้ใส่ใจเรื่องนี้นัก
เขาบอกว่ามันกล่าวถึงโปรแกรม AI Scribe ที่ Ontario Ministry of Health เริ่มสำหรับแพทย์ พยาบาลเวชปฏิบัติ และผู้เชี่ยวชาญด้านสุขภาพอื่น ๆ ในภาคสาธารณสุขที่กว้างกว่า ซึ่งทำให้ผมสงสัยว่ากระทรวงจะผลักซอฟต์แวร์คุณภาพแบบไหนออกมา
เดาว่าส่วนใหญ่น่าจะเป็นเงื่อนไขคุณสมบัติประเภท SOC มากกว่า
รายชื่อ vendor ที่ได้รับอนุมัติดูเหมือนจะอยู่ที่ลิงก์นี้: https://www.supplyontario.ca/vor/software/tender-20123-artif...

ผู้ตรวจสอบของออนแทรีโอเผย AI จดบันทึกสำหรับแพทย์ผิดพลาดซ้ำๆ ในข้อเท็จจริงพื้นฐาน

รายงานการตรวจสอบและวิธีประเมิน

ข้อผิดพลาดที่ตรวจพบ

การตรวจทานด้วยตนเองและมาตรการป้องกัน

ปัญหาเรื่องน้ำหนักการประเมิน

การตอบสนองของกระทรวงสาธารณสุขออนแทรีโอ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News