2 คะแนน โดย GN⁺ 10 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • หลังตรวจ MRI เพราะ ปวดไหล่ขวา แล้วโรงพยาบาลวินิจฉัยว่าเป็น การฉีกขาดบางส่วนระดับ Grade III พร้อมวางแผนรักษาอย่างรวดเร็ว จึงเริ่มสงสัยและลองให้ Opus 4.8 ช่วยอ่านภาพอีกครั้ง
  • โรงพยาบาลเห็นว่าเอ็นกล้ามเนื้อ subscapularis บริเวณ “apical insertion” มี การฉีกขาดบางส่วนที่กว้างเกิน 50% แต่ Opus 4.8 กลับประเมินว่าเอ็นยังสมบูรณ์ ทำให้ข้อสรุปต่างกันอย่างมาก
  • GPT 5.5 Pro ตั้งข้อสงสัยต่อหลักฐานรองรับของการรักษาที่โรงพยาบาลใช้ ทั้ง shockwave therapy และ การฉีด Traumeel จึงยิ่งอยากตรวจสอบตัวการวินิจฉัยเองโดยตรง
  • Opus 4.8 ในสภาพแวดล้อม Claude Code วิเคราะห์ไฟล์ MRI แบบ DICOM ขนาดราว 266MB หลายร้อยไฟล์ด้วยการติดตั้งแพ็กเกจและรันโค้ด จากนั้นยังนำรายงานของมนุษย์และบทสนทนากับ ChatGPT เข้าไปทำการวิเคราะห์ไกล่เกลี่ยอีกครั้ง
  • ผลไกล่เกลี่ยสุดท้ายเอนเอียงไปทาง “ภาวะเสื่อมของเอ็นบริเวณจุดเกาะระดับเล็กน้อย โดยไม่มีการฉีกขาดบางส่วนหรือเต็มความหนาที่ชัดเจน” แต่ความไม่แน่ใจว่าจะเชื่อผู้เชี่ยวชาญทางการแพทย์หรือ AI ก็ยังคงอยู่

การวินิจฉัย MRI และการรักษาที่ดำเนินไปอย่างรวดเร็ว

  • มีอาการ ปวดไหล่ขวา มาหลายสัปดาห์ และแม้อาการดูเหมือนจะดีขึ้น จึงไปขอความเห็นจากแพทย์ออร์โธปิดิกส์
  • แพทย์แนะนำให้ทำ MRI และเนื่องจากสามารถถ่ายได้ทันทีที่คลินิก จึงเข้ารับการตรวจ
  • ผล MRI นำไปสู่การวินิจฉัยว่ามี Grade III (>50%-width) partial-thickness tear ที่บริเวณ “apical insertion” ของเอ็นกล้ามเนื้อ subscapularis
  • โรงพยาบาลเริ่มการรักษาภายในไม่กี่นาทีหลัง MRI เสร็จ และยังวางแผนให้ทำการรักษาแบบเดียวกันรวม 3 ครั้ง
  • รู้สึกว่าการรักษาเดินหน้าเร็วเกินไป จึงขอสำเนาผล MRI และรายการการรักษาที่ทำไปแล้วกับที่เสนอไว้ ขณะกำลังออกจากโรงพยาบาล

ปัญหาเรื่องหลักฐานรองรับการรักษาที่ GPT 5.5 Pro ชี้ให้เห็น

  • เมื่อนำผล MRI และรายการการรักษาให้ GPT 5.5 Pro ดู ก็พบประเด็นสองข้อทันที
    • โรงพยาบาลทำ shockwave therapy ที่ไหล่ แต่แนวทางเวชปฏิบัติทางคลินิกล่าสุดระบุว่าไม่ควรใช้หรือแนะนำ shockwave therapy สำหรับโรคเอ็นรอบข้อไหล่เสื่อมที่ไม่มีการกลายเป็นหินปูน
    • ระหว่างทำอัลตราซาวนด์ ก็ได้ยินมาว่าไม่มีการกลายเป็นหินปูน
    • โรงพยาบาลฉีด Traumeel ซึ่งเป็นยาชีวจิตที่ในเยอรมนีขึ้นทะเบียนว่า “ไม่มีข้อบ่งใช้ในการรักษา”
  • ผลลัพธ์นี้ยิ่งทำให้ความเชื่อมั่นต่อการวินิจฉัยและการรักษาของโรงพยาบาลลดลง และอยากลองวิเคราะห์ MRI เอง

วิเคราะห์ MRI ด้วย Opus 4.8 ใน Claude Code

  • ชุดไฟล์ MRI เป็น DICOM export มาตรฐานที่ประกอบด้วยไฟล์หลายร้อยไฟล์ซึ่งไม่มีนามสกุล และมีขนาดรวมประมาณ 266MB
  • การวิเคราะห์ทำใน Claude Code โดยใช้ Opus 4.8 (xhigh)
    • เลือก Claude Code เพราะสามารถรันโค้ดและติดตั้งแพ็กเกจได้
    • สั่งให้ติดตั้งแพ็กเกจที่จำเป็นต่อการวิเคราะห์ไว้ล่วงหน้า
  • มองว่าถึงจะใช้โมเดลเดียวกัน แต่ความต่างระหว่าง Claude Code กับแชต Claude.ai นั้นใหญ่มาก
  • เนื่องจากไม่มีความรู้เรื่อง MRI จึงตั้งค่าให้ Claude วางแผนอย่างละเอียดก่อนแล้วค่อยลงมือ
  • บริบททางการแพทย์ที่ให้ไปในตอนแรกมีเพียง “ปวดไหล่ขวา 2–3 สัปดาห์” เท่านั้น และมองว่าน้อยกว่าข้อมูลที่แพทย์มนุษย์ได้รับในภายหลัง

ความเห็นต่างเรื่องการฉีกขาดในการวิเคราะห์รอบแรก

  • หลังผ่านไปราว 1 ชั่วโมง Opus 4.8 ก็ส่งรายงานกลับมา
  • ผลอ่านของโรงพยาบาลกับ Opus 4.8 แทบจะตรงกันข้าม
    • โรงพยาบาลเห็น การฉีกขาดบางส่วนระดับ Grade III ที่บริเวณ apical insertion ของเอ็นกล้ามเนื้อ subscapularis
    • Opus 4.8 ประเมินว่าเอ็นดังกล่าวเป็น intact tendon
  • ตอนแรกคิดว่าความต่างน่าจะอยู่แค่ระดับความรุนแรงของการฉีกขาดที่อาจต่ำกว่า แต่สิ่งที่เกิดขึ้นจริงคือแตกต่างกันตั้งแต่มีการฉีกขาดหรือไม่

ไกล่เกลี่ยผลอ่านของมนุษย์กับ AI อีกครั้ง

  • เพื่อปรับความต่างของทั้งสองผล จึงให้ Opus 4.8 ทำ การวิเคราะห์เปรียบเทียบ อีกครั้ง
  • ครั้งนี้ไม่ได้ให้แค่รายงาน MRI ของมนุษย์ แต่ยังให้บทสนทนากับ ChatGPT 5.5 Pro ไปด้วย
    • ในบทสนทนานี้มีท่าทางการเคลื่อนไหวและท่าทางร่างกายที่ลองทำเพื่อประเมินการวินิจฉัยรวมอยู่ด้วย
  • Opus ใช้วิธีเรียก sub-agents หลายตัวเพื่อให้ได้การวิเคราะห์ใหม่ที่มีอคติกับบริบทเดิมน้อยลง
  • ผ่านไปราว 1 ชั่วโมง ก็ได้รายงานฉบับใหม่
  • ข้อสรุปจากการไกล่เกลี่ยคือหลักฐานเอนเอียงไปทาง Reader A มากกว่า และสรุปด้วยระดับ “moderate-to-high confidence”
    • ภาวะเสื่อมของเอ็นบริเวณจุดเกาะระดับเล็กน้อย
      • รวมถึงบริเวณ apical insertion ด้วย โดยไม่มีการฉีกขาดบางส่วนหรือการฉีกขาดเต็มความหนาที่ชัดเจน
      • ระบุว่าไม่สามารถคลี่คลายความขัดแย้งบางส่วนระหว่างสองรายงานได้ แต่สำหรับประเด็นนี้ให้ข้อสรุปค่อนข้างหนักแน่น

ทางเลือกที่ยังเหลือหลังได้ความเห็นที่สองจาก AI

  • แม้การฝากไว้กับผู้เชี่ยวชาญที่เชื่อถือได้จะให้ความรู้สึกมั่นคง แต่ ความเห็นที่สองจาก AI อาจสั่นคลอนความรู้สึกนั้นอย่างน่าอึดอัด
  • หลังการวิเคราะห์ด้วย AI การวินิจฉัยและแผนรักษาเดิมดูเหมือนจะรีบเกินไปและมีการแทรกแซงมากเมื่อเทียบกับข้อเท็จจริง แต่ก็ยังยากจะเชื่อ AI ได้อย่างเต็มที่
  • ทางเลือกที่เหลือคือไปพบแพทย์คนอื่น หรือรอดูว่าไหล่จะดีขึ้นจาก การฟื้นฟูสมรรถภาพ ที่กำลังทำอยู่หรือไม่
  • หวังว่าอีกไม่กี่รุ่นต่อจากนี้ เราจะเชื่อ AI ให้ช่วยตรวจทาน MRI ได้เหมือนกับการช่วยตรวจแก้อีเมล
  • จะไม่เปิดเผยชื่อคลินิกและแพทย์ และประสบการณ์นี้ไม่ใช่คำแนะนำทางการแพทย์ แต่เป็นกรณีศึกษาจากความอยากรู้อยากเห็นเชิงเทคนิคในการลองขอความเห็นที่สองด้วย AI

1 ความคิดเห็น

 
ความเห็นจาก Hacker News
  • ถึงจะเป็นรังสีแพทย์ แต่ถ้าไม่ได้ดู ชุดข้อมูล MRI แบบ 3D ทั้งหมด ก็ยากจะตัดสินได้ อัลตราซาวนด์ไม่ใช่วิธีที่ดีในการประเมินหินปูน จะเจอก้อนหินปูนใหญ่ ๆ ได้ แต่ก้อนเล็ก ๆ พลาดได้ง่าย
    เอกซเรย์ธรรมดาจะช่วยได้มากกว่า และใน MRI ก็อาจมองเห็นได้เช่นกัน ไม่ว่าอย่างไร เมื่อไม่มีหินปูน การรักษาด้วยคลื่นกระแทกก็ไม่ได้เป็นอันตราย แค่ไม่ช่วยเท่านั้น
    ในการอ่านผลทางรังสีวิทยา เวลาที่เขียนว่า “ไม่มี” มักมีเงื่อนไขโดยนัยเสมอว่า “ไม่มีภายในวิธีการถ่ายภาพนั้นและขอบเขตภาพที่ได้มา” ดังนั้นรายงานอัลตราซาวนด์บอกว่าไม่มีหินปูน ส่วนรายงานเอกซเรย์ธรรมดาบอกว่ามีหินปูน ก็ไม่ได้ขัดแย้งกัน
    สำหรับคนไข้หรือคนที่ไม่คุ้นกับศัพท์การแพทย์ แน่นอนว่าสับสนได้ แต่ถ้าเขียนเงื่อนไขทั้งหมดนี้ลงไปในรายงาน รายงานก็จะเต็มไปด้วยถ้อยคำแบบมีเงื่อนไขมากกว่าตอนนี้ และกลายเป็นเอกสารที่อ่านแล้วน่ารำคาญยิ่งขึ้น

    • ผมว่านี่พูดแบบให้เกียรติเกินไปหน่อย ถ้าไม่เข้าใจเรื่องนี้ ก็ต้องสมมติว่าเครื่องมือวินิจฉัยทุกชนิดมี ความคมชัดไร้ขีดจำกัด และถูกต้องเสมอ ถึงจะสับสนได้
      นึกถึงเกร็ดที่มีคนถาม Babbage ว่า “ถ้าใส่คำถามที่ผิดเข้าไปในเครื่องคำนวณ จะได้คำตอบที่ถูกต้องออกมาหรือไม่” เขาตอบประมาณว่า “ผมไม่อาจเข้าใจตรรกะของจิตใจที่คิดคำถามแบบนั้นขึ้นมาได้เลย”
    • ในฐานะนักรังสีเทคนิค อยากพูดว่า “ถูกต้องเลยครับ/ค่ะ คุณหมอ!” ผมเคยเห็น การใช้ AI ที่ช่วยให้คนไข้เข้าใจสถานการณ์ของตัวเองหรือเข้าใจค่าตรวจเลือดพื้นฐานได้ แต่การที่มันเออออไปกับคนมากเกินไป แล้วลากลงหลุมกระต่ายทางการแพทย์แบบโพสต์ต้นฉบับนั้น แย่มากจริง ๆ
      ถ้าเป็น AI ก็น่าจะชี้ได้อย่างน้อยว่าแคลเซียมมองเห็นได้ดีกว่าด้วยเอกซเรย์/CT มากกว่าอัลตราซาวนด์
    • เห็นด้วย ผมไม่ใช่รังสีแพทย์ แต่ทำวิจัยด้าน MRI มาค่อนข้างมาก ผู้เชี่ยวชาญกับคนทั่วไปมีแนวโน้มที่จะดึงการวินิจฉัยที่ถูกต้องออกมาจาก โมเดลระดับแนวหน้า ได้สำเร็จต่างกัน และความแตกต่างเล็ก ๆ ในพรอมป์ตก็อาจนำไปสู่การวินิจฉัยที่ต่างกันได้ https://www.nature.com/articles/s41591-026-04501-8
    • พออ่านคำศัพท์ที่พูดถึงกันตรงนี้แล้วลองค้นดู อาการไหล่ขวาของผมดูคล้ายมาก รู้สึกเหมือนมี หลุมกระต่าย ขนาดมหึมาเปิดอยู่ข้างโต๊ะทำงาน
    • สงสัยว่าทำไมแพทย์ออร์โธปิดิกส์ถึงไม่ใช้ อัลตราซาวนด์เพื่อการวินิจฉัย กันมากกว่านี้ หัวใจและอวัยวะของทารกในครรภ์ยังดูกันทุกวัน แล้วทำไมไหล่ถึงทำไม่ได้? น่าจะถูกกว่าและเร็วกว่าเยอะ
  • สำหรับคนที่สนใจ มีบริการ ขอความเห็นที่สอง จากรังสีแพทย์มนุษย์ที่ได้รับการรับรองให้บริการอยู่: https://expert.med

    • ต้องมีเวอร์ชันทันตกรรมของบริการนี้
  • ประเด็นสำคัญจริง ๆ คือเรื่องนี้ เรารู้ว่าเชื่อ AI ไม่ได้ แต่ในเวลาเดียวกัน การขอให้ AI อธิบายเพิ่มหรือโต้แย้งกลับนั้นสะดวกกว่ามาก ไม่มีการนัดเป็นช่วงเวลา และไม่มีค่าใช้จ่ายรายชั่วโมง ซึ่งเป็นเรื่องสำคัญ แต่ข้อมูลที่มากขึ้นไม่ได้แปลว่าจะช่วยเสมอไป
    ผมเคยเล่นเกม “ขอความเห็นที่สอง” โดยเอา Civic อายุ 11 ปีที่วิ่งมา 150,000 ไมล์ไปให้หลายอู่ดู ตั้งใจจะเปรียบเทียบคำแนะนำของแต่ละอู่เพื่อ判断ว่าควรทำอะไร
    ผลคือได้คำแนะนำ 3 อย่างที่ไม่เกี่ยวข้องกันเลย และหนึ่งในนั้นเป็นเรื่องที่ผมรู้แน่ ๆ ว่าผิด รู้สึกแย่กว่าก่อนเริ่มเสียอีก
    ทางออกของข้อมูลที่ไม่แน่นอนไม่ใช่ ข้อมูลที่มากขึ้น ซึ่ง AI ให้ได้ แต่เป็น ข้อมูลที่ดีกว่า ซึ่งตอนนี้ AI ยังให้ไม่ได้

    • ผมสมัคร LLM หลายตัวพร้อมกัน รวมถึงใช้โมเดล local ไว้ด้วย เวลาถามเรื่องนอกสาขาความเชี่ยวชาญของตัวเอง ผมจะถาม LLM ทุกตัวที่เข้าถึงได้ และสร้างเซสชันแยก ๆ เพื่อถามคำถามเดียวกันในหลายรูปแบบ
      พอดูว่าคำตอบที่ต่างและขัดแย้งกันมีมากแค่ไหน ก็เห็นภาพชัดทีเดียว ส่วนใหญ่ถูกนำเสนออย่างมั่นใจ
      ครั้งล่าสุดที่ผมใส่คำถามทางการแพทย์เข้าไปใน Claude แม้แต่ระหว่างเซสชันก็ยังไม่ได้คำตอบที่สอดคล้องกัน
      ที่น่ากลัวยิ่งกว่าคือ การชักนำ LLM แต่ละตัวไปยังคำตอบที่ผมมีอยู่ในใจทำได้ง่ายแค่ไหน พอเริ่มถามถึงตัวเลือกที่ LLM ตัวอื่นเสนอ แต่ละเซสชันก็ไหลไปทางคำอธิบายนั้น
    • ปริศนาแบบจิ๊กซอว์ กับ เรื่องลึกลับ ต่างกันมาก ปริศนาแบบจิ๊กซอว์มีสถานะเป้าหมายที่รู้กันอยู่แล้ว และยิ่งมีชิ้นส่วน หรือข้อมูลมากขึ้น ก็ยิ่งเข้าใกล้เป้าหมาย รู้ด้วยว่าเหลืออีกเท่าไรจึงจะถึงเป้าหมาย
      เรื่องลึกลับแย่กว่านั้น ทุกครั้งที่มีชิ้นข้อมูลเพิ่มขึ้น เป้าหมายกลับยิ่งไกลออกไป ทุกอย่างยิ่งสับสนมากขึ้นเรื่อย ๆ
      นี่เป็นการแบ่งแยกที่ Malcolm Gladwell ทำให้เป็นที่รู้จักในวงกว้าง
    • ผมคิดว่า AI ในปัจจุบันสามารถให้ข้อมูลที่ดีกว่าได้ เพียงแต่มันทำไม่ได้อย่าง น่าเชื่อถือ และคนที่ไม่ใช่ผู้เชี่ยวชาญก็แยกความต่างนั้นไม่ออก จึงยิ่งอันตราย
    • เสียงนุ่ม ๆ ของ ChatGPT ที่คอยปลอบว่าเราถูกและฉลาดแค่ไหนนั่นน่ะ… มันจะหลอนได้อย่างไร โดยเฉพาะถ้าเป็น 5.5 ก็คงไม่ใช่แน่ ๆ
    • ได้ความเห็นเรื่องรถมาแค่ 3 ความเห็นเองหรือ? ทำไมไม่เอา 50 ความเห็นล่ะ? ถ้ารวบรวมข้อมูลมากขึ้น อาจเจอสัญญาณที่เป็นประโยชน์มากขึ้นก็ได้
      ผมรู้ว่าการขอความเห็นจากช่างใช้เวลามาก แต่ AI ไม่เป็นแบบนั้น
  • เมื่อไม่กี่ปีก่อน ตอนนั้นยังเป็นช่วงก่อนกระแส AI บูม ผมเคยถูก วินิจฉัยผิดว่าเป็นวัณโรค ผมมีอาการไอเรื้อรัง และรังสีแพทย์ที่คลินิกแห่งหนึ่งจ้างมาจากภายนอกพบสัญญาณของวัณโรค ผลตรวจนั้นถูกส่งไปยังโรงพยาบาลวัณโรคของเมืองตามกฎหมาย และแพทย์ที่นั่นก็รับข้อสรุปของรังสีแพทย์ไปตามนั้น แล้วบอกให้ผมอยู่ในโรงพยาบาลที่มีระเบียบเข้มงวดเหมือนคุกอย่างน้อย 8 เดือน
    ไม่มีทางปฏิเสธได้เลย ผมถูกมองว่าเป็นอันตรายทางชีวภาพแบบหนึ่ง และตามกฎหมายก็ต้องทำตาม
    ก่อนเข้ารับการรักษา ผมรีบไปหารังสีแพทย์อีกคนหนึ่ง ซึ่งวินิจฉัยว่าเป็นปอดบวม ผมส่งรายงานนั้นไปให้แพทย์เจ้าของไข้ที่โรงพยาบาลวัณโรค หลังจากตรวจทานแล้ว เขาสรุปว่าการอ่านผลครั้งแรกผิด ปรากฏว่าแพทย์ที่นั่นอ่านภาพไม่เป็นเลย และเป็นระบบที่เชื่อสิ่งที่รังสีแพทย์บอกเฉย ๆ
    ที่ตลกคือพวกเขาขึ้นทะเบียนผมในทะเบียนวัณโรคอย่างเป็นทางการไปแล้ว และไม่อยากยอมรับความผิดพลาด แต่กลับออกเอกสารอีกฉบับให้ว่า “ผมหายจากวัณโรคในโรงพยาบาลนั้นภายใน 7 วัน” ผมน่าจะเป็นคนเดียวในประเทศนั้นที่เอาชนะวัณโรคได้ภายในหนึ่งสัปดาห์
    ถ้ารู้สึกไว้ใจรังสีแพทย์หรือแพทย์ได้ยาก และมีค่าใช้จ่ายพอ ก็ควรไปหาแพทย์อีกคนดู จะได้เปรียบเทียบข้อสรุปว่าตรงกันหรือไม่ ถ้าแพทย์หรือรังสีแพทย์สองคนที่ไม่เกี่ยวข้องกันพูดเหมือนกัน ก็มีโอกาสค่อนข้างสูงว่าจะใกล้ความจริง
    แต่ผมก็ไม่แน่ใจนักว่าควรเชื่อใครมากกว่ากันระหว่าง AI กับมนุษย์ AI มีอาการหลอนข้อมูล แต่ผมเองก็เคยถูกมนุษย์วินิจฉัยผิดมาหลายครั้งเหมือนกัน

    • เป็นไปได้ยังไง? วินิจฉัยวัณโรคจากภาพอย่างเดียวไม่ได้ และถ้าเป็น โรงพยาบาลวัณโรค ก็ควรรู้เรื่องนี้สิ
    • ผมเคยเจอเรื่องคล้ายกัน ลูกชายเป็นปอดบวม กินยาปฏิชีวนะ 10 วันแล้วก็ยังปวดอยู่ ผมเอาฟิล์ม X-ray ไปให้แพทย์สามคนดู มีแค่คนเดียวที่วินิจฉัยถูกว่าเป็น ภาวะน้ำในช่องเยื่อหุ้มปอด
      ผมว่าควรมีสถานที่แบบรวมศูนย์ที่ผู้เชี่ยวชาญระดับสูงสุดเป็นคนดูภาพ ไม่ใช่ปล่อยให้แพทย์แต่ละคนดูเองตามลำพัง
  • น่าสนใจดีที่คนแถวนี้ดูจะคาดหวังให้ร่างกายมนุษย์เป็นเหมือนฟังก์ชันแบบกำหนดแน่นอน ที่ใส่อินพุต X แล้วต้องได้เอาต์พุต Y ความคาดหวังนั้นลามไปถึงการวินิจฉัยด้วย คือคิดว่าปัญหาเดียวกันควรได้คำวินิจฉัยเหมือนกันจากผู้เชี่ยวชาญหลายคน
    เมื่อคิดถึงความซับซ้อนของร่างกายมนุษย์ การวินิจฉัยเป็นผลลัพธ์จากประสบการณ์ที่สะสมมาตลอดอาชีพ ความรู้ วิธีการวินิจฉัย และอุปกรณ์ต่าง ๆ รวมกัน ตำแหน่งอย่าง “แพทย์” คือการที่รัฐรับรองว่า “สอบผ่านแล้ว ปลอดภัยพอที่จะให้ตรวจรักษาได้” แต่ไม่ได้หมายความว่าทุกคนจะรักษาเหมือนกัน
    ผู้เชี่ยวชาญบางคนอัปเดตความรู้ทุกเดือน บางคนทำทุกปี และบางคนไม่ทำเลย ตัวแปรมีมากเกินไป ทั้งพื้นที่ การเมือง หรือแม้แต่สภาพอากาศ
    ดังนั้น การเลือกผู้เชี่ยวชาญ จึงสำคัญมาก ต้องดูชื่อเสียงของคนนั้นในด้านแนวทางการรักษาและสาขาความเชี่ยวชาญของเขา สิ่งที่ทำได้คือเพิ่มโอกาสให้ได้คำวินิจฉัยที่ถูกต้องให้มากที่สุดเท่านั้น ไม่ควรคาดหวังว่าจะถูกต้องเพียงเพราะใครบางคนถูกเรียกว่าแพทย์

    • ถ้าเป็นคอมมูนิตี้ที่ประกอบด้วยคนซึ่งส่วนใหญ่ทำงานสร้างฟังก์ชันแบบนั้น ก็คาดเดาได้ว่าจะคาดหวังให้ร่างกายมนุษย์เป็นเหมือน ฟังก์ชันแบบกำหนดแน่นอน
    • ผมไม่ค่อยเข้าใจประเด็น หมายความว่าเพราะการแพทย์มีความผิดพลาดโดยธรรมชาติ AI โดยเฉพาะชุดของ AI เฉพาะทางหลายตัว จึงมีแนวโน้มจะให้การวินิจฉัยที่ดีกว่าอย่างนั้นหรือ?
  • ผมเห็นเพื่อนและคนในครอบครัวหลายคนที่มีอาการปวดไหล่แล้วแทบจะถูกแนะนำให้ผ่าตัดทันที สำหรับคนที่ทำมาหากินกับการผ่าตัด การผ่าตัดมักกลายเป็นค่าเริ่มต้น
    ผมเองก็เคยปวดไหล่พอสมควรอยู่ช่วงหนึ่ง และอาการไม่ทุเลาลงอยู่หลายเดือน ผมไม่อยากผ่าตัด เลยลองนวดกับฝังเข็ม แต่ไม่ช่วยเลย
    สิ่งที่ช่วยแก้ได้คือการตั้งใจฝึกดึงข้อจริง ๆ ตอนแรกทำไม่ได้สักครั้ง จึงเริ่มจากการห้อยตัวกับ scapular pull-up แล้วค่อย ๆ ขยับไปเป็นดึงข้อแบบปกติ พอทำได้หลายครั้งต่อเซ็ตแล้ว ก็ฝึกด้วยวิธี “grease-the-groove”
    ตอนที่ทำได้ประมาณ 17 ครั้งต่อเซ็ต ผมหยุดตารางฝึกนั้น และตอนนี้ทำสัปดาห์ละ 3 ครั้ง แบ่งทำระหว่างวัน ครั้งละ 6 เซ็ต เซ็ตละ 7–8 ครั้ง ผมยังทำท่าบริหารเพิ่มช่วงการเคลื่อนไหวของไหล่ด้วย https://www.youtube.com/watch?v=vP8YmmRMz6I
    ถ้าขี้เกียจแล้วขาดไป อาการไม่สบายจะกลับมาเสมอ แต่พอกลับไปฝึกเสริมความแข็งแรงอีกครั้งก็หายไป

    • ผมมีปัญหาไหล่มาหลายปี ลองกายภาพบำบัดแล้ว รวมถึงท่าดึง/ดันท่าต่าง ๆ แต่พอทำท่าเหล่านั้น อาการปวดยิ่งหนักขึ้น ถ้าไม่ออกกำลังกายที่ใช้ไหล่ก็จะอยู่ในสภาพ “พอไหว”
    • ในทางกลับกัน ตอนผมมีปัญหา rotator cuff ศัลยแพทย์แนะนำให้ทำ กายภาพบำบัด อยู่หลายเดือนก่อนจะลงมีด ได้ผลด้วย หลังจากเน้นการเคลื่อนไหวไหล่ที่ถูกต้องและเล่นเวทเทรนนิงต่อเนื่อง อาการปวดก็ไม่กลับมาอีก
      ผมว่าถ้าคนไข้ไปหาเพื่อเอาวิธีแก้แบบรวดเร็ว ก็จะได้รับข้อเสนอแบบนั้น แต่ถ้าศึกษาไปสักหน่อยแล้วไปหาเพื่อหาวิธีแก้ที่ดีที่สุดสำหรับตัวเอง ส่วนใหญ่ก็จะได้สิ่งนั้น
  • ประมาณ 2 ปีก่อน ผมใช้ “deep research” ของ ChatGPT เพื่อสืบค้นเรื่อง ไซนัสอักเสบเรื้อรัง ที่ต่อสู้มานานเกือบ 3 ปี หลังจากพบแพทย์เวชปฏิบัติทั่วไป 3 คน และไปหาหมอหูคอจมูก 3 ครั้ง ผมก็ใส่ข้อสังเกตทั้งหมดที่มีลงไปใน AI
    โดยเฉพาะอย่างยิ่ง หมอหูคอจมูกเคยส่องกล้องดูโพรงไซนัสของผมและเห็นหลักฐานของปฏิกิริยาภูมิแพ้ แต่ภายหลังหลังตรวจภูมิแพ้กลับสรุปว่าไม่สามารถรักษาด้วยยาแก้แพ้ได้ เขาอธิบายเหตุผลให้ผมไม่ได้ ผมถามหลายครั้งแต่ก็ไม่ตอบ
    ChatGPT ค้นพบงานวิจัยของ NIH ที่ระบุว่าคน 20% มีปฏิกิริยาภูมิแพ้ที่จำกัดอยู่เฉพาะบางส่วนของร่างกาย และอาจไม่ปรากฏจากการทดสอบสะกิดผิวหนังที่ไหล่ พอผมถามเขา เขาก็แค่บอกว่า “ภูมิแพ้ไม่ได้ทำงานแบบนั้น” แล้วก็จบแค่นั้น เขาไม่ได้คิดจะเปิดดูงานวิจัยด้วยซ้ำ
    เขาสั่ง CPAP และการรักษาด้วย nebulizer เป็นประจำให้ผม อีกเรื่องหนึ่งคือบริษัท CPAP ส่งข้อความมาหา แต่ผมแยกไม่ออกว่าเป็นฟิชชิงหรือไม่ พอสอบถามว่าเป็นใครก็ไม่มีคำตอบ
    ดังนั้นผมเลยตัดสินใจลองกินยาแก้แพ้รุ่นที่สองทุกวัน
    ไซนัสอักเสบหายไป ก่อนหน้านี้ผมเป็นไซนัสอักเสบหนักอย่างน้อยทุกไตรมาส ภูมิแพ้อาจไม่ได้ทำงานแบบนั้นตามที่หมอคนนั้นพูดก็ได้ แต่ยาแก้แพ้แก้ปัญหาของผมได้หมดจริง ๆ
    เป็นเรื่องที่น่าขอบคุณ เพราะเมื่อหลายปีก่อนผมเคยลองใช้ CPAP อย่างจริงจังอยู่หนึ่งเดือน แต่ปรับตัวไม่ได้เลย และการนอนก็แย่มาก

    • ตรงนี้มีหลายอย่างให้แกะ และตั้งแต่แรกก็เป็นสถานการณ์ที่เสียเปรียบอยู่แล้ว ก่อนอื่น เมื่อการทดสอบบางอย่างบอกว่า X การจะปฏิเสธ X นั้นยากจริง ๆ นี่ไม่ใช่ปัญหาเฉพาะวงการแพทย์ แต่เป็นปัญหาของมนุษย์โดยรวม เราไม่ถนัดในการกลับมาดูหรือแก้ไขการตัดสินใจ และยิ่งไม่ถนัดกว่าในการพิจารณาความเป็นไปได้ที่จะกลับคำ
      ถัดมาคือความรับผิดชอบและเวลา โดยเฉพาะในสาขาที่มีเดิมพันสูงอย่างการแพทย์ ถ้าขอให้ใครสักคนทบทวนการตัดสินใจ ไม่มีใครมีเวลาหรือแรงจูงใจจะเปิดเรื่องยุ่งเหยิงนั้นขึ้นมา
      ถ้าอยากให้สำเร็จจริง ๆ คุณต้องเสนอการทดสอบที่งานวิจัยแนะนำ ก่อนที่วงจรวินิจฉัยจะปิดลง ก่อนที่หมอจะปักหมุดเคสของคุณไปแล้ว นั่นจึงจะมีโอกาสมากที่สุดที่พวกเขาจะเห็นสิ่งที่ควรเห็น
      พูดตรง ๆ ว่ามีสมมติฐานบางอย่างมาด้วยจะดีกว่า หมอจับได้เร็วมากว่าพวกเขากำลังถูกชี้นำ แต่กว่าจะรู้ว่าคนไข้พูดถูกจริง ๆ นั้นช้ากว่านั้น ในระบบที่คนทำงานหนักเกินไปกำลังพยายามทำดีที่สุด ก็ต้องเดินเกมแบบนั้น
    • ยาแก้แพ้ที่กินทุกวันมีความเกี่ยวข้องกับความเสี่ยง อัลไซเมอร์ที่เริ่มเป็นตั้งแต่อายุน้อย ที่เพิ่มขึ้นอย่างมาก ดีแล้วที่เจอสิ่งที่ได้ผล แต่การลองฉีดภูมิแพ้ก็น่าจะเป็นทางเลือกที่ดี
  • ในฐานะรังสีแพทย์ ผมมองว่า Claude และ ChatGPT แย่มากจริง ๆ ในการ อ่าน MRI และจะไม่เชื่อเลย มันมีจุดแข็งเวลาค้นคว้าข้อมูลแบบข้อความ แต่ภาพรังสียังตีความได้ไม่ดีพอ

    • AI ชดเชยในด้านการปรับปรุงภาพมากกว่าการรายงาน
      ตอนนี้ซอฟต์แวร์ MR ของ Siemens ชื่อ Deep Resolve สร้างสัญญาณขึ้นมา (เพิ่มประมาณ 50%) จากนั้นสร้างหนึ่งในสองพิกเซลขึ้นมา และใน sequence แบบ 3D ก็สร้างหนึ่งในสองสไลซ์ขึ้นมา ช่วยลดเวลาของแต่ละ sequence ได้ประมาณ 59% และดีมากจริง ๆ
      ผมเป็นนักเทคนิค MR
    • คล้ายกับที่คนคาดว่า ChatGPT น่าจะเล่นหมากรุกได้เก่งมาก ๆ เพราะเอนจินหมากรุกที่มีประสิทธิภาพเหนือมนุษย์มีมาหลายสิบปีแล้ว ดังนั้น LLM แนวหน้ารุ่นล่าสุดที่ใช้เงินหลายพันล้านดอลลาร์ในการฝึก ก็น่าจะทำได้ง่าย ๆ เป็นธรรมดา
      จริง ๆ แล้วผมอยากรู้ ELO ของ ChatGPT 5.5 ด้วยซ้ำ จากคอนเทนต์ที่มันดูดซับมา แค่ความเข้าใจพื้นฐานเกี่ยวกับหลักการหมากรุกก็น่าจะทำให้เกิน 2000 ได้โดยไม่แปลกใจมากนัก
  • ผมไม่เข้าใจปฏิกิริยาเชิงลบ การแพทย์ในปัจจุบันจะเดินหน้าได้ก็ต่อเมื่อทั้งแพทย์และคนไข้ต้องใช้สมองร่วมกัน แทบไม่เคยมีกรณีที่หมอวินิจฉัยให้แล้วผมก็แค่ใช้ชีวิตต่อไปเฉย ๆ เวลามีกรณีแบบนั้น ส่วนใหญ่เป็นเพราะผมค่อนข้างมั่นใจในปัญหาและรู้ว่าต้องการอะไร หมอเป็นกำแพงที่ขวางการเข้าถึงการรักษา
    Dr. GPT เป็นเครื่องมือระดมความคิดที่ดี มันสังเคราะห์ข้อมูลในแบบที่ทำได้ยากจากเอกสารต้นฉบับเพียงอย่างเดียว แต่ก็ต้องบังคับให้มันพูดว่า “นี่ไม่สมเหตุสมผล” ด้วย
    ผมคิดว่าฝั่งที่บอกว่า “หมอไม่รู้ความรู้ล่าสุด” นั้นมีหลักฐานอ่อน เมื่อคิดถึงความหนาแน่นของโทเคนระหว่างการ pretraining และวิธีจัดชุดข้อมูล post-training แล้ว การจะปรับตัวต่อการเปลี่ยนแปลงระดับรากฐานคงใช้เวลานานมาก ถ้าเราลืมวิธีรักษาโรคลักปิดลักเปิดไปแล้ว ต้องมีบทความวิจัยกี่ฉบับถึงจะปรับตัวเข้ากับการค้นพบใหม่ได้?

  • สำหรับรูปภาพ ผมจะไม่เชื่อ AI แต่ครั้งหนึ่ง ChatGPT ดูแค่ข้อความในรายงาน MRI แล้วบอกว่ารายงานน่าจะผิดมาก พร้อมเสนอการวินิจฉัยอื่น มันยืนยันค่อนข้างหนักแน่น ผมเลยไปหาหมอคนอื่นและตรวจซ้ำ สรุปสั้น ๆ คือ ChatGPT ถูก
    ย้ำอีกครั้ง นี่เป็นแค่ประสบการณ์เดี่ยวของคนคนเดียว จึงไม่ได้มีความหมายมากนัก

    • เป็นเรื่องเล่าเฉพาะกรณี แต่ผมใส่ภาพผู้ป่วย งูสวัด ที่หมอบอกว่าเป็นโรคอื่นลงใน Gemini Pro แล้วมันให้การวินิจฉัยที่ถูกต้อง ทำให้ได้รับการรักษาที่ถูกทางและหายดี
      ผมไม่เข้าใจว่าทำไมหมอถึงไม่ลองป้อน prompt ให้ LLM ดูก่อนพูดสิ่งที่ผิด เป็นเพราะอีโก้หรือเปล่า?
      ผมเข้าใจว่างานรังสีวิทยาต้องใช้โครงข่ายประสาทเทียมแบบ convolutional ที่เฉพาะทาง แต่ยิ่งเป็นปัญหาที่ใกล้เคียงฐานความรู้ ก็ยิ่งควรทำแบบนั้น
    • ผมคิดว่าส่วนใหญ่ของช่องว่างด้านการมองเห็นเกิดจากการที่ภาพมีโครงสร้างน้อยกว่าว่าควรให้ความสนใจตรงไหน จากประสบการณ์เล่า ๆ โมเดล qwen ที่ fine-tune ขนาดเล็ก เช่น โมเดลต่ำกว่า 10 พันล้านพารามิเตอร์ ก็สามารถดันความแม่นยำจากต่ำกว่า 30% ของโมเดลพื้นฐานขึ้นไปถึง 90% ได้ ผมเคยขายโมเดลแบบนี้สำหรับงาน back office ที่คิดตามผลงาน
      น่าจะมี VLM เฉพาะทาง จำนวนมากที่ให้คุณค่าจริงออกมา
    • ไม่กี่วันก่อน ChatGPT Enterprise บอกว่า kernel 7.0.2 เก่ากว่า 6.69
      ของเล่นพวกนี้เชื่อถือไม่ได้เลย ไม่ได้หมายความว่าไม่มีประโยชน์ แต่เชื่อไม่ได้