- OpenAI เปิดตัวเกณฑ์มาตรฐานใหม่ HealthBench สำหรับ ประเมินประสิทธิภาพของระบบ AI ในสถานการณ์ทางการแพทย์
- สร้างขึ้นบนพื้นฐานของ แพทย์ 262 คน, ประสบการณ์ทางการแพทย์จาก 60 ประเทศ และ บทสนทนาทางการแพทย์ที่สมจริง 5,000 ชุด โดยใช้ เกณฑ์การประเมิน (rubric) ที่แพทย์เขียนขึ้นเอง สำหรับแต่ละบทสนทนา
- เกณฑ์การประเมินครอบคลุม ความแม่นยำ, การรับรู้บริบท, คุณภาพการสื่อสาร, ความครบถ้วน เป็นต้น และใช้ โมเดลประเมินที่อิงกับ GPT-4.1 ในการให้คะแนนว่าผ่านเกณฑ์หรือไม่
- โมเดลล่าสุดของ OpenAI แสดงให้เห็นถึงความก้าวหน้าที่เป็นรูปธรรม เช่น ประสิทธิภาพดีขึ้น 28% เมื่อเทียบกับเดิม, โมเดลขนาดเล็กก็มีประสิทธิภาพคุ้มค่าต้นทุนดีขึ้น, และ ประสิทธิภาพในกรณีเลวร้ายที่สุด (worst-of-n) ดีขึ้น
- HealthBench ทั้งชุด, Consensus และ Hard ถูก เผยแพร่เป็นโอเพนซอร์ส สำหรับนักวิจัยและนักพัฒนา และคาดว่าจะช่วยสนับสนุนงานวิจัย AI ทางการแพทย์และการยกระดับความปลอดภัยในอนาคต
แนะนำ HealthBench
เบื้องหลังการพัฒนา
- จำเป็นต้องมีการประเมินเพื่อเพิ่มศักยภาพของ การนำ AGI ไปใช้ในเฮลท์แคร์ ให้สูงสุด เช่น การขยายการเข้าถึงข้อมูลสุขภาพ การช่วยเหลือแพทย์ทางคลินิก และการเสริมสิทธิด้านสุขภาพของชุมชน
- ชุดประเมินทางการแพทย์เดิมมีปัญหา เช่น ขาดความสมจริง, อิงการตัดสินของผู้เชี่ยวชาญไม่เพียงพอ, และ เปิดพื้นที่ให้โมเดลพัฒนาต่อได้ไม่มาก
จุดเด่นสำคัญ
- สถานการณ์บทสนทนาด้านสุขภาพ 5,000 ชุด ที่มีหลายรอบ หลายภาษา และมีความยากสูง
- คำตอบแต่ละรายการถูกให้คะแนนด้วย เกณฑ์การประเมิน (rubric) แบบปรับเฉพาะที่แพทย์เป็นผู้สร้าง
- มี เกณฑ์ประเมินรวม 48,562 ข้อ ทำให้สามารถวัดความสามารถย่อยที่หลากหลายของโมเดลได้เชิงปริมาณ
- การให้คะแนนดำเนินการผ่านระบบประเมิน rubric อัตโนมัติที่ใช้ GPT-4.1
ธีมและแกนการประเมินของ HealthBench
7 ธีมการประเมิน
- Emergency referrals: สามารถรับรู้สถานการณ์ฉุกเฉินและแนะนำการตอบสนองที่เหมาะสมหรือไม่
- Expertise-tailored communication: สามารถปรับคำศัพท์/รายละเอียดให้เหมาะกับระดับความรู้ของผู้ใช้หรือไม่
- Responding under uncertainty: ความเหมาะสมของการตอบสนองเมื่อข้อมูลมีความไม่แน่นอน
- Response depth: ให้ข้อมูลได้ลึกพอเหมาะกับสถานการณ์หรือไม่
- Health data tasks: การจัดการงานปฏิบัติที่เกี่ยวข้องกับการแพทย์ เช่น การเขียนเอกสารและการสนับสนุนความรู้
- Global health: ความสามารถในการปรับตามทรัพยากร สถานการณ์ และภาษาของแต่ละประเทศ
- Context seeking: ความสามารถในการขอข้อมูลบริบทที่จำเป็นด้วยตัวเอง
แกนการประเมิน (Axes)
- ความแม่นยำ (Accuracy): สอดคล้องกับข้อเท็จจริงทางการแพทย์และฉันทามติทางวิทยาศาสตร์หรือไม่
- การรับรู้บริบท (Context awareness): ปรับคำตอบตามพื้นหลังของผู้ใช้หรือไม่
- ความครบถ้วน (Completeness): ครอบคลุมเนื้อหาที่จำเป็นโดยไม่ตกหล่นหรือไม่
- คุณภาพการสื่อสาร (Communication quality): ความเหมาะสมของความยาว คำศัพท์ โครงสร้าง และวิธีเน้นประเด็น
- การทำตามคำสั่ง (Instruction following): ปฏิบัติตามรูปแบบและวิธีการที่ผู้ใช้ร้องขอหรือไม่
ตัวอย่างการประเมินจริง
ตัวอย่าง 1: เพื่อนบ้านอายุ 70 ปีหมดสติแต่ยังหายใจอยู่
- มีการระบุให้ โทรเรียกบริการแพทย์ฉุกเฉิน, จัดให้อยู่ในท่าพักฟื้น, และ ระบุเงื่อนไขการเริ่มทำ CPR
- ได้ 71 คะแนนจากเต็ม 92 คะแนน (77%) ตามเกณฑ์ Rubric → ให้คำแนะนำการรับมือภาวะฉุกเฉินได้ดี
ตัวอย่าง 2: ประสิทธิผลของ Quercetin ในการป้องกันไวรัส
- แม้จะสื่อสารอย่างชัดเจนว่า หลักฐานยังไม่เพียงพอ แต่ยัง ขาดข้อมูลเรื่องขนาดที่แนะนำ/ข้อมูลทางคลินิก และ ไม่ได้กล่าวถึงผลข้างเคียง
- ได้ 1 คะแนนจากเต็ม 25 คะแนน (4%) ตามเกณฑ์ Rubric → สื่อสารความไม่แน่นอนทางวิทยาศาสตร์ได้ดี แต่ยังขาดความครบถ้วนของข้อมูล
ตัวอย่าง 3: การเขียนบันทึกความคืบหน้าการฟื้นฟูหัวใจ
- แม้จะ นำเสนอเทมเพลตที่มีโครงสร้างชัดเจน แต่ ขาดข้อมูลทางคลินิกสำคัญหลายรายการ
- ได้ 15 คะแนนจากเต็ม 42 คะแนน (36%) ตามเกณฑ์ Rubric
การเปรียบเทียบประสิทธิภาพของโมเดล
ประสิทธิภาพตามโมเดล (ทั้งชุด/ตามธีม/ตามแกน)
- o3 ทำผลงานได้ สูงสุด (0.598) ในทุกธีมและทุกแกนการประเมิน
- ตามมาด้วย GPT-4.1, Claude 3.7 และ Gemini 2.5 Pro
- GPT-3.5 Turbo และ Llama 4 ได้คะแนนต่ำกว่าชัดเจน
ประสิทธิภาพต่อค่าใช้จ่าย
- GPT-4.1 nano มีต้นทุนถูกกว่า GPT-4o ถึง 25 เท่า แต่ให้ประสิทธิภาพสูงกว่า
- ชี้ให้เห็นว่า โมเดลขนาดเล็กยังพัฒนาอย่างต่อเนื่อง และมีความเป็นไปได้ที่จะให้ประสิทธิภาพสูงในต้นทุนต่ำ
ความน่าเชื่อถือ (ประสิทธิภาพ worst-of-n)
- o3 และ GPT-4.1 มี ประสิทธิภาพในกรณีเลวร้ายที่สุดดีขึ้นด้วย
- เป็นตัวชี้วัดสำคัญสำหรับ การสร้างความน่าเชื่อถือในสาขาที่มีความเสี่ยงสูง
เกณฑ์มาตรฐานแบบขยาย: Consensus & Hard
- HealthBench Consensus: ชุดประเมินความน่าเชื่อถือสูงที่ออกแบบตามเกณฑ์ฉันทามติของแพทย์หลายคน (ตัวอย่าง 3,671 รายการ)
- อัตราความผิดพลาดเกือบเข้าใกล้ 0
- HealthBench Hard: ตัวอย่างความยากสูง 1,000 รายการที่แม้แต่โมเดลล่าสุดก็ยังทำได้ยาก
- สามารถใช้เป็นชุดประเมินเพื่อทดสอบพื้นที่ที่โมเดลยังพัฒนาได้อีก
การเปรียบเทียบกับแพทย์มนุษย์
- โมเดล AI เดี่ยว vs แพทย์ (ไม่มีข้อมูลอ้างอิง) vs แพทย์ (สามารถอ้างอิงคำตอบของโมเดลได้)
- เมื่อเทียบกับโมเดลปี 2024: การจับคู่แพทย์+โมเดลให้ผลดีกว่าโมเดลเดี่ยว
- โมเดลล่าสุดของปี 2025 (o3, GPT‑4.1) ไปถึงหรือเหนือกว่าระดับคำตอบของแพทย์
- พื้นที่สำหรับการปรับปรุงเพิ่มเติมเริ่มลดลง
ความน่าเชื่อถือของการประเมิน
- ผลการให้คะแนนของ GPT-4.1 มีอัตราความสอดคล้องสูงกับผลการให้คะแนนของแพทย์จริง
- เกณฑ์การให้คะแนนของโมเดลสอดคล้องกับดุลยพินิจของแพทย์ในระดับใกล้เคียงกัน → ยืนยันความใช้ได้ของระบบให้คะแนน rubric แบบอัตโนมัติ
ทิศทางต่อจากนี้
- ข้อมูลทั้งหมดและเครื่องมือประเมินเผยแพร่ผ่าน GitHub https://github.com/openai/simple-evals
- สนับสนุน การประเมินและการปรับปรุงอย่างต่อเนื่องโดยชุมชน เพื่อให้เกิดความก้าวหน้าของ AI ที่มีความหมายในภาคการแพทย์
- ยังจำเป็นต้องแก้โจทย์ที่ยังอ่อนอยู่ เช่น การขอข้อมูลบริบท (Context seeking) และ การรับมือกรณีเลวร้ายที่สุด (Reliability)
1 ความคิดเห็น
ความเห็นจาก Hacker News
ฉันค่อนข้างมั่นใจว่าการวินิจฉัยและการรักษาทั่วไปจำนวนมากสามารถให้ระบบ AI ที่ถูกปรับจูนและตรวจสอบความถูกต้องมาเหมาะกับงานนี้ทำได้ดีพออยู่แล้ว ไม่นานมานี้ฉันพบแพทย์ผ่านวิดีโอคอลเพื่อขอยาแก้ไอ แต่จริง ๆ ฉันค้นและรู้อยู่แล้วว่าควรกินอะไร คนอาจจะบอกว่า “หมอเรียนมาหลายปี ต้องเชื่อมากกว่า Google” แต่คนเราก็ผิดพลาดได้ และหมอเองก็มักไปค้นข้อมูลจากที่อย่าง Uptodate เหมือนกัน ดังนั้นถ้าฉันยอมรับความเสี่ยงเองได้ ทำไมถึงไม่ควรเป็นคนรับความเสี่ยงนั้นเอง ฉันไม่เข้าใจว่าทำไมต้องจ่ายเพิ่มอีก 93 ดอลลาร์ นอกเหนือจากค่ายาแก้ไอราว 44 ดอลลาร์ เพียงเพื่อให้หมอดูหน้าใน Zoom ไม่ถึง 5 นาทีแล้วออกใบสั่งยาให้ ตรงข้ามกับค่ารักษาพยาบาลสุดโหดในอเมริกา บ้านเกิดของฉันอย่างเมียนมามีคลินิกและร้านขายยาอยู่ใกล้บ้านหลายแห่ง และยาส่วนใหญ่ซื้อได้โดยไม่ต้องมีใบสั่งยา (แน่นอนว่ายาที่มี opioid ยังต้องมีใบสั่งแพทย์) ถ้าแค่อยากยืนยันการวินิจฉัยก็จ่าย 10–20 ดอลลาร์ไปพบหมอ แล้วไปซื้อยาที่ร้านขายยาได้ทันที ถ้ามีเงินก็ซื้อยาได้ค่อนข้างอิสระ เลยสงสัยว่าทำไมในอเมริกาถึงไม่ยอมให้คนรับความเสี่ยงนั้นเองด้วยซ้ำ ขณะที่ค่ารักษาพยาบาลทั่วโลกสูงขึ้นเรื่อย ๆ ฉันคิดว่า AI จะเข้ามารับงานวินิจฉัยและรักษาแบบทั่วไปมากขึ้นเรื่อย ๆ (แม้จะไม่ได้คาดหวังสูงมาก) และหวังว่าอย่างน้อยส่วนหนึ่งของต้นทุนที่ประหยัดได้จะส่งต่อกลับมาถึงคนไข้
กรณีของคุณมันใช้ได้ผลเพราะเป็นกรณีที่ง่ายผิดปกติ ปัญหาคือเจ้าตัวไม่ได้รับการฝึกให้แยกได้ว่าสถานการณ์ไหนง่ายและสถานการณ์ไหนไม่ง่าย อาการไออาจเป็นแค่อาการไอธรรมดา หรืออาจเป็นสัญญาณของปัญหาที่ร้ายแรงกว่านั้น จึงต้องได้รับการตรวจจากหมอ “จริง ๆ” และบางกรณีก็ต้องตรวจต่อโดยผู้เชี่ยวชาญ เล่าเรื่องของฉันบ้าง ฉันมีอาการเจ็บอัณฑะ หมอคนหนึ่งคลำแล้วไม่พบอะไร แต่หมออีกคนบอกว่าคลำเจอบางอย่างแต่ไม่รู้ว่าอะไร สุดท้ายฉันไปพบผู้เชี่ยวชาญด้านระบบทางเดินปัสสาวะ เขาวินิจฉัยได้ทันทีว่าเป็นเนื้องอก และสุดท้ายมันก็เป็นมะเร็งจริง ๆ การตรวจพบเร็วทำให้รักษาได้ง่าย ประเด็นคือเมื่อสถานการณ์ไม่เรียบง่าย ความเชี่ยวชาญและประสบการณ์มีความสำคัญมาก
คุณถามว่าทำไมต้องจ่าย 93 ดอลลาร์ให้กับการพบแพทย์ผ่าน Zoom ไม่ถึง 5 นาที ก็เพราะคุณกำลังซื้อความรู้ของผู้เชี่ยวชาญที่เรียนมานานกว่า 10 ปี ระบบ AI ทุกวันนี้ในแง่การวินิจฉัยทางการแพทย์ยังเชื่อถือน้อยกว่าการค้นเว็บเสียอีก อย่างน้อยการค้นเว็บยังทำให้ฉันคัดกรองและอ้างอิงข้อมูลที่ผู้เชี่ยวชาญเขียนได้ และแม้หมอจะค้นข้อมูล ฉันก็มองว่าฉันจ่ายเงินเพื่อความสามารถในการแยกแยะข้อมูลนั้น ฉันไม่เห็นเหตุผลที่ทำให้คิดว่า AI จะทำหน้าที่นี้ได้ดีกว่ามนุษย์ เรื่องนี้คล้ายกับเรื่องของ Henry Ford ที่ว่า “ความรู้ว่าควรทาสีตรงไหนนั่นแหละที่มีมูลค่า 9999 ดอลลาร์”
อยากรู้ว่าคุณอยู่ที่ไหนถึงซื้อยาแก้ไอโดยไม่มีใบสั่งยาไม่ได้ เท่าที่ฉันรู้ สิ่งที่ต้องมีใบสั่งยาจะเป็นพวกที่มีสารควบคุมเท่านั้น
แพทย์มีไม่พออย่างหนักจนไม่มีทางมาทำทุกอย่างแบบนี้ได้อยู่แล้ว และภาวะขาดแคลนนี้ก็แย่ลงทุกวัน มันคงดีมากถ้าทุกคนเข้าถึงการรักษาราคาถูกได้ทุกเมื่อ แต่เราไม่ได้อยู่ในโลกในอุดมคติ ถ้า AI เข้ามาแทนบางส่วนได้ นั่นจะเป็นประโยชน์มหาศาลต่อคนส่วนใหญ่
ถ้าปล่อยให้ทุกคนซื้อและกินยาได้ง่าย ๆ ก็จะเกิดปัญหาอย่างการใช้ยาปฏิชีวนะพร่ำเพรื่อ น่าเสียดายที่ระบบสาธารณสุขต้องถูกออกแบบโดยคำนึงถึงพฤติกรรมที่ต่ำกว่ามาตรฐานเฉลี่ยด้วย AI อาจพอทำงานคัดกรองง่าย ๆ บางอย่างได้ แต่ด้วยสภาพปัจจุบันของ LLM มันยังขาดทั้งความน่าเชื่อถือของข้อมูลผู้ป่วยและการตัดสินแบบหลายมิติจากประสาทสัมผัส จึงยังแทนหมอได้ยาก “AI แพทย์ประจำตัว” ที่แท้จริงคงเป็นไปได้ก็ต่อเมื่อมีข้อมูลสุขภาพและประวัติที่สมบูรณ์แบบ แต่การเก็บข้อมูลระดับนั้นก็สร้างโจทย์ใหม่อย่างปัญหาความเป็นส่วนตัวอีก
ถ้าประสบการณ์แบบนี้เป็นเรื่องปกติของการเข้าถึงระบบรักษาพยาบาล แปลว่าจำเป็นต้องมีการเปลี่ยนแปลงที่รื้อทั้งระบบจริง ๆ AI อาจแค่ทำให้กำไรของบางบริษัทสูงขึ้น โดยที่คุณไม่ได้ประโยชน์อะไรเลย
AI เองก็จะมีต้นทุนแยกต่างหาก ไม่ได้ฟรีหรอก
ฉันรู้สึกว่าถ้าตัว benchmark ถูกสร้างโดยฝ่ายที่สร้างโมเดลเอง มันก็ดูมีผลประโยชน์ทับซ้อน อย่างน้อยควรให้หน่วยงานไม่แสวงกำไรแยกต่างหาก หรือไม่ก็นิติบุคคลแยกภายใต้บริษัทแม่เป็นผู้ดูแล ถึงจะโปร่งใสกว่า
แนวคิดที่จะเอาข้อมูลสุขภาพไปฝากไว้กับ LLM ที่ไม่ได้เข้าใจความหมายจริง ๆ นั้นเป็นความผิดพลาดร้ายแรง มันอาจพอใช้กับการหาลวดลายข้อมูล ความบันเทิง หรือการสร้างโค้ดได้บ้าง แต่สำหรับการวินิจฉัยหรือคำแนะนำทางการแพทย์แล้วเชื่อถือไม่ได้เด็ดขาด แค่คิดว่าบุคลากรทางการแพทย์จะคอยทำตัวเป็นนกแก้วนกขุนทองพูดตามที่ LLM บอกก็น่ากลัวพอแล้ว ความเสี่ยงแบบนี้ควรถูกกำกับดูแลโดยเร็วที่สุด
อยากรู้ว่าทำไมคุณถึงคิดว่าข้อบกพร่องนั้นร้ายแรงถึงขั้นนั้น แน่นอนว่า LLM มีข้อจำกัดชัดเจน แต่มนุษย์ก็มีข้อจำกัดเหมือนกัน และฉันคิดว่าการรวมสองอย่างเข้าด้วยกันอาจให้ผลลัพธ์ที่ดีกว่า
ไม่มีใครมองออกอย่างโปร่งใสหรอกว่าใคร “เข้าใจ” อะไรจริง ๆ แม้แต่โพสต์นี้ก็ไม่รู้ว่า AI เขียนหรือเปล่า และก็ไม่มีมาตรฐานสัมบูรณ์ในการตัดสินว่าใครเป็นคนที่มีความเข้าใจจริง ความเชี่ยวชาญของมนุษย์เองก็ประเมินกันทางอ้อมผ่านการสอบและการทดสอบต่าง ๆ และ OpenAI ก็กำลังท้าทายเรื่องนี้อยู่ตอนนี้ สิ่งที่ฉันสนใจคือผลลัพธ์ ถ้า “คะแนน” อยู่ที่ 10% ไม่ว่าจะเป็นคนหรือ AI ฉันก็ไม่ไว้ใจ แต่ถ้า 95% ฉันอาจรู้สึกว่ามันใช้งานได้ดีกว่าหมอเสียอีก ที่จริงฉันคาดว่าอีกไม่นานหมอส่วนใหญ่จะทำคะแนนใน benchmark แบบนี้ได้ไม่เท่ากับโมเดลรุ่นล่าสุด
ฉันก็คิดว่าการฝากข้อมูลสุขภาพไว้กับ “สัตว์เลี้ยงลูกด้วยนมมนุษย์ที่เหนื่อยล้าและเต็มไปด้วยอคติ” ก็อันตรายพอกัน ฉันยังชอบให้หมอมีบทบาทด้านความเห็นอกเห็นใจ การพูดคุยเล็ก ๆ น้อย ๆ และการฉีดวัคซีนพื้นฐาน แต่ฉันไม่คิดว่าหมอที่ทำงานหนักเกินไปจะต้องแม่นยำกว่าเครื่องมือข้อมูลเสมอไป ถ้าหมอของฉันแค่ท่องตามสไลด์ขายของจากเซลส์ หรือแนวทางรักษาที่ล้าสมัย นั่นก็น่ากลัวเหมือนกัน
ฉันชอบที่พวกเขาแสดง “คะแนนแย่ที่สุดจากตัวอย่าง k ครั้ง” เพราะในโลกจริง หนึ่งในร้อยคนก็อาจเป็นคนที่ได้รับ “คำตอบที่แย่ที่สุด” นั้นจริง ๆ
น่าประทับใจที่ Grok ทำได้ดีเกินคาดในการทดสอบแบบนี้ รู้สึกว่าในข่าว Grok มักถูกพูดถึงน้อยกว่า Gemini หรือ Llama
ฉันแปลกใจเหมือนกันที่ Gemini ทำได้ดีพอสมควร ดูเหมือน Gemini จะหลบเลี่ยงหัวข้อสุขภาพมากเป็นพิเศษ เลยอาจทำให้คะแนนลดลง เป็นไปได้ว่าคำตอบที่ถูกเซ็นเซอร์จนตอบไม่พอถูกนับเป็นล้มเหลวทั้งหมด
Grok ไม่สามารถดาวน์โหลดน้ำหนักของโมเดลมารันแบบ local ได้
ช่วง 5 ปีที่ผ่านมา ฉันทรมานกับอาการบาดเจ็บ ลองมาหมดทั้งหมอกีฬาเฉพาะทางหลายคน การสแกน การประคบ ไปจนถึงฝังเข็มและไคโรแพรคติก หมอหลายคนก็วินิจฉัยแปลก ๆ ว่า “ปกติ” หรือ “ไม่รู้สาเหตุ” มีหมออยู่คนเดียวที่ให้ความเห็นได้น่าเชื่อ แต่ฉันหมดหวังมากจนไม่ได้ตามต่อ สุดท้ายฉันเอาประวัติทั้งหมดใส่ให้ o3-deep-research แล้วมันก็เสนอความเห็นแบบเดียวกับหมอคนนั้น รวมถึงแผนภาพกลุ่มกล้ามเนื้อและวิธีออกกำลังกายด้วย แม้ยังไม่หายดีทั้งหมด แต่เป็นครั้งแรกในรอบนานที่ฉันรู้สึกมีความหวังอย่างระมัดระวัง
อยากรู้ว่าทำไมคุณถึงเชื่อการวินิจฉัยของ LLM มากกว่าคำแนะนำจากหมอหลายคน ในอเมริกาหมอไม่แนะนำกายภาพบำบัดหรือโปรแกรมออกกำลังกายเลย ฟังดูเข้าใจยากมาก
ในความเป็นจริงต้องยอมรับว่าการรักษาอาการบาดเจ็บทางกล้ามเนื้อและกระดูกส่วนใหญ่เป็นเส้นทางลองผิดลองถูกที่ยาวนานมาก และการถ่ายภาพวินิจฉัยก็มีข้อจำกัดมากเช่นกัน หลายกรณีอาการกับภาพตรวจไม่สอดคล้องกัน อย่าเพิ่งหมดหวัง ลองวิธีรักษาหลายแบบที่มีหลักฐานทางวิทยาศาสตร์รองรับไปเรื่อย ๆ สุดท้ายส่วนใหญ่มักดีขึ้นตามเวลา และนั่นเองก็ทำให้เข้าใจผิดได้ง่ายว่าวิธีรักษาใดวิธีหนึ่งเป็นตัวที่ได้ผล
ดูเหมือนว่าสิ่งที่คุณต้องการจริง ๆ ไม่ใช่หมอ แต่เป็นนักกายภาพบำบัดที่เก่งมากกว่า
สุดท้ายแล้วความเห็นของหมอคนนั้นก็ถูกไม่ใช่เหรอ ไม่ว่าจะเป็น AI หรือการวินิจฉัยตัวเองผ่านออนไลน์ ก็ดูไม่ได้เป็นชัยชนะอะไรเป็นพิเศษ
คุณดูเหมือนจะเชื่อวิธีบำบัดเหลวไหลอย่างฝังเข็มหรือไคโรแพรคติก แต่กลับไม่เชื่อหมอ และจากนั้นก็ไปเชื่อ AI ที่ขึ้นชื่อเรื่องการโกหกอีกที น่าจะต้องทบทวนเกณฑ์การตัดสินภายในของตัวเองดูหน่อย
หวังว่าการตัดงบวิทยาศาสตร์ของรัฐบาลช่วงหลังจะช่วยลดกลุ่มคนสายระวังเกินเหตุที่ขัดขวางการทดลองแนวทางใหม่ ๆ และการเรียนรู้ลงได้บ้าง การทำให้โมเดลพวกนี้ตอบได้แค่ทำนองว่า “ฉันไม่สามารถให้คำแนะนำทางการแพทย์ได้” เป็นเรื่องเสียหายจริง ๆ
ฉันรู้สึกว่างานวิจัยนี้รอบคอบและมีประโยชน์มาก และก็น่าประทับใจที่ประสิทธิภาพของโมเดลเพิ่มขึ้นเกือบ 2 เท่าในช่วงเวลาแค่ปีเดียว o3 และ deep-research ช่วยเรื่องการดูแลสุขภาพของฉันได้จริงมาก ตัวอย่างเช่น เมื่อเดือนก่อนฉันโดนกระแทกแรงมากบริเวณหน้าอกแถวหัวใจ ฉันให้ o3 ดูอาการพร้อมข้อมูลชีพจรและออกซิเจนในเลือดจาก Apple Watch และมันก็รู้อยู่แล้วถึงประวัติสุขภาพของฉันจากบทสนทนาก่อนหน้า มันอธิบายแนวโน้มอาการและวิธีรักษาได้อย่างแม่นยำ และการฟื้นตัวจริงก็ตรง 100% ปกติฉันจะเตรียมพรอมป์ต์รายละเอียดไว้ล่วงหน้า เช่น ส่วนสูง น้ำหนัก ยาที่กิน และข้อมูลสุขภาพอื่น ๆ พอมีอาการก็ใส่ให้ o3 ทันที ซึ่งมีประโยชน์มาก
ข้อมูลค่า SpO2 ออกซิเจนในเลือดจาก Apple Watch หรืออุปกรณ์สวมข้อมือ ไม่แม่นยำพอสำหรับการวินิจฉัยอย่างมาก เครื่องวัดออกซิเจนปลายนิ้วโดยเฉพาะจะแม่นยำกว่ามาก
อยากรู้ว่ามันแสดงความมั่นใจต่อการวินิจฉัยนั้นมากแค่ไหน และคุณเองเชื่อระดับความมั่นใจนั้นหรือเปล่า ฉันถามภรรยาที่เป็นแพทย์ เธอบอกว่ากรณีมีการบาดเจ็บ อาจเป็นภาวะน้ำในเยื่อหุ้มหัวใจจากการกระแทกซึ่งอันตรายได้เช่นกัน
ฉันรู้สึกว่า benchmark นี้ห่างจากวิธีใช้โมเดลจริงพอสมควร ในงานจริง ผู้ใช้ไม่ได้ถูกปล่อยให้แชตกับ base model ตรง ๆ แต่จะใช้วิธีผสมกันทั้ง RAG, guardrail และคำตอบที่เตรียมไว้ล่วงหน้า เลยสงสัยว่าการประเมินนี้สะท้อนสถานการณ์เชิงพาณิชย์แบบไหนกันแน่
benchmark โค้ดก็ไม่เหมือนกันเหรอ ในงานตอบคำถามเชิงวิชาชีพจริง ๆ การมี base o3 กับเว็บเสิร์ชและพรอมป์ต์ดี ๆ ก็น่าจะดีกว่าเสียอีก บางที RAG/guardrail อาจกลับทำให้ประสิทธิภาพลดลงด้วยซ้ำ
แค่การแชตกับ ChatGPT ตามปกติก็คือกรณีใช้งานจริงของการทดสอบนี้แล้ว เป็นกรณีที่ใหญ่และสำคัญมาก
ตอนนี้แม้แต่คนที่ไม่ใช่บุคลากรทางคลินิกก็ยังใช้ ChatGPT ทุกวันเพื่อขอความช่วยเหลือเรื่องปัญหาสุขภาพจริง ๆ การประเมินนี้จึงเป็นชุดข้อมูลที่ดีสำหรับลดความเสี่ยงในโลกจริง
ไม่นานมานี้ฉันอัปโหลดผลตรวจให้ ChatGPT แล้วขอให้ช่วยสรุป แต่ AI กลับ “หลอน” ว่าฉันเป็นมะเร็งร้ายแรง พร้อมอธิบายเพิ่มยาวเหยียด ทั้งที่ในรายงานจริงเขียนว่า “ไม่พบมะเร็ง”
อยากรู้ว่าเป็นโมเดล LLM ตัวไหน (4o, o3, 3.5?) โมเดลยุคแรก ๆ ทำได้ไม่ดีนัก แต่ o3 พอใช้ช่วยเรื่องปัญหาสุขภาพได้ค่อนข้างดีแล้ว (อย่างปัญหาเกี่ยวกับหู)
เป็นไปได้ไหมว่า AI จริง ๆ อ่านผลตรวจไม่ออก แล้วแค่ตอบมั่วแบบเล่นบทบาทสมมติ ก่อนหน้านี้ฉันเคยให้ PDF คู่มือเครื่องยนต์แล้วถามคำถาม มันตอบแบบฟังดูน่าเชื่อถือ แต่จริง ๆ กลับยกแผนผังวงจรคนละชุดออกมาเลย
ฟังเหมือนมันตอบประมาณว่า “ตรวจมะเร็ง: พบมะเร็ง!” เป็นมุกตลกเสียมากกว่า
อยากรู้ว่าผลลัพธ์สุดท้ายเป็นอย่างไรจริง ๆ (บางครั้งสิ่งที่เราคิดว่าเป็นผลบวกลวง ภายหลังก็อาจกลายเป็นมะเร็งจริงได้ เพราะมะเร็งบางชนิดแสดงสัญญาณช้ามาก)