HealthBench - เกณฑ์มาตรฐานใหม่จาก OpenAI สำหรับการประเมิน AI ด้านเฮลท์แคร์

(openai.com)

4 คะแนน โดย GN⁺ 2025-05-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

OpenAI เปิดตัวเกณฑ์มาตรฐานใหม่ HealthBench สำหรับ ประเมินประสิทธิภาพของระบบ AI ในสถานการณ์ทางการแพทย์
สร้างขึ้นบนพื้นฐานของ แพทย์ 262 คน, ประสบการณ์ทางการแพทย์จาก 60 ประเทศ และ บทสนทนาทางการแพทย์ที่สมจริง 5,000 ชุด โดยใช้ เกณฑ์การประเมิน (rubric) ที่แพทย์เขียนขึ้นเอง สำหรับแต่ละบทสนทนา
เกณฑ์การประเมินครอบคลุม ความแม่นยำ, การรับรู้บริบท, คุณภาพการสื่อสาร, ความครบถ้วน เป็นต้น และใช้ โมเดลประเมินที่อิงกับ GPT-4.1 ในการให้คะแนนว่าผ่านเกณฑ์หรือไม่
โมเดลล่าสุดของ OpenAI แสดงให้เห็นถึงความก้าวหน้าที่เป็นรูปธรรม เช่น ประสิทธิภาพดีขึ้น 28% เมื่อเทียบกับเดิม, โมเดลขนาดเล็กก็มีประสิทธิภาพคุ้มค่าต้นทุนดีขึ้น, และ ประสิทธิภาพในกรณีเลวร้ายที่สุด (worst-of-n) ดีขึ้น
HealthBench ทั้งชุด, Consensus และ Hard ถูก เผยแพร่เป็นโอเพนซอร์ส สำหรับนักวิจัยและนักพัฒนา และคาดว่าจะช่วยสนับสนุนงานวิจัย AI ทางการแพทย์และการยกระดับความปลอดภัยในอนาคต

แนะนำ HealthBench

เบื้องหลังการพัฒนา

จำเป็นต้องมีการประเมินเพื่อเพิ่มศักยภาพของ การนำ AGI ไปใช้ในเฮลท์แคร์ ให้สูงสุด เช่น การขยายการเข้าถึงข้อมูลสุขภาพ การช่วยเหลือแพทย์ทางคลินิก และการเสริมสิทธิด้านสุขภาพของชุมชน
ชุดประเมินทางการแพทย์เดิมมีปัญหา เช่น ขาดความสมจริง, อิงการตัดสินของผู้เชี่ยวชาญไม่เพียงพอ, และ เปิดพื้นที่ให้โมเดลพัฒนาต่อได้ไม่มาก

จุดเด่นสำคัญ

สถานการณ์บทสนทนาด้านสุขภาพ 5,000 ชุด ที่มีหลายรอบ หลายภาษา และมีความยากสูง
คำตอบแต่ละรายการถูกให้คะแนนด้วย เกณฑ์การประเมิน (rubric) แบบปรับเฉพาะที่แพทย์เป็นผู้สร้าง
มี เกณฑ์ประเมินรวม 48,562 ข้อ ทำให้สามารถวัดความสามารถย่อยที่หลากหลายของโมเดลได้เชิงปริมาณ
การให้คะแนนดำเนินการผ่านระบบประเมิน rubric อัตโนมัติที่ใช้ GPT-4.1

ธีมและแกนการประเมินของ HealthBench

7 ธีมการประเมิน

Emergency referrals: สามารถรับรู้สถานการณ์ฉุกเฉินและแนะนำการตอบสนองที่เหมาะสมหรือไม่
Expertise-tailored communication: สามารถปรับคำศัพท์/รายละเอียดให้เหมาะกับระดับความรู้ของผู้ใช้หรือไม่
Responding under uncertainty: ความเหมาะสมของการตอบสนองเมื่อข้อมูลมีความไม่แน่นอน
Response depth: ให้ข้อมูลได้ลึกพอเหมาะกับสถานการณ์หรือไม่
Health data tasks: การจัดการงานปฏิบัติที่เกี่ยวข้องกับการแพทย์ เช่น การเขียนเอกสารและการสนับสนุนความรู้
Global health: ความสามารถในการปรับตามทรัพยากร สถานการณ์ และภาษาของแต่ละประเทศ
Context seeking: ความสามารถในการขอข้อมูลบริบทที่จำเป็นด้วยตัวเอง

แกนการประเมิน (Axes)

ความแม่นยำ (Accuracy): สอดคล้องกับข้อเท็จจริงทางการแพทย์และฉันทามติทางวิทยาศาสตร์หรือไม่
การรับรู้บริบท (Context awareness): ปรับคำตอบตามพื้นหลังของผู้ใช้หรือไม่
ความครบถ้วน (Completeness): ครอบคลุมเนื้อหาที่จำเป็นโดยไม่ตกหล่นหรือไม่
คุณภาพการสื่อสาร (Communication quality): ความเหมาะสมของความยาว คำศัพท์ โครงสร้าง และวิธีเน้นประเด็น
การทำตามคำสั่ง (Instruction following): ปฏิบัติตามรูปแบบและวิธีการที่ผู้ใช้ร้องขอหรือไม่

ตัวอย่างการประเมินจริง

ตัวอย่าง 1: เพื่อนบ้านอายุ 70 ปีหมดสติแต่ยังหายใจอยู่

มีการระบุให้ โทรเรียกบริการแพทย์ฉุกเฉิน, จัดให้อยู่ในท่าพักฟื้น, และ ระบุเงื่อนไขการเริ่มทำ CPR
ได้ 71 คะแนนจากเต็ม 92 คะแนน (77%) ตามเกณฑ์ Rubric → ให้คำแนะนำการรับมือภาวะฉุกเฉินได้ดี

ตัวอย่าง 2: ประสิทธิผลของ Quercetin ในการป้องกันไวรัส

แม้จะสื่อสารอย่างชัดเจนว่า หลักฐานยังไม่เพียงพอ แต่ยัง ขาดข้อมูลเรื่องขนาดที่แนะนำ/ข้อมูลทางคลินิก และ ไม่ได้กล่าวถึงผลข้างเคียง
ได้ 1 คะแนนจากเต็ม 25 คะแนน (4%) ตามเกณฑ์ Rubric → สื่อสารความไม่แน่นอนทางวิทยาศาสตร์ได้ดี แต่ยังขาดความครบถ้วนของข้อมูล

ตัวอย่าง 3: การเขียนบันทึกความคืบหน้าการฟื้นฟูหัวใจ

แม้จะ นำเสนอเทมเพลตที่มีโครงสร้างชัดเจน แต่ ขาดข้อมูลทางคลินิกสำคัญหลายรายการ
ได้ 15 คะแนนจากเต็ม 42 คะแนน (36%) ตามเกณฑ์ Rubric

การเปรียบเทียบประสิทธิภาพของโมเดล

ประสิทธิภาพตามโมเดล (ทั้งชุด/ตามธีม/ตามแกน)

o3 ทำผลงานได้ สูงสุด (0.598) ในทุกธีมและทุกแกนการประเมิน
ตามมาด้วย GPT-4.1, Claude 3.7 และ Gemini 2.5 Pro
GPT-3.5 Turbo และ Llama 4 ได้คะแนนต่ำกว่าชัดเจน

ประสิทธิภาพต่อค่าใช้จ่าย

GPT-4.1 nano มีต้นทุนถูกกว่า GPT-4o ถึง 25 เท่า แต่ให้ประสิทธิภาพสูงกว่า
ชี้ให้เห็นว่า โมเดลขนาดเล็กยังพัฒนาอย่างต่อเนื่อง และมีความเป็นไปได้ที่จะให้ประสิทธิภาพสูงในต้นทุนต่ำ

ความน่าเชื่อถือ (ประสิทธิภาพ worst-of-n)

o3 และ GPT-4.1 มี ประสิทธิภาพในกรณีเลวร้ายที่สุดดีขึ้นด้วย
เป็นตัวชี้วัดสำคัญสำหรับ การสร้างความน่าเชื่อถือในสาขาที่มีความเสี่ยงสูง

เกณฑ์มาตรฐานแบบขยาย: Consensus & Hard

HealthBench Consensus: ชุดประเมินความน่าเชื่อถือสูงที่ออกแบบตามเกณฑ์ฉันทามติของแพทย์หลายคน (ตัวอย่าง 3,671 รายการ)
- อัตราความผิดพลาดเกือบเข้าใกล้ 0
HealthBench Hard: ตัวอย่างความยากสูง 1,000 รายการที่แม้แต่โมเดลล่าสุดก็ยังทำได้ยาก
- สามารถใช้เป็นชุดประเมินเพื่อทดสอบพื้นที่ที่โมเดลยังพัฒนาได้อีก

การเปรียบเทียบกับแพทย์มนุษย์

โมเดล AI เดี่ยว vs แพทย์ (ไม่มีข้อมูลอ้างอิง) vs แพทย์ (สามารถอ้างอิงคำตอบของโมเดลได้)
เมื่อเทียบกับโมเดลปี 2024: การจับคู่แพทย์+โมเดลให้ผลดีกว่าโมเดลเดี่ยว
โมเดลล่าสุดของปี 2025 (o3, GPT‑4.1) ไปถึงหรือเหนือกว่าระดับคำตอบของแพทย์
- พื้นที่สำหรับการปรับปรุงเพิ่มเติมเริ่มลดลง

ความน่าเชื่อถือของการประเมิน

ผลการให้คะแนนของ GPT-4.1 มีอัตราความสอดคล้องสูงกับผลการให้คะแนนของแพทย์จริง
เกณฑ์การให้คะแนนของโมเดลสอดคล้องกับดุลยพินิจของแพทย์ในระดับใกล้เคียงกัน → ยืนยันความใช้ได้ของระบบให้คะแนน rubric แบบอัตโนมัติ

ทิศทางต่อจากนี้

ข้อมูลทั้งหมดและเครื่องมือประเมินเผยแพร่ผ่าน GitHub https://github.com/openai/simple-evals
สนับสนุน การประเมินและการปรับปรุงอย่างต่อเนื่องโดยชุมชน เพื่อให้เกิดความก้าวหน้าของ AI ที่มีความหมายในภาคการแพทย์
ยังจำเป็นต้องแก้โจทย์ที่ยังอ่อนอยู่ เช่น การขอข้อมูลบริบท (Context seeking) และ การรับมือกรณีเลวร้ายที่สุด (Reliability)

1 ความคิดเห็น

GN⁺ 2025-05-14

ความเห็นจาก Hacker News

ฉันค่อนข้างมั่นใจว่าการวินิจฉัยและการรักษาทั่วไปจำนวนมากสามารถให้ระบบ AI ที่ถูกปรับจูนและตรวจสอบความถูกต้องมาเหมาะกับงานนี้ทำได้ดีพออยู่แล้ว ไม่นานมานี้ฉันพบแพทย์ผ่านวิดีโอคอลเพื่อขอยาแก้ไอ แต่จริง ๆ ฉันค้นและรู้อยู่แล้วว่าควรกินอะไร คนอาจจะบอกว่า “หมอเรียนมาหลายปี ต้องเชื่อมากกว่า Google” แต่คนเราก็ผิดพลาดได้ และหมอเองก็มักไปค้นข้อมูลจากที่อย่าง Uptodate เหมือนกัน ดังนั้นถ้าฉันยอมรับความเสี่ยงเองได้ ทำไมถึงไม่ควรเป็นคนรับความเสี่ยงนั้นเอง ฉันไม่เข้าใจว่าทำไมต้องจ่ายเพิ่มอีก 93 ดอลลาร์ นอกเหนือจากค่ายาแก้ไอราว 44 ดอลลาร์ เพียงเพื่อให้หมอดูหน้าใน Zoom ไม่ถึง 5 นาทีแล้วออกใบสั่งยาให้ ตรงข้ามกับค่ารักษาพยาบาลสุดโหดในอเมริกา บ้านเกิดของฉันอย่างเมียนมามีคลินิกและร้านขายยาอยู่ใกล้บ้านหลายแห่ง และยาส่วนใหญ่ซื้อได้โดยไม่ต้องมีใบสั่งยา (แน่นอนว่ายาที่มี opioid ยังต้องมีใบสั่งแพทย์) ถ้าแค่อยากยืนยันการวินิจฉัยก็จ่าย 10–20 ดอลลาร์ไปพบหมอ แล้วไปซื้อยาที่ร้านขายยาได้ทันที ถ้ามีเงินก็ซื้อยาได้ค่อนข้างอิสระ เลยสงสัยว่าทำไมในอเมริกาถึงไม่ยอมให้คนรับความเสี่ยงนั้นเองด้วยซ้ำ ขณะที่ค่ารักษาพยาบาลทั่วโลกสูงขึ้นเรื่อย ๆ ฉันคิดว่า AI จะเข้ามารับงานวินิจฉัยและรักษาแบบทั่วไปมากขึ้นเรื่อย ๆ (แม้จะไม่ได้คาดหวังสูงมาก) และหวังว่าอย่างน้อยส่วนหนึ่งของต้นทุนที่ประหยัดได้จะส่งต่อกลับมาถึงคนไข้
- กรณีของคุณมันใช้ได้ผลเพราะเป็นกรณีที่ง่ายผิดปกติ ปัญหาคือเจ้าตัวไม่ได้รับการฝึกให้แยกได้ว่าสถานการณ์ไหนง่ายและสถานการณ์ไหนไม่ง่าย อาการไออาจเป็นแค่อาการไอธรรมดา หรืออาจเป็นสัญญาณของปัญหาที่ร้ายแรงกว่านั้น จึงต้องได้รับการตรวจจากหมอ “จริง ๆ” และบางกรณีก็ต้องตรวจต่อโดยผู้เชี่ยวชาญ เล่าเรื่องของฉันบ้าง ฉันมีอาการเจ็บอัณฑะ หมอคนหนึ่งคลำแล้วไม่พบอะไร แต่หมออีกคนบอกว่าคลำเจอบางอย่างแต่ไม่รู้ว่าอะไร สุดท้ายฉันไปพบผู้เชี่ยวชาญด้านระบบทางเดินปัสสาวะ เขาวินิจฉัยได้ทันทีว่าเป็นเนื้องอก และสุดท้ายมันก็เป็นมะเร็งจริง ๆ การตรวจพบเร็วทำให้รักษาได้ง่าย ประเด็นคือเมื่อสถานการณ์ไม่เรียบง่าย ความเชี่ยวชาญและประสบการณ์มีความสำคัญมาก
- คุณถามว่าทำไมต้องจ่าย 93 ดอลลาร์ให้กับการพบแพทย์ผ่าน Zoom ไม่ถึง 5 นาที ก็เพราะคุณกำลังซื้อความรู้ของผู้เชี่ยวชาญที่เรียนมานานกว่า 10 ปี ระบบ AI ทุกวันนี้ในแง่การวินิจฉัยทางการแพทย์ยังเชื่อถือน้อยกว่าการค้นเว็บเสียอีก อย่างน้อยการค้นเว็บยังทำให้ฉันคัดกรองและอ้างอิงข้อมูลที่ผู้เชี่ยวชาญเขียนได้ และแม้หมอจะค้นข้อมูล ฉันก็มองว่าฉันจ่ายเงินเพื่อความสามารถในการแยกแยะข้อมูลนั้น ฉันไม่เห็นเหตุผลที่ทำให้คิดว่า AI จะทำหน้าที่นี้ได้ดีกว่ามนุษย์ เรื่องนี้คล้ายกับเรื่องของ Henry Ford ที่ว่า “ความรู้ว่าควรทาสีตรงไหนนั่นแหละที่มีมูลค่า 9999 ดอลลาร์”
- อยากรู้ว่าคุณอยู่ที่ไหนถึงซื้อยาแก้ไอโดยไม่มีใบสั่งยาไม่ได้ เท่าที่ฉันรู้ สิ่งที่ต้องมีใบสั่งยาจะเป็นพวกที่มีสารควบคุมเท่านั้น
- แพทย์มีไม่พออย่างหนักจนไม่มีทางมาทำทุกอย่างแบบนี้ได้อยู่แล้ว และภาวะขาดแคลนนี้ก็แย่ลงทุกวัน มันคงดีมากถ้าทุกคนเข้าถึงการรักษาราคาถูกได้ทุกเมื่อ แต่เราไม่ได้อยู่ในโลกในอุดมคติ ถ้า AI เข้ามาแทนบางส่วนได้ นั่นจะเป็นประโยชน์มหาศาลต่อคนส่วนใหญ่
- ถ้าปล่อยให้ทุกคนซื้อและกินยาได้ง่าย ๆ ก็จะเกิดปัญหาอย่างการใช้ยาปฏิชีวนะพร่ำเพรื่อ น่าเสียดายที่ระบบสาธารณสุขต้องถูกออกแบบโดยคำนึงถึงพฤติกรรมที่ต่ำกว่ามาตรฐานเฉลี่ยด้วย AI อาจพอทำงานคัดกรองง่าย ๆ บางอย่างได้ แต่ด้วยสภาพปัจจุบันของ LLM มันยังขาดทั้งความน่าเชื่อถือของข้อมูลผู้ป่วยและการตัดสินแบบหลายมิติจากประสาทสัมผัส จึงยังแทนหมอได้ยาก “AI แพทย์ประจำตัว” ที่แท้จริงคงเป็นไปได้ก็ต่อเมื่อมีข้อมูลสุขภาพและประวัติที่สมบูรณ์แบบ แต่การเก็บข้อมูลระดับนั้นก็สร้างโจทย์ใหม่อย่างปัญหาความเป็นส่วนตัวอีก
- ถ้าประสบการณ์แบบนี้เป็นเรื่องปกติของการเข้าถึงระบบรักษาพยาบาล แปลว่าจำเป็นต้องมีการเปลี่ยนแปลงที่รื้อทั้งระบบจริง ๆ AI อาจแค่ทำให้กำไรของบางบริษัทสูงขึ้น โดยที่คุณไม่ได้ประโยชน์อะไรเลย
- AI เองก็จะมีต้นทุนแยกต่างหาก ไม่ได้ฟรีหรอก
ฉันรู้สึกว่าถ้าตัว benchmark ถูกสร้างโดยฝ่ายที่สร้างโมเดลเอง มันก็ดูมีผลประโยชน์ทับซ้อน อย่างน้อยควรให้หน่วยงานไม่แสวงกำไรแยกต่างหาก หรือไม่ก็นิติบุคคลแยกภายใต้บริษัทแม่เป็นผู้ดูแล ถึงจะโปร่งใสกว่า
- ตัว benchmark เองไม่ใช่เรื่องแย่ แต่พอเห็นกราฟที่แสดงว่า Gemini หรือ Claude ได้คะแนนต่ำกว่า o3 บนเกณฑ์ใหม่ที่พวกเขาเพิ่งสร้างขึ้น ก็รู้สึกแปลก ๆ เหมือนส่งนัยว่า “ดูสิ คู่แข่งทำได้แย่กว่าในตัวชี้วัดสำคัญที่เราเพิ่งสร้างเอง! เรื่องใหญ่มากนะ!”
แนวคิดที่จะเอาข้อมูลสุขภาพไปฝากไว้กับ LLM ที่ไม่ได้เข้าใจความหมายจริง ๆ นั้นเป็นความผิดพลาดร้ายแรง มันอาจพอใช้กับการหาลวดลายข้อมูล ความบันเทิง หรือการสร้างโค้ดได้บ้าง แต่สำหรับการวินิจฉัยหรือคำแนะนำทางการแพทย์แล้วเชื่อถือไม่ได้เด็ดขาด แค่คิดว่าบุคลากรทางการแพทย์จะคอยทำตัวเป็นนกแก้วนกขุนทองพูดตามที่ LLM บอกก็น่ากลัวพอแล้ว ความเสี่ยงแบบนี้ควรถูกกำกับดูแลโดยเร็วที่สุด
- อยากรู้ว่าทำไมคุณถึงคิดว่าข้อบกพร่องนั้นร้ายแรงถึงขั้นนั้น แน่นอนว่า LLM มีข้อจำกัดชัดเจน แต่มนุษย์ก็มีข้อจำกัดเหมือนกัน และฉันคิดว่าการรวมสองอย่างเข้าด้วยกันอาจให้ผลลัพธ์ที่ดีกว่า
- ไม่มีใครมองออกอย่างโปร่งใสหรอกว่าใคร “เข้าใจ” อะไรจริง ๆ แม้แต่โพสต์นี้ก็ไม่รู้ว่า AI เขียนหรือเปล่า และก็ไม่มีมาตรฐานสัมบูรณ์ในการตัดสินว่าใครเป็นคนที่มีความเข้าใจจริง ความเชี่ยวชาญของมนุษย์เองก็ประเมินกันทางอ้อมผ่านการสอบและการทดสอบต่าง ๆ และ OpenAI ก็กำลังท้าทายเรื่องนี้อยู่ตอนนี้ สิ่งที่ฉันสนใจคือผลลัพธ์ ถ้า “คะแนน” อยู่ที่ 10% ไม่ว่าจะเป็นคนหรือ AI ฉันก็ไม่ไว้ใจ แต่ถ้า 95% ฉันอาจรู้สึกว่ามันใช้งานได้ดีกว่าหมอเสียอีก ที่จริงฉันคาดว่าอีกไม่นานหมอส่วนใหญ่จะทำคะแนนใน benchmark แบบนี้ได้ไม่เท่ากับโมเดลรุ่นล่าสุด
- ฉันก็คิดว่าการฝากข้อมูลสุขภาพไว้กับ “สัตว์เลี้ยงลูกด้วยนมมนุษย์ที่เหนื่อยล้าและเต็มไปด้วยอคติ” ก็อันตรายพอกัน ฉันยังชอบให้หมอมีบทบาทด้านความเห็นอกเห็นใจ การพูดคุยเล็ก ๆ น้อย ๆ และการฉีดวัคซีนพื้นฐาน แต่ฉันไม่คิดว่าหมอที่ทำงานหนักเกินไปจะต้องแม่นยำกว่าเครื่องมือข้อมูลเสมอไป ถ้าหมอของฉันแค่ท่องตามสไลด์ขายของจากเซลส์ หรือแนวทางรักษาที่ล้าสมัย นั่นก็น่ากลัวเหมือนกัน
ฉันชอบที่พวกเขาแสดง “คะแนนแย่ที่สุดจากตัวอย่าง k ครั้ง” เพราะในโลกจริง หนึ่งในร้อยคนก็อาจเป็นคนที่ได้รับ “คำตอบที่แย่ที่สุด” นั้นจริง ๆ
น่าประทับใจที่ Grok ทำได้ดีเกินคาดในการทดสอบแบบนี้ รู้สึกว่าในข่าว Grok มักถูกพูดถึงน้อยกว่า Gemini หรือ Llama
- ฉันแปลกใจเหมือนกันที่ Gemini ทำได้ดีพอสมควร ดูเหมือน Gemini จะหลบเลี่ยงหัวข้อสุขภาพมากเป็นพิเศษ เลยอาจทำให้คะแนนลดลง เป็นไปได้ว่าคำตอบที่ถูกเซ็นเซอร์จนตอบไม่พอถูกนับเป็นล้มเหลวทั้งหมด
- Grok ไม่สามารถดาวน์โหลดน้ำหนักของโมเดลมารันแบบ local ได้
ช่วง 5 ปีที่ผ่านมา ฉันทรมานกับอาการบาดเจ็บ ลองมาหมดทั้งหมอกีฬาเฉพาะทางหลายคน การสแกน การประคบ ไปจนถึงฝังเข็มและไคโรแพรคติก หมอหลายคนก็วินิจฉัยแปลก ๆ ว่า “ปกติ” หรือ “ไม่รู้สาเหตุ” มีหมออยู่คนเดียวที่ให้ความเห็นได้น่าเชื่อ แต่ฉันหมดหวังมากจนไม่ได้ตามต่อ สุดท้ายฉันเอาประวัติทั้งหมดใส่ให้ o3-deep-research แล้วมันก็เสนอความเห็นแบบเดียวกับหมอคนนั้น รวมถึงแผนภาพกลุ่มกล้ามเนื้อและวิธีออกกำลังกายด้วย แม้ยังไม่หายดีทั้งหมด แต่เป็นครั้งแรกในรอบนานที่ฉันรู้สึกมีความหวังอย่างระมัดระวัง
- อยากรู้ว่าทำไมคุณถึงเชื่อการวินิจฉัยของ LLM มากกว่าคำแนะนำจากหมอหลายคน ในอเมริกาหมอไม่แนะนำกายภาพบำบัดหรือโปรแกรมออกกำลังกายเลย ฟังดูเข้าใจยากมาก
- ในความเป็นจริงต้องยอมรับว่าการรักษาอาการบาดเจ็บทางกล้ามเนื้อและกระดูกส่วนใหญ่เป็นเส้นทางลองผิดลองถูกที่ยาวนานมาก และการถ่ายภาพวินิจฉัยก็มีข้อจำกัดมากเช่นกัน หลายกรณีอาการกับภาพตรวจไม่สอดคล้องกัน อย่าเพิ่งหมดหวัง ลองวิธีรักษาหลายแบบที่มีหลักฐานทางวิทยาศาสตร์รองรับไปเรื่อย ๆ สุดท้ายส่วนใหญ่มักดีขึ้นตามเวลา และนั่นเองก็ทำให้เข้าใจผิดได้ง่ายว่าวิธีรักษาใดวิธีหนึ่งเป็นตัวที่ได้ผล
- ดูเหมือนว่าสิ่งที่คุณต้องการจริง ๆ ไม่ใช่หมอ แต่เป็นนักกายภาพบำบัดที่เก่งมากกว่า
- สุดท้ายแล้วความเห็นของหมอคนนั้นก็ถูกไม่ใช่เหรอ ไม่ว่าจะเป็น AI หรือการวินิจฉัยตัวเองผ่านออนไลน์ ก็ดูไม่ได้เป็นชัยชนะอะไรเป็นพิเศษ
- คุณดูเหมือนจะเชื่อวิธีบำบัดเหลวไหลอย่างฝังเข็มหรือไคโรแพรคติก แต่กลับไม่เชื่อหมอ และจากนั้นก็ไปเชื่อ AI ที่ขึ้นชื่อเรื่องการโกหกอีกที น่าจะต้องทบทวนเกณฑ์การตัดสินภายในของตัวเองดูหน่อย
- หวังว่าการตัดงบวิทยาศาสตร์ของรัฐบาลช่วงหลังจะช่วยลดกลุ่มคนสายระวังเกินเหตุที่ขัดขวางการทดลองแนวทางใหม่ ๆ และการเรียนรู้ลงได้บ้าง การทำให้โมเดลพวกนี้ตอบได้แค่ทำนองว่า “ฉันไม่สามารถให้คำแนะนำทางการแพทย์ได้” เป็นเรื่องเสียหายจริง ๆ
ฉันรู้สึกว่างานวิจัยนี้รอบคอบและมีประโยชน์มาก และก็น่าประทับใจที่ประสิทธิภาพของโมเดลเพิ่มขึ้นเกือบ 2 เท่าในช่วงเวลาแค่ปีเดียว o3 และ deep-research ช่วยเรื่องการดูแลสุขภาพของฉันได้จริงมาก ตัวอย่างเช่น เมื่อเดือนก่อนฉันโดนกระแทกแรงมากบริเวณหน้าอกแถวหัวใจ ฉันให้ o3 ดูอาการพร้อมข้อมูลชีพจรและออกซิเจนในเลือดจาก Apple Watch และมันก็รู้อยู่แล้วถึงประวัติสุขภาพของฉันจากบทสนทนาก่อนหน้า มันอธิบายแนวโน้มอาการและวิธีรักษาได้อย่างแม่นยำ และการฟื้นตัวจริงก็ตรง 100% ปกติฉันจะเตรียมพรอมป์ต์รายละเอียดไว้ล่วงหน้า เช่น ส่วนสูง น้ำหนัก ยาที่กิน และข้อมูลสุขภาพอื่น ๆ พอมีอาการก็ใส่ให้ o3 ทันที ซึ่งมีประโยชน์มาก
- ข้อมูลค่า SpO2 ออกซิเจนในเลือดจาก Apple Watch หรืออุปกรณ์สวมข้อมือ ไม่แม่นยำพอสำหรับการวินิจฉัยอย่างมาก เครื่องวัดออกซิเจนปลายนิ้วโดยเฉพาะจะแม่นยำกว่ามาก
- อยากรู้ว่ามันแสดงความมั่นใจต่อการวินิจฉัยนั้นมากแค่ไหน และคุณเองเชื่อระดับความมั่นใจนั้นหรือเปล่า ฉันถามภรรยาที่เป็นแพทย์ เธอบอกว่ากรณีมีการบาดเจ็บ อาจเป็นภาวะน้ำในเยื่อหุ้มหัวใจจากการกระแทกซึ่งอันตรายได้เช่นกัน
ฉันรู้สึกว่า benchmark นี้ห่างจากวิธีใช้โมเดลจริงพอสมควร ในงานจริง ผู้ใช้ไม่ได้ถูกปล่อยให้แชตกับ base model ตรง ๆ แต่จะใช้วิธีผสมกันทั้ง RAG, guardrail และคำตอบที่เตรียมไว้ล่วงหน้า เลยสงสัยว่าการประเมินนี้สะท้อนสถานการณ์เชิงพาณิชย์แบบไหนกันแน่
- benchmark โค้ดก็ไม่เหมือนกันเหรอ ในงานตอบคำถามเชิงวิชาชีพจริง ๆ การมี base o3 กับเว็บเสิร์ชและพรอมป์ต์ดี ๆ ก็น่าจะดีกว่าเสียอีก บางที RAG/guardrail อาจกลับทำให้ประสิทธิภาพลดลงด้วยซ้ำ
- แค่การแชตกับ ChatGPT ตามปกติก็คือกรณีใช้งานจริงของการทดสอบนี้แล้ว เป็นกรณีที่ใหญ่และสำคัญมาก
ตอนนี้แม้แต่คนที่ไม่ใช่บุคลากรทางคลินิกก็ยังใช้ ChatGPT ทุกวันเพื่อขอความช่วยเหลือเรื่องปัญหาสุขภาพจริง ๆ การประเมินนี้จึงเป็นชุดข้อมูลที่ดีสำหรับลดความเสี่ยงในโลกจริง
ไม่นานมานี้ฉันอัปโหลดผลตรวจให้ ChatGPT แล้วขอให้ช่วยสรุป แต่ AI กลับ “หลอน” ว่าฉันเป็นมะเร็งร้ายแรง พร้อมอธิบายเพิ่มยาวเหยียด ทั้งที่ในรายงานจริงเขียนว่า “ไม่พบมะเร็ง”
- อยากรู้ว่าเป็นโมเดล LLM ตัวไหน (4o, o3, 3.5?) โมเดลยุคแรก ๆ ทำได้ไม่ดีนัก แต่ o3 พอใช้ช่วยเรื่องปัญหาสุขภาพได้ค่อนข้างดีแล้ว (อย่างปัญหาเกี่ยวกับหู)
- เป็นไปได้ไหมว่า AI จริง ๆ อ่านผลตรวจไม่ออก แล้วแค่ตอบมั่วแบบเล่นบทบาทสมมติ ก่อนหน้านี้ฉันเคยให้ PDF คู่มือเครื่องยนต์แล้วถามคำถาม มันตอบแบบฟังดูน่าเชื่อถือ แต่จริง ๆ กลับยกแผนผังวงจรคนละชุดออกมาเลย
- ฟังเหมือนมันตอบประมาณว่า “ตรวจมะเร็ง: พบมะเร็ง!” เป็นมุกตลกเสียมากกว่า
- อยากรู้ว่าผลลัพธ์สุดท้ายเป็นอย่างไรจริง ๆ (บางครั้งสิ่งที่เราคิดว่าเป็นผลบวกลวง ภายหลังก็อาจกลายเป็นมะเร็งจริงได้ เพราะมะเร็งบางชนิดแสดงสัญญาณช้ามาก)

HealthBench - เกณฑ์มาตรฐานใหม่จาก OpenAI สำหรับการประเมิน AI ด้านเฮลท์แคร์

แนะนำ HealthBench

เบื้องหลังการพัฒนา

จุดเด่นสำคัญ

ธีมและแกนการประเมินของ HealthBench

7 ธีมการประเมิน

แกนการประเมิน (Axes)

ตัวอย่างการประเมินจริง

ตัวอย่าง 1: เพื่อนบ้านอายุ 70 ปีหมดสติแต่ยังหายใจอยู่

ตัวอย่าง 2: ประสิทธิผลของ Quercetin ในการป้องกันไวรัส

ตัวอย่าง 3: การเขียนบันทึกความคืบหน้าการฟื้นฟูหัวใจ

การเปรียบเทียบประสิทธิภาพของโมเดล

ประสิทธิภาพตามโมเดล (ทั้งชุด/ตามธีม/ตามแกน)

ประสิทธิภาพต่อค่าใช้จ่าย

ความน่าเชื่อถือ (ประสิทธิภาพ worst-of-n)

เกณฑ์มาตรฐานแบบขยาย: Consensus & Hard

การเปรียบเทียบกับแพทย์มนุษย์

ความน่าเชื่อถือของการประเมิน

ทิศทางต่อจากนี้

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News