ChatGPT-4 在医疗领域的应用表现

AI教程 2024-09-11

ChatGPT-4 在医疗领域的应用表现

ChatGPT-4 在医疗领域展现出多方面的应用表现。在疾病诊断方面，有研究验证其在难诊断的医疗案例中，近 40% 的时间内选择了正确诊断作为首要诊断，在三分之二的疑难病例诊断中也提供正确诊断建议。但也有研究指出，ChatGPT-4 在儿科医学病例诊断方面准确率仅为 17%，比其在一般医疗病例中的 39% 更差，显示出人类儿科医生在短时间内不太可能失业，强调了临床经验在医学领域的不可替代性。同时，ChatGPT-4 在面对相同的患者数据时，与 TIMI 和 HEART 评分工具相比，虽在平均分数上高度相关，但风险评估结果表现出显著的不一致性。在帮助选择影像学检查方面，佛哈医学院研究显示，ChatGPT 可以准确地为两种重要的临床表现乳腺癌筛查和乳房疼痛确定合适的影像学检查，其中 GPT-4 的效果优于 GPT-3.5。此外，微软和 Epic Systems 宣布将把 OpenAI 的 GPT-4 人工智能语言模型引入医疗保健领域，帮助医护人员回复患者信息和分析医疗记录，GPT-4 可以帮助医生和医护人员自动起草回复患者信息，还能为 Epic 的数据探索工具带来自然语言查询和 “数据分析” 功能。在医学记录撰写方面，GPT-4 可以根据医生与患者会面记录撰写医疗笔记，生成多种格式的医疗记录，如 SOAP 格式，但也会遗漏病人的症状。在对癌症的解读上，美国犹他大学医学院的研究人员发现 ChatGPT 给出的答案正确率高达 96.9%，可读性更高。在罕见医疗状况诊断方面，哈佛大学的医生和科学家表示 ChatGPT-4 比以前的版本更擅长接受测试，甚至超过了一些有执照的医生，能在几秒钟内诊断出罕见的医疗状况。在心力衰竭相关问题的回答上，与 ChatGPT-3.5 相比，ChatGPT-4 通过提供更全面的回答而没有任何错误的回答，展现出更卓越的性能，对于大多数问题，两个模型都表现出很高的可重复性。然而，ChatGPT-4 也存在局限性，模型有时可能会提供不准确但可信的响应，甚至有时会提供无意义的答案，其准确性取决于训练数据集，且建议可能因地区而异，同时无法对版本进行盲审，主观评审可能引入偏见。

ChatGPT-4 在疾病诊断中的准确率

ChatGPT-4 在疾病诊断方面展现出了较高的准确率。有研究表明，在回答医学考试题目等单一任务方面表现出色。例如，以美国医师资格考的题目测试 GPT-4，发现九成的答案都正确。对于发生率 10 万分之 1 的罕病先天性肾上腺增生症，GPT-4 更是在几秒内就能诊断出来。在具有挑战性的医疗病历中，GPT-4 在近 40% 的时间里选择了正确的诊断作为其首要诊断，并在三分之二的具有挑战性的病例中提供了正确的潜在诊断。哈佛医生兼计算机科学家 Isaac Kohane 表示，GPT-4 的临床判断力优于 “许多医生”。它不仅能正确回答医疗许可问题，在 90% 的时间内都能给出准确答案，还能为说葡萄牙语的患者翻译出院信息，并简化医学术语让六年级学生也能理解。此外，GPT-4 可以在几秒钟内诊断出罕见的医疗状况，其精度与速度令人震惊。

ChatGPT-4 在儿科医学病例诊断表现

ChatGPT-4 在儿科医学病例诊断方面准确率仅为 17%，较去年一般医学病例的 39% 更低。研究人员将 ChatGPT-4 用于分析自 2013 年至 2023 年间 JAMA Pediatrics 和 NEJM 发表的 100 个儿科病例，结果显示在 100 个病例中仅有 17 个正确的诊断，72 个错误的诊断，以及 11 个未完全捕捉到诊断的情况。其中，57% 的错误诊断集中在同一器官系统。研究指出 ChatGPT 难以识别疾病之间的关系，提出需要有选择性地在准确可信的医学文献上进行专门培训，以及提供更实时的医学数据，有望提高模型的准确性。

ChatGPT-4 与医疗评分工具的比较

通过评估 ChatGPT-4 在模拟病例中的危险分层能力，并将其表现与 TIMI 和 HEART 评分工具进行比较。研究发现，ChatGPT-4 在提供更全面的心力衰竭相关问题的回答方面展现出优势，而 TIMI 和 HEART 评分工具在敏感性等方面存在质疑。目前的研究显示，ChatGPT-4 在复杂临床决策中的能力虽有优势，但仍需进一步探索其最佳用途、获益和局限性。

ChatGPT-4 选择影像学检查的能力

哈佛医学院麻省总医院的研究人员在《美国放射学会杂志》发表的研究显示，ChatGPT-4 可以准确地为两种重要的临床表现乳腺癌筛查和乳房疼痛确定合适的影像学检查。研究团队要求 GPT-3.5 和 GPT-4 帮助决策在 21 个虚拟的患者场景中使用哪种影像学检测，结果显示，GPT-4 的效果优于 GPT-3.5，特别是在提供可用的影像学检测选项时。这提示了人工智能大型语言模型能够帮助医生提供决策，避免患者进行不必要的检查或错误的检查。

ChatGPT-4 在医学记录撰写中的作用

研究表明，ChatGPT-4 撰写医疗记录速度快 10 倍还能保证质量。乌普萨拉大学医院、乌普萨拉大学、丹德里德医院以及瑞士巴塞尔大学医院的研究人员合作完成的研究发表在《Acta Orthopaedica》期刊上。研究人员使用了六个虚拟病例，这些病例在结构和内容上都模拟了真实病例。每个病例的出院文件由骨科医师生成，然后要求 ChatGPT-4 生成相同的记录。质量评估由一个由 15 名不知道文件来源的专家组成的小组进行。作为次要指标，比较了创建文件所需的时间。研究结果显示，ChatGPT-4 医疗模型可比医生快 10 倍写出质量不降的医疗记录，有机会减轻医疗专业人员的行政负担，使医生有更多时间与患者交流。

ChatGPT-4 对癌症的解读准确率

针对美国国家癌症研究所（NCI）—— 常见癌症神话和误解网页上的 13 个问题，将这些问题分别交给 chatGPT 和 NCI 回答，并邀请 5 名癌症治疗领域专家盲审 chatGPT 和 NCI 的回答，并给予准确性评分。研究结果显示，针对全部 13 个问题，NCI 的回答被 5 位专家一致评为准确，一致率为 100%；而 ChatGPT 的回答中，有 11 个问题获得了 5 位审核专家的一致性准确评价，整体一致性达到 96.9%。这表明 ChatGPT 在提供有关消除癌症误解的科普信息方面，准确率和 NCI 没有明显差异，也不会提供有害的信息。正在加载更多深度信息