JAMA子刊：ChatGPT回答复杂临床考题的能力超过斯坦福医学生

GPT-4o2024-05-09421

撰文丨王聪

编辑丨王多鱼

排版丨水成文

ChatGPT，是由人工智能研究实验室 OpenAI 于2022年11月30日发布的全新聊天机器人模型——人工智能技术驱动的自然语言处理工具。ChatGPT能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流。自推出以来，ChatGPT强大的能力备受关注。

2023年7月17日，斯坦福大学医学院的研究人员在 JAMA 子刊 JAMA Internal Medicine 上发表了题为：Chatbot vs Medical Student Performance on Free-Response Clinical Reasoning Examinations 的论文。

这项最新研究显示，在回答具有挑战性的临床考试问题时，ChatGPT可以比斯坦福大学医学院一年级和二年级的医学生表现得更好。这项研究结果强调了人工智能（AI）对医学教育和临床实践的加速影响，并建议需要一种新的方法来培养未来的医生。

ChatGPT是目前最著名的大语言模型人工智能系统，在过去的几个月里吸引了全世界的目光。最近的研究表明，ChatGPT可以准确回答美国执业医师资格考试（USMLE）中的多项选择题，而医生必须通过USMLE考试才能执业。

在这项最新研究中，斯坦福大学的研究团队希望探索人工智能系统如何处理更难的开放式问题（而非选择题），这些问题原本用于评估斯坦福大学医学院一年级和二年级学生的临床推理技能。这些问题在离散的段落中揭示了患者病例的细节，要求学生利用临床推理技能提出可能的诊断。

这项新研究使用了Open AI公司于今年3月份发布的最新版本的ChatGPT，也就是GPT-4。这也是该团队在此前一项研究的基础上进行的，此前的研究使用的则是GPT-3.5。

在这两项研究中，斯坦福大学的研究团队收集了14个临床推理案例。这些案例的文字描述长度从几百字到上千字不等，包含了许多无关的细节，比如不相关的慢性疾病和药物，就像现实生活中的病人病历一样。

在考试中，考生在阅读每个案例报告后，写出相应提问的答案。这种阅读分析文本并撰写答案的考试方式与执业医师资格考试（USMLE）中的选择题的相对简单形成形成鲜明对比。由于ChatGPT的学习训练来自整个互联网，因此它可能无法准确理解考题中医疗专业术语，例如“problem list”一词，在医疗领域，它指的是病人过去和现在的医疗问题，但这个词也会出现在其他非医疗语境中。

测试结果显示，GPT-3.5刚刚达到及格水平，而GPT-4的得分比这些学生的平均得分高出4.2分，并且在93%的测试中超过了及格线，而学生中仅有85%及格。

当然，ChatGPT的表现也并非完美无瑕。GPT-3.5在回答中会出现虚构的内容，GPT-4则显著减少了这一问题。

研究团队认为，这一结果提示我们，通过书面文本进行医学推理的教学和测试的本质被新工具推翻了，ChatGPT等工具正在改变我们的教学方式，并有望最终改变医学实践。

实际上，在考试和课程设计方面，斯坦福大学医学院已经受到了ChatGPT的影响。在上个学期，斯坦福大学的管理人员意见决定将考试从开卷改为闭卷，以防止学生们利用ChatGPT作弊。

研究团队表示，不希望医学生在学校里过于依赖人工智能，因为这样可能会导致他们无法学会如何通过自己的分析进行推理。但另一方面，随着人工智能的普及，一个医生没有接受使用人工智能的培训可能更值得担忧。

最后，论文第一作者 Eric Strong 表示，或许还需要几十年时间人工智能才能全面取代医生，但再过几年，我们可能就会看到人工智能在日常医疗中的应用。

论文链接：

https://jamanetwork.com/journals/jamainternalmedicine/article-abstract/2806980