ChatGPT 通过了美国放射学委员会考试

GPT-4o2024-01-17477

不同语言的放射科报告使用GPT-4 可以将自由文本放射学报告转换为结构化报告吗？

ChatGPT 可以在医学领域应用吗？可以用于医学论文的写作吗？

最新版本的 ChatGPT 通过了放射学委员会考试，突出了大型语言模型的潜力，但也揭示了阻碍可靠性的局限性。ChatGPT 是一种 AI 聊天机器人，它使用深度学习模型来识别其庞大训练数据中单词之间的模式和关系，以根据提示生成类似人类的响应。但由于其训练数据中没有真实来源，该工具可能会生成与事实不符的响应。“像 ChatGPT 这样的大型语言模型的使用正在爆炸式增长，而且只会增加，” Rajesh Bhayana 的研究深入了解了 ChatGPT 在放射学方面的表现，突出了大型语言模型的巨大潜力，以及当前使其不可靠的局限性。”

Bhayana 博士指出，ChatGPT 最近被评为历史上增长最快的消费者应用程序，类似的聊天机器人正被整合到流行的搜索引擎中，如谷歌和必应，医生和患者使用这些引擎来搜索医疗信息。为了评估其在放射学委员会考试问题上的表现并探索优势和局限性，Bhayana 博士及其同事首先基于 GPT-3.5（目前最常用的版本）测试了 ChatGPT。研究人员使用了 150 道多项选择题，旨在匹配加拿大皇家学院和美国放射学委员会考试的风格、内容和难度。这些问题不包括图像，并按问题类型分组以深入了解表现：低阶（知识回忆、基本理解）和高阶（应用、分析、综合）思维。高阶思维问题按类型进一步细分（影像学发现的描述、临床管理、计算和分类、疾病关联）。ChatGPT 的性能是根据问题类型和主题进行整体评估的。还评估了回答中语言的可信度。研究人员发现，基于 GPT-3.5 的 ChatGPT 正确回答了 69% 的问题（150 个中的 104 个），接近加拿大皇家学院使用的 70% 的及格分数。该模型在需要低阶思维的问题上表现相对较好（84%，61 个中的 51 个），但在涉及高阶思维的问题上表现不佳（60%，89 个中的 53 个）。更具体地说，它努力解决涉及成像发现描述（61%，46 个中的 28 个）、计算和分类（25%，8 个中的 2 个）和概念应用（30%，10 个中的 3 个）的高阶问题。鉴于它缺乏放射学特定的预训练，它在高阶思维问题上的糟糕表现并不奇怪。

GPT-4于2023年3月以有限的形式向付费用户发布，特别声称在GPT-3.5的基础上提高了高级推理能力。在后续研究中，GPT-4答对了相同问题的81%(150题中的121题)，优于GPT-3.5，超过了70%的及格门槛。GPT-4在高阶思维问题上的表现比GPT-3.5好得多(81%)，更具体地说，包括影像学发现的描述(85%)和概念的应用(90%)。研究结果表明，GPT-4所声称的高级推理能力的提高可以转化为放射学背景下的性能提高。他们还建议提高对放射学特定术语的上下文理解，包括成像描述，这对未来的下游应用至关重要。Bhayana博士说:“我们的研究表明，ChatGPT在放射学中的表现在短时间内有了令人印象深刻的改善，突出了大型语言模型在这种情况下日益增长的潜力。”GPT-4在低阶思维问题上没有改善(80%对84%)，并且错误地回答了12个问题，而GPT-3.5回答正确，这引发了与其信息收集可靠性相关的问题。“我们最初对ChatGPT对一些具有挑战性的放射学问题的准确而自信的回答感到惊讶，但随后对一些非常不合逻辑和不准确的断言同样感到惊讶，”巴亚纳博士说。“当然，考虑到这些模型的运作方式，不准确的反应不应该特别令人惊讶。”ChatGPT产生不准确反应的危险倾向，被称为幻觉，在GPT-4中不太常见，但目前仍限制了在医学教育和实践中的可用性。两项研究都表明，ChatGPT始终使用自信的语言，即使是在错误的情况下。巴亚纳博士指出，如果仅仅依赖于信息，这是特别危险的，尤其是对于那些可能不认识到自信的错误回答是不准确的新手。“对我来说，这是它最大的限制。目前，ChatGPT最适合用于激发想法，帮助启动医学写作过程和数据汇总。如果用于快速回忆信息，总是需要进行事实核查，”巴亚纳博士说。

在过去的几十年里，人工智能(AI)领域在包括医疗保健在内的多个领域呈指数级增长。除了人工智能帮助图像解释和识别疾病预测因子的能力之外，大型语言模型的发展尤其有希望。这些专门的神经网络从大量数据中不断学习。这为医疗诊断和自动生成管理计划之外的其他应用打开了大门。许多人预测，这些大型语言模型最终将在许多领域超越人类的表现，包括医疗保健。ChatGPT是openai于2018年创建的基于生成式预训练变压器(GPT)模型的人工智能聊天机器人，可以提供各种主题的答案。在2022年11月30日发布的第三版中，ChatGPT成为头条新闻，引起了医学界内外的关注。在本期《放射学》中，Bhayana等发现，ChatGPT在没有接受任何特定放射学培训的情况下，几乎通过了与图像无关的放射学委员会式考试。只有将放射学特定成像和语言数据的强化学习纳入模型中，这种人工智能模型才有可能得到改进。目前，这项研究的发现对放射学教育有什么启示?正如本研究中所提到的，Bloom的分类法及其后续更新是教育和认知心理学中用于对知识类型及其认知加工进行分类的框架。

简而言之，有四种类型的知识:(a)元认知(策略、语境、自我和条件知识)，(b)程序知识(特定主题、技能、算法、技术、方法、标准)，(c)概念知识(分类和类别、原则、理论、模型)，以及(d)事实知识(术语、符号、细节)。认知处理这些知识有六种方式:(a)创造(生成、计划、生产、设计)，(b)评估(批判、辩护、检查)，(c)分析(区分、组织、属性)，(d)应用(执行、实施)，(e)理解(解释、分类、总结、解释、比较)，以及(f)记忆(识别、回忆)。一个问题在列表上越高，回答它所需要的知识就越高(例如，更抽象)，需要的认知处理也越多(例如，更批判性的思考);同样，一个问题在列表上越低，回答它所需的知识就越低(即更具体)，所需的认知处理就越少(例如，更多的死记硬背思维)。基本上，大型语言模型在互联网上搜索单词，并在容易实现的目标(低分类)问题上表现出色。关键的发现是，ChatGPT在高阶分类材料上表现不佳，并且可能无法精通它。

内容来源：https://pubs.rsna.org/doi/10.1148/radiol.230582