AI挑战医疗专业考试:GPT-4在日本物理治疗师考试中表现亮眼

最新发表在《Cureus》杂志上的一项同行评审研究显示，OpenAI的GPT-4语言模型在未经任何额外训练的情况下，成功通过了日本国家物理治疗考试。

研究人员向GPT-4输入了1，000个问题，涵盖记忆、理解、应用、分析和评估等方面。结果显示，GPT-4总体上正确回答了73.4%的问题，通过了所有五个测试部分。然而，研究也揭示了AI在某些领域的局限性。

GPT-4在一般问题上表现出色，正确率达80.1%，但在实际问题上仅为46.6%。同样，它在处理纯文本问题（80.5%正确）方面远优于带有图片和表格的问题(35.4%正确)。这一发现与先前关于GPT-4视觉理解局限性的研究结果一致。

值得注意的是，问题难度和文本长度对GPT-4的性能影响不大。尽管该模型主要使用英语数据训练，但在处理日语输入时也表现良好。

研究人员指出，虽然这项研究展示了GPT-4在临床康复和医学教育方面的潜力，但仍需谨慎看待。他们强调，GPT-4并不能正确回答所有问题，未来还需要评估新版本以及该模型在书面和推理测试中的能力。

此外，研究人员提出，像GPT-4v这样的多模态模型可能在视觉理解方面带来进一步的改进。目前，谷歌的Med-PaLM2、Med-Gemini等专业医疗AI模型，以及Meta基于Llama3的医疗模型都在积极开发中，旨在在医疗任务中超越通用模型。

然而，专家们认为，医疗AI模型要广泛应用于实践可能还需要很长时间。当前模型的误差空间在医疗环境中仍然过大，需要在推理能力上取得显著进步，才能安全地将这些模型整合到日常医疗实践中。