JMIR Nursing:AI 能当公共卫生护士吗?三款顶级大模型挑战日本国家考试

2026-04-30 熊佳仪 MedSci原创

大型语言模型虽已掌握相当程度的公共卫生护理专业知识,展现出作为教育辅助工具的巨大潜力,但其在模拟现实工作场景中复杂多因素决策方面的局限性不容忽视。

深度解析医学证据,DeepEvidence为你支撑决策 近年来,以GPT-4o、Claude Opus 4和Gemini 2.5 Pro为代表的大型语言模型在医学与护理学国家考试中展现出令人瞩目的性能,然而,其在强调社区健康、多学科协作与社会决定因素整合的公共卫生护理领域的能力尚未得到验证。本研究填补了这一空白,首次系统评估了上述三款主流大型语言模型应对日本第111届公共卫生护士国家考试的表现。公共卫生护理不仅要求扎实的生物医学知识,更需综合考量区域特征、居民需求、社会资源及政策法规等多重因素,其复杂决策过程对当前人工智能的推理能力构成了独特的挑战。 为全面比较模型表现,研究者采用了普查方法,将此次考试的全部110道试题纳入分析。所有问题均于2025年6月在一个全新的独立聊天窗口中,使用标准化的日语提示词向各模型进行提问,以避免上下文干扰。对应考题中一般的单句型题目、情境型题目、含图表题目以及计算题,研究团队分别设计了六种标准化的提示词模板,确保评估过程的一致性与可重复性。题目根据内容被划分为一般性问题和情境性问题,根据形式分为纯文本题和图表或计算题,并根据选项类型分为单选题和多选题。

作者:熊佳仪



版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题

相关资讯

eBioMedicine:大型语言模型在十种语言和4917例罕见病诊断中的一致性表现

尽管LLM以英语数据为主,其在多语言罕见病鉴别诊断中表现稳健,为非英语地区、尤其是资源匮乏国家部署AI辅助诊断系统提供了积极依据。

British Journal of Clinical Pharmacology:AI 助力儿科罕见病治疗!4 大语言模型角逐超说明书用药决策支持,GPT-4o 表现突出

大型语言模型确实具备快速检索和初步整合生物医学信息的潜力,能够在一定程度上加速超说明书用药合理性的评估流程,为临床医生节省宝贵的文献调研时间。

检测大型语言模型生成护理内容与质量中的社会人口学偏见:一项横断面模拟研究

本研究通过大规模模拟实验和严格的专家评估,首次提供了大型语言模型在生成护理计划时系统复现社会人口学偏见的实证证据。

Chin Med:大型语言模型在中医药临床应用中的调优技术、评估方法及发展挑战

该综述全面梳理了LLMs在中医药领域的应用现状与挑战,明确了技术发展路径,为推动中医药数字化、智能化发展提供了重要的参考依据,也为后续相关研究指明了方向。

HGG Advances:大型语言模型罕见病知识的系统评估,大型语言模型对罕见病了解多少

研究者提出一套务实的整合路径。他们主张在现有罕见病知识库体系中引入一种带标记的暂定条目类别,相当于二级公民身份,用以容纳由语言模型共识生成、尚未经专家确认但具备合理性的候选关联。

Frontiers in Public Health:我国学者揭示知识图谱在罕见病研究中的应用

知识图谱为整合多源异构数据、进行逻辑推理提供了强大的框架,在识别致病关联、辅助临床诊断和支持治疗决策方面展现出巨大潜力。