Google研究:对话式医疗系统AMIE升级,管理推理能力不劣于人类医生! Google研究对话式医疗系统AMIE升级在管理推理上不劣于人类医生近期Google Deepmind与Google Research以对话式医疗系统AMIE为基础开发了全新的基于LLM的智能Agent系统可针对多次随访场景进行临床管理和医患对话优化。大语言模型加速进入医疗健康领域应用从文献检索、病历生成延伸至临床决策支持辅助诊断是较成熟方向之一。但诊断只是起点真正影响治疗质量的是诊断后的管理决策这类“管理推理”更接近真实临床工作核心也更考验模型综合理解能力。相较于诊断推理管理推理评估难度更大。目前医学教育中评价这类综合能力主要靠客观结构化临床考试OSCE但难以用于大语言模型自动化评测。针对这一空白Google Deepmind与Google Research的研究以AMIE为基础开发新系统。AMIE利用Gemini模型长上下文能力结合上下文检索与结构化推理使输出与最新临床实践指南和药物处方目录一致。在随机、双盲的虚拟客观结构化临床考试OSCE研究中将AMIE与21名初级保健医生PCP比较测试涵盖100个多次就诊案例场景。结果显示在疾病管理推理能力方面AMIE不逊于人类医生在治疗方案和检查建议准确性、对临床指南遵循程度和知识依据可靠性方面AMIE得分优于医生群体。相关研究成果以“Towards Conversational AI for Disease Managemen”为题发表于Nature研究亮点如下该研究将AMIE能力从单轮诊断推进到全流程临床管理推理。系统利用Gemini长上下文能力结合上下文内检索与结构化推理使管理方案输出与权威临床知识高度一致。在多项指标上系统表现达到或超过全科医师水平。数据集从单次问答走向纵向临床场景为评估对话式医疗人工智能长期管理推理能力研究团队构建多层级数据体系用于模型训练、方案生成和标准化评测。核心评测载体是“多就诊虚拟OSCE场景数据集”研究编制100套独立病例分布在五个专科每个专科20套。病例由加拿大和印度临床医师联合设计参照NICE临床指南和BMJ最佳实践指南构建设计为连续三次就诊包含纵向信息部分病例加入特殊要素检验系统判断能力。除100套正式评测病例外还设置20套验证场景。循证依据来自临床指南知识库收录627份文档总规模约1050万token评测时向AI系统和参评全科医师开放。研究团队还构建RxQA专项基准评估模型药物理解能力包含600道选择题题目源于美国OpenFDA和英国国家处方集初稿由Gemini模型生成经8名执业药师审核修订。目前公开300道源自OpenFDA的题目。AMIE模型让系统同时具备“对话能力”和“深度管理能力”该研究以谷歌对话式医疗系统AMIE为基础专项升级新系统采用双智能体协同架构借鉴“双过程理论”底层模型用Gemini 1.5 Flash。系统由对话智能体和Mx管理推理智能体组成。对话智能体负责医患对话维护患者状态Mx智能体负责管理推理生成管理计划。两者通过共享状态模块同步信息。对话智能体相比原有诊断模型有三方面升级更换基础模型新增训练数据加入强化学习。实时推理采用“规划 - 生成 - 完善”流程维护模块化状态结构。Mx智能体是深度管理推理核心模块采用“粗检索 全上下文推理”策略减少信息割裂。通过Gecko 1B嵌入模型建立索引筛选相关文档输入模型推理。采用JSON模式约束结果按框架输出附带指南引用先独立生成草案再整合完善。在15项指标上均不劣于全科医师为验证系统临床管理推理能力研究采用随机、盲法的虚拟OSCE框架结合RxQA药物基准测试将AMIE系统与21名全科医师对照。评估围绕诊疗方案整体质量、检查项目推荐质量、治疗方案推荐质量三个维度展开。临床评测中系统和全科医师完成100套多就诊病例30名专科医师和标准化患者盲法评分。药物测试设置闭卷和开卷环境。结果显示在诊疗方案整体质量方面系统在15项评估维度上均不劣于全科医师多项指标有统计学优势。治疗推荐适当率和检查治疗推荐精确性上系统持续优于全科医师。指南依从性方面系统可追溯性明显优于人类医生。在双视角偏好评估中近半数案例双方表现相当系统胜率47%高于全科医师的7%专科医师与患者评价趋势一致。随着就诊次数增加系统在时间相关维度优势更明显。药物推理方面RxQA基准显示系统在高难度试题上优于全科医师开卷资料对双方都有帮助但不能完全解决高难度药物推理问题。写在最后这项研究价值在于将评估重点从“能否诊断”推进到“能否持续管理”。研究提出的多就诊虚拟OSCE、指南知识库、药物专项基准和双智能体系统为医疗AI评测提供更贴近临床的框架。但虚拟环境无法完全还原真实医疗情况。更稳妥的判断是医疗大模型正从“辅助诊断”走向“辅助管理”短期价值是成为临床决策支持工具。