AI看病成为医患新包袱？补上「多轮追问」，通用AI才迈得过医疗关

6.2

深览指数

产品量子位·Jay·2小时前·AI 生成

AI看病成为医患新包袱？补上「多轮追问」，通用AI才迈得过医疗关

本文以百川智能发布的Baichuan-M4医疗增强大模型为核心案例，探讨通用AI进入医疗场景的必要条件和路径。文章指出，患者过度依赖通用大模型进行自我诊断已增加医患沟通成本，真正的医疗AI必须从「单点问答」走向「深度诊疗」——具备多轮追问、证据锚定、全病程记忆和自主调度(Harness)能力。作者通过百小医在家庭场景的实践案例，论证了「AI家庭医生+真人医生」双医模式的可行性，并认为家庭是医疗语境下被忽视的关键场景。适合关注AI医疗落地、大模型行业应用的产品经理和技术决策者阅读。原文 ↗原文 ↗

核心观点

▍通用大模型直接用于医疗场景存在明显不可靠性，必须基于通用模型做结构性重构与医疗专项增强（如百川M4），才能从「回答问题」走向「参与诊疗过程」。
▍医疗AI的未来形态是「双医模式」：真人医生负责诊断与治疗决策，AI负责诊室外的长期陪伴、信息整理和风险提醒。

01界面新闻报道三甲医院医生反映：上午30个号中25个病人带着AI结论来就诊，导致医患沟通成本增加。
02Baichuan-M4在HealthBench综合得分68.6，Hard任务49.7，幻觉率降至3.3%；HealthBench Professional基础推理得分55.1，高于GPT-5.5的51.8分。
03M4在动态问诊评测SCAN-bench中初诊79.0分，复诊74.7分，长上下文临床记忆得分86.9，较M3提升21.1分。
04Baichuan-EBM循证引用精度达到90.0，显著高于GPT-5.5的54.7；模型输出能精确锚定医学证据原文段落。
05百小医在中国医学科学院肿瘤医院75个患者群测试中，27天内产生6944条对话，安全性99.6%，深度互动率60%-73%。
06案例：百小医通过连续追问10轮锁定用户痛风风险；通过家庭群聊中「走一圈就喘」的闲聊提醒早期心功能不全风险并促成就医。

反方 / 局限

— 文章本身是百川智能的深度PR稿/产品发布文，主体论据均来自百川自研评测体系（如HealthBench、SCAN-bench、Baichuan-EBM），缺乏第三方独立验证。
— 「双医模式」的可行性和患者隐私保护、数据安全、责任归属等关键问题未展开讨论。

百川智能Baichuan-M4百小医Harness架构GPT-5.5HealthBenchSCAN-benchBaichuan-EBM中国医学科学院肿瘤医院首都医科大学附属北京儿童医院上海交通大学瑞金医院双医模式全病程记忆原子化临床路径证据锚定机制

11 分钟 · 4 卡片 · 12 资料

读原文 →

AI看病成为医患新包袱？补上「多轮追问」，通用AI才迈得过医疗关

前置背景

平行视角

未来推演

延伸追问