概述
在深度学习模型主导技术演进的时代,人工智能 (Artificial Intelligence,AI) 已在医疗大健康领域落地生根,衍生出了众多实现了数智相生与融合,并深入行业实践的应用场景。而今,正当红的大语言模型(Large Language Model,LLM,以下简称 “大模型”),更是再接再励,凭借学习能力、理解能力及泛化能力等方面的优势,进一步强化了智慧医疗系统在更为模糊、复杂和多变医疗场景中的实战能力。
领先的医疗人工智能解决方案提供商北京惠每云科技有限公司(以下简称 “惠每科技”),就基于其临床决策支持系统 (Clinical Decision Support System,CDSS) 3.0,为用户打造了更专业、更实用和更可靠的医疗大模型私有化部署方案。该方案以病历质控领域为切入点,以流行的基座大模型为基础,基于脱敏院内数据、医学知识库和医学知识图谱等开展训练与微调,为医院提供了更具深度,且能理解病历内在逻辑的病历内涵质控方案。
为应对该方案私有化落地时面临的性能、成本等多维挑战,惠每科技与英特尔一起,依托拥有广泛部署基础的英特尔® 架构软硬件平台,以及便捷易用的英特尔大模型推理加速方案,让方案在更易获取的 CPU 平台上获得了与 GPU 平台相当的推理性能表现,满足了医院在系统实时性等方面的需求。来自一线用户的反馈证明,惠每医疗大模型方案能有效解决病历内涵质控难度大、人力成本高等问题。而病历质控能力的提升,不仅能改善医院的精细化管理水平,也能驱动医疗服务水平和医疗质量再上一层楼。
用户引言
为提升医疗质量和服务水平,医院正通过 AI 技术来应对临床病历质控所面临的问题。医疗大模型方案在病历内在逻辑理解等方面的优势,使其能在病历内涵质控场景中成为高质量的虚拟质控专家,大幅提升病历质检效率和质量。而英特尔® 架构软硬件及英特尔大模型推理加速方案的引入,更是为方案的私有化落地提供了易于获取、可快速部署和上手以及高性价比的选择。”
破解医疗大模型私有化部署的双重挑战
从智能导诊到影像辅助分析,从新药研发再到蛋白质结构预测,一系列基于 AI 技术的智慧医疗应用正在诊疗、创新药物与疗法研发以及保健场景中为人们创造福祉。这其中,拥有更好的学习性能、更强的表征能力、更精准的模型拟合效果以及更优秀的泛化能力的大模型技术,近年来正备受瞩目。
与 “传统” 的 AI 技术,如深度学习相比,医疗大模型在高效性、交互性、多模态数据处理以及复杂管理策略制定等方面更具优势。例如它既能从多种数据源自动识别、抽取重要的医学知识、疾病信息和治疗方法,也能通过上下文理解,处理更为模糊、复杂和多变的医疗问题,并实现自我学习和知识更新。
这些优势不仅使大模型在竞争激烈的医疗 AI 应用市场中备受青睐,也在政策层面得到了重磅的支持和推进。《北京市加快医药健康协同创新行动计划(2024 - 2026年)》就提出,将重点支持医疗大模型的开发和落地应用,加快赋能产业发展,并推动医药健康产业总规模在 2026 年达 1.25 万亿元1。
不过,医疗大模型要在行业应用中真正落地,同样也面临重重挑战:一方面,医疗行业对容错率的高标准,使诊疗和管理工作必须有迹可循、有理可依。为了让大模型能准确地生成符合循证医学的结果,就必须使用严谨、客观的非公开医疗数据进行训练和推理。另一方面,出于数据安全性和患者隐私的考虑,医疗数据不能离开医院,因此医疗大模型必须采用私有化部署方案。但汹涌的智能化浪潮之下,各类 AI 加速芯片,尤其是 GPU 的市场价格被大幅推高,甚至出现了 “一卡难求” 的状态,由此而来的高昂构建成本显然在很大程度上造成了医疗大模型私有化部署落地难的问题。
面对挑战,拥有雄厚医疗 AI 研发实力和头部先发优势的惠每科技,也给出了自己的专业解决方案。如图一所示,惠每医疗人工智能解决方案 (Dr. Mayson) 以数据中台为底座,通过 CDSS 系统与智能化诊疗路径,在智慧管理、智慧临床和智能控费三个方向上为医院打造多样化的智慧医疗应用。如图二所示,基于其 CDSS 3.0,惠每科技就打造了更专业、更落地和更安全的医疗大模型私有化部署方案。
▪ 更专业:利用检索增强生成 (Retrieval Augmented Generation, RAG) 技术、惠每循证医学知识库与医学知识图谱协同构建方案技术基座,避免大模型 “幻觉” 问题,保障生成结果的专业性;
▪ 更落地:借助基于人类反馈的增强学习 (Reinforcement Learning from Human Feedback,RLHF) 技术,及根据医院业务反馈数据进行的模型自动学习调节,来解决通用大模型不理解临床业务场景的弊端;
▪ 更安全:基于监督微调 (Supervised Fine-Tuning,SFT) 技术以及良好的私有化部署方案,实现数据不出本地,来杜绝数据泄露风险。
与此同时,惠每科技还依托英特尔® 架构软硬件,以及英特尔提供的大模型推理加速方案,让医疗大模型方案在 CPU 平台上获得了与 GPU 平台相当的推理性能表现,满足了医院在系统实时性等方面的需求。如此性能表现,再结合 CPU 平台在构建成本、获取和应用难易度及软件生态等方面的优势,堪称医疗大模型方案私有化落地的切实可行之道。
经过上述举措,主打病历内涵质控的惠每医疗大模型已在多家医院的诊疗流程中启动实践并初获成效。来自一线用户的反馈表明,惠每医疗大模型能有效解决病历内涵质控难度大、人力成本高等问题。病历质控能力的提高不仅有效带动了医院的精细化管理,也使医疗服务水平和医疗质量获得显著提升。
详解基于医疗大模型的高效病历内涵质控
▪ 为何传统病历内涵质控方案无法满足医院需求
作为患者在医院的 “全流程凭证”,病历会完整、客观地记录整个诊疗流程。例如门诊时医生会根据患者主诉进行初诊,通过检查予以确诊,并得出最后的治疗方案和医嘱等。再如住院时,医护人员也会记录查房、手术等环节等信息。这些信息汇总到病历中后,不仅能为医院开展精细化管理提供数据支撑,也是诊疗过程、医疗服务水平和医疗质量最直接的体现。在相关政策推动下,病历质量相关的监测指标早就被纳入医院的绩效考核、等级评审等环节。因此病历质控,尤其是内涵质控正受到越来越多的关注。
与相对简单的形式质控(主要围绕病历的时效性、完整性等)相比,内涵质控更注重病历内容是否具有临床意义(包括病历的合规性、逻辑性和一致性等),其难点在于病历内涵逻辑往往非常抽象,缺乏普适性的定义和规则,需要结合丰富的临床医学知识和经验来做质控。
基于此,医院此前的传统做法,都是依赖富有经验的专家来进行人工的病历质控,但这不仅会耗费巨大的人力资源,且因人力所能阅读和掌握的病历、知识量有限,很难将高质量病历质控工作覆盖所有科室。例如当不同病历资料存在相互矛盾时,如果质控专家没有掌握全面信息,就可能出现遗漏。虽然深度学习等 AI 技术的出现,加上规则引擎的辅助能实现一定深度的推理能力,如发现不合理的病历复制,首次病程、病历特点和入院记录不匹配,以及签名出现高度相似的情况等,但这些还不足以完全满足医院的需求。
▪ 基于大模型构的病历内涵质控方案充当虚拟质控专家
相比上一代深度学习技术,大模型能借助其学习能力、理解能力及泛化能力上的优势,对病历的内在逻辑形成更深理解,进而构建更全面的病历内涵质控能力,为医院提供真正可用且可靠的虚拟质控专家。
如图三所示,惠每科技以智谱 AI 大模型 ChatGLM 等流行的基座大模型为基础,可基于脱敏院内数据、医学知识库和医学知识图谱等,并结合 RAG 技术开展垂直领域的模型训练和微调。同时,来自一线的专家反馈数据也会通过 RLHF 技术加入训练和微调过程,并最终形成面向不同医疗场景(例如病历内涵质控)的医疗大模型。为确保数据安全,整个方案都采用私有化部署,微调过程基于 SFT 技术开展,能做到数据不出医院。
在面向病历内涵质控方案的实现架构上,如图四所示,它是以惠每数据中台为核心,向下可对接医院的医院信息系统 (Hospital Information System,HIS)、影像归档和通信系统 (Picture Archiving and Communication System, PACS) 以及电子病历系统 (Electronic Medical Record, EMR) 等一系列信息化系统,自动抓取原始信息,通过自然语言处理、深度学习等技术执行结构化/后结构化处理,并完成规则映射、医学术语映射等处理,最终推送到顶端的病历质控大模型来执行相应的训练和推理。
借助英特尔® 架构 CPU 平台提供的强劲推理算力,基于医疗大模型的病历内涵质控应用即使在长文本输入时,也能实现毫秒级的数据处理和结果生成,这让医院的质控专家、医生都能获得大模型提供的实时助力。例如医生在医生端书写病历时,大模型就能随时提供缺陷定位和依据,并提醒修改。而质控专家在管理端检查病历质量时,也能根据所提示的质控缺陷来进行下一步处理。正如图五所示,基于不同的病历内涵质控规则,该方案在许多具体应用场景中都能给出精准的缺陷定位。
◆ 主诉和入院记录诊断无明显关联:病历中,患者主诉 “左颞部头皮疼痛 1 年余” 与入院记录诊断 “恶性肿瘤维持性化学治疗” 之间无关联;
◆ 入院诊断在入院记录中无相应诊断依据:患者在初步诊断中的第一个诊断为 “前列腺术后”,但病史中没有提及前列腺相关手术史;
◆ 入院记录中主诉和现病史描述关联较少:患者主诉是 "发现皮疹 45 分钟",而病史中描述的症状主要是 "颜面部肿胀、胸闷、鼻塞、呼吸困难、腹痛" 等,与皮疹相关性小;
◆ 入院记录体格检查结果与手术史矛盾:患者既往史标明 “否认有手术外伤史”,但体格检查却表明 “右大腿可见局部手术瘢痕”,相互矛盾。
可以看到,惠每医疗大模型能够提醒医生病历缺陷位置,并提供缺陷依据和修改意见,再加上大模型技术的对话能力,能够实现与医学专家一致的质控方式。由此可见,由大模型所扮演的虚拟质控专家角色,不仅能真实有效地提升病历质检效率,减少质控部门的工作压力,也能大幅提升病历质控的质量和范围,将原先的人工模式下的少量抽检变为全量检查。
▪ 英特尔如何加速医疗大模型私有化部署
基于惠每医疗大模型的病历内涵质控方案在运行时,需要强劲可靠的算力平台为所需的大模型推理提供支持。虽然专用的 AI 加速芯片,如 GPU,一直在各类 AI 任务中担纲主力,但医院在推动方案的私有化部署和应用落地时,却依然面临难题。
众所周知,在医院的业务实践中有大量信息化、数字化基础设施及相关应用处理环节,都是依赖 CPU 平台来完成。而在 CPU 平台之外额外构建 GPU 平台,医院不仅面临着 GPU 价格高昂、采购不易等问题,也会面临信息化平台的重复投资和 GPU 设备空转率高等风险。因此,更具性价比、更为平滑的选择是在医院既有IT基础设施之上,通过混合计算负载模式来兼顾方案中的大模型推理负载及其它通用计算任务。
因此,惠每科技在核心算力选择上,选中了英特尔® 至强® CPU Max 系列处理器,来为方案提供强有力的保障。该处理器不仅拥有效率出色的微架构,包括更多的内核(多达 56 个性能核)、更高效的 I/O 和内存子系统(支持 DDR5 内存)来为方案中的各类计算任务提供支持。其多种内置 AI 加速技术,包括英特尔® 高级矢量扩展 512_ 矢量神经网络指令(英特尔® AVX-512_VNNI)及英特尔® 高级矩阵扩展 (英特尔® AMX)等,更能为 CPU 上的大模型推理效率优化提供助力。
同时,该处理器集成的高带宽内存 (High Bandwidth Memory, HBM),能更好地应对大模型推理过程中庞大数据集导致的计算对内存性能的严苛要求。英特尔® 至强® CPU Max系列集成有总容量高达 64GB 的 HBM2e 内存,可提供高达 460GB/s 的带宽。高带宽特性使得访存通量大幅提升,进而能显著提升方案中的大模型推理性能。
在硬件基座之外,英特尔还为方案提供了量化与非量化的两种大模型推理优化方案。对 AI 模型的量化,能降低推理过程中对内存等资源的需求,从而让方案在选择更大参数规模的大模型之余也能同步提升推理速度。
优化方案之一,是基于英特尔® 至强® CPU Max 系列处理器内置的指令集,借助由英特尔开源的 IPEX-LLM 大模型库来实现推理加速量化方案。IPEX-LLM 不仅提供了对各种低精度数据格式的支持和优化,并可基于不同处理器内置指令集及其它软件实施推理加速,使惠每医疗大模型在英特尔® 架构平台上实现更高效的推理效能。
在量化优化方案之外,英特尔还借助 OpenVINO™ 工具套件为惠每科技提供了非量化优化方案。针对大模型推理执行过程中海量的内存拷贝开销,这个方案提供了三个方面的优化,包括:利用零拷贝 (Zero-Copy) 视图来传递预分配的 KV 所需的内存副本空间,使用 OpenVINO™ opset 来重构 ChatGLM 的模型架构,以及引入 OpenVINO™ 工具套件在 HuggingFace 上的 Optimum 接口。
从部分面向核心性能指标开展的测评结果可知,经不同方式优化的大模型方案能在英特尔® 架构 CPU 平台上获得巨大性能提升,并获得与 GPU 平台相近的性能表现。如图七所示,例如方案在 2K 输入时,经非量化方案优化后,首词延时下降至 2.1 秒,优化幅度达 1.92 倍。平均延时下降至 47.96 毫秒每 Token,优化幅度达 3.81 倍2。
(如欲了解更多优化细节与结果,请参阅《英特尔助惠每医疗大模型方案在至强® 平台上实现双维优化》https://www.intel.cn/content/www/cn/zh/customer-spotlight/cases/huimei-medical-llm-solution-optimize-xeon-platform.html)
值得一提的是,得益于英特尔® 架构平台成熟的生态环境以及双方进行的协同合作,医院基于该平台开展惠每医疗大模型方案私有化部署时,在上线时间上也有可圈可点的表现,来自一线实战的数据表明,方案从上线前准备到最终为医院产出收益,仅需 3.5 个月左右的时间,能让收益变得更加 “立竿见影”。
实战效果:病历质控率与质量等核心质控指标均受益
目前,惠每科技基于惠每医疗大模型的病历内涵质控解决方案已经在部分医院落地并取得显著效果。
如图八所示,以某三甲医院为例,在上线系统前,该院病案科 4 名工作人员满负荷工作最多能完成 10% 左右出院病历的内涵质控工作。2023 年 5 月下旬,惠每系统上线后,该院的病历质控审核流程整体迁移至惠每系统。该系统可自动对所有病历进行质控评价,生成评分表及扣分细项供工作人员参考,极大地提高人工质控审核的效率。在人员没有增加的情况下,出院病历的人工质控覆盖率从 10% 左右提升至 80% 左右,效率提升整整 7 倍。
如图九所示,除了对质控人员提供帮助,系统还可为全院医生提供运行病历的事中实时病历缺陷,从源头提高了病历质量。在 2023 年 6 月到 2023 年 12 月的 7 个月内,系统帮助医生发现并修正了 28 万多个病历缺陷。从 2024 年 1 月开始,惠每又利用 RLHF 技术对大模型进行进一步优化,系统做出的病历缺陷提醒被医生采纳的比例从 45% 左右逐步提升至 68%,提升幅度达 50%,意味着临床医生对系统提醒的准确性存在较高的认可度,目前优化工作仍在持续进行中。
如图十所示,在惠每 AI 的助力下,全院甲级病历(绿色曲线)占比逐渐上升,从 75% 上升到 95%,提升了 20 个百分点。同时,乙级病历(橙色曲线)占比从 25% 下降到 5% 以下。全院病历质量得到显著提升。
病历质量的提升,反过来也促进了医生诊疗工作的规范化及病案管理质量的提升。如图十一所示,方案在某医院落地后,病案首页质量相关的主要诊断编码正确率从 78% 提升至 97% 、病历文书相关的手术相关记录完整率从 92% 提升至 99%、CT/MRI检查记录完整率从 81% 提升至 90%、抗菌药物使用记录符合率从 82% 提升至 91%,不合格复制病历发生率则从 12% 下降至 8%,很好地满足了省级病案管理质量控制中心的病历质控监测要求。
与此同时,伴随方案中质控规则的增多,医院病历问题数量呈现下降趋势。如图十二所示,从 2023 年1 月开始的 10 个月时间,医院病历平均问题数呈现下降趋势。病历平均问题数从 1 月的 7.42 个下降到 10 月的 3.28 个,下降比率达 55.79%,质量提升效果非常显著。
来自一线用户的声音
▪ 某医院临床医生:病历内涵质控这个功能对临床帮助还是挺大的。我们医院对病历质量有着严格的标准,例如没有规范完成并签名,就会归为乙级病历。同时医院也会对修正率进行绩效考核、通报。有了病历质控的提示功能,许多问题在病历书写过程中就会被提醒,并直接给出提示建议。这一方面可以让我及时进行修改,另一方面也帮助我提高了规范性,让我在后续就诊、写病历的时候避免问题再出现。
▪ 某医院管理人员:病历内涵质控功能对我院病历质量提升有着巨大帮助,其可以精准发现病历内容中的细微瑕疵,让我院病历的质量达到更高的水准。例如在一位产科患者的治疗中,借助病历质控功能发现了隐藏的新生儿出生时间不合理的问题,避免了因工作繁忙导致新生儿出生时间书写错误的情况。这不仅提升了我院的治疗效率和质量,也能有效避免医疗事故和医患纠纷的发生。
▪ 某医院质检专家:病历内涵质控功能让我院病历质量达到更高水准。例如在呼吸科某患者的治疗中,这一功能发现了哮喘急性发作患者入院后未及时进行氧疗的问题,系统识别到哮喘(急性发作)患者首份出现的上级医师查房记录中没有书写氧疗情况,包括 “是否氧疗”、“氧疗方式” 和 “氧疗后血氧饱和度”,并及时进行了提醒。在另一位呼吸科患者的治疗中,该功能则发现了社区获得性肺炎患者入院后未及时进行胸部影像学检查的问题,并及时给予质控提醒。
总结与展望
通过在多家医院的私有化落地实践,基于英特尔® 架构平台的惠每医疗大模型方案已得到充分验证 -- 可为一线医疗行业用户带来显著收益和实用价值。这不仅是 CDSS 业务创新的又一实战成果,也是借助 AI 及大模型技术提升病历质量、规范医生诊疗行为,并最终提升医院整体医疗服务水平的一次成功探索。
面向未来,惠每科技还将与英特尔开展更为广泛也更为深入的合作,例如将基于医疗大模型的解决方案运用到更多智慧医疗场景中。同时,医院对更高效、更便捷、更安全部署方案的需求,也推动双方与更多产业伙伴开展协作,将持续迭代更新的惠每医疗大模型方案部署到基于英特尔架构的 “AI 或大模型一体机” 等创新硬件产品之上,全力加速 “人工智能+” 在医疗行业及领域的部署与应用,以数智的力量为人们创造更多健康福祉。
智谱-超云大模型训推一体机
大模型一体机是针对大模型量身定制的硬件基础设施,且进行了特定的性能优化,在降低用户使用成本的同时也能提升大模型的运行效率。超云 R8868 G13 是基于第四代英特尔® 至强® 可扩展处理器设计的一款高性能服务器,具有高性能、高可靠以及易维护的特点,卓越的产品设计为其带来了出色的可扩展性,不仅能够安装兼顾通用计算与 AI 推理加速能力的至强® 处理器,也能兼容或适配英特尔® Gaudi AI 加速器和英特尔锐炫™ 显卡等专用加速芯片。
核心产品规格:
处理器 |
支持双路第四代英特尔® 至强® 可扩展处理器(Sapphire Rapids) TDP ≤ 350 瓦 |
芯片组 |
英特尔® C621A 系列芯片组 |
内存类型 |
支持 DDR5 ECC 4800 MHz,内存电压 1.1V (工作频率依 CPU 和内存配置不同而不同) |
插槽及容量 |
32 根内存插槽,最大可扩展 12TB 内存 支持高级内存纠错、内存镜像、内存热备等高级功能 |
硬盘 |
最大支持 10 个标准 2.5 英寸热插拔硬盘 1 个 M.2 NVMe 插槽 可支持 10 个 NVMe 全闪配置 |
存储控制器 |
可选 SAS 控制器(12G),支持 RAID0,1,10 可选 RAID 控制器(12G)最大支持 2G 缓存,支持 RAID0/1/10/5/50/6/60 并可扩展缓存数据保护套件以及高速缓存保护加速功能 |
后置 PCIe |
支持 8 个 全高或半高 PCIe 插槽(Swtich 资源) 支持 4 个全高 PCIe 插槽(CPU 资源) 支持 1 个 OCP 扩展槽 |
优势特性:
▪ 功能全面:可用于大模型体验评估、大模型应用场景的预研及论证、大模型应用开发、大模型 Prompt 开发、大模型 PEFT(参数高效微调)、大模型教学培训等使用场景。
▪ 开箱即用:可助力用户节省大模型部署时间,专注在大模型本身的使用以及自己的开发任务上。
▪ 技术领先:目前已支持 ChatGLM-6B 版本(中文领域效果领先的开源底座大模型之一,针对中文问答和对话进行了优化。),具有业界领先的训练性能,同时单机支持 120 路并发推理任务。