腾讯优图：大型语言模型在临床决策中的革命性应用

导语：作为2024年中国国际服务贸易交易会重要组成部分之一，国家卫生健康委员会百姓健康频道（CHTV）定于9月13日在京举办“2024首都国际医学大会的平行论坛——数智医疗与医学人工智能创新论坛”，CHTV&医学论坛网将为您带来AI赋能医疗的系列报道。今天的主题将聚焦于腾讯优图实验室在医疗语言大模型领域的最近进展与突破。

引言：在信息时代，人工智能（AI）的迅猛发展正在重塑我们对世界的理解和互动方式。其中，大型语言模型（LLM）作为AI领域的佼佼者，以其卓越的自然语言处理能力，引领着技术革新的浪潮[1]。这些模型通过深度学习技术，在文本理解、生成和翻译等任务中展现出惊人的表现[2,3]，更在医疗健康领域展现出巨大的应用潜力[4]。

LLM在医疗领域的应用前景广阔，它们能够处理和分析海量的医疗文献、病历记录和临床数据，为医疗信息处理提供强大的支持[5]。通过精准的语义理解，LLM有助于提高临床决策的效率和质量[6,7]，甚至在某些情况下，能够辅助医生进行疾病诊断和治疗建议[8]。此外，LLM在患者咨询、健康教育和自我管理等方面也显示出其独特的价值[9]。

然而，尽管LLM在医疗领域具有巨大的潜力，它们在实际应用中仍面临着诸多挑战[10]。如何确保模型生成的信息的准确性和可靠性[11]？如何保护患者的隐私数据[12]？以及如何让模型的决策过程更加透明和可解释[13]？这些问题都需要我们在实践中不断探索和解决。

本文旨在深入分析LLM在医疗领域的技术进展和实际应用案例，探讨它们如何助力医疗信息处理、临床决策支持，并展望其在未来医疗实践中的发展方向[14]。通过对现有文献的综合评述，我们将揭示LLM在医疗领域应用的现实意义和潜在价值，同时指出存在的挑战和未来的改进方向[15]。我们期望通过本文的探讨，为医疗AI领域的发展提供有益的参考和启示[16]。

▼

LLM在医疗信息处理中的应用

扩展医学知识谱系：LLM提升临床洞察力

在自然语言处理的疆域中，大型语言模型（LLM）以其卓越的文本解析能力，为医疗信息处理领域带来了革命性的变化[17]。Wu X.等学者的研究提出了一种创新的框架[14]，该框架通过整合外部医学知识库，显著增强了模型对临床医疗情境的深入理解与分析能力。研究构建了一个涵盖53本医学专著和超过38万个医学问题的知识库，为LLM提供了坚实的医学知识基础。在此基础上，利用LLM的上下文学习能力，实现了对非英语临床环境的精准把握，不仅提升了对医学问题回答的准确性，更在多语种临床应用中展现了其跨语言的普适性，对全球医疗领域的均衡发展具有重要意义。

知识编辑与更新：LLM在临床决策中的关键作用

随着医学知识的快速演进，LLM在医学知识编辑与更新方面的能力变得尤为关键[18]。Xu D.和Wu X.等人的一项研究深入探讨了LLM在此方面的应用潜力[19]，并指出：通过模型编辑技术，可以精确修改LLM中存储的医学知识，而不干扰其他无关知识，这对确保临床决策支持系统的准确性和时效性至关重要。此外，该研究还提出了一系列评估模型编辑效果的挑战性指标，包括目标分布、实体映射、结构相似性、文本相似性和主题一致性等，为医疗领域LLM的可靠编辑提供了标准化的评估方法。通过这些方法，可以有效地提升LLM在临床决策中的辅助作用，为医生提供更加准确和可靠的医学建议。

LLM在医疗信息处理中的应用，不仅体现在对现有知识的扩展和深化，更在于其对知识更新和编辑的能力。这些技术的发展，为构建更加智能、准确和可靠的医疗辅助系统提供了坚实的基础，预示着在未来医疗实践中，LLM将发挥更加关键的作用。

▼

LLM在临床决策支持中的角色

LLM的辅助临床推理：知识种子的引导作用

在临床知识图谱的推理领域中，大型语言模型（LLM）正逐步成为医生的得力助手[20]。Wu X.等人的研究提出了一种创新的ICP框架[21]，该框架通过识别临床情境中的关键元素——知识种子，来引导LLM的生成过程。这一方法有效地结合了医学知识和LLM的推理能力，提升了临床决策的精确度。ICP框架的操作流程包括四个主要步骤：首先，从临床情境和推理目标中提取医学实体；其次，结合知识图谱推断出有助于临床推理的知识种子；然后，将这些知识种子嵌入到提示中，指导LLM进行推理；最后，由LLM生成临床推理结果及其推理过程的详细解释。这种基于知识种子的推理方法，不仅提高了模型回答医学问题的准确性，也增强了推理过程的透明度和可解释性，对医生理解和信任AI辅助决策具有重要意义。

LLM优化临床路径：编码与决策的精准化

在优化临床路径方面，LLM的作用同样不容忽视[22]。Wu X.等人的另一项研究提出了MedKP框架[23]，该框架通过内部临床路径编码，显著提升了医疗决策的准确性。这种编码通过挖掘历史对话中的关键点和医生的行动，确保了整个对话的临床一致性。具体来说，MedKP框架包含两个核心模块：外部知识增强和内部临床路径编码。外部知识增强模块通过医学知识图谱提取相关信息，指导LLM的生成过程；内部临床路径编码模块则通过分析历史对话中的医疗实体和医生行动，确保对话的临床连贯性。这种双重编码策略，使得LLM在自动医疗对话系统中的性能得到显著提升，减少了幻觉的发生，实现了与人类医生相媲美的临床决策质量。

LLM在临床决策支持中的角色日益重要，它们不仅提高了临床决策的效率，也增强了结果的可靠性和透明度。随着技术的不断发展，LLM有望在未来的临床实践中发挥更加关键的作用，为医生提供更加精准的决策支持，同时也为患者带来更高质量的医疗服务。

▼

医疗对话系统的创新

医疗对话如何实现自然语言的流畅交流：LLM的知识增强作用

在医疗对话系统中，实现自然语言的流畅交流是一项技术挑战，它要求系统不仅要理解患者的问题，还要提供准确、及时的医疗建议[24]。Wu X.等人的研究提出的MedKP框架，通过知识增强手段，显著提升了医疗对话的自然性和准确性[23]。该框架利用医学知识图谱，对相应对话中提及的医学实体进行识别和链接，为LLM提供了丰富的上下文信息。这不仅增强了对话系统对医学术语的理解和响应能力，也使得系统能够生成更加贴近真实医疗咨询的回答。

通过内部临床路径编码，MedKP框架进一步确保了对话的连贯性和逻辑性，使得患者能够获得更加专业和个性化的医疗建议。这种知识增强的方法，为医疗对话系统的发展开辟了新的道路，使得机器与患者的交流更加自然、高效。此外，MedKP框架的引入，也极大地丰富了对话系统在处理复杂医疗咨询时的能力，使其能够更好地理解和回应患者的需求，从而提供更为精准的医疗服务。

多任务学习如何提升医疗对话系统性能：MOELoRA框架的潜力

在医疗领域，对话系统往往需要同时处理多种任务，如疾病咨询、健康教育、症状评估等[25]。Wu X.和Liu Q.等人提出的MOELoRA框架[26]，为多任务学习提供了一种高效的微调方法。该框架结合了混合专家（MOE）和低秩适应（LoRA）的优势，通过训练少量参数，实现了对大型语言模型的精细调整。在MOELoRA中，每个专家由一对低秩矩阵组成，这样的设计不仅保留了参数的小型化，也使得模型能够为不同任务生成独特的参数集。

通过任务驱动的门控机制，MOELoRA能够在不同任务间灵活切换，实现对各种医疗对话任务的高效处理。这种参数高效的微调方法，不仅降低了模型训练的计算成本，也提高了模型在多任务学习中的性能，为医疗对话系统的发展提供了新的可能性。MOELoRA框架的提出，标志着我们在构建能够同时处理多种医疗任务的对话系统中迈出了重要的一步，它为实现更加高效、灵活的医疗对话系统提供了坚实的技术基础。

通过知识增强和多任务学习框架的应用，医疗对话系统在提供专业医疗建议的同时，也能够实现与患者的自然交流[27]。这些技术的融合和发展，预示着未来医疗对话系统将更加智能化、个性化，为患者提供更加精准和便捷的医疗服务。随着研究的不断深入，我们有理由相信，医疗对话系统将成为医疗领域的重要支柱，为全球医疗健康事业做出更大贡献。

▼

技术挑战与未来展望

医疗领域中LLM的技术挑战何在？

大型语言模型（LLM）在医疗领域的应用，尽管展现出巨大的潜力，但同时也面临着一系列具体的技术挑战。数据隐私保护是其中的一大难题，医疗数据中包含的患者个人信息、病史和治疗记录等敏感信息，需要在收集、存储和处理过程中严格遵守隐私保护法规[4]。任何数据泄露或滥用都可能对患者造成严重伤害，同时也可能对医疗机构的信誉造成不可逆转的损害。此外，模型偏差问题也是一个不容忽视的挑战。

LLM在训练过程中可能会受到数据集中特定群体的过度代表或不足代表的影响，从而在实际应用中产生不公平或不准确的医疗决策[21]。这在多元和复杂的医疗环境中尤为突出，需要我们通过精心设计的训练策略和多元化的数据来源来缓解。最后，LLM的决策过程通常被视为一个“黑箱”，缺乏透明度和解释性，这对于需要高度精确性和明确责任归属的医疗领域来说，是一个亟待解决的问题。提高模型的可解释性，确保医疗专业人员能够理解AI的决策逻辑，对于提升LLM在医疗领域应用的接受度和信任度至关重要。

未来LLM发展的路在何方？

面对当前的挑战，LLM未来的发展方向应当聚焦于提高模型的个性化、公平性和透明度[7]。个性化医疗模型的开发，意味着模型能够根据患者的个体差异，如基因型、表型和生活方式等，提供定制化的医疗建议和治疗方案。这不仅能够提高治疗效果，也能够提升患者的就医体验。加强跨学科的合作，将医学、计算机科学、数据科学等领域的专家知识整合起来，共同解决LLM在医疗领域应用中的技术难题。

此外，新兴技术的整合，如联邦学习、差分隐私等，将为LLM在医疗领域的应用提供更加安全和可靠的技术保障[21]。这些技术能够在保护数据隐私的同时，实现数据的价值最大化。最后，提高模型的可解释性，使医疗专业人员能够理解LLM的决策过程，从而提高他们对AI辅助决策的信任和接受度[24]。通过这些措施，我们期待LLM能够在医疗领域发挥更加重要的作用，为全球医疗健康事业做出更大的贡献，并为患者带来更高质量、更个性化的医疗服务。

▼

结论

腾讯优图实验室在LLM应用于医疗领域的探索中取得了一系列技术突破。这些成果涵盖了从临床决策支持到医疗信息处理，再到医疗对话系统等多个关键领域。Wu X.等人提出的MedKP框架，巧妙地融合了医学知识图谱和临床路径编码，显著提升了医疗对话系统的准确性和自然性。此外，Qidong Liu等人开发的MOELoRA框架，通过多任务学习优化，有效提升了医疗对话系统处理复杂任务的能力。这些创新不仅推动了医疗AI技术的发展，也为未来医疗实践提供了新的思路和工具。

LLM的引入，预示着未来医疗实践将更加智能化和个性化。在临床决策支持方面，LLM通过分析庞大的医疗数据，为医生提供精准的诊断和治疗建议，从而提高医疗服务的质量和效率。在医疗信息处理方面，LLM的应用有助于提升医疗文献和病历的数字化管理水平，加快医疗知识的更新和传播。在患者服务方面，LLM通过自然语言对话，提供更加人性化的医疗咨询服务，改善患者体验。尤为重要的是，LLM在全球健康公平性方面的应用，有望缓解资源匮乏地区医疗专业人才短缺的问题，缩小不同地区间的医疗差距。

展望未来，LLM在医疗领域的应用前景充满希望。随着技术的不断成熟，LLM将在个性化医疗、跨学科研究、新兴技术整合等方面展现更大的潜力。个性化医疗模型的开发，将使医疗服务更加贴合患者的个体差异；跨学科合作将促进医学、计算机科学、数据科学等领域的专家共同探索医疗领域的新问题和解决方案；新兴技术的整合，如联邦学习、差分隐私等，将为LLM的应用提供更强大的数据安全和隐私保护。同时，提高模型的可解释性、减少模型偏差，也是未来研究的重要方向。这些研究将为LLM在医疗领域的广泛应用打下坚实的基础，为全球医疗健康事业贡献更大的力量。

参考文献

[1] Brown T, Devlin J, Chuang G, et al. Language models are few-shot learners[M]. Advances in Neural Information Processing Systems 33 (2020), 1877–1901.

[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805 (2018).

[3] Edunov S, Zhang Y, Vaswani A, et al. Pre-trained language model representations for language generation[Z/OL]. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (2019), 4052–4059.

[4] Petroni F, Huang J, Salazar B, et al. Language models as knowledge bases? arXiv preprint arXiv:1909.01066 (2019).

[5] Strong E, Wang H, Liang S, et al. Chatbot vs medical student performance on free-response clinical reasoning examinations[J]. JAMA Internal Medicine 183 (2023), 1028–1030.

[6] Chung H W, Li S, Shen Y, et al. Scaling instruction-finetuned language models[J]. arXiv preprint arXiv:2210.11416 (2022).

[7] Jiang L Y, Yang J, Liu S, et al. Health system-scale language models are all-purpose prediction engines[J]. Nature (2023).

[8] Nori H, Wang C, Zhang L, et al. Capabilities of gpt-4 on medical challenge problems[J]. arXiv preprint arXiv:2303.13375 (2023).

[9] Liu X, Zhang J, Liang J, et al. Transforming retinal vascular diseaseification: A comprehensive analysis of ChatGPT’s performance and inference abilities on non-English clinical environment[J]. medRxiv (2023).

[10] Shah N H, Noronha A P, Iyer S, et al. Creation and adoption of large language models in medicine[J]. JAMA 330 (2023), 866–869.

[11] Liévin V, Bien N, Hecht B, et al. Can large language models reason about medical questions? [J]. arXiv preprint arXiv:2207.08143 (2022).

[12] Blevins T, Zhang Y, Schwartz R, et al. Language contamination helps explain the cross-lingual capabilities of English pre-trained models[J]. arXiv preprint arXiv:2204.08110 (2022).

[13] Gu Y, Sun Y, Li H, et al. Domain-specific language model pretraining for biomedical natural language processing[J]. ACM Transactions on Computation for Healthcare (2021).

[14] Wu J, Doshi-Velez F, Kim B, et al. Master clinical medical knowledge at certificated-doctor-level with deep learning model[J]. Nat. Communications 9 (2018), 4352.

[15] Kasai J, Sakurai Y, Tanaka K, et al. Evaluating gpt-4 and chatgpt on Japanese medical licensing examinations[J]. arXiv preprint arXiv:2303.18027 (2023).

[16] Min S, Wu H, Jiang Y, et al. Rethinking the role of demonstrations: What makes in-context learning work?[J]. arXiv preprint arXiv:2202.12837 (2022).

[17] Peng C, Yang X, Chen A, et al. A study of generative large language model for medical research and healthcare. NPJ Digit Med. 2023 Nov 16;6(1):210.

[18] Gu Y, Tinn R, Cheng H, et al. Domain-specific language model pretraining for biomedical natural language processing. ACM Transactions on Comput. for Healthc. (HEALTH) 3, 2021: 1-23.

[19] Xu D, Zhang Z H，Zhu Z H, et al. Editing factual knowledge and explanatory ability of medical large language models. arXiv preprint arXiv:2402.18099 (2024).

[20] Takagi S, Watari T, Erabi A, Sakaguchi K. Performance of GPT-3.5 and GPT-4 on the Japanese Medical Licensing Examination: Comparison Study. JMIR Med Educ. 2023 Jun 29;9:e48002.

[21]Wu J G, Wu X, Yang J. Guiding Clinical Reasoning with Large Language Models via Knowledge Seeds. Computation and Language (cs.CL); Artificial Intelligence. 2024, arXiv: 2403.06609.

[22] Lam K. ChatGPT for low- and middle-income countries: a Greek gift? Lancet Reg Health West Pac. 2023 Sep 15;41:100906.

[23] Wu J G, Wu X, Zheng Y F, et al. MedKP: Medical Dialogue with Knowledge Enhancement and Clinical Pathway Encoding. 2024, arXiv:2403.06611.

[24] Liu X, et al. Transforming retinal vascular diseaseification: A comprehensive analysis of chatgpt’s performance and inference abilities on non-english clinical environment. medRxiv 2023-06.

[25] Min S, et al. Rethinking the role of demonstrations: What makes in-context learning work? Computation and Language (cs.CL); Artificial Intelligence (cs.AI). 2024, arXiv:2202.12837 .

[26]Liu Q, Wu X, Zhan X Y, et al. When MOE Meets LLMs: Parameter Efficient Fine-tuning for Multi-task Medical Applications. Computation and Language (cs.CL); Artificial Intelligence. 2024, arXiv:2310.18339.

[27]Lee P, et al. Benefits, limits, and risks of gpt-4 as an ai chatbot for medicine. New Engl. J. Medicine 388, 1233–1239.

编辑：梨九

二审：石头

三审：清扬

排版：半夏

古典风资讯网

腾讯优图：大型语言模型在临床决策中的革命性应用

百姓健康频道