基础篇|大模型部署框架

01 背景上一篇《基础篇| 全网最全详解12个大模型推理框架》,我们一起学习了推理框架，今天我们一起学习大模型部署框架。为什么要有大模型部署框架? 为什么有了推理框架，还要来一个什么部署框架？上节内容我们介绍了有12种大模型推理框架，虽然多，但是现在业界尚不存在各方面都远超其同类产品的推理框架，不同推理引擎在不同平台，硬件和模式下分别具有各自的优势，比如TensorRT有足够多的灵活性，在GPU执行时可以共享上下文，可以使用外部内存用于推理等，OpenVINO有高吞吐率模式，可以CPU与GPU异构设备同时推理。作为应用开发者，为了实现最优效率，如果针对不同环境都写一套代码去适配其最优推理框架，其耗费的学习成本和精力及代码量都将极其巨大。这时候有大模型部署框架用武之地，大模型部署框架作为一种高效、灵活的部署方式，能够大大提高模型训练和部署的效率，降低模型在部署过程中的时间和成本。 02 部署框架对比模型部署框架 Xinference LocalAI Ollama FastChat OpenAI API 接口对齐支持支持支持支持加速推理引擎 GPTQ, GGML, vLLM, TensorRT, mlx GPTQ, GGML, vLLM, TensorRT GGUF, GGML vLLM 接入模型类型 LLM, Embedding, Rerank, Text-to-Image, Vision, Audio LLM, Embedding, Rerank, Text-to-Image, Vision, Audio LLM, Text-to-Image, Vision LLM, Vision Function Call 支持支持支持 / 更多平台支持(CPU, Metal) 支持支持支持支持异构支持支持 / / 集群支持支持 / / 操作文档链接 https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.html https://localai.io/model-compatibility/ https://github.com/ollama/ollama?tab=readme-ov-file#model-library https://github.com/lm-sys/FastChat#install 可用模型支持上百种大模型，https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.html https://localai.io/model-compatibility/#/ https://ollama.com/library#/ https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md 03 总结从支持模型数量,以及各种特性来看, xinference框架特性最全,支持模型最多, 从易用性来说, ollama绝对适用于一些初学者。有了部署框架,对LLM一知半解的后端人员也能轻易部署LLM模型,不需要深入了解每个模型.。

古典风资讯网

智能科技扫地僧