vLLM基础理解
vLLM是为大语言模型提供高效推理服务的解决方案。它通过KV缓存优化注意力计算,采用内存页技术管理显存,利用率可达96%。系统支持批量任务并行处理,资源不足时自动排队。同时支持加载多个LoRA模块以处理不同任务。这些创新显著提升了模型推理效率和服务能力。
·
一.vLLM介绍
1.1作用
为LLM提供高速高效和简单的推理和服务解决方案.
二.缓存优化
大模型计算复杂度最高的就是自注意力QKV的计算,如果每输出一个字符都要从头计算的话,成本太高,所以可以把中间阶段的K和V值存不缓存,这就是KV Cache
传统的token生成内存是预定好的会造成内存碎片化和内存浪费.
vLLM使用内存页的方式通过虚拟内存关联内存页,为每个进程分配虚拟内存,哪里有空缺,就在那里填补数据.最坏的结果就是最后一个内存页没写满.
这种方式显存的利用率能达到96%
三.批量任务优化
一个进程没有完成,其他进程可以并行处理任务.只要资源充足,随时可以开始新的任务.
如果超出并行量,最后的请求进入队列等待任务完成.
四.加载多个LoRA
处理不同的任务需要多个LoRA模块,vLLM支持同时加载多个LoRA模块.
昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐

所有评论(0)