一.vLLM介绍

1.1作用

为LLM提供高速高效和简单的推理和服务解决方案.

二.缓存优化

大模型计算复杂度最高的就是自注意力QKV的计算,如果每输出一个字符都要从头计算的话,成本太高,所以可以把中间阶段的K和V值存不缓存,这就是KV Cache

传统的token生成内存是预定好的会造成内存碎片化和内存浪费.

vLLM使用内存页的方式通过虚拟内存关联内存页,为每个进程分配虚拟内存,哪里有空缺,就在那里填补数据.最坏的结果就是最后一个内存页没写满.

这种方式显存的利用率能达到96%

三.批量任务优化

一个进程没有完成,其他进程可以并行处理任务.只要资源充足,随时可以开始新的任务.

如果超出并行量,最后的请求进入队列等待任务完成.

四.加载多个LoRA

处理不同的任务需要多个LoRA模块,vLLM支持同时加载多个LoRA模块.

Logo

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐