Qwen3-14b_int4_awq部署教程:Ubuntu/CentOS系统下vLLM+Chainlit环境搭建

1. 环境准备与快速部署

在开始之前,请确保您的系统满足以下要求:

  • Ubuntu 20.04/22.04 或 CentOS 7/8
  • 至少16GB内存(推荐32GB以上)
  • 支持CUDA的NVIDIA显卡(推荐RTX 3090及以上)
  • 已安装NVIDIA驱动和CUDA 11.7+

1.1 安装基础依赖

首先更新系统并安装必要的工具:

# Ubuntu系统
sudo apt update && sudo apt upgrade -y
sudo apt install -y python3-pip python3-dev git curl

# CentOS系统
sudo yum update -y
sudo yum install -y python3-pip python3-devel git curl

1.2 创建Python虚拟环境

建议使用虚拟环境隔离项目依赖:

python3 -m venv qwen_env
source qwen_env/bin/activate

2. 安装vLLM和Chainlit

2.1 安装vLLM框架

vLLM是一个高效的大语言模型推理框架:

pip install vllm

2.2 安装Chainlit前端

Chainlit提供了一个简洁的Web界面与模型交互:

pip install chainlit

3. 部署Qwen3-14b_int4_awq模型

3.1 下载模型

您可以从官方渠道获取Qwen3-14b_int4_awq模型:

git clone https://huggingface.co/Qwen/Qwen3-14b_int4_awq

3.2 启动vLLM服务

使用以下命令启动模型服务:

python -m vllm.entrypoints.api_server \
    --model Qwen3-14b_int4_awq \
    --tensor-parallel-size 1 \
    --gpu-memory-utilization 0.9

服务启动后,默认会在localhost:8000提供API接口。

4. 验证模型部署

4.1 检查服务状态

可以通过查看日志确认服务是否正常运行:

cat /root/workspace/llm.log

如果看到类似以下输出,表示服务已成功启动:

INFO:     Started server process [1234]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000

4.2 使用Chainlit测试

创建一个简单的Chainlit应用来测试模型:

# app.py
import chainlit as cl
from vllm import LLM, SamplingParams

@cl.on_message
async def main(message: str):
    llm = LLM(model="Qwen3-14b_int4_awq")
    sampling_params = SamplingParams(temperature=0.7, top_p=0.9)
    output = llm.generate([message], sampling_params)
    
    await cl.Message(content=output[0].outputs[0].text).send()

启动Chainlit应用:

chainlit run app.py -w

访问http://localhost:8000即可与模型交互。

5. 常见问题解决

5.1 模型加载失败

如果遇到模型加载问题,可以尝试:

  1. 检查CUDA和cuDNN版本是否兼容
  2. 确保有足够的GPU内存
  3. 验证模型文件完整性

5.2 性能优化建议

  • 对于多GPU环境,增加--tensor-parallel-size参数
  • 调整--gpu-memory-utilization以优化内存使用
  • 使用--quantization awq参数确保正确加载量化模型

6. 总结

通过本教程,您已经成功在Ubuntu/CentOS系统上部署了Qwen3-14b_int4_awq模型,并搭建了基于vLLM和Chainlit的交互环境。这套方案具有以下优势:

  1. 高效推理:vLLM框架提供了出色的推理性能
  2. 简单交互:Chainlit提供了直观的Web界面
  3. 资源优化:int4量化显著降低了显存需求

下一步,您可以尝试:

  • 开发更复杂的应用场景
  • 探索模型微调可能性
  • 优化提示工程以获得更好结果

获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

Logo

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐