登录社区云,与社区用户共同成长
邀请您加入社区
暂无图片
本文面向大模型初学者,系统介绍常见的本地 LLM 部署工具及其适用场景,包括 Ollama、llama.cpp、vLLM、LM Studio 等。文章从本地部署的优势与限制出发,对不同工具的定位、性能特点和使用门槛进行对比,并结合实际示例演示如何快速启动本地推理服务。通过选型决策路径,帮助读者根据自身硬件条件和使用需求选择合适的本地 LLM 运行方案。
SALS算法主要分为稀疏token选择与稀疏attention计算两部分,如下图所示:除去头部low rank预处理小算子,主要由QSI与SFAA两个融合算子组成:QSI稀疏token选择算子,通过query与low rank key cache计算出topk token索引位置;由于需要计算全序列空间,本身开销不可忽略,算法层面通过headdim低秩与低比特量化降低开销;SFAA。
loader = DirectoryLoader("./控规文档/", glob="*.txt", loader_cls=TextLoader)chunk_overlap=200,# 重叠200,保留上下文。如果知识库中没有相关信息,请明确说明。chunk_size=800,# 每块800字符。augmented_prompt = f"""【参考知识库内容】# 智能切分(适合控规文件特点)# 1.
其次是 PD 分离的原生支持,Router 可以将 Prefill 和 Decode 阶段路由到不同的推理实例,这种架构极大提升了硬件利用率,因为 Prefill 节点可以专注于计算密集型任务,Decode 节点可以专注于访存密集型任务。这种精细化的伸缩策略,确保了资源的高效利用。展望未来,我们有望看到更多开箱即用的最佳实践被社区沉淀下来,例如针对不同模型架构的专用调度策略、更智能的缓存替换算法、
本文介绍了PD分离推理架构在大语言模型推理中的应用。该架构将prefill(计算密集型)和decode(内存密集型)两个阶段分离到不同的GPU实例上处理,解决了传统continuous batching中两种计算特性相互干扰的问题。文章详细分析了PD分离的优势:消除阶段干扰、提升有效吞吐量(Goodput)、满足TTFT和TPOT的SLO要求。同时探讨了KVcache传输开销、网络堆栈选择等关键技
DeepSeek(深度求索)正处于新模型发布前的关键窗口期,其 V4 模型预计本月正式亮相,将采用万亿参数 MoE 架构、原生支持图文音频多模态、上下文窗口扩展至 100 万 token 并搭载自研 Engram 条件记忆技术,同时延续高性价比开源路线并全面适配昇腾、壁仞等国产算力芯片。DeepSeek宣布V3.2模型API降价,输入降至2元、输出3元/百万Token,但长期批量调用仍有成本,且官
从“百模大战”到“百模千态”,AI大模型领域的发展,早已超越了单纯的技术比拼,进入了“生态共建、价值共生”的新阶段。“百模”是基础,是技术创新的源泉;“千态”是目标,是产业落地的归宿。华为提出“百模千态”的初心,是希望通过开放的生态、强大的算力底座,赋能千行万业,让AI真正成为推动产业升级、改善民生的核心力量。如今,随着鸿蒙生态的壮大、昇腾算力的突破,以及各行业伙伴的协同发力,“百模千态”的生态正
本文分享了金融实时风控场景下从PyTorch迁移到MindSpore的实践经验。选择MindSpore主要基于三大优势:1)在昇腾芯片上的性能优势(吞吐提升15-20%);2)满足金融合规要求;3)端边云协同能力。核心使用建议包括:优先采用Graph模式提升性能,使用@jit装饰器优化计算图;数据加载推荐GeneratorDataset并行处理;训练需适应MindSpore的自动微分机制;生产部署
本文介绍了昇腾MindSpore框架的核心优势与开发实践。作为华为全栈AI解决方案的关键组件,MindSpore具备全场景协同、性能优异和生态完善等特点。文章详细讲解了环境配置、核心特性(如动态/静态图模式、混合精度训练)、性能优化技巧(数据流水线、分布式训练)以及模型迁移经验。特别强调了在昇腾硬件上的最佳实践,包括算子开发、社区资源利用和性能监控方法。随着昇腾NPU算力持续提升,MindSpor
本文详细介绍了在昇腾平台上使用MindSpore实现大模型LoRA微调与部署的完整方案。针对开发者面临的显存瓶颈、训练效率低、部署复杂等痛点,文章从原理到实践,系统讲解了原生LoRA实现、显存与性能优化技巧,以及基于昇腾NPU的高效推理部署全流程。通过梯度检查点、混合精度等优化手段,单卡即可训练7B/13B模型;配合MindIE推理引擎,推理速度提升3倍以上。文章提供了可复用的代码、实测数据和常见