登录社区云,与社区用户共同成长
邀请您加入社区
暂无图片
csrc/│ ├── your_op_def.cpp # 算子定义(输入/输出/数据类型/支持设备)│ ├── your_op_proto.cpp # Shape 和 DType 推理│ └── your_op_tiling.cpp # Tiling 策略└── your_op.cpp # AscendC Kernel 实现Lightning Indexer 是一个完整的 C++ 自定义算子(12
本文介绍了一种基于传统计算机视觉的车道线检测方法,采用OpenCV和图像处理技术实现。该方法通过HSL色彩空间选择突出车道线特征,结合Canny边缘检测和霍夫变换进行直线识别,并利用ROI划定减少干扰区域。与传统深度学习相比,该方法具有计算资源需求低、可解释性强等优势。实验结果表明,系统能有效检测白色和黄色车道线,适应不同光照和道路条件。文章还讨论了视频流处理实现和后续改进方向,为自动驾驶和辅助驾
摘要: slime是一个专为强化学习(RL)扩展设计的LLM后训练框架,集成Megatron与SGLang实现高性能训练和灵活数据生成。支持多模型训练(如GLM、Qwen、Llama 3等),提供自定义数据接口和服务器引擎。典型应用包括物理推理模型P1、内核优化框架TritonForge等。参数分为Megatron、SGLang和slime专用三类,支持分布式调试与贡献。同类项目有Ray RLli
在多进程、多设备协同计算场景中,高效的进程间同步是确保数据一致性和执行正确性的关键。CANN(Compute Architecture for Neural Networks)开源项目中的shmem(Shared Memory Communication Library)仓库()基于 OpenSHMEM 标准,提供了一套面向高性能计算的共享内存通信模型。其核心不仅在于远程内存访问(RMA),更在于
本文系统梳理了当前主流的大模型推理部署框架,包括vLLM、SGLang、TensorRT-LLM、Ollama和XInference。vLLM通过PagedAttention和连续批处理优化显存利用率和吞吐量,适合高并发企业级应用;SGLang采用RadixAttention技术提升缓存复用率,适用于多轮对话场景;TensorRT-LLM依托NVIDIA硬件优势,提供极低延迟推理;Ollama是轻
SGLang与vLLM深度对比及集群部署实战指南 摘要: 本文对比了两种主流大模型推理框架:工业级标杆vLLM与新生代SGLang。vLLM凭借PagedAttention技术实现3-5倍显存优化,在通用对话场景表现优异;SGLang则通过RadixAttention和声明式编程,在复杂提示工程场景快2-5倍。文章详细分析了技术架构差异,并提供了实测性能数据。针对集群部署,揭示了分布式推理通信陷阱
除了等待 HBM 国产,另一个思路是像 Groq 那样使用 SRAM,SRAM 显存带宽能到 80TB/s,但 SRAM 显存太小了,比如 Groq 的 SRAM 只有 230 MB,跑大模型要几百张卡,比如 Cerebras 44G SRAM 的产品售价据说 250 万美元,但 SRAM 的问题是它的物理结构复杂,需要 6 个晶体管来实现,制造成本高,并不遵循摩尔定义,后续价格也不会降多少,因此
本文详细介绍了在华为Ascend平台上搭建CANN 9.0开发环境并构建ops-cv算子包的全流程。主要内容包括:环境确认、CANN 9.0的下载安装、ops-cv包的获取与构建,以及常见问题的解决方案。重点解决了cmake版本过低、编译器链接问题等关键性错误,提供了从环境准备到最终编译成功的完整操作指南。通过清晰的步骤说明和实际截图,为开发者提供了可直接参考的实战经验,有助于提升Ascend平台
二维码扫描是移动应用中非常常见的功能,广泛应用于移动支付、扫码登录、商品识别、信息获取等场景。在 Flutter for OpenHarmony 应用开发中,是一个轻量级的二维码扫描插件,提供了简洁的 API 接口,支持相机实时扫描和从图片识别二维码。本文详细介绍了 Flutter for OpenHarmony 中基础概念:qrcode_flutter 的特点、与 qr_code_scanner
二维码已经成为现代生活中不可或缺的一部分。从移动支付、扫码登录,到商品追溯、信息获取,二维码的应用场景无处不在。作为一种信息密度高、识别速度快、成本低廉的数据载体,二维码在移动互联网时代发挥着重要作用。在 Flutter for OpenHarmony 应用开发中, 是一个非常实用的二维码扫描插件。它基于原生平台的相机和图像识别能力,提供了高性能、高识别率的二维码扫描功能。开发者可以通过简单的 A