马斯克的公司xAI最近开源了一个名为Grok-1的混合专家(MoE)模型,拥有3140亿个参数,是目前开源最大的语言模型之一。这个模型从头开始训练,没有针对特定应用进行微调。它遵循Apache 2.0许可证,允许用户自由使用、修改和分发。尽管规模庞大,但它没有为任何特定任务进行细化,与X平台上可用的其他模型不同​​。

Masstige公司近期开源的Grok-1模型,不仅因其规模而受到瞩目,更因其完全开源的姿态,为全球的开发者和研究人员提供了前所未有的机会。这一举动被视为开源界的一次重大突破,它不仅打破了技术进步的障碍,还鼓励了更广泛的协作和创新。Masstige通过这种方式展示了对开放科技社区的承诺,并为未来的开源项目树立了新的标杆。

模型详情:

  • 基于大量文本数据训练,未针对任何特定任务微调
  • 3140亿参数MoE模型,激活权重25%
  • 使用旋转嵌入而非固定位置嵌入
  • Tokenizer词汇大小131,072,嵌入大小6,144
  • 64层Transformer,每层解码器层包含多头注意力块和密集块
  • 多头注意力:48头查询,8头键/值,键值大小128
  • 密集块:加宽因子8,隐藏层大小32768
  • 每个token从8个专家选择2个
  • 旋转位置嵌入大小6,144
  • 上下文长度8192 tokens,精度bf16

模型能力:

  • 在标准LM基准测试中表现超过同等计算量模型
  • HumanEval编码任务63.2%,MMLU 73%
  • 在匈牙利高中数学考试中获C级(59%)
  • 整体在推理和编码任务中表现出色

局限性:

  • 缺少独立搜索网络能力,需结合搜索工具增强
  • 可能产生幻觉,需人工审查
  • 目前无法像X平台付费版实现实时获取信息

开源意义:

  • 遵循Apache 2.0许可证,用户可自由使用修改分发
  • 体现了xAI追求透明化和社区开放的理念
  • 为进一步研究和创新提供了宝贵资源

硬件条件:

为了运行Grok-1模型,一个拥有3140亿参数的模型,预计需要一台至少具有628 GB GPU内存的机器,假设每个参数需要2字节。这意味着配置了8块每块提供80GB内存的H100 GPU就足够了。这一重要需求强调了运行Grok-1所需的先进硬件,反映了其巨大的规模和复杂性​​。 

Logo

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐