Transformer背景和架构

2018年10月，Google发表的一篇论文，论文地址:，该论文中的BERT模型横扫NLP领域11项任务的最佳成绩。而BERT模型中发挥重要作用的结构就是的优势：1.利用分布式GPU并行，提升模型训练效率；分析长文本时捕捉间隔较长的语义关联效果更好。的作用：机器翻译、文本生成、构建预训练语言模型来用于不同任务的迁移学习。

好好学习vasp

397人浏览 · 2024-07-06 18:29:11

好好学习vasp · 2024-07-06 18:29:11 发布

背景

2018年10月，Google发表的一篇论文，论文地址: https://arxiv.org/pdf/1810.04805.pdf，该论文中的BERT模型横扫NLP领域11项任务的最佳成绩。而BERT模型中发挥重要作用的结构就是Transformer

Transformer的优势：1.利用分布式GPU并行，提升模型训练效率；分析长文本时捕捉间隔较长的语义关联效果更好。

Transformer的作用：机器翻译、文本生成、构建预训练语言模型来用于不同任务的迁移学习。

架构

假设使用Transformer模型架构处理从一种语言文本到另一种语言文本的翻译工作

输入部分：

源文本嵌入层及其位置编码器

目标文本嵌入层及其位置编码器

输出部分

线性层

softmax层

编码器部分

                由N个编码器层堆叠而成

                每个编码器层由两个子层连接结构组成

                第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接

                第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

解码器部分

   由N个解码器层堆叠而成

                每个解码器层由三个子层连接结构组成

                第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接

                第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接

                第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

全球AI产业冰山图

昇腾开源生态专区

大模型推理引擎vLLM(9): vLLM 基本代码结构

昇腾开源生态专区

LLM底层机制深度解析：从Transformer到推理优化的完整技术地图

架构选择：了解Decoder-only的因果特性，就知道为什么不能随意双向注意力。KV Cache：明白显存占用公式，就能预估多轮对话的硬件需求。：掌握BPE和中英文差异，就能优化成本。位置编码：知道RoPE和ALiBi的原理，就能理解模型的外推能力。优化技术：熟悉Flash Attention、vLLM等，就能选择最合适的部署方案。采样与对齐：掌握Temperature和Top-p，就能精细控制