Transformer背景和架构
2018年10月,Google发表的一篇论文,论文地址:,该论文中的BERT模型横扫NLP领域11项任务的最佳成绩。而BERT模型中发挥重要作用的结构就是的优势:1.利用分布式GPU并行,提升模型训练效率;分析长文本时捕捉间隔较长的语义关联效果更好。的作用:机器翻译、文本生成、构建预训练语言模型来用于不同任务的迁移学习。
背景
2018年10月,Google发表的一篇论文,论文地址: https://arxiv.org/pdf/1810.04805.pdf,该论文中的BERT模型横扫NLP领域11项任务的最佳成绩。而BERT模型中发挥重要作用的结构就是Transformer
Transformer的优势:1.利用分布式GPU并行,提升模型训练效率;分析长文本时捕捉间隔较长的语义关联效果更好。
Transformer的作用:机器翻译、文本生成、构建预训练语言模型来用于不同任务的迁移学习。
架构
假设使用Transformer模型架构处理从一种语言文本到另一种语言文本的翻译工作
输入部分:
源文本嵌入层及其位置编码器
目标文本嵌入层及其位置编码器
输出部分
线性层
softmax层
编码器部分
由N个编码器层堆叠而成
每个编码器层由两个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接
解码器部分
由N个解码器层堆叠而成
每个解码器层由三个子层连接结构组成
第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接
第二个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接
第三个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接
昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐

所有评论(0)