昇思25天学习打卡营第12天 |昇思MindSpore 文本解码原理 -- 以 MindNLP 为例

【代码】昇思25天学习打卡营第12天 |昇思MindSpore 文本解码原理 -- 以 MindNLP 为例。

Mr_Orangechen

585人浏览 · 2024-07-31 17:30:00

Mr_Orangechen · 2024-07-31 17:30:00 发布

一、环境准备

# 安装指定版本的 MindSpore
!pip uninstall mindspore -y
!pip install -i https://pypi.mirrors.ustc.edu.cn/simple mindspore==2.2.14
!pip uninstall mindvision -y
!pip uninstall mindinsight -y

# 安装 MindNLP
!pip install mindnlp

二、自回归语言模型回顾
一个文本序列的概率分布可以分解为每个词基于其上文的条件概率的乘积，原理公式如： $P(w1:T)=∏t=1TP(wt∣w1:t−1)P(w_{1:T}) = \prod_{t=1}^{T} P(w_t | w_{1:t-1})$

三、自回归语言模型的应用领域

自然语言生成：如文章写作、故事创作、对话生成等。
机器翻译：预测下一个单词以生成翻译后的文本。
语音识别：将语音转换为文本。
代码生成：生成程序代码。

四、如何评估自回归语言模型的性能

困惑度（Perplexity）：衡量模型对测试集的预测能力，值越低表示模型性能越好。
BLEU 得分：常用于评估机器翻译的质量，也可用于评估生成文本与参考文本的相似度。
ROUGE 得分：用于评估摘要生成的质量。
人工评估：通过人类评估者对生成的文本进行质量、合理性、连贯性等方面的评估。

五、自回归语言模型的实际应用案例

OpenAI 的 GPT 系列模型在文本生成、问答系统等方面表现出色。
Google 的 Transformer 模型在机器翻译任务中取得了显著成果。

六、推理流程

对输入的文本进行编码，将其转换为模型可理解的输入格式。
根据选定的解码策略（如贪心搜索、束搜索等），基于前文预测下一个单词。
重复步骤 2，逐步生成完整的文本序列。

七、操作流程

加载所需的库和模块：

import mindspore
from mindnlp.transformers import GPT2Tokenizer, GPT2LMHeadModel

初始化分词器和模型：

tokenizer = GPT2Tokenizer.from_pretrained("iiBcai/gpt2", mirror='modelscope')
model = GPT2LMHeadModel.from_pretrained("iiBcai/gpt2", pad_token_id=tokenizer.eos_token_id, mirror='modelscope')

对输入文本进行编码：

input_ids = tokenizer.encode('I enjoy walking with my cute dog', return_tensors='ms')

选择不同的解码策略进行文本生成，如：
- 贪心搜索：

greedy_output = model.generate(input_ids, max_length=50)

- 束搜索：

beam_output = model.generate(input_ids, max_length=50, num_beams=5, early_stopping=True)

- 随机采样：

sample_output = model.generate(input_ids, do_sample=True, max_length=50, top_k=0)

- 温度调整采样：

sample_output = model.generate(input_ids, do_sample=True, max_length=50, top_k=0, temperature=0.7)

- TopK 采样：

sample_output = model.generate(input_ids, do_sample=True, max_length=50, top_k=50)

- Top-P 采样：

sample_output = model.generate(input_ids, do_sample=True, max_length=50, top_p=0.92, top_k=0)

- top_k_top_p 采样：

sample_outputs = model.generate(input_ids, do_sample=True, max_length=50, top_k=5, top_p=0.95, num_return_sequences=3)

八、函数及其参数、功能、例句

GPT2Tokenizer.from_pretrained(pretrained_model_name_or_path, mirror)
- 参数：
  - pretrained_model_name_or_path：预训练模型的名称或路径。
  - mirror：模型的镜像源。
- 功能：从指定的预训练模型加载分词器。
- 例句：tokenizer = GPT2Tokenizer.from_pretrained("iiBcai/gpt2", mirror='modelscope')
GPT2LMHeadModel.from_pretrained(pretrained_model_name_or_path, pad_token_id, mirror)
- 参数：
  - pretrained_model_name_or_path：预训练模型的名称或路径。
  - pad_token_id：填充标记的 ID。
  - mirror：模型的镜像源。
- 功能：从指定的预训练模型加载语言模型。
- 例句：model = GPT2LMHeadModel.from_pretrained("iiBcai/gpt2", pad_token_id=tokenizer.eos_token_id, mirror='modelscope')
model.generate(input_ids, **kwargs)
- 参数：
  - input_ids：输入的编码序列。
  - max_length：生成文本的最大长度。
  - num_beams：束搜索的束宽。
  - do_sample：是否进行采样。
  - top_k：TopK 采样中的 K 值。
  - top_p：Top-P 采样中的概率阈值。
  - temperature：采样时的温度。
  - num_return_sequences：返回的生成序列数量。
- 功能：根据输入和给定的参数生成文本。
- 例句：greedy_output = model.generate(input_ids, max_length=50)

九、调用库的名称、功能

mindnlp ：提供自然语言处理相关的模型和工具，如分词器和语言模型。
mindspore ：用于深度学习模型的构建和计算，为模型的训练和生成提供支持。

昇腾开源生态专区

昇腾计算产业是基于昇腾系列（HUAWEI Ascend）处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务，https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐

DeepSeek 崩了 13 小时，不是故障，是 V4 在换引擎

昇腾开源生态专区

体系结构论文（107）：AscendOptimizer: Episodic Agent for Ascend NPU Operator Optimization

摘要：本文提出AscendOptimizer系统，针对华为Ascend NPU的AscendC算子优化难题，通过双阶段交替优化方法实现性能提升。系统将算子拆分为host侧tiling program和device侧kernel program：Stage I采用进化搜索优化tiling策略，利用硬件反馈探索可行解空间；Stage II通过"优化回退"机制从优质kernel反向构

昇腾开源生态专区

AtomGit模型托管与实验管理全指南

AtomGit模型托管指南：AI开发者的版本控制利器摘要：本文介绍AtomGit平台针对AI开发者推出的模型托管与实验管理功能，解决传统Git无法有效管理大模型文件、实验参数分散等问题。AtomGit通过Git LFS大文件存储、模型卡片元数据记录、代码与模型版本关联等创新功能，实现AI项目的一体化管理。文章详细演示了如何创建模型仓库、配置Git LFS管理大文件、编写结构化模型卡片，并特别介绍