《昇思25天学习打卡营第15天|gaoba13j》
3.对这些token使用音频压缩模型(如EnCodec)进行解码,以恢复音频波形。1.用户输入的文本描述传递给一个固定的文本编码器模型,得到一系列隐形状态表示。2.训练MusicGen解码器来预测离散的隐形状态音频token。打卡第15天,今天学习 通过AI实现自己个性化音乐的创作。
·
打卡第15天,今天学习 通过AI实现自己个性化音乐的创作
首先需要提及的是单语音模型的音乐生成模型 MisicGen,它基于Transformer结构实现,可以分解为三个不同的阶段:
1.用户输入的文本描述传递给一个固定的文本编码器模型,得到一系列隐形状态表示
2.训练MusicGen解码器来预测离散的隐形状态音频token
3.对这些token使用音频压缩模型(如EnCodec)进行解码,以恢复音频波形

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐


所有评论(0)