基于GPT的传统中国诗词生成-论文笔记
原论文:《GPT-based Generation for Classical Chinese Poetry》该论文使用GPT模型去生成中国传统诗词。模型:基于BERT源码实现的GPT预训练:8 Nvidia V100(16GB) GPUs for 4 epochs微调:使用自动回归语言模型训练数据:预训练:中国新闻语料微调训练:作者等人收集的开放可用的传统中国诗词...
·
原论文:《GPT-based Generation for Classical Chinese Poetry》
arXiv:1907.00151v2 [cs.CL] 2 Jul 2019
该论文使用GPT模型去生成中国传统诗词。
模型:基于BERT源码实现的GPT
- 预训练:8 Nvidia V100(16GB) GPUs for 4 epochs,90 hours
- 微调:使用自动回归语言模型

训练数据:
- 预训练:中国新闻语料
- 微调训练:作者等人收集的开放可用的传统中国诗词
- 格式:[form,identifier 1,theme,identifier 2,body]
- 例子:
五言绝句(格式)静夜思(主题)床前明月光,疑...月,低头思故乡。
- 例子:
- 对联的格式:上联为 theme,下联为 body
- 例子:
对联(格式)一句相思吟岁月(主题)几分寂寞醉诗词
- 例子:
- 格式:[form,identifier 1,theme,identifier 2,body]
| Training Phases | Corpus type | Corpus size |
|---|---|---|
| Pre-training | Chinese news | 235M sentences |
| Fine-tuning | Jueju and Lvshi、Cipai、Couplet | 250000 Jueju and Lvshi,20000 Cis,700000 pairs of couplets |
诗句生成:
输入form与theme,虽然不限定生成文本格式上的正确性,但模型仍旧能自动判定诗词的“,”与“。”的位置。当输出“EOS”时,结束生成。
文中使用了 Truncated top-k sampling,结果显示,生成的文本具有正确的格式。
训练藏头诗模型
方法:将藏头的内容替换原来诗句的标题
例子:五言绝句(格式)床疑举低(藏头诗)床前明月光,疑...月,低头思故乡。
论文里给出的例子:

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,https://devpress.csdn.net/organization/setting/general/146749包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐



所有评论(0)