参加优酷x天池「酷文」小说创作大模型挑战赛的代码仓库,记录参加比赛的相关代码和文档。
赛事链接:优酷x天池「酷文」小说创作大模型挑战赛
800字小说创作任务
- data/参考数据集.json
- 数据集中包含有如下小说:
- 《三国演义》的字数为: 593514 字
- 《水浒传》的字数为: 838774 字
- 《儒林外史》的字数为: 327064 字
- 《呼啸山庄》的字数为: 215931 字
- 《百年孤独》的字数为: 246912 字
- 《西游记》的字数为: 714847 字
- 《红与黑》的字数为: 361019 字
- 《战争与和平》的字数为: 1056718 字
- 《聊斋志异》的字数为: 384606 字
- 《醒世恒言》的字数为: 328581 字
- 《傲慢与偏见》的字数为: 218614 字
- 《红楼梦》的字数为: 789372 字
- 《隋唐演义》的字数为: 636063 字
- 《封神演义》的字数为: 588226 字
- 《拍案惊奇》的字数为: 238248 字
- 《尤利西斯》的字数为: 363155 字
- 《福尔摩斯探案集》的字数为: 363914 字
- 数据集中包含有如下小说:
- Python 3.10
- pip install -r requirements.txt
- data: 原始文本数据集
- data_process: 数据处理代码及处理后的数据集
- model: 模型下载及模型
- fine_tuning: 微调代码及微调后的模型
针对微调任务可以进行的优化:
- 数据集质量和数量的提升
- 模型的选择和调参
- 微调方法的选择和调参
- 生成小说提示词优化