Skip to content

Latest commit

 

History

History
49 lines (40 loc) · 1.77 KB

README.md

File metadata and controls

49 lines (40 loc) · 1.77 KB

ali_llm_fine_tuning_competition

仓库介绍

参加优酷x天池「酷文」小说创作大模型挑战赛的代码仓库,记录参加比赛的相关代码和文档。

赛事链接:优酷x天池「酷文」小说创作大模型挑战赛

赛事任务

800字小说创作任务

数据集

  • data/参考数据集.json
    • 数据集中包含有如下小说:
      • 《三国演义》的字数为: 593514 字
      • 《水浒传》的字数为: 838774 字
      • 《儒林外史》的字数为: 327064 字
      • 《呼啸山庄》的字数为: 215931 字
      • 《百年孤独》的字数为: 246912 字
      • 《西游记》的字数为: 714847 字
      • 《红与黑》的字数为: 361019 字
      • 《战争与和平》的字数为: 1056718 字
      • 《聊斋志异》的字数为: 384606 字
      • 《醒世恒言》的字数为: 328581 字
      • 《傲慢与偏见》的字数为: 218614 字
      • 《红楼梦》的字数为: 789372 字
      • 《隋唐演义》的字数为: 636063 字
      • 《封神演义》的字数为: 588226 字
      • 《拍案惊奇》的字数为: 238248 字
      • 《尤利西斯》的字数为: 363155 字
      • 《福尔摩斯探案集》的字数为: 363914 字

环境配置

  • Python 3.10
  • pip install -r requirements.txt

项目结构

  • data: 原始文本数据集
  • data_process: 数据处理代码及处理后的数据集
  • model: 模型下载及模型
  • fine_tuning: 微调代码及微调后的模型

总结

针对微调任务可以进行的优化:

  1. 数据集质量和数量的提升
  2. 模型的选择和调参
  3. 微调方法的选择和调参
  4. 生成小说提示词优化