Skip to content

Latest commit

 

History

History
138 lines (78 loc) · 4.65 KB

README_zh.md

File metadata and controls

138 lines (78 loc) · 4.65 KB

Huatuo-26M Dataset

📃 Paper • 🤗 Huatuo-Lite • 🤗 huatuo_encyclopedia_qa • 🤗 knowledge_graph_qa • 🤗 huatuo_consultation_qa
中文 | English

👩🏻‍⚕️项目简介

  • Huatuo-26M 是目前为止最大的中文医疗问答数据集。此数据集包含了超过2600万个高质量的医疗问答对,涵盖了各种疾病、症状、治疗方式、药品信息等多个方面。
  • Huatuo-Lite 是在Huatuo26M数据集的基础上经过多次提纯和重写而精炼优化的数据集。它包含了18万个高质量的医疗问答对,并具有医院科室相关疾病两个额外的数据维度。

📚数据内容

Huatuo-26M 数据集主要包括:

数据集中的每个问答对包含以下字段:

  • Question:问题描述
  • Answer:医生/专家的答案
  • Huatuo-Lite 数据集还具有医院科室相关疾病字段

以下为我们在论文中使用的huatuo测试集,由多个来源中数据随机抽取组成。

🚀快速开始

为了开始使用 Huatuo-26M 数据集,你可以按照以下步骤操作:

import datasets
# part 1
knowledge_graph_dataset = datasets.load_dataset('FreedomIntelligence/huatuo_knowledge_graph_qa')
# part 2
encyclopedia_dataset = datasets.load_dataset('FreedomIntelligence/huatuo_encyclopedia_qa')
# part 3 (only url)
consultation_dataset = datasets.load_dataset('FreedomIntelligence/huatuo_consultation_qa')
# Huatuo-Lite
lite = load_dataset("FreedomIntelligence/Huatuo26M-Lite")

# testdatasets (6k)
huatuo_testdatasets = datasets.load_dataset('FreedomIntelligence/huatuo26M-testdatasets')

👩🏻‍🔬实验记录

测评

  • 检索测评:

    Click to expand retrieve
  • 答案生成测评:

    Click to expand retrieve

应用

  • Zero-shot迁移至其他QA数据集:

    Click to expand retrieve
  • 作为外部知识进行RAG:

    Click to expand retrieve
  • 作为语言模型(LM)的预训练数据:

    Click to expand retrieve
  • 作为医学大语言模型(LLM)的微调数据:

    Click to expand retrieve

🚁许可

Huatuo-26M 数据集遵循 Apache 2.0 许可。使用前请确保你已阅读并同意许可条款。

📱联系我们

如果你有任何问题或者需要帮助,欢迎通过电子邮件([email protected])或者在 Issues 区向我们提问。


😁引用

@misc{li2023huatuo26m,
      title={Huatuo-26M, a Large-scale Chinese Medical QA Dataset}, 
      author={Jianquan Li and Xidong Wang and Xiangbo Wu and Zhiyi Zhang and Xiaolong Xu and Jie Fu and Prayag Tiwari and Xiang Wan and Benyou Wang},
      year={2023},
      eprint={2305.01526},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}