中国医疗对话智能健康语言模型训练数据集-thedevastator
数据来源:互联网公开数据
标签:医疗对话,智能医疗,深度学习,健康,数据集,语言模型,对话系统
数据概述:
本数据集旨在训练中文医疗对话的深度学习语言模型,适用于智能健康系统的开发。数据集包含预训练、微调和奖励数据,使模型能够更准确地生成医学对话中的回答。数据集包含问题、选中回答和被拒绝回答的列,使模型在构建对话时能够从多个角度进行分析,提高准确性和对话能力。该数据集是企业、研究人员及个人开发智能健康系统的重要资源。
数据用途概述:
该数据集适用于医疗对话系统的开发和优化,包括预训练、微调和评估等环节。通过使用此数据集,研究人员可以训练出更准确的智能医疗对话模型,应用于医疗咨询、诊断辅助等领域。具体步骤包括:
1. 预训练:利用预训练数据构建和微调语言模型,使其理解基本的医疗对话内容和中医知识。
2. 微调:使用微调数据并应用迁移学习技术(如无监督学习或多任务学习)提高模型在特定任务(如回答医疗相关问题)上的准确性。
3. 奖励:利用患者或医生对正确回答的评价,通过实际反馈来指导AI系统,提高其在长时间对话中的表现。
4. 评估:在训练完成后,利用奖励验证数据评估模型在未见过的数据上的表现,以确保其性能的有效性。
研究想法:
1. 利用奖励数据进行强化学习训练对话模型,奖励正确的回答。
2. 使用少量样本学习方法快速适应新的或未见过的医疗对话。
3. 探索迁移学习技术以将从一个医疗领域学到的知识应用到另一个领域。
数据集包含以下文件:
reward_train.csv
- question: 医疗对话中的问题(字符串)
- response_chosen: 模型选择的正确回答(字符串)
- response_rejected: 模型选择的错误回答(字符串)
reward_test.csv
- question: 医疗对话中的问题(字符串)
- response_chosen: 模型选择的正确回答(字符串)
- response_rejected: 模型选择的错误回答(字符串)
reward_validation.csv
- question: 医疗对话中的问题(字符串)
- response_chosen: 模型选择的正确回答(字符串)
- response_rejected: 模型选择的错误回答(字符串)
注意事项:
如果在研究中使用此数据集,请务必引用原始作者及Huggingface Hub。本数据集遵循CC0 1.0 Universal(CC0 1.0)许可,属于公众领域,无需许可即可进行复制、修改、分发和表演,包括商业用途。