数据集

新冠疫情相关疾病问题相似度判断数据集COVID-19RelatedDiseaseQuestionSimilarityDataset-xuyouqian

数据来源：互联网公开数据

标签：新冠疫情, 疾病诊断, 相似度分析, 文本匹配, 自然语言处理, 问答系统, 文本分类, 医疗健康

数据概述：该数据集包含来自互联网的与新冠疫情相关的疾病问题，记录了问题对之间的相似度关系，旨在用于训练和评估问题相似度判断模型。主要特征如下：时间跨度：数据未明确标注时间，可视为静态语料数据集。地理范围：数据内容主要聚焦于与新冠疫情相关的疾病问题，未限定具体地理范围，但问题内容涵盖了常见的医疗健康问题。数据维度：包括“id”（问题对的唯一标识）、“category”（问题所属疾病类别，如肺炎、肺结核等）、“query1”（第一个问题）、“query2”（第二个问题）和“label”（问题对的相似度标签，1表示相似，0表示不相似）五个字段。数据格式：CSV格式，文件名为testcsv，便于文本处理和模型构建。来源信息：数据集来源于互联网公开数据，已进行初步的清洗和标注，适合用于问题相似度分析和文本匹配任务。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、文本挖掘和医疗健康领域的研究，如问题相似度计算、问答系统构建、疾病信息检索等。行业应用：为医疗健康行业提供数据支持，例如智能问诊系统、医学搜索引擎、患者自助服务平台等。决策支持：支持医疗机构的信息化建设，提升患者服务质量和医疗效率。教育和培训：作为自然语言处理、人工智能和医疗健康信息学等课程的辅助材料，帮助学生和研究人员理解问题相似度分析和文本匹配技术在医疗领域的应用。此数据集特别适合用于探索问题相似度判断的规律，提升问答系统的准确性和用户体验，并为医疗健康领域的智能化应用提供数据支撑。

数据与资源

versions_20250408055621.zipZIP
0.18 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.18 MiB
最后更新	2025年5月1日
创建于	2025年5月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。