医学诊断疾病ICD9代码分析数据集MedicalDiagnosisICD9CodeAnalysisDataset-mariaponomarenko

医学诊断疾病ICD9代码分析数据集MedicalDiagnosisICD9CodeAnalysisDataset-mariaponomarenko

数据来源:互联网公开数据

标签:ICD9, 医学诊断, 疾病分类, TF-IDF, 文本挖掘, 机器学习, 医疗健康, 临床数据

数据概述: 该数据集包含基于ICD9(国际疾病分类第九版)代码的医学文本数据,旨在用于疾病诊断与分析。主要特征如下: 时间跨度:数据未明确标注时间,可视为静态疾病诊断相关特征的集合。 地理范围:数据未限定地理范围,可应用于全球范围内的医学研究。 数据维度:数据集包含多种CSV文件,分别采用TF-IDF(词频-逆文档频率)和TM(主题模型)等方法,提取了与ICD9代码相关的关键词和主题特征。具体包括: input_ICD9_TFIDF_40.csv:包含40个关键词的TF-IDF特征,以及对应的ICD9代码。 input_ICD9_TFIDF_40_updated.csv:更新版的40个关键词的TF-IDF特征,以及对应的ICD9代码和标签(Label)。 input_ICD9_TM_20.csv、input_ICD9_TM_30.csv、input_ICD9_TM_39.csv、input_ICD9_TM_5.csv:分别包含不同数量主题(20、30、39、5)的主题模型特征,以及对应的ICD9代码。 数据格式:CSV格式,便于数据分析和模型构建。 来源信息:数据来源于医学研究或公开数据集,具体来源未明确,但数据经过了预处理,如关键词提取、TF-IDF计算、主题模型构建等。 该数据集适合用于医学诊断、疾病预测、文本挖掘等领域的研究。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于医学文本分析、疾病诊断辅助、ICD9代码预测等方面的学术研究,如疾病特征提取、诊断模型构建、疾病关联性分析等。 行业应用:可以为医疗健康行业提供数据支持,特别是在医院的电子病历分析、疾病风险评估、临床决策支持系统(CDSS)等应用方面。 决策支持:支持医疗机构的疾病管理、医疗资源分配、医疗质量改进等决策制定。 教育和培训:作为医学信息学、数据挖掘、机器学习等课程的实训材料,帮助学生和研究人员深入理解医学文本分析和疾病诊断流程。 此数据集特别适合用于探索疾病诊断与ICD9代码之间的关联,并构建预测模型,从而辅助医生进行诊断,提高诊断效率和准确性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 5.04 MiB
最后更新 2025年5月11日
创建于 2025年5月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。