COVID-19实体数据集

COVID-19实体数据集 数据来源:互联网公开数据
标签:COVID-19,实体识别,文本挖掘,机器学习,医学研究,数据科学,实体编码

数据概述:
本数据集基于COVID-19开放研究数据集(CORD-19),通过sciSpaCy工具对论文中的文本实体进行提取和编码,形成结构化的数据集。数据处理过程约需2小时,最终输出为Pandas DataFrame格式和svmlite格式文件,包含实体编号、tf-idf权重等关键信息,并附带词汇表以支持反编码。数据集涵盖约200,000篇COVID-19相关论文,内容涉及病毒传播、治疗方法、疫苗研发等多个领域。

数据用途概述:
该数据集适用于文本挖掘、实体分析、机器学习模型训练等场景。研究人员可通过实体编码技术进行医学实体分析,探究COVID-19相关主题的演变趋势;开发者可利用数据集评估实体编码在机器学习中的表现,探索其在医学研究和政策制定中的潜在价值。此外,数据集还可用于教育培训,帮助学习者掌握实体识别与编码技术的应用方法。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 166.52 MiB
最后更新 2025年4月18日
创建于 2025年4月18日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。