生物医药行业事件分类数据集-2023年-knowledgator

生物医药行业事件分类数据集-2023年-knowledgator 数据来源:互联网公开数据 标签:生物医药,新闻分类,事件分析,人工智能,多标签分类,数据科学,研究

数据概述: 本数据集包含31个类别,涵盖生物医药行业的各类事件信息,每个类别对应不同的事件类型。数据集中的事件包括但不限于联盟与合作关系的建立、临床试验赞助、公司关闭、部门建立、活动组织、高管任命、地理扩张、行业扩张、基金会建立、资金轮次、招聘、公共公司投资、首次公开募股退出、并购与剥离、新产品发布、产品更新、监管批准、产品与服务提供、子公司建立、支持与慈善活动等。数据集中的每个事件均标注了所属类别,部分事件可能属于多个类别,因此这是一个多标签分类问题。

数据用途概述: 该数据集适用于多标签分类算法的训练与评估,特别适用于生物医药行业的新闻分类、事件监测和行业趋势分析。数据科学家和研究人员可以利用此数据集开发和测试分类模型,以提高对生物医药行业事件的识别与分析能力。此外,该数据集也可用于教育培训,帮助学习者理解生物医药行业的动态变化和关键事件。

数据集包含以下字段: - 类别:事件所属的类别,可能包含多个类别 - 事件描述:事件的具体内容

数据集基准模型性能: 我们使用二元交叉熵损失函数训练了多个模型,并在测试集上进行了评估。以下是部分模型的性能指标:

  • DeBERTa-small:准确率96.58%,F1分数67.69%,精确率74.18%,召回率62.19%
  • DeBERTa-base:准确率96.60%,F1分数67.55%,精确率74.81%,召回率61.58%
  • DeBERTa-large:准确率96.99%,F1分数74.07%,精确率73.46%,召回率74.69%
  • SciBERT-uncased:准确率96.57%,F1分数68.07%,精确率73.07%,召回率63.71%
  • Flan-T5-base:准确率96.85%,F1分数71.10%,精确率75.71%,召回率67.07%

推荐阅读: - 查看数据集的概述文章:《终于有了一个不错的多标签分类基准:一个重要的零样本数据集》 - 尝试在数据集上训练自己的模型:《从零开始构建多标签分类模型:逐步教程》

反馈: 我们重视您的反馈!请通过反馈表单分享您的意见和建议,帮助我们改进模型和数据集。 - 加入我们的Discord:与我们的社区在Discord上交流,获取最新资讯、支持和讨论我们的模型与数据集。加入Discord

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.64 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。