生物医药行业事件分类数据集-2023年-knowledgator
数据来源:互联网公开数据
标签:生物医药,新闻分类,事件分析,人工智能,多标签分类,数据科学,研究
数据概述:
本数据集包含31个类别,涵盖生物医药行业的各类事件信息,每个类别对应不同的事件类型。数据集中的事件包括但不限于联盟与合作关系的建立、临床试验赞助、公司关闭、部门建立、活动组织、高管任命、地理扩张、行业扩张、基金会建立、资金轮次、招聘、公共公司投资、首次公开募股退出、并购与剥离、新产品发布、产品更新、监管批准、产品与服务提供、子公司建立、支持与慈善活动等。数据集中的每个事件均标注了所属类别,部分事件可能属于多个类别,因此这是一个多标签分类问题。
数据用途概述:
该数据集适用于多标签分类算法的训练与评估,特别适用于生物医药行业的新闻分类、事件监测和行业趋势分析。数据科学家和研究人员可以利用此数据集开发和测试分类模型,以提高对生物医药行业事件的识别与分析能力。此外,该数据集也可用于教育培训,帮助学习者理解生物医药行业的动态变化和关键事件。
数据集包含以下字段:
- 类别:事件所属的类别,可能包含多个类别
- 事件描述:事件的具体内容
数据集基准模型性能:
我们使用二元交叉熵损失函数训练了多个模型,并在测试集上进行了评估。以下是部分模型的性能指标:
- DeBERTa-small:准确率96.58%,F1分数67.69%,精确率74.18%,召回率62.19%
- DeBERTa-base:准确率96.60%,F1分数67.55%,精确率74.81%,召回率61.58%
- DeBERTa-large:准确率96.99%,F1分数74.07%,精确率73.46%,召回率74.69%
- SciBERT-uncased:准确率96.57%,F1分数68.07%,精确率73.07%,召回率63.71%
- Flan-T5-base:准确率96.85%,F1分数71.10%,精确率75.71%,召回率67.07%
推荐阅读:
- 查看数据集的概述文章:《终于有了一个不错的多标签分类基准:一个重要的零样本数据集》
- 尝试在数据集上训练自己的模型:《从零开始构建多标签分类模型:逐步教程》
反馈:
我们重视您的反馈!请通过反馈表单分享您的意见和建议,帮助我们改进模型和数据集。
- 加入我们的Discord:与我们的社区在Discord上交流,获取最新资讯、支持和讨论我们的模型与数据集。加入Discord