专利文本关键词预测交叉验证数据集PatentTextKeywordPredictionCross-ValidationDataset-kengofujii

专利文本关键词预测交叉验证数据集PatentTextKeywordPredictionCross-ValidationDataset-kengofujii

数据来源:互联网公开数据

标签:专利分析, 文本挖掘, 关键词预测, 机器学习, 自然语言处理, 交叉验证, 文本分类, 专利检索

数据概述: 该数据集包含用于专利文本关键词预测的交叉验证数据,记录了专利文本片段与对应的关键词信息。主要特征如下: 时间跨度:数据未明确标注时间,可视作静态语料库,用于模型训练与评估。 地理范围:数据来源未明确,但可推测为全球范围内的专利文本。 数据维度:数据集包含多个字段,包括:id(唯一标识符),anchor(锚文本),target(目标关键词),context(上下文信息,如专利分类号),score(预测分数),code(分类编码),title(专利标题),section(专利所属技术领域),class(专利分类号),subclass(专利子类),group(专利分组),main_group(专利主分组),input(输入文本),fold(交叉验证折数),preds(预测结果)。 数据格式:CSV格式,文件名为oof_df_funnel.csv,便于数据分析和处理。 来源信息:数据来源于kengofujii-pppmfunneltransformerxlarge项目,已进行数据预处理和特征工程。 该数据集适合用于关键词预测模型的训练、评估和优化,以及相关领域的学术研究。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于自然语言处理、机器学习和专利分析交叉领域的学术研究,如专利文本关键词预测、专利分类、专利检索等。 行业应用:为知识产权行业提供数据支持,可用于构建智能专利检索系统、专利分析工具,以及提升专利信息服务的效率。 决策支持:支持企业和研究机构进行技术趋势分析、竞争情报收集,以及辅助技术研发决策。 教育和培训:作为自然语言处理、机器学习和专利分析等课程的实训数据,帮助学生和研究人员深入理解相关领域。 此数据集特别适合用于探索专利文本与关键词之间的关联关系,优化关键词预测模型的性能,并提升专利信息检索的准确性和效率。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.58 MiB
最后更新 2025年5月1日
创建于 2025年5月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。