专利文本关键词预测交叉验证数据集PatentTextKeywordPredictionCross-ValidationDataset-kengofujii
数据来源:互联网公开数据
标签:专利分析, 文本挖掘, 关键词预测, 机器学习, 自然语言处理, 交叉验证, 文本分类, 专利检索
数据概述:
该数据集包含用于专利文本关键词预测的交叉验证数据,记录了专利文本片段与对应的关键词信息。主要特征如下:
时间跨度:数据未明确标注时间,可视作静态语料库,用于模型训练与评估。
地理范围:数据来源未明确,但可推测为全球范围内的专利文本。
数据维度:数据集包含多个字段,包括:id(唯一标识符),anchor(锚文本),target(目标关键词),context(上下文信息,如专利分类号),score(预测分数),code(分类编码),title(专利标题),section(专利所属技术领域),class(专利分类号),subclass(专利子类),group(专利分组),main_group(专利主分组),input(输入文本),fold(交叉验证折数),preds(预测结果)。
数据格式:CSV格式,文件名为oof_df_funnel.csv,便于数据分析和处理。
来源信息:数据来源于kengofujii-pppmfunneltransformerxlarge项目,已进行数据预处理和特征工程。
该数据集适合用于关键词预测模型的训练、评估和优化,以及相关领域的学术研究。
数据用途概述:
该数据集具有广泛的应用潜力,特别适用于以下场景:
研究与分析:适用于自然语言处理、机器学习和专利分析交叉领域的学术研究,如专利文本关键词预测、专利分类、专利检索等。
行业应用:为知识产权行业提供数据支持,可用于构建智能专利检索系统、专利分析工具,以及提升专利信息服务的效率。
决策支持:支持企业和研究机构进行技术趋势分析、竞争情报收集,以及辅助技术研发决策。
教育和培训:作为自然语言处理、机器学习和专利分析等课程的实训数据,帮助学生和研究人员深入理解相关领域。
此数据集特别适合用于探索专利文本与关键词之间的关联关系,优化关键词预测模型的性能,并提升专利信息检索的准确性和效率。