专利短语匹配数据集PatentPhrasetoPhraseMatching-searchone

专利短语匹配数据集PatentPhrasetoPhraseMatching-searchone

数据来源:互联网公开数据

标签:专利, 自然语言处理, 文本匹配, 语义相似度, 文本分析, 机器学习, 专利检索, 数据集

数据概述: 该数据集包含来自美国专利商标局(USPTO)的专利文本数据,记录了专利申请中的锚点短语(anchor)、目标短语(target)以及它们之间的匹配关系。主要特征如下: 时间跨度:数据未明确标明具体时间,但反映了专利申请文本的静态快照。 地理范围:数据主要涉及美国专利申请,但其内容具有全球通用性。 数据维度:数据集包括以下字段:id(唯一标识符),anchor(锚点短语),target(目标短语),context(专利技术领域,以IPC分类号表示),以及train.csv中的score(锚点短语与目标短语之间的匹配分数,范围从0到1)。 数据格式:CSV格式,包含train.csv(训练集)、test.csv(测试集)和sample_submission.csv(提交示例),便于数据分析和模型训练。 来源信息:数据来源于Kaggle竞赛,原始数据经过整理和清洗,用于训练和评估文本匹配模型。 该数据集适合用于自然语言处理、文本匹配、语义相似度计算等研究和应用。

数据用途概述: 该数据集具有广泛的应用潜力,特别适用于以下场景: 研究与分析:适用于自然语言处理、信息检索、文本挖掘等领域的学术研究,例如专利检索优化、语义相似度计算、关键词提取等。 行业应用:为知识产权行业提供数据支持,例如专利分析、技术趋势预测、竞争情报分析等。 决策支持:支持研发部门进行技术调研、专利布局,以及辅助企业进行技术创新战略制定。 教育和培训:作为自然语言处理、机器学习相关课程的实训数据集,帮助学生和研究人员掌握文本匹配、语义理解等技术。 此数据集特别适合用于探索专利文本之间的语义关联性,帮助用户构建专利检索系统、提升专利分类准确度,以及进行技术领域的深入分析。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.67 MiB
最后更新 2025年5月15日
创建于 2025年5月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。