Webis_PRA_12_企业名称拼写错误对专利检索影响研究语料库_2012

数据集概述

本数据集为Webis专利检索语料库2012(Webis-PRA-12),核心内容是研究企业名称拼写错误对专利检索的影响。语料库基于2001-2010年美国专利商标局(USPTO)授权的2132825项专利提取,包含14189个不同企业名称,为专利检索领域的相关研究提供数据支持。

文件详解

  • 文件名称:corpus-webis-pra-12.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含Webis专利检索语料库2012的完整数据,核心内容为基于USPTO专利提取的14189个不同企业名称,用于研究企业名称拼写错误对专利检索的影响;未检测到特定命名模式,无训练/测试、数据/标签、原始/处理数据的拆分。

适用场景

  • 专利检索算法优化:研究企业名称拼写错误对专利检索结果的影响,优化检索算法的容错性和准确性。
  • 自然语言处理应用:用于企业名称拼写纠错、实体链接等自然语言处理任务的模型训练与验证。
  • 知识产权数据分析:分析USPTO专利中企业名称的分布特征,支持知识产权领域的相关研究。
  • 信息检索领域研究:作为专利检索方向的标准语料库,支撑信息检索领域的学术研究与实验对比。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.86 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。