找到20个数据集

标签: 实体链接

过滤结果
  • WWW2020_Based_Web表格新实体发现实验复现资源

    2026年2月8日 30 5 4

    数据集概述 本数据集是论文《Novel Entity Discovery from Web Tables》的实验复现资源,包含三个用于Web表格新实体发现、实体类型与提及解析的测试集,以及300万张表格的提及-实体、标题-属性对应关系数据,支持论文中实体链接、表格匹配、实体解析实验的复现。 文件详解 压缩包文件...
    packageimg
  • DBGI_KG_Based热带植物知识图谱玩具数据集v0_4

    2026年1月29日 30 90 10

    数据集概述 本数据集是Digital Botanical Gardens Initiative Knowledge Graph(DBGI-KG)的热带植物知识图谱玩具数据集,用于知识图谱相关任务的测试与验证。数据集为简化压缩包格式,无训练/测试、数据/标签或原始/处理数据划分,仅包含一个压缩文件。 文件详解 压缩文件...
    packageimg
  • Wiki_TabNER_Based_维基百科表格实体识别标注数据集

    2026年1月27日 30 97 31

    数据集概述 本数据集是论文《Wiki-TabNER:Integrating Named Entity Recognition into Wikipedia Tables》中描述的数据集,包含从维基百科页面提取的表格,并标注了Dbpedia实体类型。数据集包含三个文件,可用于解决表格内的命名实体识别和实体链接任务。 文件详解...
    packageimg
  • Webis_PRA_12_企业名称拼写错误对专利检索影响研究语料库_2012

    2026年1月20日 30 96 90

    数据集概述 本数据集为Webis专利检索语料库2012(Webis-PRA-12),核心内容是研究企业名称拼写错误对专利检索的影响。语料库基于2001-2010年美国专利商标局(USPTO)授权的2132825项专利提取,包含14189个不同企业名称,为专利检索领域的相关研究提供数据支持。 文件详解 文件名称:corpus-webis-...
    packageimg
  • Wikidata_embedding_20170613_知识图谱实体关系嵌入模型

    2026年1月19日 30 84 70

    数据集概述 本数据集为基于Wikidata 2017年6月13日快照生成的实体嵌入模型,通过CBOW算法训练得到。模型使用Wikidata的三元组关系数据构建训练语料,包含实体和属性的向量表示,可用于知识图谱相关的语义分析任务。 文件详解 文件名称:wikidata-20170613-truthy-BETA-cbow-...
    packageimg
  • ENP_China_Timeline_Glossary_现代中国历史事件时间线与术语表数据集1_0_0

    2026年1月3日 30 114 102

    数据集概述 本数据集为1939-1949年现代中国历史事件的时间线与术语表,收录历史文献及网络等来源中事件的常用命名表达,含中英双语内容,存在同一事件多种命名的重复记录,同时提供事件日期,可作为中国现代史时间线工具,用于数据挖掘与NLP处理。 文件详解 文件名称:Timeline_Glossary_Events_1.0.0.xlsx 文件格式:XLSX...
    packageimg
  • Enabling_Roll_up_and_Drill_down_Operations_新闻探索功能支持数据集

    2025年12月29日 30 151 39

    数据集概述 本数据集包含二十万篇新闻文章,通过命名实体链接技术将新闻实体与DBPedia关联,支持新闻探索中的钻取与汇总操作。数据集共包含四个文件,无目录结构,主要文件类型为JSON和ZIP格式,未划分训练/测试集或数据/标签集。 文件详解 relevance_evaluation_response.json 文件格式:JSON...
    packageimg
  • HIPE_2022共享任务命名实体数据集

    2025年12月22日 30 156 92

    数据集概述 本数据集是HIPE-2022共享任务的专用数据,用于多语言历史文档中的命名实体识别与分类(NERC)及实体链接(EL)任务。基于六个原始数据集构建,涵盖约两百年的历史报纸和经典评注,包含多种语言和实体标注方案。 文件详解 文件名称: HIPE-2022-data-2.1-test-all-unmasked.zip 文件格式: ZIP压缩包...
    packageimg
  • 实体消歧Agnus输入数据集

    2025年12月20日 30 128 121

    数据集概述 本数据集是用于实体消歧任务的输入数据集合,包含五个压缩文件,涵盖MSNBCt、AQUAINT、ACE2004t、KORE50、AIDA-Syn等不同来源或类型的实体消歧输入数据,为实体消歧算法的训练与测试提供基础数据支持。 文件详解 该数据集包含五个压缩文件,具体说明如下: - 文件名称及格式: -...
    packageimg
  • 表格数据实体链接基准数据集

    2025年12月20日 30 138 94

    数据集概述 本数据集是用于评估结构化表格数据实体链接算法的基准套件,包含五个子数据集(HTR1、HTR2、Movies、Companies、SN),覆盖学术挑战、维基数据构建及真实采购场景,为算法性能验证提供标准化数据支持。 文件详解...
    packageimg
  • MedProcNER医疗程序命名实体识别金标准标注数据集

    2025年12月14日 30 34 16

    数据集概述 该数据集是用于西班牙语医疗文档中临床程序信息抽取的金标准标注资源,包含训练集七百五十份文档、测试集二百五十份文档,以及SNOMED CT编码词表、SNOMED CT与MeSH交叉映射文件,还提供九种语言的银标准版本,为医疗程序检测与实体链接任务提供支持。 文件详解 文件名称:...
    packageimg
  • Tough_Tables实体链接评估数据集v3_0

    2025年12月13日 30 193 35

    数据集概述 该数据集是用于评估表格数据实体链接方法的基准数据集,支持CEA(单元格实体标注)和CTA(列类型标注)任务。v3.0版本适配DBpedia 2016-10和Wikidata 20220521知识图谱,按验证集和测试集划分,兼容SemTab 2019格式。 文件详解 文件名称: ToughTables-WD_v3.zip 文件格式:...
    packageimg
  • 哈利波特语义数据集及应用

    2025年12月11日 30 93 50

    数据集概述 本数据集围绕哈利波特主题构建,包含语义数据集和相关应用文件。数据以压缩包(.zip)和语义网格式(.ttl)存储,为哈利波特相关内容的语义分析与应用开发提供数据支持。 文件详解 tfg.zip:压缩包格式,具体内容未提供预览 datahpmovies.ttl:TTL格式(语义网RDF序列化格式),可能包含哈利波特电影相关的结构化语义数据...
    packageimg
  • 多语言历史报纸命名实体识别实体链接与立场检测数据集2021

    2025年12月11日 30 120 32

    数据集概述 该数据集为多语言历史报纸资源,包含1850-1950年法语、德语、芬兰语和瑞典语的历史报纸材料,涵盖命名实体识别、实体链接及实体立场检测标注,用于开发和评估历史文档的命名实体处理系统。 文件详解 文件名称: NewsEye-GT-NER_EL_StD-v1.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • Reddit_Based_实体链接数据集_多标注文本语义分析完整数据

    2025年12月10日 30 13 2

    数据集概述 该数据集是基于社交媒体平台Reddit创建的实体链接数据集,包含六百一十九条帖子及一千二百四十三条对应评论,由三名人工标注者对文本分组进行标注,记录了提及-实体对及不同标注者间的一致性结果,含黄金、白银、青铜三种标注类型,总计一万一千一百零三条标注数据。 文件详解 文件名称: reddit_el.zip 文件格式: ZIP压缩包(.zip)...
    packageimg
  • 地名匹配与预测数据集GeographicNameMatchingandPredictionDataset-takoihiraokazu

    2025年5月29日 30 146 29

    地名匹配与预测数据集GeographicNameMatchingandPredictionDataset-takoihiraokazu 数据来源:互联网公开数据 标签:地名匹配, 文本相似度, 地理信息系统, 数据挖掘, 预测模型, 实体链接, 机器学习, 数据清洗 数据概述: 该数据集包含多个CSV文件,记录了地名匹配与预测的相关数据。主要特征如下:...
    packageimg
  • 强研实体链接数据集QiangyanEntityLinkingDataset-kejiewang

    2025年5月28日 30 69 11

    强研实体链接数据集QiangyanEntityLinkingDataset-kejiewang 数据来源:互联网公开数据 标签:实体链接,自然语言处理,数据集,知识图谱,机器学习,语义理解,信息检索,数据挖掘 数据概述: 该数据集由强研项目提供,专注于实体链接任务,记录了文本中的实体与知识图谱中实体的对应关系。主要特征如下:...
    packageimg
  • 千言实体链接预处理数据集-kejiewang

    2025年5月28日 30 132 124

    千言实体链接预处理数据集-kejiewang 数据来源:互联网公开数据 标签:自然语言处理,实体链接,数据集,中文,文本处理,信息抽取,知识图谱,预处理 数据概述: 该数据集包含经过预处理的中文文本数据,旨在用于实体链接任务。数据的主要特征如下: 时间跨度:数据未明确标注时间范围,主要聚焦于文本内容本身。...
    packageimg
  • 地标信息文本匹配数据集LandmarkInformationTextMatching-lunapandachan

    2025年5月20日 30 64 17

    地标信息文本匹配数据集LandmarkInformationTextMatching-lunapandachan 数据来源:互联网公开数据 标签:文本匹配, 地标识别, 实体链接, 地理位置, 自然语言处理, 机器学习, 数据挖掘, 信息检索 数据概述:...
    packageimg
  • 实体识别与链接训练数据集EntityRecognitionandLinkingTrainingDataset-dngfra

    2025年4月30日 30 119 47

    实体识别与链接训练数据集EntityRecognitionandLinkingTrainingDataset-dngfra 数据来源:互联网公开数据 标签:实体识别, 命名实体识别, 实体链接, 自然语言处理, 文本标注, 机器学习, 知识图谱, 语料库 数据概述:...
    packageimg