找到862个数据集

标签: 语义分析

过滤结果
  • IN00607_铭文碑板_DHARASENA_II_252_数字化文献数据

    2026年1月21日   

    数据集概述 本数据集包含IN00607编号下的DHARASENA II 252铭文碑板相关数据,以XML格式存储,是一份结构化的铭文文献数字化资源,支持铭文研究领域的资料查询与分析。 文件详解 文件名称:IN00607_TEI.xml 文件格式:XML 字段映射介绍:文件为采用TEI(文本编码倡议)标准的XML文件,包含铭文碑板IN00607...
    packageimg
  • Google_Geotargets_Based_西班牙德国区域定位数据映射

    2026年1月21日   

    数据集概述 本数据集包含Google Location Criteria ID(Geotargets)的RDF版本数据及Geonames XML子集,仅覆盖西班牙和德国区域。还提供通过自定义SILK管道生成的实例间sameAs映射文件,共6个文件,用于实现两类地理定位数据的关联与互操作。 文件详解 西班牙Geonames数据文件...
    packageimg
  • Dataset_B_Based_数字健康分类与健康应用开发者用户文档分析数据

    2026年1月20日   

    数据集概述 本数据集为“数字化、分类与健康应用”研究项目的Dataset B,包含约300份用于文档分析的资料,聚焦预防性健康应用的开发与使用场景。数据来源涵盖科研机构资料、媒体报道、应用商店评价等公开文档,旨在支持数字健康领域的话语分析及应用开发与使用过程的实证研究。 文件详解 文档文件集(共186份)...
    packageimg
  • wikidata_dump_railway_station知识图谱RDF数据

    2026年1月20日   

    数据集概述 本数据集是使用wdumps工具生成的Wikidata铁路站点信息RDF转储数据。包含4个文件,涵盖配置说明、元数据信息、预览数据及压缩数据文件,可用于铁路站点相关知识图谱的构建与分析。 文件详解 配置与元数据文件 文件名称:info.json 文件格式:JSON...
    packageimg
  • DWUG_DE_Sense_Based_德语历史词义标注数据集_v1_0_1

    2026年1月20日   

    数据集概述 本数据集为DWUG DE词汇使用数据的子集,包含德语词汇的历史词义标注,涵盖经聚合清洗的词义标签、词汇使用对的二元语义接近度标签及词义变化标签,可用于词汇语义归纳与语义变化检测研究,版本为1.0.1。 文件详解 文件名称:dwug_de_sense.zip 文件格式:ZIP 字段映射介绍:压缩包内包含三类核心文件:...
    packageimg
  • mromanello_APh_Corpus_v2_0_自然语言处理语料库数据

    2026年1月20日   

    数据集概述 本数据集为APh语料库v2.0版本,由Matteo Filipponi用于瑞士联邦理工学院(EPFL)硕士项目评估。数据以压缩包形式存储,无训练测试、数据标签或原始处理数据的拆分,未提供自述文件或内容预览。 文件详解 文件名称:mromanello/APh_Corpus-v2.0.zip 文件格式:ZIP...
    packageimg
  • myExperiment_SCOFF_Based_生物信息学工作流抽象化数据

    2026年1月20日   

    数据集概述 本数据集为myExperiment平台中生物信息学相关工作流的抽象化版本,通过移除所有非分析节点(包括数据结构/类型转换的“shims”节点)得到,用于SCOFF分析(检测高度相似的工作流片段)。数据集包含739个文件,无目录层级,文件类型以.t2flow和.xml为主。 文件详解...
    packageimg
  • ft_Q7561196_Based_Wikidata未弃用实体RDF转储数据

    2026年1月20日   

    数据集概述 本数据集是通过wdumps工具生成的Wikidata未弃用实体ft_Q7561196的RDF转储数据,包含4个文件,涉及JSON、NT、GZ三种格式,涵盖数据元信息、规范配置、预览数据及压缩文件,可用于相关语义数据研究与分析。 文件详解 info.json 文件格式:JSON...
    packageimg
  • Wikidata_Dump_KitchenOBJs厨房用具子类RDF转储数据

    2026年1月20日   

    数据集概述 本数据集是通过wdumps工具生成的Wikidata厨房用具子类RDF转储数据,包含4个文件,记录了厨房用具子类的结构化知识图谱信息,可用于知识图谱构建、语义分析等场景。 文件详解 数据文件 文件名称:wdump-120.nt.gz 文件格式:GZ压缩包 字段映射介绍:包含Wikidata厨房用具子类的RDF三元组数据,压缩格式存储...
    packageimg
  • Producing_Diversity_Netflix生产文化话语分析数据集

    2026年1月20日   

    数据集概述 本数据集包含为研究论文《Producing diversity: On the discourses at the heart of Netflix's production culture》分析和引用的新闻稿列表,仅包含一个文件,用于支持对Netflix生产文化核心话语的学术研究。 文件详解 文件名称:Producing...
    packageimg
  • 数据22_Tragedies_莎士比亚及其他剧作家悲剧作品地点数据_2024

    2026年1月20日   

    数据集概述 本数据集包含22部悲剧作品中的地点提及信息,其中11部为莎士比亚作品,11部为其他剧作家作品。数据记录了地点的经纬度、名称词形及地名词典类型位置,为研究悲剧文学中的地理元素提供基础支持。 文件详解 压缩文件 文件名称:ghap-ro-crate-layer-2246-20241216162342.zip 文件格式:ZIP...
    packageimg
  • WSDM2021_Contextualizing_新闻趋势实体上下文分析数据集

    2026年1月20日   

    数据集概述 本数据集是基于《纽约时报标注语料库》开发的富集数据,包含149个趋势事件,涉及12万个实体。数据旨在对新闻中的趋势实体进行上下文关联,按实体对趋势的解释价值排序。数据集分为无监督(149个趋势)和有监督(训练集50个、开发集34个、测试集65个)两类评估数据,支持趋势实体解释性研究。 文件详解 文件名称:contextualizing-...
    packageimg
  • Kannan_indus2_en_Based_Wikidata_RDF转储数据

    2026年1月20日   

    数据集概述 本数据集是通过wdumps工具生成的Wikidata RDF转储数据,文件名为Kannan_indus2_en。数据集包含4个文件,涵盖实体计数、陈述计数、三元组计数等基础信息,以及规格说明、预览数据和压缩数据文件,可用于Wikidata相关的知识图谱研究与应用。 文件详解 文件名称:info.json 文件格式:JSON...
    packageimg
  • Alexis_Tsipras_Based_2023年5月选举话语分析报告与数据

    2026年1月20日   

    数据集概述 本数据集包含与Alexis Tsipras在2023年5月选举相关的话语分析资料,涵盖报告、表格及定量分析文件,共3个文件,支持对其选举相关话语的研究与分析。 文件详解 Alexis Tsipras - Report.docx 文件格式:DOCX 字段映射介绍:无预览内容,推测为关于Alexis Tsipras...
    packageimg
  • Wikidata_wdumps_Based_俄英名词语法性别RDF数据集_原始

    2026年1月19日   

    数据集概述 本数据集是通过wdumps工具生成的Wikidata RDF转储,核心内容为包含语法性别的俄语、英语名词数据。数据集包含4个文件,涵盖JSON格式的配置与元数据文件、压缩的N-Triples数据文件及预览文件,可用于语义网络、自然语言处理等领域的相关研究。 文件详解 配置与元数据文件 文件名称:wdumper-spec.json...
    packageimg
  • Sexual_harassment_Data_果蝇性骚扰与环境信息获取研究数据

    2026年1月19日   

    数据集概述 本数据集围绕果蝇性骚扰对其环境信息获取能力的影响展开,包含两组实验数据。研究验证了高性骚扰虽给雌性果蝇带来临时适合度成本,但未影响其学习能力,为性冲突与认知关系及雌性反策略进化提供新视角。 文件详解 文件名称:2-other experiments.xlsx 文件格式:XLSX...
    packageimg
  • StopWords_Integrated_英文葡萄牙语停用词整合数据集_版本1

    2026年1月19日   

    数据集概述 本数据集整合了英文和葡萄牙语的停用词集合,分为基础版和扩展版两个Excel文件,适用于文本挖掘任务。基础版包含带重音、无重音葡萄牙语及英文停用词,扩展版则进一步补充了更多词汇,部分词汇包含故意拼写错误以适配实际文本场景。 文件详解 文件1:StopWords_Integrated_Favaretto.xlsx 文件格式:XLSX...
    packageimg
  • CMIP6_IPCC_AR6_WGI_图CCB10_4_1_数据引用与溯源信息

    2026年1月19日   

    数据集概述 本数据集记录了政府间气候变化专门委员会第一工作组第六次评估报告(IPCC AR6 WGI)图CCB10.4.1生成所用的世界气候研究计划耦合模式比较计划第六阶段(CMIP6)输入数据的使用及引用信息,包含人类可读CSV文件和机器可操作JSON-LD文件,共2个文件。 文件详解 文件名称:fig_CCB10_4_1.csv 文件格式:CSV...
    packageimg
  • Researchers_data_Based_学术文章中研究者数据使用研究数据

    2026年1月19日   

    数据集概述 本数据集为研究“研究者及其数据”提供支持,基于1980-2012年社会科学与物理科学领域的72,471篇学术文章,分析“data”一词的使用语境,包括词频分布、伴随的形容词和动词、单复数形式及所有格代词使用情况,揭示数据在研究过程中的定义、转化及价值变化。 文件详解 动词相关数据文件 文件名称:VERBS_PART.csv 文件格式:CSV...
    packageimg
  • geoscience_semantics_v0_1_地球科学语义模型精简版数据

    2026年1月19日   

    数据集概述 本数据集是地球科学语义模型“review”的第一版精简版本,包含一个压缩文件,涉及地球科学语义建模相关内容,关键词包含生物学领域的DNA。数据集无训练/测试、数据/标签、原始/处理数据的划分,无自述文件或内容预览。 文件详解 文件名称:brandonnodnarb/geoscience-...
    packageimg