-
S7_Data_利益相关者会议转录_研究工具开发数据
数据集概述 本数据集包含斯瓦希里语的匿名化公共利益相关者会议转录文本,主要用于研究工具开发,部分内容经翻译后用于研究结果的引文部分。数据集仅包含一个文档文件,无分层或拆分结构。 文件详解 文件名称:S7 Data. Public Stakeholders Meeting transcripts.docx 文件格式:DOCX...
-
Wikidata_Based_技能信息RDF转储数据
数据集概述 本数据集是通过wdumps工具生成的Wikidata技能信息RDF转储数据,包含4个文件,涵盖配置文件、预览文件和压缩数据文件三类,可用于获取Wikidata中技能相关的结构化语义数据。 文件详解 配置与元数据文件 文件名称:info.json 文件格式:JSON...
-
Wikidata_Based_RDF数据转储_数据集
数据集概述 本数据集为通过wdumps工具生成的Wikidata RDF格式转储数据,包含4个文件,涉及JSON、NT、GZ三种格式。数据涵盖转储元信息、配置规范及示例数据,可用于Wikidata知识图谱相关的存储与处理分析。 文件详解 元信息文件 文件名称:info.json 文件格式:JSON...
-
科学履历_发表评论的出版方式_出版方式控制词汇表数据
数据集概述 本数据集为Ciência Vitae系统中关于"出版方式"的受控词汇表,包含学术出版过程中各类出版方式的标准化术语及相关元数据,为学术资源的规范化描述与管理提供统一的词汇参考,数据集仅含一个文件。 文件详解 文件名称:meioPublicacao.xml 文件格式:XML 字段映射介绍:作为XML格式的受控词汇表文件,包含Ciência...
-
Wikidata_Based_RDF转储数据_2024
数据集概述 本数据集是通过wdumps工具生成的Wikidata RDF转储数据,包含实体、陈述和三元组信息。数据以多种格式存储,包括JSON、NT和压缩文件,提供了Wikidata数据的结构化表示,适用于语义网络分析和数据挖掘。 文件详解 元数据文件 文件名称:info.json 文件格式:JSON...
-
Wikidata_Based知识图谱RDF数据转储文件
数据集概述 本数据集是通过wdumps工具生成的Wikidata RDF格式数据转储文件,包含实体、陈述、三元组等核心知识图谱数据,以及相关元数据文件,总计4个文件,支持对Wikidata知识内容的访问与分析。 文件详解 元数据文件 文件名称:info.json 文件格式:JSON...
-
KOLLMEIER_Based汉印佛教词汇比较对照数据
数据集概述 本数据集为汉印佛教词汇比较对照表,聚焦汉语与印度语系佛教词汇的对比研究,包含一份核心文件,可用于语言学、宗教学领域的词汇语义分析与跨语言对比研究。 文件详解 文件名称:KOLLMEIER version 1.xlsx 文件格式:XLSX...
-
Wikidata_Dump_知识图谱RDF格式转储数据
数据集概述 本数据集是采用wdumps工具生成的Wikidata RDF格式转储数据,包含实体、陈述和三元组相关的元信息及数据文件,共4个文件,覆盖JSON、NT、GZ等格式,可用于知识图谱相关的研究与应用场景。 文件详解 元信息与配置文件 文件名称:info.json 文件格式:JSON...
-
TuReV_Corpus_突尼斯革命在线新闻报道语料库
数据集概述 本数据集为TuReV语料库,收录了关于突尼斯革命的在线新闻报道文本,是用于自然语言处理(NLP)研究的单文件语料库资源,可支持对突尼斯革命相关新闻内容的文本分析任务。 文件详解 文件名称:corpus TuReV.docx 文件格式:DOCX...
-
EOL_v3_Based_测量扩展本体数据模型_数据文件
数据集概述 本数据集为EOL v3数据模型的测量扩展本体数据,包含XML格式的本体文件及配套数据文件,用于生物多样性领域的测量相关数据标准化描述。数据集共2个文件,无目录层级,需结合样式表文件使用,可支持生物多样性信息的结构化处理与整合。 文件详解 本体文件 文件名称:measurement_extension.xml 文件格式:XML...
-
Wikidata_Based_地理实体RDF转储完整数据
数据集概述 本数据集是通过wdumps工具生成的Wikidata RDF转储数据,旨在返回地理实体(Q27096213)子树下的所有实体。数据包含4个文件,涉及基础信息、预览数据、转储数据和配置规范等内容,可用于地理实体相关的语义分析和数据整合。 文件详解 info.json(JSON格式)...
-
Wikidata_Dump_Based绘画RDF转储数据
数据集概述 本数据集是通过wdumps工具生成的Wikidata绘画相关RDF转储数据,包含所有绘画作品的结构化信息。数据集由4个文件组成,涵盖配置信息、转储数据、预览数据和规范文件,可用于语义网研究、文化遗产数据分析等场景。 文件详解 文件名称:info.json 文件格式:JSON...
-
Reddit_Based_平台工人在线讨论语料库_研究用
数据集概述 本数据集包含从Reddit平台的/r/youtubers和/r/uberdrivers子版块采集的两个讨论语料库,用于研究平台工人的话语表达。数据集通过抓取各子版块排名前一千的讨论帖及每个帖子的五条评论构建,共六千条内容,旨在直接探究平台工人的审议状态、声音表达及实用主义视角下的探究与持续学习特征。 文件详解 文件名称:youtube-...
-
南非语言嵌入评估数据集_Simlex_和_WordSim
数据集概述 本数据集包含针对南非语言(塞茨瓦纳语、塞佩迪语)的Simlex和WordSim评估数据,通过人工标注的单词对相似度评分,用于衡量语义相关性。单词对由英文手动翻译而来,可用于计算模型向量余弦相似度与人类评分的相关性,评估语言模型性能。数据集共含4个文件。 文件详解 文件名称:SimLex-999-orig - Sepedi.xlsx...
-
TLS_Based_中国语言学词库_2024_07_23
数据集概述 本数据集为中国语言学词库(Thesaurus Linguae Sericae, TLS)的互联Markdown文件压缩包,包含一份2024年7月23日的词库数据压缩文件,无额外目录结构,主要用于语言学研究与词库应用场景。 文件详解 文件名称:tls-md-2024-07-23.zip 文件格式:ZIP...
-
Colección_de_datos_数据集合_文档数据
数据集概述 本数据集为单一文件的数据集合,包含一份名为UNIDAD 2 FICHAJE的文档文件,无其他子目录或文件分类,未提供训练/测试、数据/标签或原始/处理数据的划分。 文件详解 文件名称:UNIDAD 2 FICHAJE.docx 文件格式:DOCX 字段映射介绍:未提供文件内容预览或字段信息 适用场景 文档内容分析:...
-
EOL_Based_EOL_v3数据模型代理扩展本体数据
数据集概述 本数据集基于EOL v3数据模型,包含代理扩展相关的本体数据,涉及XML格式的本体文件及配套数据文件,部分XML文件需样式表支持。数据集可用于EOL数据模型的本体扩展与语义分析场景,共包含3个文件。 文件详解 XML本体文件(共2个) 文件名称:agentextension.xml、mediaextension.xml 文件格式:XML...
-
Cortex_Submission_统计分析原始实验数据
数据集概述 本数据集为Cortex提交的统计分析原始数据,包含33个文件,涉及实验设计、数据处理、结果分析等内容,覆盖模型、相关性、预测等统计维度,以及控制实验、原始数据处理、CT医学影像、图片视觉、文本词汇等多领域关键词,可支持多维度统计分析研究。 文件详解 统计分析文件(.spwb格式,15个) 示例文件:ageacquisition...
-
梵蒂冈教皇文件的语料库语言学分析_1967年至2020年
数据集概述 本数据集是对1967至2020年梵蒂冈教宗通谕、宗座劝谕和世界传播日致辞的语料库语言学分析结果。包含两个阶段:先是通过软件识别量化大众媒体与新媒体技术相关术语,后深入研究“媒体”术语的演变,包括相关动词的筛选、分类及伦理特征分析。 文件详解 文件名称:Papal Communication - WCD Messages - Media-...
-
Wikidata_Based_RDF转储文件集_数据文件
数据集概述 本数据集为使用wdumps工具生成的Wikidata RDF转储文件集,包含实体、陈述及三元组相关的结构化数据,共4个文件,涵盖JSON、NT、GZ等格式,可用于Wikidata知识图谱的存储与分析。 文件详解 info.json 文件格式:JSON...



