找到204个数据集

标签: 多语言处理

过滤结果
  • StopWords_Integrated_英文葡萄牙语停用词整合数据集_版本1

    2026年1月19日   

    数据集概述 本数据集整合了英文和葡萄牙语的停用词集合,分为基础版和扩展版两个Excel文件,适用于文本挖掘任务。基础版包含带重音、无重音葡萄牙语及英文停用词,扩展版则进一步补充了更多词汇,部分词汇包含故意拼写错误以适配实际文本场景。 文件详解 文件1:StopWords_Integrated_Favaretto.xlsx 文件格式:XLSX...
    packageimg
  • 保护现状_抵御_绿色病毒_荷兰人民党_PVV_与自由党_VB_政治主张文档汇编

    2026年1月19日   

    数据集概述 本数据集包含荷兰政治语境下的文档集合,核心围绕“保护现状对抗绿色病毒”主题,涉及PVV和Vlaams Belang(VB)政党相关的93份文档,涵盖能源政策、政治主张等内容,文件类型统一为DOCX格式,无目录层级结构。 文件详解 文档文件 文件名称:遵循PVV_XX.docx、VB_XX.docx或含日期/标题的命名模式(例如PVV_25...
    packageimg
  • DIPROMATS_2024_Shared_Task_2_叙事识别小样本训练数据

    2026年1月19日   

    数据集概述 本数据集是DIPROMATS 2024共享任务2的小样本训练数据,用于叙事识别任务。叙事是指有因果联系的事件序列,在国际关系领域,国际行为体通过战略叙事构建国际政治的过去、现在和未来的共同意义。数据集包含英文和西班牙文两种语言的训练数据,共2个文件。 文件详解 文件名称:dipromats24_t2_train_en_ids.json...
    packageimg
  • Dataset_Communicating_天体生物学及地外生命搜索传播研究数据集

    2026年1月18日   

    数据集概述 本数据集为“Communicating astrobiology and the search for life elsewhere”研究配套数据,包含6个文件,涵盖天体生物学传播相关的编码表、附录文档及说明文件。数据涉及多语言媒体内容编码,支持科学传播领域的研究与分析。 文件详解 Readme.txt 文件格式:TXT...
    packageimg
  • Hunter_Gatherer_Based_语言数据库衍生CLDF数据集_2021版

    2026年1月18日   

    数据集概述 本数据集是基于Bowern等人2021年的《Hunter-Gatherer Language Database》生成的CLDF格式数据集,包含1个压缩文件,旨在为语言学研究提供结构化的狩猎采集者语言相关数据,便于跨研究场景的复用与分析。 文件详解 压缩文件 文件名称:lexibank/huntergatherer-v2.1.zip...
    packageimg
  • AnCora_Catalan_Based_加泰罗尼亚语多层面标注语料库_2_0_0版

    2026年1月18日   

    数据集概述 本数据集为AnCora Catalan 2.0.0加泰罗尼亚语语料库,包含约五十万字,主要基于新闻文本构建。数据在词元与词性、句法成分与功能、论元结构与题元角色、动词语义类、名词WordNet同义词集关联、命名实体及共指关系等多层面进行标注,是自然语言处理研究的基础资源。 文件详解 文件名称:AnCora Catalan 2.0.0.zip...
    packageimg
  • Navzájem_vzájemně_and_spolu_Based_捷克语互惠标记词分类研究数据

    2026年1月11日   

    数据集概述 本数据集围绕捷克语中"navzájem/vzájemně"和"spolu"作为互惠标记词的用法展开,包含4个文件,按标记词的基本与非基本属性分类,用于语言学领域对捷克语互惠标记词的语法功能研究。 文件详解 数据文件组(共4个.xlsx文件) 文件名称:navzájem-vzájemně as a non-basic marker.xlsx...
    packageimg
  • wikidata_dump_korean_wikidata_韩语维基数据RDF转储

    2026年1月15日   

    数据集概述 本数据集是由wdumps工具生成的韩语维基数据RDF转储,包含4个文件,涉及JSON、NT、GZ三种格式。数据涵盖维基数据的实体、标签、描述等元数据信息,但当前实体数、陈述数、三元组数均为0,可用于维基数据备份与分析的基础参考。 文件详解 文件名称:info.json 文件格式:JSON...
    packageimg
  • Wikidata_Based_French_politicians_RDF数据转储

    2026年1月15日   

    数据集概述 本数据集是针对Wikidata中法国政治人物的RDF数据转储,通过wdumps工具生成。包含4个文件,涵盖数据元信息、配置规范、预览数据及压缩数据,为语义网相关研究提供结构化数据支持。 文件详解 info.json 文件格式:JSON...
    packageimg
  • Oráculo_Manual_Source_叔本华西班牙书籍批注TEI_XML数据

    2026年1月15日   

    数据集概述 本数据集为Schopenhauer's Library项目使用的XML-TEI格式文件,记录了哲学家叔本华在其西班牙书籍中的批注与标记信息,是研究叔本华阅读习惯及思想的原始文献资源。数据集仅包含一个文件。 文件详解 文件名称:Oraculo-Schopenhauer-Marginalia-1659.xml 文件格式:XML(TEI标准)...
    packageimg
  • Wikimedia_Education_Program_Extension历史存档数据

    2026年1月14日   

    数据集概述 本数据集是维基媒体基金会开发的MediaWiki软件“教育项目扩展计划”的归档数据,该扩展曾支持维基百科教育项目,用于跟踪管理学生、教师等编辑群体。数据涵盖维基百科、维基学院等多平台18种语言的教育项目,2011年启动后于2018年停用,现提供历史项目查询。 文件详解 文件名称:Versão bruta Extensão Programas...
    packageimg
  • PES_French_translation_Based_物理努力量表法语翻译数据与代码

    2026年1月13日   

    数据集概述 本数据集包含物理努力量表(Physical effort scale)法语翻译相关的数据与代码,共2个文件,无目录结构。数据用于支持该量表的法语版本应用,包含样本文件和代码文件,适用于相关实验场景的样本分析。 文件详解 文件名称:pes_french_effort_scale_sample2.Rmd 文件格式:.rmd 字段映射介绍:R...
    packageimg
  • LanguageStructure_Xavante_dicionario_葡萄牙语词典合并数据

    2026年1月11日   

    数据集概述 本数据集为Xavante语与葡萄牙语的双语词典数据,包含词典内容的合并处理结果,涉及内容修正与音频添加等优化工作,以单一JSON文件形式呈现,可用于语言翻译、词典研究等场景。 文件详解 文件名称:xavante_dictionary_merged.json 文件格式:JSON...
    packageimg
  • musiXplora_Based_Kathrin_Melanie_Menzel音乐领域人物档案数据

    2026年1月7日   

    数据集概述 本数据集为musiXplora平台收录的Kathrin Melanie Menzel(ID:m2213)个人档案数据,包含其基本信息、职业领域、活动地点及更新记录等内容,是研究该音乐领域人物背景的结构化参考资料。 文件详解 文件名称:m2213_DE.json 文件格式:JSON...
    packageimg
  • Groningen_case_Based_格罗宁根案例Noorderplantsoen调查与访谈数据

    2026年1月5日   

    数据集概述 本数据集包含格罗宁根案例中Noorderplantsoen区域25年后的调查数据,以及对多位利益相关者的访谈转录内容,总计8个文件,覆盖调查数据集与多语言访谈记录两类核心内容。 文件详解 调查数据集文件 文件名称:10i Referendum-Noorderplantsoen-25-jaar-original dataset.sav...
    packageimg
  • 外语教师信息素养与阅读文化发展数据集_以英语和俄语为例

    2025年12月23日   

    数据集概述 本数据集聚焦外语教师信息素养与阅读文化发展的关系,以英语和俄语教师为研究对象,通过单篇PDF文档呈现相关研究内容,为探讨教师信息素养对阅读文化培育的影响提供资料支持。 文件详解 文件名称: Абдуллаева Икбола Мохировна.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 变化机制FND数据集

    2025年12月24日   

    数据集概述 该数据集包含功能性神经障碍(FND)相关的变化机制研究数据,涵盖重复测量的VAS和RAND-36身体子量表数据,以及物理治疗前后的PSK(PSC)评估数据,为探究FND干预效果提供支持。 文件详解 Excel数据文件(共5个,格式:.xlsx): 文件名示例:Data S-001 (=p1) geconverteerd.xlsx、Data...
    packageimg
  • 民族性语言学研究_乌兹别克语与英语词汇语义对比分析

    2025年12月23日   

    数据集概述 本数据集聚焦乌兹别克语与英语中民族性相关词汇的语义研究,分析其词汇语义范畴、构成结构及语义特征,对比两种语言的共性与特性,为语言学领域的跨语言语义分析提供支持。 文件详解 文件名称: Akramova Guljakhon.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 啤酒与啤酒成分追溯本体数据集

    2025年12月23日   

    数据集概述 该数据集是一个RDFS/OWL本体,以语言中立方式提供啤酒及啤酒成分的可追溯性、过程控制和风格识别功能。本体术语标签和描述以法语和英语记录,包含本体文件及多格式数据文件。 文件详解 文件名称:cerealstoo.owl,文件格式:OWL,RDFS/OWL本体文件,提供啤酒及成分追溯、过程控制相关语义定义...
    packageimg