找到14个数据集

标签: 语料数据

过滤结果
  • La_Pola_Siero_西班牙地图_问题4_语料数据

    2026年1月30日 30 147 108

    数据集概述 本数据集包含与“西班牙地图:问题4”相关的语料数据,源自La Pola Siero地区的语言材料,以单一文档形式呈现,未进行训练/测试、数据/标签或原始/处理等类型的划分。 文件详解 文件名称:Mapa de España.Pregunta4.docx 文件格式:DOCX...
    packageimg
  • MONACO_Based_德语文学文本叙事与归因标注语料库

    2026年1月29日 30 137 26

    数据集概述 本数据集是由MONA项目组构建的MONACO语料库,包含标注了Generalising Interpretation(GI)、Comment、Non-fictional Speech(NfR)三种基础现象及归因信息的德语文学文本,属于DFG重点项目SPP 2207“计算文学研究”的子项目成果,为计算文学研究提供结构化标注资源。 文件详解...
    packageimg
  • La_Pola_Siero_阿斯图里亚斯地图第2问方言语料数据

    2026年1月29日 30 186 118

    数据集概述 本数据集为阿斯图里亚斯地图第2问相关的La Pola Siero方言语料,包含一份文档文件,聚焦该方言在特定问题场景下的语言表达,为方言研究提供原始语料支持。 文件详解 文件名称:Mapa de Asturias.Pregunta2.docx 文件格式:DOCX...
    packageimg
  • La_Pola_Siero_Based_西班牙地图第2问语料数据

    2026年1月28日 30 60 32

    数据集概述 本数据集属于拉波拉·西埃罗语料库,包含与“西班牙地图:第2问”相关的语料内容,仅含一个文件,未进行训练/测试、数据/标签或原始/处理数据的拆分,无目录层级结构,文件类型单一为文档格式。 文件详解 文件名称:Mapa de España.Pregunta2.docx 文件格式:docx...
    packageimg
  • novel_request_Based_十部小说中文请求句语料数据

    2026年1月27日 30 22 5

    数据集概述 本数据集包含从十部小说中提取的中文请求句语料,核心内容为小说中的请求类句子集合,可用于中文自然语言处理领域的相关研究,数据集仅包含一个文件。 文件详解 文件名称:corpus novel_request.xlsx 文件格式:XLSX 字段映射介绍:未提供具体字段信息,文件内容为从十部小说中提取的中文请求句语料集合 适用场景...
    packageimg
  • CELEN_Shareable_日语学习者西班牙语语料库共享数据_v1_2

    2026年1月21日 30 145 14

    数据集概述 本数据集是CELEN语料库(版本1.2)的共享部分,包含约39.1万个单词、4393篇文本,来自967名日语背景的西班牙语学习者。数据覆盖大学西班牙语专业、大学外语课程及WordReference论坛三个场景,标注了学习者水平(A1-B2、C2),并对大学来源文本进行了匿名化处理,采用XML格式存储,附带39项元数据。 文件详解...
    packageimg
  • Navzájem_vzájemně_and_spolu_Based_捷克语互惠标记词分类研究数据

    2026年1月11日 30 112 30

    数据集概述 本数据集围绕捷克语中"navzájem/vzájemně"和"spolu"作为互惠标记词的用法展开,包含4个文件,按标记词的基本与非基本属性分类,用于语言学领域对捷克语互惠标记词的语法功能研究。 文件详解 数据文件组(共4个.xlsx文件) 文件名称:navzájem-vzájemně as a non-basic marker.xlsx...
    packageimg
  • Nerwip_Corpus_Named_Entity_Recognition_传记文本实体标注语料库

    2026年1月5日 30 160 81

    数据集概述 本数据集为Nerwip语料库,包含408篇维基百科传记文章,人工标注了日期、地点、组织、人物四类实体,用于评估和比较NER工具在传记文本上的性能。还包含NER工具所需的模型、词典等文件,需按说明解压使用。 文件详解 文件名称:nerwip-4-data.zip 文件格式:ZIP 字段映射介绍:包含408篇标注传记文本及相关数据...
    packageimg
  • Digital_Archives_of_Science_Based_科学数字档案馆藏数据集

    2026年1月13日 30 10 1

    数据集概述 本数据集是《Digital Archives of Science: Revisiting the Vestiges of Knowledge Making》(De Gruyter,2026)一书第二部分(档案表征)的配套数据,包含书中分析的科学数字馆藏精选语料,聚焦馆藏结构、元数据、分类实践及表征策略,共8个文件。 文件详解...
    packageimg
  • Automatic_Ontology_Population_Results_自动本体填充结果数据

    2026年1月9日 30 39 30

    数据集概述 本数据集包含自动本体填充任务的相关结果文件,涉及Boat和RealEstate两个领域的本体生成、结果输出及评估内容,共8个文件,涵盖本体文件、结果文件、评估文件和语料文件等类型,可用于语义分析和本体工程相关研究。 文件详解 本体文件...
    packageimg
  • 多语言社区语言趋同研究补充材料_马诺语与克佩勒语反身标记案例

    2025年12月23日 30 59 5

    数据集概述 该数据集为语言学研究论文《多语言社区使用的语言是否趋同?以马诺语和克佩勒语反身标记为例》的补充材料,包含支撑研究的原始数据与说明文档,为语言趋同现象研究提供实证数据支持。 文件详解 文件名称:data_0405.xlsx,文件格式:XLSX 字段映射:未提供具体字段信息,推测包含马诺语与克佩勒语反身标记的原始语料数据或统计分析数据...
    packageimg
  • 联觉隐喻翻译映射表数据集

    2025年12月12日 30 30 13

    数据集概述 该数据集为公开访问的存储库,包含已分析的联觉隐喻翻译内容及量化分析结果,所有信息以表格形式呈现,便于查看与使用。 文件详解 文件名称:Table of mappings.pdf 文件格式:PDF(.pdf) 文件内容:包含联觉隐喻翻译的分析结果及量化分析数据,以表格形式整理呈现 适用场景 语言学研究:分析联觉隐喻的翻译规律与语言表达特征...
    packageimg
  • Uto_Aztecan语系起源研究CLDF数据集2022

    2025年12月9日 30 3 2

    数据集概述 本数据集是配合Greenhill等人2022年关于“Uto-Aztecan语系起源”研究的CLDF格式数据,为探究该语系的起源提供语言学数据支持,以压缩包形式存储。 文件详解 文件名称:utoaztecan-v1.4.zip 文件格式:ZIP压缩包(.zip) 存储位置:位于lexibank/目录下,为数据集的唯一文件 数据来源 Max...
    packageimg
  • 欧盟立法定义引用与文档结构导出数据集

    2025年12月5日 30 177 33

    数据集概述 本数据集是从欧盟立法数据库EUR-LEX中提取的样本语料,包含立法文件中的定义、引用关系及文档结构信息,以压缩包形式提供,为研究欧盟立法文本结构与内容关联提供基础数据。 文件详解 文件名称: export datasets-20181001T193229Z-001.zip 文件格式: ZIP(压缩包) 内容说明: 压缩包内包含从EUR-...
    packageimg