找到1,440个数据集

标签: 语料库

过滤结果
  • 俄语词义消歧语料库_RuSemCor

    2025年12月23日 30 197 110

    数据集概述 该数据集是一个为俄语设计的词义消歧语料库,通过WordNet进行语义标注,属于链接开放数据云(LLOD cloud)资源。包含标注数据文件和语料库归档文件,支持自然语言处理领域的词义消歧研究。 文件详解 文件名称: sense_annotations.tsv 文件格式: TSV (.tsv) 字段映射:...
    packageimg
  • 西班牙美洲学术期刊价值观教育数据集2001_2020

    2025年12月23日 30 78 0

    数据集概述 本数据集对应《西班牙美洲学术期刊价值观教育(2001-2020):数字工具应用研究》一文,包含200篇开放获取文本(PDF或TXT格式),通过REDIB©获取。数据集按出版时间和作者所属国家/机构分为不同语料库,另含参考文献及停用词列表,用于LDAvis主题建模分析。 文件详解 语料库压缩文件(共5个,.zip格式): Corpus A...
    packageimg
  • 贝多芬钢琴奏鸣曲注释乐谱语料库

    2025年12月24日 30 150 67

    数据集概述 本数据集为路德维希·凡·贝多芬钢琴奏鸣曲的注释乐谱语料库,以压缩包形式存储,包含经标注的乐谱资源,为音乐分析与研究提供基础数据支持。 文件详解 文件名称: DCMLab/beethoven_piano_sonatas-v2.5.zip 文件格式: ZIP(压缩包) 内容说明:...
    packageimg
  • J_S_巴赫英法组曲带注释乐谱语料库

    2025年12月24日 30 64 13

    数据集概述 该数据集为J.S.巴赫《英国组曲》与《法国组曲》的带注释乐谱语料库,以压缩包形式存储,包含相关乐谱的标注数据,为古典音乐乐谱分析提供基础资料。 文件详解 文件名称: DCMLab/bach_en_fr_suites-v2.2.zip 文件格式: ZIP (.zip) 内容说明:...
    packageimg
  • Archi_Text_Corpus_Based_阿奇语2006_2007年语料库完整数据

    2025年12月23日 30 31 18

    数据集概述 本数据集为阿奇语语料库,包含2006-2007年在阿奇村收集的50余篇多体裁文本,涵盖故事、对话、传说、歌曲等,多数配有音视频记录。内容包含重新录制的1977年已发表文本及新采集文本,本版本文本均源自1977年出版的《阿奇语:文本与词典》。 文件详解 文档文件(共66个,包含两种格式):...
    packageimg
  • 印度语言电子文本哥廷根登记册_普拉蒂萨基亚集

    2025年12月23日 30 139 77

    数据集概述 本数据集是印度语言电子文本哥廷根登记册(GRETIL)中的普拉蒂萨基亚(PRATISAKHYA)相关文本集合,包含两篇印度语言电子文本,均以网页格式存储,为研究印度语言文本提供基础资料。 文件详解 文件名称: niruktau.htm:格式为.htm,具体内容未提供预览,推测为印度语言相关电子文本。 文件名称:...
    packageimg
  • 西班牙临床过敏笔记语料库

    2025年12月23日 30 185 20

    数据集概述 该数据集是首个西班牙语临床过敏笔记语料库,包含西班牙阿尔科尔孔基金会大学医院过敏科及急诊科197名患者的828篇临床文本,涉及病历模板多样,含拼写错误、缩写等非正式临床书写特征,为西班牙语过敏领域NLP研究提供数据支持。 文件详解 文件名称: HUFA corpus annotation guidelines.pdf 文件格式: PDF...
    packageimg
  • 西班牙菲律宾女性家政移民工社会语言学情况数据集

    2025年12月23日 30 147 17

    数据集概述 本数据集包含西班牙菲律宾女性家政移民工社会语言学情况相关的转录文本,源自"西班牙在亚洲与亚洲在西班牙"资格论文的语料库,聚焦移民语言学视角下该群体的社会语言学特征,为相关研究提供基础数据支持。 文件详解 文件名称:Focus group 1.pdf 文件格式:PDF 内容:第一组焦点小组访谈的转录文本 文件名称:Focus Group...
    packageimg
  • 葡萄牙语文本中的性别偏见数据集

    2025年12月22日 30 136 1

    数据集概述 该数据集包含用于研究葡萄牙语文本中性别偏见的相关数据,包括精选的葡萄牙语文学语料库、构建句子模板的词表以及已生成的句子模板文件,为基于掩码语言模型的性别偏见分析提供支持。 文件详解 语料库文件: corpus.zip:压缩文件,包含1804-1998年巴西和欧洲葡萄牙语的592部散文作品,共120万句、1760万词的精选文学语料库...
    packageimg
  • 媒体偏见标注专家数据集

    2025年12月22日 30 30 4

    数据集概述 本数据集聚焦媒体偏见检测,通过对比众包标注与专家标注的差异,验证专家标注对提升数据质量的作用。数据包含专家标注结果、众包原始数据及标注指南,旨在为偏见检测模型提供更可靠的基准数据,解决现有偏见语料库标注一致性低的问题。 文件详解 专家标注文件: annotations_expert1.xlsx:...
    packageimg
  • 爱德华_格里格抒情钢琴曲标注乐谱语料库

    2025年12月22日 30 80 0

    数据集概述 本数据集是爱德华·格里格抒情钢琴曲的标注乐谱语料库,包含经过标注的乐谱资源,以压缩文件形式存储,为音乐分析、乐谱研究等提供数据支持。 文件详解 压缩文件: DCMLab/grieg_lyric_pieces-v2.3.zip: 压缩文件格式,包含爱德华·格里格抒情钢琴曲的标注乐谱语料库相关内容,具体字段或内容需解压后查看 适用场景...
    packageimg
  • 荷兰文化期刊_De_Gids_主题建模数据集

    2025年12月22日 30 166 39

    数据集概述 本数据集是论文《Topic Modelling “De Gids”:An Explorative Study into the Use of Topic Modelling on a Cultural Periodical》的配套数据,包含论文原文及实验相关文件,用于支持对荷兰文化期刊《De Gids》的主题建模研究。 文件详解...
    packageimg
  • 西班牙临床病例语料库SPACCC

    2025年12月22日 30 57 43

    数据集概述 该数据集为西班牙语临床病例语料库(SPACCC),是从西班牙开放获取医学出版物(SciELO)中人工分类的临床病例报告集合,包含1000个病例共396,988词,覆盖肿瘤学、泌尿学等多医学专科,兼具生物医学文献与临床记录特征。 文件详解 文件名称:SPACCC.zip 文件格式:ZIP压缩包(.zip)...
    packageimg
  • 古典藏语标注语料库第二部分_词性标注版

    2025年12月22日 30 104 80

    数据集概述 本数据集是基于佛教数字资源中心(BDRC)数字化文本集构建的古典藏语词性标注语料库第二部分,使用TiMBL的基于记忆的标注器(Memory-Based Tagger)完成标注,未经过后处理或人工校正。 文件详解 压缩文件集(共12个,均为.zip格式):...
    packageimg
  • 新皮塔瓦尔刑事案例集1842_1890

    2025年12月22日 30 175 171

    数据集概述 本数据集是《新皮塔瓦尔》(1842-1890)刑事案例集的数字化文本语料库,包含五七百个来自不同国家、不同时期的刑事案例,共六十卷,由数字人文合作项目采用校正OCR技术处理,为相关文学语料库分析研究提供基础数据。 文件详解 该数据集主要包含一个ZIP压缩包文件,具体说明如下: - 文件名称: DerNeuePitaval_v1.2.zip...
    packageimg
  • 乌兹别克语词汇与语境意义研究文档

    2025年12月22日 30 170 64

    数据集概述 该数据集包含一份关于乌兹别克语词汇及其语境意义的研究文档,聚焦词汇在不同语境下的语义表达,为乌兹别克语语言学研究提供文本资料支持。 文件详解 文件名称: Rahmatova Madina Shahobiddinovna.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 德语报纸中_gewinkt_与_gewunken_分布数据集1950_2019

    2025年12月21日 30 196 34

    数据集概述 该数据集包含1950至2019年间德语报纸中动词'winken'的两种过去分词形式'gewinkt'与'gewunken'的分布统计数据,为研究德语词汇形态演变提供支持。 文件详解 文件名称: gewinkt_gewunken_DeReKo.csv 文件格式: CSV(逗号分隔值) 字段映射: Decade:...
    packageimg
  • 中文隐喻语料库

    2025年12月21日 30 54 28

    数据集概述 该数据集为中文隐喻语料库,包含一个压缩文件,未提供训练/测试、数据/标签、原始/处理数据的划分,主要用于隐喻相关的自然语言处理研究与应用。 文件详解 文件名称: ChineseMetaphorCorpus-metaphor.zip 文件格式: ZIP(压缩文件) 内容说明:...
    packageimg
  • 克拉拉_舒曼艺术歌曲标注乐谱语料库

    2025年12月21日 30 99 72

    数据集概述 该数据集为克拉拉·舒曼艺术歌曲的标注乐谱语料库,包含经过标注的乐谱文件,为研究克拉拉·舒曼的艺术歌曲创作风格、乐谱特征提供数据支持。 文件详解 文件名称: DCMLab/c_schumann_lieder-v2.4.zip 文件格式: ZIP压缩包 (.zip) 内容说明:...
    packageimg
  • 巴斯克历史文本语料库

    2025年12月21日 30 116 2

    数据集概述 该数据集是一个巴斯克历史文本语料库,包含为某项研究分析的历史文本,按文本体裁和方言分类,并附来源参考信息,为研究巴斯克语言历史与文化提供数据支持。 文件详解 文件名称: Corpus_of_historic_Basque_texts.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg