找到1,448个数据集

标签: 语料库

过滤结果
  • 西班牙临床病例语料库SPACCC

    2025年12月22日   

    数据集概述 该数据集为西班牙语临床病例语料库(SPACCC),是从西班牙开放获取医学出版物(SciELO)中人工分类的临床病例报告集合,包含1000个病例共396,988词,覆盖肿瘤学、泌尿学等多医学专科,兼具生物医学文献与临床记录特征。 文件详解 文件名称:SPACCC.zip 文件格式:ZIP压缩包(.zip)...
    packageimg
  • 古典藏语标注语料库第二部分_词性标注版

    2025年12月22日   

    数据集概述 本数据集是基于佛教数字资源中心(BDRC)数字化文本集构建的古典藏语词性标注语料库第二部分,使用TiMBL的基于记忆的标注器(Memory-Based Tagger)完成标注,未经过后处理或人工校正。 文件详解 压缩文件集(共12个,均为.zip格式):...
    packageimg
  • 新皮塔瓦尔刑事案例集1842_1890

    2025年12月22日   

    数据集概述 本数据集是《新皮塔瓦尔》(1842-1890)刑事案例集的数字化文本语料库,包含五七百个来自不同国家、不同时期的刑事案例,共六十卷,由数字人文合作项目采用校正OCR技术处理,为相关文学语料库分析研究提供基础数据。 文件详解 该数据集主要包含一个ZIP压缩包文件,具体说明如下: - 文件名称: DerNeuePitaval_v1.2.zip...
    packageimg
  • 乌兹别克语词汇与语境意义研究文档

    2025年12月22日   

    数据集概述 该数据集包含一份关于乌兹别克语词汇及其语境意义的研究文档,聚焦词汇在不同语境下的语义表达,为乌兹别克语语言学研究提供文本资料支持。 文件详解 文件名称: Rahmatova Madina Shahobiddinovna.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 德语报纸中_gewinkt_与_gewunken_分布数据集1950_2019

    2025年12月21日   

    数据集概述 该数据集包含1950至2019年间德语报纸中动词'winken'的两种过去分词形式'gewinkt'与'gewunken'的分布统计数据,为研究德语词汇形态演变提供支持。 文件详解 文件名称: gewinkt_gewunken_DeReKo.csv 文件格式: CSV(逗号分隔值) 字段映射: Decade:...
    packageimg
  • 中文隐喻语料库

    2025年12月21日   

    数据集概述 该数据集为中文隐喻语料库,包含一个压缩文件,未提供训练/测试、数据/标签、原始/处理数据的划分,主要用于隐喻相关的自然语言处理研究与应用。 文件详解 文件名称: ChineseMetaphorCorpus-metaphor.zip 文件格式: ZIP(压缩文件) 内容说明:...
    packageimg
  • 克拉拉_舒曼艺术歌曲标注乐谱语料库

    2025年12月21日   

    数据集概述 该数据集为克拉拉·舒曼艺术歌曲的标注乐谱语料库,包含经过标注的乐谱文件,为研究克拉拉·舒曼的艺术歌曲创作风格、乐谱特征提供数据支持。 文件详解 文件名称: DCMLab/c_schumann_lieder-v2.4.zip 文件格式: ZIP压缩包 (.zip) 内容说明:...
    packageimg
  • 巴斯克历史文本语料库

    2025年12月21日   

    数据集概述 该数据集是一个巴斯克历史文本语料库,包含为某项研究分析的历史文本,按文本体裁和方言分类,并附来源参考信息,为研究巴斯克语言历史与文化提供数据支持。 文件详解 文件名称: Corpus_of_historic_Basque_texts.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 突尼斯阿拉伯语拉丁转写语料库2017_2021

    2025年12月21日   

    数据集概述 该数据集是2017-2021年构建的突尼斯阿拉伯语(ISO 693-3: aeb)拉丁转写(Arabizi)文本资源,通过网络爬取Facebook公开页面消息,经人工筛选保留纯突尼斯阿拉伯语拉丁转写内容,无标注或调整,用于解决突尼斯阿拉伯语拉丁转写NLP数据库缺失问题。 文件详解 文本文件(.txt格式,共13个):...
    packageimg
  • 国家考试论文语料库_社交媒体中性别包容性语言使用的话语建构

    2025年12月21日   

    数据集概述 该数据集为国家考试论文的语料库,核心内容是社交媒体中性别包容性语言使用的话语建构研究。基于Telegram三个频道的完整聊天记录,通过SketchEngine工具分析,聚焦识别不同语言行动者对性别包容性语言的反对模式。 文件详解 文档文件(PDF格式,共6个): Wortfrequenzanalyse 1...
    packageimg
  • 克罗地亚语动词隐喻扩展与配价模式数据集

    2025年12月21日   

    数据集概述 该数据集包含从克罗地亚语语料库中提取的438个例句,涉及152个通过隐喻或转喻扩展至言语域的动词。数据集支持对跨域配价模式的迁移与适应进行人工标注和分析,用于基于语料库的定性研究。 文件详解 文件名称:S2_Dataset.pdf 文件格式:PDF (.pdf)...
    packageimg
  • 中古荷兰语词汇重音模式与音节划分数据集

    2025年12月21日   

    数据集概述 该数据集包含四万八千二百一十九个中古荷兰语词汇,均取自《中古荷兰语》光盘(1998年版)收录的二百零五篇韵文文本。所有词汇均标注了音节划分结果和词汇重音模式,为中古荷兰语语音特征研究提供基础数据。 文件详解...
    packageimg
  • 弗雷德里克_肖邦玛祖卡舞曲注释乐谱语料库

    2025年12月20日   

    数据集概述 该数据集为弗雷德里克·肖邦玛祖卡舞曲的注释乐谱语料库,包含经过标注的乐谱文件,以压缩包形式存储,为音乐分析与研究提供原始数据支持。 文件详解 文件名称: DCMLab/chopin_mazurkas-v3.2.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含弗雷德里克·肖邦玛祖卡舞曲的注释乐谱语料库,具体文件结构需解压后查看...
    packageimg
  • 实体消歧Agnus输入数据集

    2025年12月20日   

    数据集概述 本数据集是用于实体消歧任务的输入数据集合,包含五个压缩文件,涵盖MSNBCt、AQUAINT、ACE2004t、KORE50、AIDA-Syn等不同来源或类型的实体消歧输入数据,为实体消歧算法的训练与测试提供基础数据支持。 文件详解 该数据集包含五个压缩文件,具体说明如下: - 文件名称及格式: -...
    packageimg
  • 立陶宛共和国议会全体辩论记录语料库1990

    2025年12月20日   

    数据集概述 本数据集收录立陶宛共和国议会自1990年3月10日至最近完整常会的全体辩论记录,自动从议会门户网站及搜索工具获取并验证,包含来源链接清单,数据集在每届常会结束后更新。 文件详解...
    packageimg
  • 包含成语语料库的谚语与俗语表达文档

    2025年12月20日   

    数据集概述 该数据集包含一份关于谚语与俗语表达的文档,内容围绕成语语料库展开,主要呈现相关语言表达的构成和使用情况,为研究语言表达中的成语、谚语及俗语提供基础资料。 文件详解 文件名称: Gadoeva Mavlyuda Ibragimovna .pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 塞尔维亚语动词派生名词注释数据库

    2025年12月20日   

    数据集概述 本数据集包含塞尔维亚语中动词派生名词的注释数据,通过对CLASSLA-web.sr语料库中动词“očekivati(期待)”后接名词的例句进行人工标注,分析其形态、词缀、基动词及补语等特征,为研究动词派生名词的语言特性提供支持。 文件详解 文件名称: Annotated database of deverbal...
    packageimg
  • 爱尔兰语法庭口译员报纸参考文献数据集1796_1922

    2025年12月19日   

    数据集概述 本数据集为包含1796-1922年提及爱尔兰语法庭口译员的报纸摘录转录语料库,相关信息曾用于Mary Phelan所著《Irish Speakers, Interpreter and the Courts》(2019)一书。 文件详解 文件名称:Newspaper references to Irish language court...
    packageimg
  • 语法正字法之旅_元书写理由语料库

    2025年12月15日   

    数据集概述 该数据集为包含四十次语言治疗会话的语料库,涉及四名儿童与三名语言治疗师,每人十次会话。核心围绕语言治疗师与儿童的互动分析,聚焦成人支持方式、儿童言语表达及使用数字短语构建应用时的元书写推理过程,用于研究元语言教学序列、专家成人支持特征及随会话的演变。 文件详解 文件名称:...
    packageimg
  • Kara_Nonopai故事板启发式记录数据集

    2025年12月18日   

    数据集概述 本数据集包含Kara Nonopai语言使用者基于“John na Lassey”故事板图片的描述音频及转录文件,同时收录故事板相关的图片与视频文件,为研究该语言的口语表达及视觉描述能力提供支持。 文件详解 该数据集包含六个文件,具体说明如下: - 音频文件: - Kara_Nonopai_storyboard.WAV:...
    packageimg