找到1,503个数据集

标签: 语料库

过滤结果
  • 英语与乌兹别克语短语单位结构与功能分析

    2025年12月12日   

    数据集概述 该数据集包含一份关于英语与乌兹别克语短语单位结构与功能分析的文档,聚焦两种语言短语单位的对比研究,为相关语言结构分析提供资料支持。 文件详解 文件名称: Yuldasheva F.F.pdf 文件格式: PDF (.pdf) 文件内容: 文档围绕英语与乌兹别克语短语单位的结构特征、功能分类及对比分析展开,具体内容需查阅PDF原文获取。...
    packageimg
  • GerMedIQ德语医疗问诊问答语料库

    2025年12月12日   

    数据集概述 该数据集包含四千五百二十四条德语医疗领域的模拟问答对,源自一百一十六个标准化问诊问题,由三十九名非患者参与者回答。问题提取自十二项基础问诊问卷及EORTC生活质量问卷等工具,同时包含十八个大中小型语言模型生成的零样本合成回答。 文件详解 根目录文件:Jhofenbitzer/GerMedIQ-...
    packageimg
  • SemEval_2020_无监督词汇语义变化检测瑞典语测试数据集

    2025年12月12日   

    数据集概述 本数据集为SemEval 2020任务1(无监督词汇语义变化检测)的瑞典语测试数据,包含两个不同时期的瑞典语文本语料库、31个目标词元及对应语义变化标注结果,用于评估词汇语义变化检测模型性能。 文件详解 该数据集包含一个ZIP格式压缩包,内部文件结构及内容如下: -...
    packageimg
  • Korpuslinguistik_Based_Foodblog_Korpus德语美食博客标注完整数据

    2025年12月12日   

    数据集概述 该数据集是《Korpuslinguistik(narr Starter)》教材的配套材料,包含一百五十篇德语美食博客文章及相关元数据、标注文件。数据格式多样,为德语美食博客文本的语言学分析提供了结构化与非结构化相结合的资源。 文件详解 该数据集包含五个文件,具体说明如下: - 文本集合文件: - Foodblog-...
    packageimg
  • CLDF格式扎格拉根马当比较词表数据集1980

    2025年12月12日   

    数据集概述 该数据集为CLDF格式,基于扎格拉根1980年发表的《巴布亚新几内亚马当省北阿德伯特山脉语言比较词表》,包含巴布亚新几内亚特定区域语言的比较词汇数据,支持语言比较研究。 文件详解...
    packageimg
  • 旺格罗格弗里西亚语语料库

    2025年12月12日   

    数据集概述 该数据集为旺格罗格弗里西亚语语料库,包含1807-1935年收集的文本记录及1924-1927年音频转录内容,总文本量约十万五千五百词,覆盖该语言现存主要文献,为研究已消亡的德国北部弗里西亚语言提供数据支持。 文件详解 README.md:Markdown格式文档,介绍语料库核心内容、结构及使用说明...
    packageimg
  • 瑞士联邦翻译人员招聘公告语料库2016_2023

    2025年12月12日   

    数据集概述 该数据集为瑞士联邦语言服务部门翻译人员招聘公告语料库,包含2016-2023年250份法语版公告(共七万零三百三十七个词),经NVivo手动标注能力要求与任务,可分析招聘需求及常见任务。 文件详解 READ-ME_job announcements corpus_SWIFT.pdf:PDF格式,详细描述资源的说明文档 CORPUS_raw...
    packageimg
  • 西班牙式等口音英语单词语料库

    2025年12月11日   

    数据集概述 该数据集为西班牙语口音英语单词语料库(SIAEW),包含单音节英语单词,其中一个音节(目标音节)被替换为不同程度的西班牙语口音版本,共5个等间隔的口音等级,由母语者判定。 文件详解 文件名称:SIAEW.pdf,文件格式:PDF,内容为SIAEW语料库的详细描述文档...
    packageimg
  • 哥廷根印度语言电子文本注册库_达摩经文集

    2025年12月11日   

    数据集概述 该数据集是哥廷根印度语言电子文本注册库(GRETIL)中的达摩经文(DHARMA SŪTRA)文本集合,包含六部以.htm格式存储的印度语言电子文本,为研究印度传统达摩经文提供原始文本资源。 文件详解 核心文本文件(共6个,均为.htm格式): gautdh_u.htm:达摩经文相关电子文本 vaikhd_u.htm:达摩经文相关电子文本...
    packageimg
  • COPIOUS生物多样性文献命名实体标注指南

    2025年12月11日   

    数据集概述 本数据集是COPIOUS生物多样性文献命名实体语料库的配套标注指南,明确标注人员对五类实体的标注范围、标注跨度、例外规则及示例说明,为标准化实体标注提供操作依据。 文件详解 文件名称:oo_252228.pdf 文件格式:PDF...
    packageimg
  • 克劳迪奥_蒙特威尔第牧歌标注乐谱语料库

    2025年12月11日   

    数据集概述 该数据集为克劳迪奥·蒙特威尔第的牧歌作品提供了标注乐谱语料库,包含经过整理和标注的音乐乐谱资源,以压缩文件形式存储,便于获取和使用。 文件详解 文件名称: DCMLab/monteverdi_madrigals-v2.3.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
    packageimg
  • 法语与英语借词语料库_法语4990期末论文用

    2025年12月11日   

    数据集概述 该数据集为法语4990期末论文设计,包含法语与英语借词语料库,重点关注/dʒ/、/tʃ/、/h/、/ɦ/、/θ/、/ð/等特定音素相关的借词,为语言对比研究提供支持。 文件详解 文件名称:Fren 4990 List of Loanwords Aug 2024.pdf 文件格式:PDF...
    packageimg
  • 数据2019年科隆城市田野调查数据集

    2025年12月11日   

    数据集概述 该数据集为2019年科隆城市田野调查项目的子项目,聚焦科隆地区的韩语使用情况及一位韩语使用者的语言研究,包含带注释的词汇表、韩语语音层级诱发实验的音频及文本文件。 文件详解 该数据集包含8个文件,具体说明如下: - 项目文档类(PDF格式): -...
    packageimg
  • STIMTEC与STIMTEC_X项目日常报告数据集

    2025年12月11日   

    数据集概述 本数据集包含STIMTEC和STIMTEC-X项目期间,德国弗莱贝格Reiche Zeche研究矿场的日常活动报告。数据以PDF格式为主,辅以说明文档,记录了实验开展情况与设备设置,为研究项目执行过程提供详细记录。 文件详解 文件名称: READ_ME.txt 文件格式: TXT (.txt) 内容概述:...
    packageimg
  • 杜洪比语讨论转录解析与翻译文本数据集

    2025年12月11日   

    数据集概述 该数据集包含杜洪比语讨论的音频文件、转录文件、解析文件及翻译文件,对应《杜洪比语语法》(2020)中的三个文本案例,支持通过工具同步查看音频与文本内容,为杜洪比语研究提供多格式语言数据。 文件详解 音频文件: CHUK260413A2A.wav、CHUK300412J2.wav,格式为WAV,对应讨论的原始录音 转录文件:...
    packageimg
  • 农业教育医学领域自动标引评估资源语料库与黄金标准索引数据集

    2025年12月11日   

    数据集概述 该数据集包含农业、教育、医学三个领域的语料库及其对应的黄金标准索引,用于自动标引系统的评估。每个领域语料库含不同规模的文档集合,文档包含标题、摘要等元数据,黄金标准索引来自各领域专业数据库。 文件详解 文件名称:Corpora+Gold_Standard_Index.zip 文件格式:ZIP(.zip) 包含内容:...
    packageimg
  • 大众媒体中人群事故报道数据集

    2025年12月10日   

    数据集概述 该数据集包含对人群事故相关新闻报道语料库的分析结果,按类别组织文件以支持在线可视化和离线分析。内容涵盖新闻报道源信息、维基百科语料库、词汇分析结果及情感分析数据,为研究媒体对人群事故的呈现提供多维度支持。 文件详解 分类0(0_data_all.zip):所有文件的结构化压缩包,便于直接下载和分析,包含词汇分析、情感分析等全部数据。...
    packageimg
  • 环境破坏语料库情感分析数据集

    2025年12月10日   

    数据集概述 本数据集是环境文学研究论文配套的情感分析数据,包含12个文件,涵盖环境破坏主题文本的情感分析结果表格及可视化图表,支持对相关文学文本情感倾向的分析研究。 文件详解 数据文件(CSV格式,共3个): LeGuin Sentiment.csv:包含页面(Page)、句子(Sentence)等字段,记录LeGuin文本的情感分析数据 Van...
    packageimg
  • H2020_ICT领域游戏与游戏化话语分析语料库数据集

    2025年12月10日   

    数据集概述 该数据集是用于分析H2020 ICT领域官方话语的语料库,旨在识别整体及游戏和游戏化子领域的优先事项、隐性偏见与未探讨假设。分析基于社会科学与人文方法,相关研究成果可通过指定链接获取。 文件详解 政策文件(PDF格式,共四个文件): H2020_overarching strategy.pdf:H2020总体战略文件 H2020_in...
    packageimg
  • 杜洪比宗教文本与歌曲转录解析数据集

    2025年12月10日   

    数据集概述 本数据集包含杜洪比语的宗教文本与歌曲相关数据,涵盖录音文件、转录文件、解析文件及翻译文件等多种格式,对应佛教训诫、苯教预言文本和即兴歌曲三类内容,为杜洪比语研究提供多维度资源。 文件详解 数据集包含多种格式的文件,具体说明如下: -...
    packageimg