找到19个数据集

标签: 语料库研究

过滤结果
  • ArguAna_Based_酒店评论情感分析标注语料库_V2

    2026年2月8日 30 49 12

    数据集概述 本数据集为ArguAna TripAdvisor酒店评论情感分析语料库,包含2100条情感得分均衡的酒店评论,均被手动标注为事实或正负观点,同时标注了评论中的酒店相关方面。此外还提供近20万条未标注的酒店评论,适用于科学研究用途。 文件详解 标注语料包(含软件) 文件名称:arguana-tripadvisor-annotated-...
    packageimg
  • 加泰罗尼亚语_中文平行句子机器翻译评估数据集_测试版

    2026年1月31日 30 141 80

    数据集概述 本数据集包含来自加泰罗尼亚语维基新闻、加泰罗尼亚语维基百科和西班牙语维基导游的平行句子,共一千零二十二条。数据涵盖加泰罗尼亚语、西班牙语及对应的GPT-4生成中文翻译和人工修订中文翻译,覆盖科学技术、文化、经济等十大主题,可用于机器翻译模型评估与强化学习人类偏好数据研究。 文件详解 文件名称:test.json 文件格式:JSON...
    packageimg
  • XML_corpus_Based_文学文本XML语料库数据

    2026年1月30日 30 134 49

    数据集概述 本数据集为XML格式的文学文本语料库,包含席勒、莱辛、克莱斯特、歌德、蒂克等作家的作品,共56个XML文件,无目录层级结构,未划分训练/测试、数据/标签或原始/处理集,所有文件均为XML格式,其中5个含XML元数据。 文件详解 核心文件:...
    packageimg
  • ACORNS_Based_Caregiver数据集HAC特征及元数据

    2026年1月25日 30 70 69

    数据集概述 本数据集包含ACORNS Caregiver数据集的共现特征直方图,以及对应的元数据文件。数据来源于ACORNS项目,其中.mat文件为特征数据,部分文件通过Python代码提取并带有"_python"后缀;.json文件为数据集元数据。数据集总计30个文件,主要用于多模态特征分析。 文件详解 .mat文件(共28个)...
    packageimg
  • Variations_Based_斯洛伐克语附着词位置变异研究数据集

    2026年1月23日 30 151 8

    数据集概述 本数据集为论文“Variations on positioning of clitics in Slovak (on the basis of corpus and experimental data)”配套数据,核心内容围绕斯洛伐克语中附着词的位置变异展开,基于语料库和实验数据构建,包含一个文件,用于支撑相关语言学研究分析。 文件详解...
    packageimg
  • CONTRAST_IT_Based意大利语新闻语料库数据集2011_2012

    2026年1月20日 30 157 25

    数据集概述 本数据集为CONTRAST-IT多语言语料库的意大利语部分,包含2011-2012年从意大利三家电子日报(repubblica.it、lastampa.it、corriere.it)采集的531篇真实新闻文章,总计约三十万字,覆盖政治、体育、科技等多个主题,用于多语言对比语言学研究。 文件详解 意大利语新闻文章文件...
    packageimg
  • Archi_Text_Corpus_Based_阿奇语2006_2007年语料库完整数据

    2025年12月23日 30 26 8

    数据集概述 本数据集为阿奇语语料库,包含2006-2007年在阿奇村收集的50余篇多体裁文本,涵盖故事、对话、传说、歌曲等,多数配有音视频记录。内容包含重新录制的1977年已发表文本及新采集文本,本版本文本均源自1977年出版的《阿奇语:文本与词典》。 文件详解 文档文件(共66个,包含两种格式):...
    packageimg
  • 乌兹别克语停用词列表数据集

    2025年12月23日 30 118 26

    数据集概述 本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表,涵盖单字词、双字词及带搭配的双字词停用词,为乌兹别克语自然语言处理任务提供基础资源。 文件详解 压缩包文件: uzbek_stopwords.zip: ZIP格式压缩包,包含以下核心文件: stopwords_unigrams.txt:...
    packageimg
  • 基于Sonar_1训练的e2e_Dutch模型数据集

    2025年12月23日 30 13 2

    数据集概述 本数据集包含一个基于Sonar语料库训练的e2e-Dutch模型,需配合e2e-Dutch代码使用。数据集包含模型配置、说明文档及模型压缩包三类文件,为相关任务提供模型支持。 文件详解 文件名称: README.pdf:PDF格式,为模型说明文档,可能包含模型使用方法、训练背景等信息。 文件名称:...
    packageimg
  • AntConc聚类工具生成文件集合

    2025年12月22日 30 46 26

    数据集概述 本数据集为使用AntConc聚类工具生成的文件集合,包含文本、表格、图片及配置等多种格式文件,围绕不同主题词(如rights、german、ceremony等)的聚类结果展开,为文本聚类分析提供直接数据支持。 文件详解 文件总数:25个,均为根目录下的独立文件 文件类型分布:...
    packageimg
  • 荷兰文化期刊_De_Gids_主题建模数据集

    2025年12月22日 30 62 39

    数据集概述 本数据集是论文《Topic Modelling “De Gids”:An Explorative Study into the Use of Topic Modelling on a Cultural Periodical》的配套数据,包含论文原文及实验相关文件,用于支持对荷兰文化期刊《De Gids》的主题建模研究。 文件详解...
    packageimg
  • 塞尔维亚语动词派生名词注释数据库

    2025年12月20日 30 29 24

    数据集概述 本数据集包含塞尔维亚语中动词派生名词的注释数据,通过对CLASSLA-web.sr语料库中动词“očekivati(期待)”后接名词的例句进行人工标注,分析其形态、词缀、基动词及补语等特征,为研究动词派生名词的语言特性提供支持。 文件详解 文件名称: Annotated database of deverbal...
    packageimg
  • 金融新闻文本挖掘平行语料库数据集2007_2020

    2025年12月15日 30 210 122

    数据集概述 本数据集为金融领域的英汉平行新闻语料库,包含2007至2020年的60,473篇双语文档,涵盖新闻的标题、正文等核心内容,可用于金融领域的平行双语文本挖掘研究。 文件详解 文件名称:FT-en-zh.rar 文件格式:RAR压缩包...
    packageimg
  • 英文公证语篇中情态动词使用研究数据集

    2025年12月13日 30 202 107

    数据集概述 本数据集围绕英文公证语篇中的情态动词使用展开研究,包含一份相关的PDF文档,为分析公证语篇中情态动词的功能、分布及语用特征提供资料支持。 文件详解 文件名称: Ezozkhon Ortikova.pdf 文件格式: PDF (.pdf) 内容:...
    packageimg
  • 巴西葡萄牙语中含度量单位的强化结构数据集

    2025年12月12日 30 1 0

    数据集概述 本数据集包含巴西葡萄牙语中“动词+度量单位”强化结构的真实语料,如“correr quilômetros(跑数公里)”“chorar rios(哭成河)”,数据来源于数字媒体文本,未对原始版本进行修改,同时包含动词分类、主语生命性等分析维度。 文件详解 文件名称: intensificadores unidades de medida -...
    packageimg
  • Open_Linguistics待发表文章补充材料与原始数据

    2025年12月5日 30 15 13

    数据集概述 本数据集包含发表于《Open Linguistics》的论文《COVID-19的语言影响:四种语言的语料库研究》的补充材料(A、B、C)及原始数据,涵盖病毒名称及相关词汇的多语言原始数据,为研究提供支撑。 文件详解 补充材料文件: Supplement A.pdf、Covid discourse Supplement...
    packageimg
  • JAAH音频对齐爵士和声数据集

    2025年12月4日 30 168 100

    数据集概述 该数据集包含113首爵士曲目标注,选自《史密森尼经典爵士合集》和《爵士:史密森尼选集》,覆盖不同表演者、子流派及历史时期。标注由爵士音乐家完成,涵盖全曲的节拍、结构及和弦信息。 文件详解 文件名称: MTG/JAAH-v0.1.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 宾夕法尼亚德语词表_词形还原与词性标注

    2025年12月4日 30 109 9

    数据集概述 该数据集包含ENDE语料库中宾夕法尼亚德语部分的词表,涵盖1761个词元及其对应的2704个词形,已完成词形还原和词性标注,为宾夕法尼亚德语的语言分析提供基础数据。 文件详解 词表数据文件: 文件名称:ENDE-corpus POS-annotated PDC lexicon.tsv 文件格式:TSV(.tsv)...
    packageimg
  • GPT_4生成传记中的性别偏见研究补充材料_意大利语与法语人名语料库

    2025年12月4日 30 199 23

    数据集概述 本数据集是关于GPT-4生成传记中性别偏见的语料库研究补充材料,聚焦意大利语和法语人名的分析。数据集包含一份PDF格式的补充文档,为理解模型生成内容中的性别偏见现象提供支持。 文件详解 文件名称: Decesare_Weidensdorfer_Burchardt_2025_supplementary material_LaGenda.pdf...
    packageimg