-
法语连音与_hiatus_避免研究补充材料数据集
2025年12月23日 30 87 18
数据集概述 该数据集为《法语连音与 hiatus 避免》论文的补充材料,包含研究数据、分析结果图及可复现的R代码,支持对法语连音现象的量化分析,数据结构简洁,便于研究人员验证论文结论或开展拓展分析。 文件详解 文件名称:study1-data.csv 文件格式:CSV 字段映射:包含...
-
Stanford_GloVe_6B_Based_多维度词向量预训练完整数据
2025年12月21日 30 153 0
数据集概述 本数据集为GloVe 6B词向量,基于维基百科2014和Gigaword 5语料(共60亿个词元)训练生成,包含40万个词汇,提供50维、100维、200维、300维四种维度的词向量,已转换为gensim二进制格式并压缩为ZIP文件。 文件详解...
-
曼加拉姆佛教梵语词典数据集
2025年12月15日 30 10 7
数据集概述 该数据集包含曼加拉姆研究中心开发的两个佛教梵语在线词典的词汇数据,分别是人工编纂的视觉词典与词库、全自动语料库词典,均基于曼加拉姆佛教梵语文本语料库构建,为佛教梵语词汇研究提供支持。 文件详解 核心数据文件:...
-
加泰罗尼亚政府网页爬取语料库2020
2025年12月13日 30 47 33
数据集概述 该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。 文件详解 文件名称: catalan_government_crawling.zip 文件格式: ZIP...
-
斯洛文尼亚语形容词形态标注数据库2024
2025年12月13日 30 192 107
数据集概述 本数据集包含斯洛文尼亚语中六千个最常用形容词的形态标注,基于Gigafida 2.0语料库2024年3月的抽样数据提取。标注涵盖词缀、复合结构、非派生性等核心形态特征,为斯洛文尼亚语形态学研究提供结构化数据支持。 文件详解 文件名称: Annotated database of Slovenian adjectives.xlsx 文件格式:...
-
西班牙语循证医学临床试验语料库3版
2025年12月12日 30 60 56
数据集概述 该数据集是西班牙语的循证医学临床试验语料库(3版),包含一千二百篇文本(二十九万二千一百七十三条词元),涵盖期刊摘要与临床试验公告,标注了医学实体、语义关系等信息,为医学文本分析提供支持。 文件详解 文件名称:CT-EBM-SP-v3.zip 文件格式:ZIP压缩包...
-
哥伦比亚2021年青年议会选举语料库
2025年12月10日 30 56 30
数据集概述 该数据集为2021年哥伦比亚青年议会选举语料库(CJ21),包含34963名14-28岁候选人提交的6496份行动计划(共10641646个词元),覆盖全国33个省的1009个市镇,涵盖政党及运动、组织流程与实践、独立青年名单三种提交形式。 文件详解 文件名称:CJ21_v1_6496.zip 文件格式:ZIP(.zip)...
-
罗马尼亚语言表情包数据集v2
2025年12月5日 30 186 170
数据集概述 该数据集为罗马尼亚语言表情包数据集v2,包含从公共社交媒体平台收集的罗马尼亚语表情包,提供手动标注(文本内容、图像复杂度、极性、情感、政治内容)及自动标注(词性标签、词元、依存句法分析)信息,支持多维度分析。 文件详解 核心文件: metadata.tsv: TSV格式,含文件ID、元数据及手动标注信息 LICENSE: 许可信息文件...
-
宾夕法尼亚德语词表_词形还原与词性标注
2025年12月4日 30 20 14
数据集概述 该数据集包含ENDE语料库中宾夕法尼亚德语部分的词表,涵盖1761个词元及其对应的2704个词形,已完成词形还原和词性标注,为宾夕法尼亚德语的语言分析提供基础数据。 文件详解 词表数据文件: 文件名称:ENDE-corpus POS-annotated PDC lexicon.tsv 文件格式:TSV(.tsv)...



