-
swadesh_Source_库尔曼吉语斯瓦迪士核心词表数据
2026年2月8日 30 143 128
数据集概述 本数据集为库尔曼吉语(Kurmanji)的斯瓦迪士核心词表数据,包含一个压缩文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理数据集,主要用于语言学领域的词汇研究与分析。 文件详解 压缩文件 文件名称:swadesh-V1.1.zip 文件格式:ZIP...
-
SKOS_Based_警察条例德英荷多语言临时翻译数据
2026年1月31日 30 160 133
数据集概述 本数据集为SKOS格式的警察条例多语言临时翻译数据,包含原始德语、英语及荷兰语版本的SKOS术语翻译内容。德语列表源自Karl Härter与Michael Stolleis的著作,英语列表前四级源自Toomas Kotkas的研究,可用于法律术语标准化及多语言语义网络构建,仅包含一个文件。 文件详解...
-
dictionaria_kalamang_语言词典数据
2026年1月31日 30 148 110
数据集概述 本数据集为Kalamang语言词典,由Visser, Eline于2020年发布,属于Dictionaria系列第13卷,内容涵盖1-2737页。数据以压缩包形式提供,是研究Kalamang语言的重要资源。 文件详解 文件名称:dictionaria/kalamang-v1.2.zip 文件格式:ZIP...
-
NICKLE_Based_韩国英语学习者中介语语料库数据
2026年1月30日 30 121 67
数据集概述 本数据集为NICKLE(Neungyule韩国英语学习者中介语语料库),含约100万词,包含书面和口语内容(比例约9:1),按主题和交际语境分为不同文本类型。语料库未明确标注 proficiency 水平,主要涵盖基础至中级水平,部分含高级文本,可通过来源大学名称或文本长度识别。 文件详解 文件名称:Basic statistical...
-
EuPMC_Based_开放获取出版物命名实体提取事实数据
2026年1月29日 30 88 19
数据集概述 本数据集从2016年6月1日至5日的EuropePMC开放获取(OA)出版物全文中提取命名实体,通过将文本加载到ElasticSearch并使用ContentMine词典查询完成。包含2个JSON格式文件,无目录层级,未划分训练/测试、数据/标签或原始/处理集,文件类型单一为JSON。 文件详解...
-
InLpWb_Based_伊纳里拉普语非自主动词词汇语义数据
2026年1月29日 30 175 35
数据集概述 本数据集提取自《伊纳里拉普语词典》(Inarilappisches Wörterbuch)扫描版,包含所有带后缀-gyettiđ/-guáttiđ或-škyettiđ/-škuáttiđ的非自主动词词汇数据,提供派生基础、最终词根词素及语义分类,是伊纳里拉普语动词研究的结构化参考资料。 文件详解 文件名称:InLpWb-...
-
Saami_Based_萨米语敏感动词派生表附录数据2022
2026年1月29日 30 204 145
数据集概述 本数据集是论文附录,包含4个文件,展示不同萨米语词典来源中记录的敏感动词派生词。数据以表格/列表形式呈现,给出动词派生的基础词(按对应语言/来源或北萨米语标注)及芬兰语简短释义。数据支持萨米语形态学研究,具体来源信息参见关联论文。 文件详解 文档文件(Document files) 文件名称:Liite4-4tav-...
-
MDPI_Source_Adoption_Factor术语表数据
2026年1月28日 30 198 117
数据集概述 本数据集为Adoption Factor相关术语的术语表,包含一份文档文件,旨在对Adoption Factor相关的专业术语进行解释和定义,为相关领域的研究和应用提供标准化的术语参考。 文件详解 文件名称:Supplemental Data_MDPI_Campagna.docx 文件格式:DOCX 字段映射介绍:文档内容为Adoption...
-
Álgu_Based_Ume_Saami词汇数据现代化拼写转换数据
2026年1月27日 30 52 2
数据集概述 本数据集包含源自Schlachter 1958版Ume Saami词典的多版处理数据,从Álgu数据库获取并与原始词典核对词头变体,将词头机械转换为近似现代Ume Saami正字法(参考Barruk 2018)。提供字母化列表及反向字母化文件,含3个文件,支持词汇研究与语言保护。 文件详解 压缩文件(ume-MalaLpW-mod.zip)...
-
WOKIE_Based_SKOS叙词表LLM自动化翻译系统支持数据
2026年1月27日 30 24 14
数据集概述 本数据集为WOKIE项目“FAIR in allen Sprachen”的附录数据,包含基于LLM的SKOS叙词表自动化翻译系统相关文件,涉及多语言翻译结果、翻译详情及原始叙词表等内容,共10个文件,用于支持该翻译系统的相关研究与应用。 文件详解 RDF格式文件(80.0%) 文件名称:unesco_reduced_en-...
-
Rigveda_VedaWeb_基于梨俱吠陀的形态标注语料库修订扩展数据
2026年1月22日 30 147 39
数据集概述 本数据集为梨俱吠陀的形态标注语料库,基于苏黎世大学原始标注数据修订扩展而成。包含梨俱吠陀文本的形态学、词汇学标注信息,涉及词形、格、性、数、人称、时态等语法特征,以及与格拉斯曼词典的关联参考,支持古印度语言的语言学研究。 文件详解 文件名称:vedaweb_zurich.xlsx 文件格式:XLSX...
-
Ume_Saami_Dictionary_Comparison_Data
2026年1月22日 30 107 59
数据集概述 本数据集为书评《A new general dictionary of Ume Saami》的配套表格,展示Schlachter 1958年与Barruk 2018年版Ume萨米语词典的差异。数据对齐两版词典中以v开头的词条,呈现词汇的共性与差异,支持语言词汇演变研究。 文件详解 文件名称:ume-MalaLpW-Barruk-...
-
Bother_Definitions_and_use_术语定义与生成使用数据
2026年1月20日 30 175 81
数据集概述 本数据集包含从词典和词库中整理的“Bother”术语定义,以及通过Chat GPT和LLaMa语言模型工具生成的包含“bother”“bothersome”“bothered”的正常使用句子,共两份文件。 文件详解 文件名称:Bother statements from Gen AI.xlsx 文件格式:XLSX...
-
dictionaria_Based_所罗门群岛Teanu语言词典数据_v1_0
2026年1月20日 30 187 3
数据集概述 本数据集为2021年发布的所罗门群岛Teanu语言词典,由Alexandre François编纂,属于Dictionaria系列第15卷,内容包含1-1877页的词典条目,是研究Teanu语言的重要资源。 文件详解 文件名称:dictionaria/teanu-v1.0.zip 文件格式:ZIP...
-
Croatian_Survey_Data_克罗地亚中小学词典使用调查数据2023
2026年1月19日 30 23 3
数据集概述 本数据集为2023年2月1日至17日开展的克罗地亚中小学词典及其他词典资源使用情况调查数据,记录了克罗地亚中小学教育场景下词典资源的使用现状,仅包含一个文件。 文件详解 文件名称:lexicographic_resources_in_croatian_education_survey_data.xlsx 文件格式:XLSX...
-
dictionaria_sanzhi_Sanzhi_Dargwa词典数据_2019
2026年1月18日 30 188 165
数据集概述 本数据集为Sanzhi Dargwa语言的词典数据,由Diana Forker于2019年发布,收录于Dictionaria第5卷。数据以压缩包形式提供,包含Sanzhi Dargwa语言的词典内容,可用于语言研究、词典编纂等相关场景。 文件详解 文件名称:dictionaria/sanzhi-v1.2.zip 文件格式:ZIP...
-
SAM_Sentiment_Analysis_印尼语情感词与文本细粒度标注数据集
2026年1月15日 30 11 3
数据集概述 本数据集为基于Self-Assessment Manikin(SAM)效价量表的印尼语细粒度情感分析数据集,包含两类核心内容:经至少45人标注并取平均的印尼语情感词SAM效价得分(1-9分),以及含情感词的印尼语推文文本(至少3名语言专家标注并取平均的1-9分情感强度),用于支持细粒度情感分析模型开发。 文件详解 文件名称:labeled...
-
dictionaria_palula_Based_Palula语言词典数据2019
2026年1月15日 30 40 20
数据集概述 本数据集为Palula语言词典,由Henrik Liljegren于2019年发布,收录于Dictionaria第3卷,共1-2700页。数据以压缩包形式提供,包含Palula语言的词典内容,是研究Palula语言的重要资源。 文件详解 文件名称:dictionaria/palula-v1.2.zip 文件格式:ZIP...
-
LanguageStructure_Xavante_dicionario_葡萄牙语词典合并数据
2026年1月11日 30 115 23
数据集概述 本数据集为Xavante语与葡萄牙语的双语词典数据,包含词典内容的合并处理结果,涉及内容修正与音频添加等优化工作,以单一JSON文件形式呈现,可用于语言翻译、词典研究等场景。 文件详解 文件名称:xavante_dictionary_merged.json 文件格式:JSON...
-
KKLS_Szabó_Based_Skolt和Kola_Saami方言的koatē_škoatē动词变体数据
2025年12月29日 30 164 49
数据集概述 本数据集包含Skolt和Kola Saami方言中*-koatē/-škoatē始动动词的两组数据:一是KKLS词典(A–K字母范围)中动词的图示化呈现,含按字母排序和按动词词基音节数分组的两个版本;二是Szabó...



