数据集 - 海数据

JOST_专业翻译杂志_非二元性别出柜报道中性别公平语言策略的翻译研究数据

2026年1月21日

数据集概述本数据集为论文“Translating Non-Binary Coming-Out Reports: Gender-Fair Language Strategies and Use in News...

ZIP

Climate_Change_Based_社交媒体气候变化舆论AI分析数据

2026年1月21日

数据集概述本数据集围绕气候变化与社交媒体舆论主题，通过AI技术分析土耳其语和英语推文，核心文件为climate.xlsx，为研究社交媒体中公众对气候变化的态度提供结构化数据支持。文件详解文件名称：climate.xlsx 文件格式：XLSX...

ZIP

Hypocoristic_Truncation_Sardinian_语言学研究数据集

2026年1月18日

数据集概述本数据集是用于语言学研究的撒丁岛昵称截断数据，对应论文Cabré, Teresa等人的相关研究。数据聚焦撒丁岛语言中昵称的截断现象，为分析该语言现象提供结构化资料，仅包含一个文件。文件详解文件名称：dataset_Hypocoristic_truncation_in_Sardinian.xlsx 文件格式：XLSX...

ZIP

Concepticon_CLDF_Concepticon_3_4_0概念列表链接资源数据集

2026年1月17日

数据集概述本数据集是Concepticon 3.4.0版本的CLDF格式资源，由List等学者编辑，旨在为概念列表的链接提供支持。它由马克斯·普朗克进化人类学研究所发布，可在线获取，包含一个压缩文件，无训练测试或数据标签等拆分结构。文件详解文件名称：concepticon/concepticon-cldf-v3.4.0.zip 文件格式：ZIP...

ZIP

Jordanian_Arabic_Based_自闭症儿童所有格代词使用研究数据集

2026年1月15日

数据集概述本数据集围绕自闭症谱系障碍儿童对约旦阿拉伯语所有格代词的使用展开，包含1份文档文件，用于支持相关语言学研究，为分析自闭症儿童语言特征提供基础数据。文件详解文件名称：dataset.docx 文件格式：DOCX 字段映射介绍：未提供文件内容预览，推测包含与自闭症谱系障碍儿童使用约旦阿拉伯语所有格代词相关的研究数据或分析内容。适用场景...

ZIP

Paĩ_Tavyterã_语言田野调查_名词动词词干提取数据2017_01_02

2026年1月15日

数据集概述本数据集为巴拉圭Amambay地区Paĩ Tavyterã Guarani语言的田野调查数据，核心内容是该语言名词和动词词干的提取结果，仅包含一个文件，无目录结构和数据拆分。文件详解文件名称：PTA_2017_01_02.xlsx 文件格式：XLSX 字段映射介绍：因无内容预览，推测包含Paĩ Tavyterã...

ZIP

SAM_Sentiment_Analysis_印尼语情感词与文本细粒度标注数据集

2026年1月15日

数据集概述本数据集为基于Self-Assessment Manikin（SAM）效价量表的印尼语细粒度情感分析数据集，包含两类核心内容：经至少45人标注并取平均的印尼语情感词SAM效价得分（1-9分），以及含情感词的印尼语推文文本（至少3名语言专家标注并取平均的1-9分情感强度），用于支持细粒度情感分析模型开发。文件详解文件名称：labeled...

ZIP

Perseus_Based_Plato_s_Crito多语言句对齐翻译数据_学生版

2026年1月15日

数据集概述本数据集为柏拉图《克里托篇》（Crito）的多语言句对齐翻译语料，包含原始古希腊文（Burnet版本）及对应翻译：5份波斯语学生翻译、2份英语翻译（Jowett版、Fowler版）、1份德语翻译（Schleiermacher版）。数据支持多语言翻译对齐研究，共3个文件。文件详解文件名称：Translations of Crito by...

ZIP

РНФ_19_78_10132_俄罗斯诗歌韵律与节奏借用研究项目数据2019_2022

2026年1月14日

数据集概述本数据集是俄罗斯科学基金会（РНФ）项目19-78-10132（2019-2022）的研究材料，由Вера Полилова主持，聚焦俄罗斯诗歌的韵律与节奏借用发展。包含7个Excel文件，覆盖不同时期、类型的俄罗斯诗歌韵律及相关翻译文本的韵律分析数据。文件详解文件名称：RUSSIAN ORIGINAL ISOSYLLABIC...

ZIP

Typology_of_concord_Based_跨语言一致性类型学原始数据_2020

2026年1月13日

数据集概述本数据集为跨语言一致性类型学研究的原始数据，由Sterre Leufkens在冗余性研究框架下采集。包含数据表、代码本和元数据三类文件，记录跨语言一致性的实证情况与功能，可用于语言学领域的跨语言分析与理论验证。文件详解 yoda-metadata.xml 文件格式：XML 字段映射介绍：元数据文件，记录数据集的描述性信息...

ZIP

Linguistic_Criteria_Based_11种语言词类区分与重叠的语言标准数据

2026年1月13日

数据集概述本数据集包含11种语言中名词、动词、形容词和副词的词类区分及重叠案例的语言标准信息，涵盖音系、形态、句法、语义等标准类型，用于支撑《词类描述类型学》硕士论文研究，共3个文件。文件详解 Linguistic_Criteria_Final_excel.xlsx 文件格式：XLSX...

ZIP

Statistical_Errors_Based_实验软件工程统计误差成因与解决方案研究数据

2026年1月12日

数据集概述本数据集围绕实验软件工程中的统计误差展开，包含三份Excel文件，涉及图表、代码及主题相关的相关性与一致性率数据，覆盖英文与西班牙文两种语言版本，为分析统计误差成因及解决方案提供支持。文件详解 Plots-final-english.xlsx 文件格式：XLSX 字段映射介绍：包含实验软件工程统计误差相关的英文图表数据，具体字段未提供预览...

ZIP

Lexical_Complexity_Russian_Based多领域俄语词汇复杂度估计研究数据

2026年1月8日

数据集概述本数据集围绕俄语多领域场景下的词汇复杂度估计研究构建，包含一份压缩文件。数据聚焦俄语词汇复杂度评估的多领域应用场景，为相关自然语言处理任务提供基础数据支持。文件详解压缩文件文件名称：data.zip 文件格式：ZIP...

ZIP

Spanish_text_corpus_Based_Wikipedia_自然语言处理语言学研究数据

2026年1月7日

数据集概述本数据集是从Wikipedia提取的西班牙语文本语料库，适用于自然语言处理（NLP）和语言学研究。提取过程采用特定平台，相关方法在文献中有所记载。数据集包含原始提取结果和经清洗过滤后的句子数据，共2个文件。文件详解文件名称：rawdata.dat.zip 文件格式：ZIP（压缩包）...

ZIP

Multi_CAST_Source_Northern_Kurdish多语言语音文本标注数据2311

2026年1月7日

数据集概述本数据集为Multi-CAST多语言语音文本标注语料库的一部分，包含Northern Kurdish语言的语音文本标注数据。该语料库由班贝格大学发布，是多语言口语文本标注资源的重要组成，可用于相关语言研究与自然语言处理应用。文件详解文件名称：Multi-CAST/mcnkurd-v2311.zip 文件格式：ZIP...

ZIP

European_Parliament_Based_欧洲议会全会演讲语料库列表及多语言搭配示例数据

2026年1月7日

数据集概述本数据集包含2014年11月至2018年4月期间欧洲议会全会演讲语料库的演讲来源辩论列表、演讲者姓名，以及英语、法语、德语、匈牙利语中与“refugee(s)”“refugié(s)”“Flüchtling(e)”“menekült(ek)”搭配的动词示例，所有内容由论文作者识别整理。文件详解文件名称：List of debates...

ZIP

Multi_CAST_Source_Sanzhi_Dargwa多语言语音标注文本数据_2311版本

2026年1月6日

数据集概述本数据集为Multi-CAST多语言标注语音文本语料库的一部分，包含Sanzhi Dargwa语言的标注语音文本数据，版本为2311。数据集由班贝格大学发布，是多语言语音语言学研究的结构化资源，仅包含一个压缩文件。文件详解文件名称：Multi-CAST/mcsanzhi-v2311.zip 文件格式：ZIP...

ZIP

Data_Repository_Aaricia_Ponnet_Based印地语学习者口语产出数据集

2026年1月6日

数据集概述本数据集包含印地语外语学习者的口语产出数据，由Data Repository Aaricia Ponnet提供。数据集仅含一个文件，无目录结构，未划分训练/测试、数据/标签或原始/处理数据，主要用于印地语语言学习相关研究。文件详解文件名称：Encryption Assignment Aaricia Ponnet.xlsx...

ZIP

CIRCSE_Latin_Sentiment_Lexicons_Based拉丁语情感词典第二版发布数据

2026年1月2日

数据集概述本数据集为CIRCSE/Latin_Sentiment_Lexicons的第二版发布资源，包含拉丁语形容词和名词的情感词典，新增融合黄金标准与白银标准的“Latin Affectus”数据集，且该数据集已关联至LiLa知识库，适用于拉丁语情感分析相关研究。文件详解...

ZIP

Luxembourgish_word_embedding_Based_RTL_lu用户评论训练模型数据

2026年1月2日

数据集概述本数据集是基于卢森堡媒体平台RTL.lu的用户评论训练的卢森堡语词嵌入模型，包含2008年12月至2018年12月期间约54.4万条卢森堡语文本数据，为卢森堡语自然语言处理任务提供语义向量支持。文件详解文件名称：Luxembourgish word embedding_RTL user comments.zip 文件格式：ZIP...

ZIP

找到126个数据集

注册成功！