数据集 - 海数据

HCD_Historical_Corpus_of_Dutch_词频统计数据_2023

2026年1月18日

数据集概述本数据集为荷兰历史语料库（HCD）的词频统计数据，涵盖不同地区、世纪和体裁的词频分布情况。HCD是一个包含早期和晚期现代荷兰语的多体裁语料库，数据来源于2023年发表的相关学术论文，可用于荷兰历史语言学和文本分析研究。文件详解文件名称：wordcount_overview.xlsx 文件格式：XLSX...

ZIP

Sensemaking_Online_Post_and_comments_意义构建研究数据

2026年1月17日

数据集概述本数据集包含用于研究在线内容意义构建的帖子与评论数据，涉及算法治理引发的宏观危机下微观层面的隐喻意义构建，以及在线劳动中生活体验的细致纹理。数据集共6个文件，涵盖支持脚本、说明文档、隐喻分析文件、帖子评论数据及汇总表等内容。文件详解数据文件（.xls/.xlsx格式，共5个）...

ZIP

DPDGPT_Supporting_Files_Dark_Pattern检测数据集与特征文件

2026年1月17日

数据集概述本数据集为DPDGPT项目的支持文件，包含ContextRico-DP数据集及相关标注、特征文件。ContextRico-DP涵盖1609张UI截图，其中移动端UI1524个（含13类Dark Pattern、1871个实例）、网页端UI85个（含8类Dark Pattern、144个实例），可用于Dark Pattern检测研究。...

ZIP

A_Rich_Legacy_Lost_社交媒体分析_马拉喀什犹太遗产旅游推广数据

2026年1月15日

数据集概述本数据集支持对马拉喀什犹太遗产旅游推广不足问题的分析，包含Instagram内容、博客文章及访谈相关的原始数据，共4个文件，用于生成研究中的相关分析图表，帮助理解社交媒体在犹太遗产旅游宣传中的应用现状。文件详解访谈数据文件文件名称：Interviews Data.docx 文件格式：DOCX...

ZIP

ANEE_Helsinki_新亚述文本Aššur及相关主题统计分析数据_2019版

2026年1月15日

数据集概述本数据集是论文“Aššur and His Friends: A Statistical Analysis of Neo-Assyrian Texts”（发表于《楔形文字研究杂志》2019年第71期）的研究用数据，包含研究过程中使用和生成的内容，聚焦新亚述文本的统计分析，共1个压缩文件。文件详解压缩文件...

ZIP

AmadissigloXX_Based_现代骑士文学重写与堂吉诃德研究数据库_v1_1

2026年1月14日

数据集概述本数据集为AmadissigloXX项目的一部分，聚焦现代骑士文学重写与《堂吉诃德》相关研究。包含达里奥·奥塞斯1995年作品《沙漠中的骑士》的元数据与完整数据库内容，支持骑士文学数字化研究与文本分析。文件详解 JSON文件文件名称：5344.json 文件格式：JSON...

ZIP

Func_Non_Func_words_separated_功能词与非功能词分离数据集

2026年1月14日

数据集概述本数据集包含100个文件，主题为功能词与非功能词分离的文本内容数据，覆盖钓鱼邮件、政治文本、虚假新闻等场景。文件类型以JSONL和JSON为主，各占50个，无目录层级结构，未区分训练/测试、数据/标签或原始/处理数据。文件详解文件类型及分布...

ZIP

IN00617_Based_Chalukya王朝Nagavardhana授予文书XML数据

2026年1月13日

数据集概述本数据集包含Chalukya王朝Nagavardhana授予文书的XML格式数字化文件，是一份记录古代印度Chalukya王朝授予行为的历史文献资料，总计包含1个文件。文件详解文件名称：IN00617 TEI.xml 文件格式：XML...

ZIP

气候变化讨论页情感与毒性评分数据集_基于GraWiTas视角_VADER模型及维基百科数据

2026年1月12日

数据集概述本数据集来自RWTH Aachen大学计算社会系统硕士项目，包含维基百科“气候变化”讨论页的原始数据及处理后的情感、毒性评分数据。原始数据通过GraWiTas工具解析为JSON格式，处理后数据使用VADER计算情感得分、Google Perspective API计算毒性得分，可用于研究气候变化讨论的文本特征与情感倾向。文件详解...

ZIP

Komenter_Instagram_BEM_FISIP_UNAIR组织冻结相关帖子评论数据集

2026年1月12日

数据集概述本数据集包含Instagram平台上与印尼大学（UNAIR）社会与政治科学学院（FISIP）学生执行委员会（BEM）组织冻结相关帖子的用户评论数据，为单一文件，支持对相关社会舆论的分析。文件详解文件名称：dataset_eti (1).xlsx 文件格式：XLSX...

ZIP

AmadissigloXX_Based_胡安_巴莱拉_Morsamor_文献元数据与数据库_v1_1

2026年1月5日

数据集概述本数据集属于AmadissigloXX数据库，收录胡安·巴莱拉1899年作品《Morsamor. Peregrinaciones heroicas y lances de amor y fortuna de Miguel de Zuheros y Tiburcio de...

ZIP

AmadissigloXX_Based唐吉诃德Andrés_Trapiello现代改写版元数据数据库

2026年1月5日

数据集概述本数据集来自AmadissigloXX数据库，收录Andrés Trapiello于2022年完成的《堂吉诃德》现代西班牙语改写版相关信息，包含元数据与完整数据库两类文件，支持对古典文学现代改写作品的研究与分析。文件详解 JSON格式文件文件名称：5661.json 文件格式：JSON...

ZIP

内夫梅南德尔_Nevmenandr_创作的丹尼尔_Dani_人工语言的生日纪念文本语法数据_v1_0

2026年1月4日

数据集概述本数据集为纪念М.А. Даниэля生日的人工语言相关数据，包含人工语言的文本内容及语法描述，整体打包为一个压缩文件，无额外目录层级或数据拆分结构。文件详解文件名称：nevmenandr/artlang-dani-el-v1.0.0.zip 文件格式：ZIP 字段映射介绍：压缩包内包含纪念М.А....

ZIP

Multilingual_Dynamics_Based_中世纪佛兰德斯多语言文学手稿元数据_2024版

2026年1月2日

数据集概述本数据集是“中世纪佛兰德斯多语言文学动态”项目的一部分，包含2539份现存中世纪佛兰德斯手稿（约1200-1500年）的元数据，涵盖荷兰语、法语和拉丁语文学文本，涉及手稿的基本信息、文本特征、来源、抄本学、装饰和书写体等6类主题，为研究该地区多语言文学文化的生产与接受提供基础数据。文件详解文件名称：Dataset...

ZIP

fauci_email_Based_Anthony_Fauci邮件JSON摘要数据_Processed

2026年1月2日

数据集概述本数据集是Anthony Fauci在2021年公开的3234页PDF邮件的处理后JSON版本，包含1289个邮件线程、2761封邮件（含101封重复邮件），记录每封邮件的发件人、收件人、抄送、主题、正文、时间戳等信息，还提供5种邮件网络、1个超图、1个时序图、3个张量等衍生JSON文件，助力理解美国政府新冠疫情应对。文件详解主数据文件...

ZIP

美索不达米亚神名Fast_Text_分析数据集2023

2025年12月20日

数据集概述本数据集为《美索不达米亚神名的Fast(Text)分析》研究配套数据，包含用于自然语言处理分析的文本、词向量、可视化结果及致谢文件等，支撑相关学术研究成果。文件详解 README.md：Markdown格式说明文件，介绍数据集背景、来源及使用说明 WordVectors.zip：压缩文件，存储Fast(Text)模型生成的词向量数据...

ZIP

乌兹别克语家庭关系主题文档

2025年12月23日

数据集概述该数据集包含一份关于家庭关系主题的乌兹别克语文档，以PDF格式呈现，未提供具体内容描述，文档标题为“G'ARB MAMLAKATLARIDA OILAVIY MUNOSABATLAR”。文件详解文件名称: Sheranova Maryam..pdf 文件格式: PDF 内容说明: 文档标题为“G'ARB MAMLAKATLARIDA...

ZIP

跨主题作者归属大型语料库FICSIT

2025年12月23日

数据集概述该数据集是精准控制跨主题样本的作者归属语料库，基于StackExchange平台数据构建，包含1237位作者的188077条文本样本，覆盖308个主题，未进行额外预处理，为跨主题作者归属研究提供基础数据。文件详解文件名称: FICSIT.zip：压缩包格式，包含跨主题作者归属的文本样本数据，具体字段需解压后查看文件名称:...

ZIP

爱尔兰民间传说与格雷戈里夫人改编文本语料库

2025年12月23日

数据集概述该数据集包含十四篇英文爱尔兰民间传说原文及十四篇格雷戈里夫人的英文改编文本，支持原文与文学改写的比较分析，可用于研究编辑风格、改编实践及通过重述塑造爱尔兰文化遗产的过程。文件详解 metadata.xlsx：Excel格式，可能包含语料库的元数据信息 README.txt：纯文本格式，提供数据集的基本说明和使用指引 original-...

ZIP

福建制鞋业数字化智能与适老化设计融合数据集

2025年12月22日

数据集概述该数据集围绕福建制鞋业数字化智能与适老化设计融合展开，包含基于机器学习聚类分析的结构化数据、适老鞋图片档案及数据提取文件，为相关研究与应用提供多类型数据支持。文件详解文件名称: LDA-based clustering analysis.xlsx 文件格式: Excel (.xlsx) 内容说明:...

ZIP

找到141个数据集

注册成功！