数据集 - 海数据

bioRxiv预印本国际作者身份与合作数据集

2025年12月22日 30 205 132

数据集概述该数据集包含研究bioRxiv预印本国际作者身份与合作的相关数据及补充表格，涵盖作者归属、论文国家分布、下载量等信息，同时提供数据处理代码、数据库快照、字段说明及人工修正记录，支持研究复现与扩展分析。文件详解数据文件（CSV格式，共18个）：...

ZIP

长花伽蓝菜物种名称作者归属编年引用表

2025年12月18日 30 147 40

数据集概述本数据集为植物分类学研究中的一个表格，按时间顺序整理了不同出版物对长花伽蓝菜（Kalanchoe longiflora）物种名称作者归属的引用情况，包含参考文献来源及对应的作者署名格式。文件详解文件名称：table.html 文件格式：HTML（.html）...

ZIP

西班牙国家图书馆19世纪末文化杂志数据集_CORSMAXIX

2025年12月14日 30 71 55

数据集概述本数据集收录西班牙国家图书馆藏1898-1899年间三种19世纪末西班牙文化杂志的48期内容，包含短篇故事、诗歌、评论及社会政治散文，覆盖西班牙政治文化转型关键时期，为人文社科领域的计算分析提供丰富语料支持。文件详解索引文件（CSV格式）： CORSMAXIX_la_vida_literaria_index.csv：《La vida...

ZIP

伽蓝菜属Raveta组分类修订文献表数据集

2025年12月10日 30 195 24

数据集概述本数据集是关于伽蓝菜属（Kalanchoe）Raveta组分类修订的文献表数据，包含该组下三个新亚组（Raveta亚组、Longiflorae亚组、Rotundifoliae亚组）的分类单元信息，记录了各物种的描述年份、文献引用及自然地理分布范围。文件详解文件名称: table.html 文件格式: HTML (.html) 文件内容:...

ZIP

PAN23多作者写作风格分析数据集

2025年12月7日 30 181 71

数据集概述该数据集是PAN@CLEF2023多作者写作风格分析共享任务的专用数据，包含三个难度级别的文档集，用于训练和测试段落级风格变化检测算法，文档均为英文且风格变化仅发生在段落间。文件详解文件名称: pan23-multi-author-analysis.zip 文件格式: ZIP压缩包包含内容:...

ZIP

PAN12作者识别归属数据集

2025年12月5日 30 49 34

数据集概述该数据集为PAN12作者识别归属任务提供训练语料，包含不同的归属和聚类场景。相比往届，语料调整为较小作者群体的较大文档，更贴近传统精读分析的典型案例，数据来源为Feedbooks.com的免费小说集。文件详解文件名称: pan12-authorship-attribution-corpora.zip 文件格式: ZIP压缩包内容说明:...

ZIP

葡萄牙语作者归属分析语料库

2025年11月29日 30 151 149

数据集概述该数据集是用于作者归属分析的葡萄牙语语料库，包含三位不同作者的作品，每位作者各三部，共计九部书籍文本，为研究文本特征与作者风格关联提供数据支持。文件详解文件类型：所有文件均为TXT格式（.txt），共9个文件，占比百分之百文件示例： MC_O Outro Pe da Sereia.txt MC_Jesusalem.txt JS_A...

ZIP

Reddit跨主题作者身份验证语料库

2025年11月28日 30 15 0

数据集概述该数据集包含2010至2016年间1000名Reddit用户的评论内容，每个问题包含1篇未知文档和4篇已知文档（每篇约7KB），文档由同一子版块评论聚合而成，且问题内文档子版块不重叠，覆盖1388个不同主题，格式与PAN作者身份识别语料库一致。文件详解文件名称: Reddit_Cross-Topic-AV-...

ZIP

五十位维多利亚时代小说家的作者归属数据集

2025年4月20日 30 32 24

五十位维多利亚时代小说家的作者归属数据集数据来源：互联网公开数据标签：小说,文学分析,作者归属,文本挖掘,维多利亚时代,自然语言处理,文学研究,文本分类数据概述：...

ZIP

巴西葡萄牙语文学语料库数据集

2025年4月17日 30 190 74

巴西葡萄牙语文学语料库数据集数据来源：互联网公开数据标签：巴西文学,葡萄牙语,文学语料库,文本分析,主题识别,作者归属,历史文本,文化研究数据概述本数据集收录了1840年至1908年间巴西文学作品，内容涵盖超过370万字的葡萄牙语文本，涉及81部独立作品。这些作品由多位知名巴西作家创作，包括阿道福·坎尼亚（Adolfo...

ZIP

作者身份识别推文数据集

2025年4月14日 30 77 27

作者身份识别推文数据集数据来源：互联网公开数据标签：文本数据,推文,作者身份,作者归属,自然语言处理,机器学习,文本分类,社交媒体分析数据概述：本数据集包含了推文内容及其对应的作者姓名，旨在为构建作者身份识别模型提供基准数据集。数据集包含不同作者发布的推文文本，可用于训练模型来识别推文的作者。数据用途概述：...

ZIP

找到11个数据集

注册成功！