-
bioRxiv预印本国际作者身份与合作数据集
2025年12月22日 30 205 132
数据集概述 该数据集包含研究bioRxiv预印本国际作者身份与合作的相关数据及补充表格,涵盖作者归属、论文国家分布、下载量等信息,同时提供数据处理代码、数据库快照、字段说明及人工修正记录,支持研究复现与扩展分析。 文件详解 数据文件(CSV格式,共18个):...
-
长花伽蓝菜物种名称作者归属编年引用表
2025年12月18日 30 147 40
数据集概述 本数据集为植物分类学研究中的一个表格,按时间顺序整理了不同出版物对长花伽蓝菜(Kalanchoe longiflora)物种名称作者归属的引用情况,包含参考文献来源及对应的作者署名格式。 文件详解 文件名称:table.html 文件格式:HTML(.html)...
-
西班牙国家图书馆19世纪末文化杂志数据集_CORSMAXIX
2025年12月14日 30 71 55
数据集概述 本数据集收录西班牙国家图书馆藏1898-1899年间三种19世纪末西班牙文化杂志的48期内容,包含短篇故事、诗歌、评论及社会政治散文,覆盖西班牙政治文化转型关键时期,为人文社科领域的计算分析提供丰富语料支持。 文件详解 索引文件(CSV格式): CORSMAXIX_la_vida_literaria_index.csv:《La vida...
-
伽蓝菜属Raveta组分类修订文献表数据集
2025年12月10日 30 195 24
数据集概述 本数据集是关于伽蓝菜属(Kalanchoe)Raveta组分类修订的文献表数据,包含该组下三个新亚组(Raveta亚组、Longiflorae亚组、Rotundifoliae亚组)的分类单元信息,记录了各物种的描述年份、文献引用及自然地理分布范围。 文件详解 文件名称: table.html 文件格式: HTML (.html) 文件内容:...
-
PAN23多作者写作风格分析数据集
2025年12月7日 30 181 71
数据集概述 该数据集是PAN@CLEF2023多作者写作风格分析共享任务的专用数据,包含三个难度级别的文档集,用于训练和测试段落级风格变化检测算法,文档均为英文且风格变化仅发生在段落间。 文件详解 文件名称: pan23-multi-author-analysis.zip 文件格式: ZIP压缩包 包含内容:...
-
PAN12作者识别归属数据集
2025年12月5日 30 49 34
数据集概述 该数据集为PAN12作者识别归属任务提供训练语料,包含不同的归属和聚类场景。相比往届,语料调整为较小作者群体的较大文档,更贴近传统精读分析的典型案例,数据来源为Feedbooks.com的免费小说集。 文件详解 文件名称: pan12-authorship-attribution-corpora.zip 文件格式: ZIP压缩包 内容说明:...
-
葡萄牙语作者归属分析语料库
2025年11月29日 30 151 149
数据集概述 该数据集是用于作者归属分析的葡萄牙语语料库,包含三位不同作者的作品,每位作者各三部,共计九部书籍文本,为研究文本特征与作者风格关联提供数据支持。 文件详解 文件类型:所有文件均为TXT格式(.txt),共9个文件,占比百分之百 文件示例: MC_O Outro Pe da Sereia.txt MC_Jesusalem.txt JS_A...
-
Reddit跨主题作者身份验证语料库
2025年11月28日 30 15 0
数据集概述 该数据集包含2010至2016年间1000名Reddit用户的评论内容,每个问题包含1篇未知文档和4篇已知文档(每篇约7KB),文档由同一子版块评论聚合而成,且问题内文档子版块不重叠,覆盖1388个不同主题,格式与PAN作者身份识别语料库一致。 文件详解 文件名称: Reddit_Cross-Topic-AV-...
-
五十位维多利亚时代小说家的作者归属数据集
2025年4月20日 30 32 24
五十位维多利亚时代小说家的作者归属数据集 数据来源:互联网公开数据 标签:小说,文学分析,作者归属,文本挖掘,维多利亚时代,自然语言处理,文学研究,文本分类 数据概述:...
-
巴西葡萄牙语文学语料库数据集
2025年4月17日 30 190 74
巴西葡萄牙语文学语料库数据集 数据来源:互联网公开数据 标签:巴西文学,葡萄牙语,文学语料库,文本分析,主题识别,作者归属,历史文本,文化研究 数据概述 本数据集收录了1840年至1908年间巴西文学作品,内容涵盖超过370万字的葡萄牙语文本,涉及81部独立作品。这些作品由多位知名巴西作家创作,包括阿道福·坎尼亚(Adolfo...
-
作者身份识别推文数据集
2025年4月14日 30 77 27
作者身份识别推文数据集 数据来源:互联网公开数据 标签:文本数据,推文,作者身份,作者归属,自然语言处理,机器学习,文本分类,社交媒体分析 数据概述: 本数据集包含了推文内容及其对应的作者姓名,旨在为构建作者身份识别模型提供基准数据集。 数据集包含不同作者发布的推文文本,可用于训练模型来识别推文的作者。 数据用途概述:...



