找到3个数据集

标签: 文本样本

过滤结果
  • 跨主题作者归属大型语料库FICSIT

    2025年12月23日 30 65 2

    数据集概述 该数据集是精准控制跨主题样本的作者归属语料库,基于StackExchange平台数据构建,包含1237位作者的188077条文本样本,覆盖308个主题,未进行额外预处理,为跨主题作者归属研究提供基础数据。 文件详解 文件名称: FICSIT.zip:压缩包格式,包含跨主题作者归属的文本样本数据,具体字段需解压后查看 文件名称:...
    packageimg
  • PAN19跨领域作者分析数据集2019

    2025年12月11日 30 156 119

    数据集概述 该数据集为PAN19评测任务的训练数据,聚焦跨领域作者归属问题,核心场景为粉丝小说(Fanfiction)的跨 fandom 作者识别。数据集包含已知作者的多 fandom 粉丝小说样本与未知作者的目标 fandom 样本,支持开放集归属任务(真实作者可能不在候选列表中)。 文件详解 数据集为单个压缩包文件,具体说明如下: - 文件名称:...
    packageimg
  • 古登堡文学作品样本数据集18本书1963-2021

    2025年4月15日 30 205 40

    古登堡文学作品样本数据集18本书1963-2021 数据来源:互联网公开数据 标签:古登堡项目,文学作品,文本样本,分类任务,自然语言处理,经典文学,样本清理 数据概述:...
    packageimg