找到18个数据集

标签: 文本聚类

过滤结果
  • Goodreads_Based_书籍分类描述数据集

    2026年1月31日 30 99 92

    数据集概述 本数据集是从书籍评论平台Goodreads收集的书籍描述集合,包含三万三千五百九十四条书籍描述,分为儿童、漫画、超自然奇幻、历史与传记、犯罪与悬疑惊悚、诗歌、浪漫和青年成人八类,涵盖书籍标题和描述信息。 文件详解 texts.txt 文件格式:TXT 字段映射介绍:文档集(文本),每行对应一条书籍描述 score.txt 文件格式:TXT...
    packageimg
  • Topic_Modeling_Based_社会与新闻媒体主题建模基准数据集

    2026年1月21日 30 18 7

    数据集概述 本数据集为主题建模任务提供基准数据,包含20个新闻组数据集及Reddit健康论坛r/Cancer的帖子集合,用于比较基于粒子群优化(PSO)的聚类方法与传统主题建模技术。数据集共4个文件,支持NLP领域的主题建模研究与算法评估。 文件详解 文档类文件 文件名称:readme.docx 文件格式:DOCX...
    packageimg
  • USNM_COL_CAM_Computer_Vision_Based甲虫标本标签多源数据集

    2026年1月13日 30 37 25

    数据集概述 本数据集包含史密森尼国家自然历史博物馆提供的912张高分辨率甲虫标本标签JPEG图像,涵盖6个鞘翅目科,标注有多标签信息。辅以OCR文本转录JSON文件和基于文本相似度的聚类CSV文件,支持鞘翅目研究、生物多样性信息学及计算机视觉相关应用。 文件详解 主数据文件 文件名称:USNM_CURC_CAM.csv 文件格式:CSV...
    packageimg
  • AntConc聚类工具生成文件集合

    2025年12月22日 30 152 139

    数据集概述 本数据集为使用AntConc聚类工具生成的文件集合,包含文本、表格、图片及配置等多种格式文件,围绕不同主题词(如rights、german、ceremony等)的聚类结果展开,为文本聚类分析提供直接数据支持。 文件详解 文件总数:25个,均为根目录下的独立文件 文件类型分布:...
    packageimg
  • PAN12作者识别归属数据集

    2025年12月5日 30 36 5

    数据集概述 该数据集为PAN12作者识别归属任务提供训练语料,包含不同的归属和聚类场景。相比往届,语料调整为较小作者群体的较大文档,更贴近传统精读分析的典型案例,数据来源为Feedbooks.com的免费小说集。 文件详解 文件名称: pan12-authorship-attribution-corpora.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 俄乌冲突语料文本主题聚类分析数据集

    2025年11月9日 30 152 148

    俄乌冲突语料文本主题聚类分析数据集_Russia_Ukraine_Conflict_Text_Topic_Clustering_Dataset 数据来源:互联网公开数据 标签:俄乌冲突, 文本聚类, 主题建模, 自然语言处理, 情感分析, 舆情分析, 机器学习, 语料库 数据概述:...
    packageimg
  • 文本语义相似度分析嵌入向量数据集

    2025年11月2日 30 123 5

    文本语义相似度分析嵌入向量数据集_Text_Semantic_Similarity_Analysis_Embedding_Vectors 数据来源:互联网公开数据 标签:文本分析, 语义相似度, 嵌入向量, 机器学习, 自然语言处理, 文本表示, 模型训练, 数据集 数据概述:...
    packageimg
  • 网络流行语词典数据集-2021年

    2025年6月1日 30 38 26

    网络流行语词典数据集-2021年 数据来源:互联网公开数据 标签:流行语,网络语言,词典,文本分析,自然语言处理,数据挖掘,社会学研究 数据概述: 本数据集包含截至2021年6月1日Urban...
    packageimg
  • 土耳其新闻摘要句子数据集-serdarcaglar

    2025年5月31日 30 54 32

    土耳其新闻摘要句子数据集-serdarcaglar 数据来源:互联网公开数据 标签:土耳其,新闻摘要,自然语言处理,NLP,文本挖掘,语言模型,文本分类,文本聚类,词嵌入,文本提取 数据概述:...
    packageimg
  • K-Means聚类推文数据集-ved1104

    2025年5月30日 30 159 151

    K-Means聚类推文数据集-ved1104 数据来源:互联网公开数据 标签:推文数据,文本聚类,机器学习,自然语言处理,社交媒体,数据挖掘,情感分析,主题建模 数据概述: 该数据集包含了从Twitter上收集的推文数据,这些数据经过了K-Means聚类分析。主要特征如下: 时间跨度:数据记录的时间范围不详,取决于原始推文的收集时间。...
    packageimg
  • 文本主题聚类分析数据集TextTopicClusteringAnalysisDataset-dddmdd

    2025年5月28日 30 21 7

    文本主题聚类分析数据集TextTopicClusteringAnalysisDataset-dddmdd 数据来源:互联网公开数据 标签:文本聚类, 主题建模, 自然语言处理, K-means, TF-IDF, UMAP, 机器学习, 教育 数据概述: 该数据集包含用于文本主题聚类分析的数据,记录了经过处理的文本样本及其对应的聚类结果。主要特征如下:...
    packageimg
  • 组织机构沟通文本聚类数据集OrganizationalCommunicationTextClustering-rulemj7

    2025年5月1日 30 100 77

    组织机构沟通文本聚类数据集OrganizationalCommunicationTextClustering-rulemj7 数据来源:互联网公开数据 标签:文本聚类, 组织沟通, 自然语言处理, 文本分析, 语义理解, 语料库, 信息传递, 机器学习 数据概述:...
    packageimg
  • 蛋白质摘要文本聚类分析数据集ProteinAbstractTextClusteringAnalysis-leijiang1

    2025年4月30日 30 17 4

    蛋白质摘要文本聚类分析数据集ProteinAbstractTextClusteringAnalysis-leijiang1 数据来源:互联网公开数据 标签:蛋白质, 摘要, 文本聚类, 生物信息学, 机器学习, 文本分析, 细胞生物学, 基因表达 数据概述:...
    packageimg
  • 文本聚类分析K-Means数据集TextClusteringAnalysisK-MeansDataset-amitgayar

    2025年4月29日 30 159 45

    文本聚类分析K-Means数据集TextClusteringAnalysisK-MeansDataset-amitgayar 数据来源:互联网公开数据 标签:文本聚类, K-Means, 词频统计, 自然语言处理, 数据清洗, 文本分析, 机器学习, 语料库 数据概述:...
    packageimg
  • 中国人民大学文本聚类数据集RUCTextClusteringDataset-spiritwalk

    2025年4月24日 30 162 59

    中国人民大学文本聚类数据集RUCTextClusteringDataset-spiritwalk 数据来源:互联网公开数据 标签:文本分析,数据集,聚类算法,自然语言处理,机器学习,文本分类,信息检索,数据挖掘 数据概述: 该数据集由中国人民大学提供,专注于文本数据的聚类分析。主要特征如下: 时间跨度:数据记录的时间范围未明确说明,推测为近年数据。...
    packageimg
  • 聚类后句子数据集SentencesAfterClusteringDataset-mrqian0509

    2025年4月22日 30 48 28

    聚类后句子数据集SentencesAfterClusteringDataset-mrqian0509 数据来源:互联网公开数据 标签:文本分析,数据集,聚类分析,自然语言处理,机器学习,文本挖掘,数据分析,人工智能 数据概述:该数据集包含通过聚类算法处理后生成的句子数据,记录了不同类别或主题的文本句子。主要特征如下:...
    packageimg
  • 新闻组文章分类数据集1990-2000

    2025年4月15日 30 100 85

    新闻组文章分类数据集1990-2000 数据来源:互联网公开数据 标签:新闻组,文本分类,文本预处理,文本聚类,主题挖掘,主题分类,自然语言处理 数据概述:...
    packageimg
  • 机器学习概率视角主题建模数据集

    2025年4月14日 30 88 86

    机器学习概率视角主题建模数据集 数据来源:互联网公开数据 标签:机器学习,概率视角,主题建模,内容识别,信息检索,文本聚类,教育资料 数据概述: 本数据集来源于《机器学习:概率视角》一书,收录了书中各个章节的标题及其对应的段落内容。该数据集为研究和应用机器学习技术提供了宝贵的文字资源,涵盖了广泛的机器学习主题。 数据用途概述:...
    packageimg