-
Goodreads_Based_书籍分类描述数据集
2026年1月31日 30 99 92
数据集概述 本数据集是从书籍评论平台Goodreads收集的书籍描述集合,包含三万三千五百九十四条书籍描述,分为儿童、漫画、超自然奇幻、历史与传记、犯罪与悬疑惊悚、诗歌、浪漫和青年成人八类,涵盖书籍标题和描述信息。 文件详解 texts.txt 文件格式:TXT 字段映射介绍:文档集(文本),每行对应一条书籍描述 score.txt 文件格式:TXT...
-
Topic_Modeling_Based_社会与新闻媒体主题建模基准数据集
2026年1月21日 30 18 7
数据集概述 本数据集为主题建模任务提供基准数据,包含20个新闻组数据集及Reddit健康论坛r/Cancer的帖子集合,用于比较基于粒子群优化(PSO)的聚类方法与传统主题建模技术。数据集共4个文件,支持NLP领域的主题建模研究与算法评估。 文件详解 文档类文件 文件名称:readme.docx 文件格式:DOCX...
-
USNM_COL_CAM_Computer_Vision_Based甲虫标本标签多源数据集
2026年1月13日 30 37 25
数据集概述 本数据集包含史密森尼国家自然历史博物馆提供的912张高分辨率甲虫标本标签JPEG图像,涵盖6个鞘翅目科,标注有多标签信息。辅以OCR文本转录JSON文件和基于文本相似度的聚类CSV文件,支持鞘翅目研究、生物多样性信息学及计算机视觉相关应用。 文件详解 主数据文件 文件名称:USNM_CURC_CAM.csv 文件格式:CSV...
-
AntConc聚类工具生成文件集合
2025年12月22日 30 152 139
数据集概述 本数据集为使用AntConc聚类工具生成的文件集合,包含文本、表格、图片及配置等多种格式文件,围绕不同主题词(如rights、german、ceremony等)的聚类结果展开,为文本聚类分析提供直接数据支持。 文件详解 文件总数:25个,均为根目录下的独立文件 文件类型分布:...
-
PAN12作者识别归属数据集
2025年12月5日 30 36 5
数据集概述 该数据集为PAN12作者识别归属任务提供训练语料,包含不同的归属和聚类场景。相比往届,语料调整为较小作者群体的较大文档,更贴近传统精读分析的典型案例,数据来源为Feedbooks.com的免费小说集。 文件详解 文件名称: pan12-authorship-attribution-corpora.zip 文件格式: ZIP压缩包 内容说明:...
-
俄乌冲突语料文本主题聚类分析数据集
2025年11月9日 30 152 148
俄乌冲突语料文本主题聚类分析数据集_Russia_Ukraine_Conflict_Text_Topic_Clustering_Dataset 数据来源:互联网公开数据 标签:俄乌冲突, 文本聚类, 主题建模, 自然语言处理, 情感分析, 舆情分析, 机器学习, 语料库 数据概述:...
-
文本语义相似度分析嵌入向量数据集
2025年11月2日 30 123 5
文本语义相似度分析嵌入向量数据集_Text_Semantic_Similarity_Analysis_Embedding_Vectors 数据来源:互联网公开数据 标签:文本分析, 语义相似度, 嵌入向量, 机器学习, 自然语言处理, 文本表示, 模型训练, 数据集 数据概述:...
-
网络流行语词典数据集-2021年
2025年6月1日 30 38 26
网络流行语词典数据集-2021年 数据来源:互联网公开数据 标签:流行语,网络语言,词典,文本分析,自然语言处理,数据挖掘,社会学研究 数据概述: 本数据集包含截至2021年6月1日Urban...
-
土耳其新闻摘要句子数据集-serdarcaglar
2025年5月31日 30 54 32
土耳其新闻摘要句子数据集-serdarcaglar 数据来源:互联网公开数据 标签:土耳其,新闻摘要,自然语言处理,NLP,文本挖掘,语言模型,文本分类,文本聚类,词嵌入,文本提取 数据概述:...
-
K-Means聚类推文数据集-ved1104
2025年5月30日 30 159 151
K-Means聚类推文数据集-ved1104 数据来源:互联网公开数据 标签:推文数据,文本聚类,机器学习,自然语言处理,社交媒体,数据挖掘,情感分析,主题建模 数据概述: 该数据集包含了从Twitter上收集的推文数据,这些数据经过了K-Means聚类分析。主要特征如下: 时间跨度:数据记录的时间范围不详,取决于原始推文的收集时间。...
-
文本主题聚类分析数据集TextTopicClusteringAnalysisDataset-dddmdd
2025年5月28日 30 21 7
文本主题聚类分析数据集TextTopicClusteringAnalysisDataset-dddmdd 数据来源:互联网公开数据 标签:文本聚类, 主题建模, 自然语言处理, K-means, TF-IDF, UMAP, 机器学习, 教育 数据概述: 该数据集包含用于文本主题聚类分析的数据,记录了经过处理的文本样本及其对应的聚类结果。主要特征如下:...
-
组织机构沟通文本聚类数据集OrganizationalCommunicationTextClustering-rulemj7
2025年5月1日 30 100 77
组织机构沟通文本聚类数据集OrganizationalCommunicationTextClustering-rulemj7 数据来源:互联网公开数据 标签:文本聚类, 组织沟通, 自然语言处理, 文本分析, 语义理解, 语料库, 信息传递, 机器学习 数据概述:...
-
蛋白质摘要文本聚类分析数据集ProteinAbstractTextClusteringAnalysis-leijiang1
2025年4月30日 30 17 4
蛋白质摘要文本聚类分析数据集ProteinAbstractTextClusteringAnalysis-leijiang1 数据来源:互联网公开数据 标签:蛋白质, 摘要, 文本聚类, 生物信息学, 机器学习, 文本分析, 细胞生物学, 基因表达 数据概述:...
-
文本聚类分析K-Means数据集TextClusteringAnalysisK-MeansDataset-amitgayar
2025年4月29日 30 159 45
文本聚类分析K-Means数据集TextClusteringAnalysisK-MeansDataset-amitgayar 数据来源:互联网公开数据 标签:文本聚类, K-Means, 词频统计, 自然语言处理, 数据清洗, 文本分析, 机器学习, 语料库 数据概述:...
-
中国人民大学文本聚类数据集RUCTextClusteringDataset-spiritwalk
2025年4月24日 30 162 59
中国人民大学文本聚类数据集RUCTextClusteringDataset-spiritwalk 数据来源:互联网公开数据 标签:文本分析,数据集,聚类算法,自然语言处理,机器学习,文本分类,信息检索,数据挖掘 数据概述: 该数据集由中国人民大学提供,专注于文本数据的聚类分析。主要特征如下: 时间跨度:数据记录的时间范围未明确说明,推测为近年数据。...
-
聚类后句子数据集SentencesAfterClusteringDataset-mrqian0509
2025年4月22日 30 48 28
聚类后句子数据集SentencesAfterClusteringDataset-mrqian0509 数据来源:互联网公开数据 标签:文本分析,数据集,聚类分析,自然语言处理,机器学习,文本挖掘,数据分析,人工智能 数据概述:该数据集包含通过聚类算法处理后生成的句子数据,记录了不同类别或主题的文本句子。主要特征如下:...
-
新闻组文章分类数据集1990-2000
2025年4月15日 30 100 85
新闻组文章分类数据集1990-2000 数据来源:互联网公开数据 标签:新闻组,文本分类,文本预处理,文本聚类,主题挖掘,主题分类,自然语言处理 数据概述:...
-
机器学习概率视角主题建模数据集
2025年4月14日 30 88 86
机器学习概率视角主题建模数据集 数据来源:互联网公开数据 标签:机器学习,概率视角,主题建模,内容识别,信息检索,文本聚类,教育资料 数据概述: 本数据集来源于《机器学习:概率视角》一书,收录了书中各个章节的标题及其对应的段落内容。该数据集为研究和应用机器学习技术提供了宝贵的文字资源,涵盖了广泛的机器学习主题。 数据用途概述:...



