数据集 - 海数据

Goodreads_Based_书籍分类描述数据集

2026年1月31日 30 99 92

数据集概述本数据集是从书籍评论平台Goodreads收集的书籍描述集合，包含三万三千五百九十四条书籍描述，分为儿童、漫画、超自然奇幻、历史与传记、犯罪与悬疑惊悚、诗歌、浪漫和青年成人八类，涵盖书籍标题和描述信息。文件详解 texts.txt 文件格式：TXT 字段映射介绍：文档集（文本），每行对应一条书籍描述 score.txt 文件格式：TXT...

ZIP

Topic_Modeling_Based_社会与新闻媒体主题建模基准数据集

2026年1月21日 30 18 7

数据集概述本数据集为主题建模任务提供基准数据，包含20个新闻组数据集及Reddit健康论坛r/Cancer的帖子集合，用于比较基于粒子群优化（PSO）的聚类方法与传统主题建模技术。数据集共4个文件，支持NLP领域的主题建模研究与算法评估。文件详解文档类文件文件名称：readme.docx 文件格式：DOCX...

ZIP

USNM_COL_CAM_Computer_Vision_Based甲虫标本标签多源数据集

2026年1月13日 30 37 25

数据集概述本数据集包含史密森尼国家自然历史博物馆提供的912张高分辨率甲虫标本标签JPEG图像，涵盖6个鞘翅目科，标注有多标签信息。辅以OCR文本转录JSON文件和基于文本相似度的聚类CSV文件，支持鞘翅目研究、生物多样性信息学及计算机视觉相关应用。文件详解主数据文件文件名称：USNM_CURC_CAM.csv 文件格式：CSV...

ZIP

AntConc聚类工具生成文件集合

2025年12月22日 30 152 139

数据集概述本数据集为使用AntConc聚类工具生成的文件集合，包含文本、表格、图片及配置等多种格式文件，围绕不同主题词（如rights、german、ceremony等）的聚类结果展开，为文本聚类分析提供直接数据支持。文件详解文件总数：25个，均为根目录下的独立文件文件类型分布：...

ZIP

PAN12作者识别归属数据集

2025年12月5日 30 36 5

数据集概述该数据集为PAN12作者识别归属任务提供训练语料，包含不同的归属和聚类场景。相比往届，语料调整为较小作者群体的较大文档，更贴近传统精读分析的典型案例，数据来源为Feedbooks.com的免费小说集。文件详解文件名称: pan12-authorship-attribution-corpora.zip 文件格式: ZIP压缩包内容说明:...

ZIP

俄乌冲突语料文本主题聚类分析数据集

2025年11月9日 30 152 148

俄乌冲突语料文本主题聚类分析数据集_Russia_Ukraine_Conflict_Text_Topic_Clustering_Dataset 数据来源：互联网公开数据标签：俄乌冲突, 文本聚类, 主题建模, 自然语言处理, 情感分析, 舆情分析, 机器学习, 语料库数据概述：...

ZIP

文本语义相似度分析嵌入向量数据集

2025年11月2日 30 123 5

文本语义相似度分析嵌入向量数据集_Text_Semantic_Similarity_Analysis_Embedding_Vectors 数据来源：互联网公开数据标签：文本分析, 语义相似度, 嵌入向量, 机器学习, 自然语言处理, 文本表示, 模型训练, 数据集数据概述：...

ZIP

网络流行语词典数据集-2021年

2025年6月1日 30 38 26

网络流行语词典数据集-2021年数据来源：互联网公开数据标签：流行语,网络语言,词典,文本分析,自然语言处理,数据挖掘,社会学研究数据概述：本数据集包含截至2021年6月1日Urban...

ZIP

土耳其新闻摘要句子数据集-serdarcaglar

2025年5月31日 30 54 32

土耳其新闻摘要句子数据集-serdarcaglar 数据来源：互联网公开数据标签：土耳其,新闻摘要,自然语言处理,NLP,文本挖掘,语言模型,文本分类,文本聚类,词嵌入,文本提取数据概述：...

ZIP

K-Means聚类推文数据集-ved1104

2025年5月30日 30 159 151

K-Means聚类推文数据集-ved1104 数据来源：互联网公开数据标签：推文数据，文本聚类，机器学习，自然语言处理，社交媒体，数据挖掘，情感分析，主题建模数据概述：该数据集包含了从Twitter上收集的推文数据，这些数据经过了K-Means聚类分析。主要特征如下：时间跨度：数据记录的时间范围不详，取决于原始推文的收集时间。...

ZIP

文本主题聚类分析数据集TextTopicClusteringAnalysisDataset-dddmdd

2025年5月28日 30 21 7

文本主题聚类分析数据集TextTopicClusteringAnalysisDataset-dddmdd 数据来源：互联网公开数据标签：文本聚类, 主题建模, 自然语言处理, K-means, TF-IDF, UMAP, 机器学习, 教育数据概述：该数据集包含用于文本主题聚类分析的数据，记录了经过处理的文本样本及其对应的聚类结果。主要特征如下：...

ZIP

组织机构沟通文本聚类数据集OrganizationalCommunicationTextClustering-rulemj7

2025年5月1日 30 100 77

组织机构沟通文本聚类数据集OrganizationalCommunicationTextClustering-rulemj7 数据来源：互联网公开数据标签：文本聚类, 组织沟通, 自然语言处理, 文本分析, 语义理解, 语料库, 信息传递, 机器学习数据概述：...

ZIP

蛋白质摘要文本聚类分析数据集ProteinAbstractTextClusteringAnalysis-leijiang1

2025年4月30日 30 17 4

蛋白质摘要文本聚类分析数据集ProteinAbstractTextClusteringAnalysis-leijiang1 数据来源：互联网公开数据标签：蛋白质, 摘要, 文本聚类, 生物信息学, 机器学习, 文本分析, 细胞生物学, 基因表达数据概述：...

ZIP

文本聚类分析K-Means数据集TextClusteringAnalysisK-MeansDataset-amitgayar

2025年4月29日 30 159 45

文本聚类分析K-Means数据集TextClusteringAnalysisK-MeansDataset-amitgayar 数据来源：互联网公开数据标签：文本聚类, K-Means, 词频统计, 自然语言处理, 数据清洗, 文本分析, 机器学习, 语料库数据概述：...

ZIP

中国人民大学文本聚类数据集RUCTextClusteringDataset-spiritwalk

2025年4月24日 30 162 59

中国人民大学文本聚类数据集RUCTextClusteringDataset-spiritwalk 数据来源：互联网公开数据标签：文本分析，数据集，聚类算法，自然语言处理，机器学习，文本分类，信息检索，数据挖掘数据概述：该数据集由中国人民大学提供，专注于文本数据的聚类分析。主要特征如下：时间跨度：数据记录的时间范围未明确说明，推测为近年数据。...

ZIP

聚类后句子数据集SentencesAfterClusteringDataset-mrqian0509

2025年4月22日 30 48 28

聚类后句子数据集SentencesAfterClusteringDataset-mrqian0509 数据来源：互联网公开数据标签：文本分析，数据集，聚类分析，自然语言处理，机器学习，文本挖掘，数据分析，人工智能数据概述：该数据集包含通过聚类算法处理后生成的句子数据，记录了不同类别或主题的文本句子。主要特征如下：...

ZIP

新闻组文章分类数据集1990-2000

2025年4月15日 30 100 85

新闻组文章分类数据集1990-2000 数据来源：互联网公开数据标签：新闻组,文本分类,文本预处理,文本聚类,主题挖掘,主题分类,自然语言处理数据概述：...

ZIP

机器学习概率视角主题建模数据集

2025年4月14日 30 88 86

机器学习概率视角主题建模数据集数据来源：互联网公开数据标签：机器学习,概率视角,主题建模,内容识别,信息检索,文本聚类,教育资料数据概述：本数据集来源于《机器学习：概率视角》一书，收录了书中各个章节的标题及其对应的段落内容。该数据集为研究和应用机器学习技术提供了宝贵的文字资源，涵盖了广泛的机器学习主题。数据用途概述：...

ZIP

找到18个数据集

注册成功！