数据集 - 海数据

NLP_评分算法评估中期结果_20230513

2026年2月9日 30 97 96

数据集概述本数据集为“基于简单评分的自然语言处理（NLP）算法评估”实验的中间结果，包含2个文件，涵盖预处理后的文本数据及对应的元数据，用于记录算法实验过程中的核心信息与处理后的数据内容。文件详解元数据文件：文件名称：20230513_merged_preprocessed.metadata.xml 文件格式：XML...

ZIP

NLP_Based_医学CT文本简单评分算法评估实验结果数据

2026年1月29日 30 131 70

数据集概述本数据集为“简单评分型自然语言处理（NLP）算法评估”实验的结果数据，包含两个文件，涉及医学CT相关文本的评分预测任务，记录了文本内容、实际评分、预测评分及分类等信息，可用于分析该NLP算法的性能表现。文件详解 20230513_predicted_rating.csv 文件格式：CSV...

ZIP

巴西总统演讲文本数据集_1985_2022年全量文本

2026年1月31日 30 191 67

数据集概述本数据集包含1985年巴西重新民主化至2022年最后一个完整总统任期结束期间的全部总统演讲文本，以及预处理和后处理阶段使用的代码及相关文档，为研究巴西政治话语提供结构化资源。文件详解文件名称：base limpa e codigos.zip 文件格式：ZIP 内容说明：压缩包内包含两类核心内容：...

ZIP

Serverless_Based_无服务器计算演化研究_计算文献综述_复制包数据

2026年1月19日 30 98 57

数据集概述本数据集是“Understanding the Evolution of Serverless Computing: A Computational Literature Review”研究的复制包，包含Scopus数据集及基于主题建模的最终分析结果，通过LDA等技术识别学术文献中的主题集群，助力无服务器计算领域的可重复研究与进一步探索。...

ZIP

Online_Social_Listening_Based_社交媒体监听原始及清洗数据集

2026年1月13日 30 60 33

数据集概述本数据集为社交媒体监听数据集，包含原始数据和清洗后的数据两个文件，核心内容涉及社交媒体推文的情感分析相关信息，可用于社交媒体内容分析、情感趋势研究等场景。文件详解原始数据文件文件名称：raw data.json 文件格式：JSON 字段映射介绍：包含社交媒体监听的原始数据，具体字段未明确展示，但为后续数据处理提供基础信息...

ZIP

CERME_Topic_Model_Based_主题模型分析完整数据

2025年12月20日 30 29 9

数据集概述该数据集是ESM论文的技术附录，包含CERME主题模型的相关文件，涵盖主题分布列表、可视化结果及模型生成代码，旨在确保研究透明度，为主题模型相关分析提供支持。文件详解文档类文件: Topic_model_CERME - pdf version.pdf: PDF格式，主题模型的PDF版本文档 ESM_CERME_technical...

ZIP

基于OPENNLP的模型学习数据集

2025年12月15日 30 30 17

数据集概述该数据集为基于OPENNLP模型学习的训练数据，核心内容来源于萨拉托夫国立技术大学（以尤里·加加林命名）的俄语新闻源，包含文档文件与PDF文件各一份，为模型训练提供基础数据支持。文件详解文件名称：Data for Model Learning on base OPENNLP.docx，文件格式：docx，占比百分之五十，为文档类文件...

ZIP

科学教育研究主题建模数据集

2025年12月10日 30 147 29

数据集概述本数据集包含Wiley期刊《Science Education》（前身为《General Science Quarterly》）近百年发表文章的文本数据，经清洗处理后用于自然语言处理分析，特别是潜在狄利克雷分配（LDA）主题建模。数据集包含5577篇1922年后发表的文章文本及相关元数据，并提供Jupyter...

ZIP

商品描述文本清洗数据集

2025年9月30日 30 146 45

商品描述文本清洗数据集_Product_Description_Text_Cleaning_Dataset 数据来源：互联网公开数据标签：文本清洗, 商品描述, 自然语言处理, 文本预处理, 数据集, 机器学习, 文本分析, 数据标注数据概述：该数据集包含来自电商平台或其他来源的商品描述文本，记录了经过清洗后的商品标题和要点信息。主要特征如下：...

ZIP

印尼文本情感分析与预训练模型数据集

2025年8月13日 30 181 25

印尼文本情感分析与预训练模型数据集_Indonesian_Text_Sentiment_Analysis_and_Pre_trained_Model_Dataset 数据来源：互联网公开数据标签：情感分析, 文本分类, 印尼语, 预训练模型, 自然语言处理, 数据增强, 文本清洗, 机器学习数据概述：...

ZIP

马来语大规模文本数据集

2025年6月1日 30 114 84

马来语大规模文本数据集数据来源：互联网公开数据标签：马来语,自然语言处理,语言模型训练,文本数据,机器学习,深度学习,文本清洗数据概述：本数据集包含超过600万行独特的马来语文本，数据来源于多个公开数据集并经过清洗处理，确保数据的高质量和可用性。该数据集为研究人员和开发者提供了一个丰富且多样化的文本资源，适用于多种自然语言处理任务。...

ZIP

Tashkeela清理阿拉伯语带音符语料库

2025年6月1日 30 101 51

Tashkeela清理阿拉伯语带音符语料库数据来源：互联网公开数据标签：阿拉伯语,自然语言处理,文本清洗,语音标注,语言模型,机器学习,数据标注数据概述：...

ZIP

CORD-19文本清洗数据集

2025年5月31日 30 149 134

CORD-19文本清洗数据集数据来源：互联网公开数据标签：文本清洗,COVID-19,学术研究,自然语言处理,数据预处理,文本挖掘,信息提取数据概述：本数据集是对CORD-19（COVID-19 Open Research...

ZIP

越南语文本分类数据集VietnameseTextClassificationDataset-hoangviettung

2025年5月30日 30 107 82

越南语文本分类数据集VietnameseTextClassificationDataset-hoangviettung 数据来源：互联网公开数据标签：文本分类, 自然语言处理, 越南语, 多分类, 情感分析, 文本清洗, 机器学习, 深度学习数据概述：该数据集包含来自越南互联网的文本数据，记录了用于多类别文本分类的越南语文本示例。主要特征如下：...

ZIP

多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho

2025年5月30日 30 7 4

多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho 数据来源：互联网公开数据标签：文本分类, 恶意评论, 多语言, 自然语言处理, 情感分析, 语言模型, 文本清洗, 机器学习数据概述：...

ZIP

阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil

2025年5月30日 30 55 1

阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil 数据来源：互联网公开数据标签：阿拉伯语, 文本处理, 文本清洗, 自然语言处理, 语言模型, 字符级分析, 数据预处理, 语料库数据概述：该数据集包含经过处理的阿拉伯语文本，记录了原始文本及其对应的去标点版本。主要特征如下：...

ZIP

维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen

2025年5月29日 30 127 99

维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen 数据来源：互联网公开数据标签：自然语言处理，文本数据，数据集，文本清洗，机器学习，语言模型，信息检索，文本分析数据概述：该数据集是维基文本清洗数据集的第二部分，包含了从维基百科中提取和清洗过的文本数据。主要特征如下：...

ZIP

乱码文本清洗分析数据集GarbledTextCleaningAnalysisDataset-kaushal2896

2025年5月29日 30 1 0

乱码文本清洗分析数据集GarbledTextCleaningAnalysisDataset-kaushal2896 数据来源：互联网公开数据标签：文本清洗, 数据预处理, 文本分析, 字符编码, 数据质量, 异常检测, 机器学习, 自然语言处理数据概述：该数据集包含经过预处理的文本数据，记录了经过编码处理后产生的乱码文本。主要特征如下：...

ZIP

越南语文本分类数据集VietnameseTextClassificationDataset-mrcausallll

2025年5月28日 30 67 11

越南语文本分类数据集VietnameseTextClassificationDataset-mrcausallll 数据来源：互联网公开数据标签：文本分类, 越南语, 自然语言处理, 语料库, 商业, 行政, 文本清洗, 机器学习数据概述：该数据集包含来自越南语文本的数据，记录了越南语文本及其对应的类别标签。主要特征如下：...

ZIP

人工智能生成文本对比人类文本清洗数据集-dillonwongso

2025年5月28日 30 144 67

人工智能生成文本对比人类文本清洗数据集-dillonwongso 数据来源：互联网公开数据标签：人工智能，文本生成，文本清洗，数据集，自然语言处理，机器学习，文本分析，对比研究数据概述：该数据集包含来自不同来源的人工智能生成文本和人类编写的文本，并经过清洗处理，旨在用于比较分析。主要特征如下：...

ZIP

找到45个数据集

注册成功！