数据集 - 海数据

亚马逊商品评论情感分析预处理数据集

2026年3月9日 30 195 89

亚马逊商品评论情感分析预处理数据集_Amazon_Product_Reviews_Sentiment_Analysis_Preprocessing_Dataset 数据来源：互联网公开数据标签：亚马逊评论, 情感分析, 文本预处理, 词频统计, 自然语言处理, 停用词, 词向量, 数据清洗数据概述：...

ZIP

深度学习文本分类数据集

2026年3月1日 0 150 140

深度学习文本分类数据集_Deep_Learning_Text_Classification_Dataset 数据来源：互联网公开数据标签：文本分类, 深度学习, 词嵌入, 情感分析, 文本预处理, 模型训练, 数据集, 自然语言处理数据概述：该数据集包含用于训练和评估深度学习文本分类模型的数据，适用于各种文本分类任务。主要特征如下：...

约鲁巴语文本去重音与文本校正数据集

2026年2月21日 30 124 25

约鲁巴语文本去重音与文本校正数据集_Yoruba_Text_Diacritic_Restoration_and_Text_Correction_Dataset 数据来源：互联网公开数据标签：约鲁巴语, 文本校正, 去重音, 自然语言处理, 语言模型, 文本预处理, 数据清洗, 机器学习数据概述：...

ZIP

NLP_Based_医学CT文本简单评分算法评估实验结果数据

2026年1月29日 30 151 122

数据集概述本数据集为“简单评分型自然语言处理（NLP）算法评估”实验的结果数据，包含两个文件，涉及医学CT相关文本的评分预测任务，记录了文本内容、实际评分、预测评分及分类等信息，可用于分析该NLP算法的性能表现。文件详解 20230513_predicted_rating.csv 文件格式：CSV...

ZIP

evoting_Sentiment_电子投票情感分析数据集

2026年2月7日 30 146 19

数据集概述本数据集包含电子投票相关的情感数据，涵盖原始、清理后的电子投票数据文件及情感标签文件，共4个文件。数据用于电子投票场景下的文本情感分析，包含不同处理阶段的电子投票文本数据及对应的情感标签，可支持情感分析模型训练与验证。文件详解电子投票原始数据文件文件名称：evotingall.xlsx 文件格式：XLSX...

ZIP

NVivo_Based_文本词频分析与工具对比数据集

2026年1月31日 30 39 32

数据集概述本数据集包含使用NVivo工具生成的文本词频搜索结果文件，以及一份对比AntConc与NVivo词频结果的电子表格，共5个文件。数据聚焦于文本词频分析，支持工具间的词频结果对比，适用于文本处理相关研究。文件详解文档文件（.docx格式，共3个）文件名称：Word Freq-Stem All-min3 Alphabetical...

ZIP

Transcription_data_多主体对话转录文档数据

2026年1月29日 30 169 145

数据集概述本数据集包含7份转录文档，主要记录Paul、Vince、Jenny三位主体的对话内容，以及一份用于分析的数据文档。所有文件均为docx格式，无目录结构或数据拆分，可直接用于对话内容的提取与分析。文件详解主体转录文档（共6份）文件名称：Transcription (Paul 2).docx、Transcription (Vince...

ZIP

SentiTopicNet_Based_NLP数据与代码资源包

2026年1月29日 30 63 62

数据集概述本数据集为SentiTopicNet相关的自然语言处理资源集合，包含原始数据、词典文件及配套代码。数据支持数据采集、预处理、情感分析和主题分析全流程任务，总计17个文件，覆盖数据、词典与代码三类资源，可用于自然语言处理相关的模型训练与分析。文件详解数据文件文件名称：data.xlsx 文件格式：XLSX...

ZIP

Crowd_informed_Based用户故事与问题匹配结果数据

2026年1月27日 30 70 36

数据集概述本数据集包含论文“Towards Crowd-informed Risk Assessment for User Stories”所用的用户故事与问题匹配结果数据，涉及两个项目的匹配结果及对应的提示词文件，用于支持用户故事相关的风险评估研究，共包含3个文件。文件详解 prompt.txt 文件格式：TXT...

ZIP

Mapping_plague_Based_自然语言处理鼠疫地理映射数据集

2026年1月21日 30 18 1

数据集概述本数据集为“通过自然语言处理映射鼠疫”项目的配套数据与代码，包含基于Sticker（1908）和Biraben（1975）两部鼠疫论著生成的原始文件、中间数据产品及最终地理编码鼠疫数据集，用于研究NLP库与地理编码服务从叙事文本生成量化数据集的性能。文件详解核心数据文件...

ZIP

StopWords_Integrated_英文葡萄牙语停用词整合数据集_版本1

2026年1月19日 30 93 37

数据集概述本数据集整合了英文和葡萄牙语的停用词集合，分为基础版和扩展版两个Excel文件，适用于文本挖掘任务。基础版包含带重音、无重音葡萄牙语及英文停用词，扩展版则进一步补充了更多词汇，部分词汇包含故意拼写错误以适配实际文本场景。文件详解文件1：StopWords_Integrated_Favaretto.xlsx 文件格式：XLSX...

ZIP

Tibetan_SpaCy_Based_藏语语言模型工具包_ver1_0_0_1

2026年1月15日 30 161 38

数据集概述本数据集为适用于SpaCy环境的藏语语言模型工具包，由James Engels开发，属于伦敦大学亚非学院与莱比锡大学联合项目Divergent Discourses。模型使用Botok分词器处理藏语，替换音节分隔符为空格，包含停用词列表，当前版本对标准词汇处理效果良好，正开发更复杂版本，共含3个文件。文件详解...

ZIP

Spanish_text_corpus_Based_Wikipedia_自然语言处理语言学研究数据

2026年1月7日 30 88 38

数据集概述本数据集是从Wikipedia提取的西班牙语文本语料库，适用于自然语言处理（NLP）和语言学研究。提取过程采用特定平台，相关方法在文献中有所记载。数据集包含原始提取结果和经清洗过滤后的句子数据，共2个文件。文件详解文件名称：rawdata.dat.zip 文件格式：ZIP（压缩包）...

ZIP

Thesis_Dataset_Berita_Kriminalitas_印尼网络犯罪新闻性别歧视研究数据2023

2025年12月28日 30 100 38

数据集概述本数据集为印尼网络犯罪新闻性别歧视研究相关的论文数据集，包含2023年1月1日至12月31日印尼犯罪新闻摘要数据、预处理结果数据，以及使用词嵌入技术在去偏前后的特征向量提取数据，整体打包为一个压缩文件。文件详解文件名称：Dataset and Code.zip 文件格式：ZIP...

ZIP

乌兹别克语停用词列表数据集

2025年12月23日 30 136 86

数据集概述本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表，涵盖单字词、双字词及带搭配的双字词停用词，为乌兹别克语自然语言处理任务提供基础资源。文件详解压缩包文件: uzbek_stopwords.zip: ZIP格式压缩包，包含以下核心文件： stopwords_unigrams.txt:...

ZIP

基于OPENNLP的模型学习数据集

2025年12月15日 30 41 34

数据集概述该数据集为基于OPENNLP模型学习的训练数据，核心内容来源于萨拉托夫国立技术大学（以尤里·加加林命名）的俄语新闻源，包含文档文件与PDF文件各一份，为模型训练提供基础数据支持。文件详解文件名称：Data for Model Learning on base OPENNLP.docx，文件格式：docx，占比百分之五十，为文档类文件...

ZIP

癌症健康差异驱动因素BERTopic建模与PyCaret评估文本数据集

2025年12月14日 30 77 42

数据集概述本数据集围绕癌症健康差异驱动因素展开，通过BERTopic建模与PyCaret评估分析PubMed癌症健康差异相关摘要文本。数据经生物信息学工具获取与预处理，聚焦社会、行为等多维度变量对癌症治疗差异的影响，为识别差异驱动因素提供支持。文件详解文件名称:...

ZIP

无监督学习网络文本内容数据集

2025年10月14日 30 77 60

无监督学习网络文本内容数据集_Unsupervised_Learning_Web_Content_Dataset 数据来源：互联网公开数据标签：文本挖掘, 无监督学习, 自然语言处理, 网页内容, 文本预处理, 语料库, 数据清洗, 机器学习数据概述：该数据集包含来自网络抓取的文本内容，记录了用于无监督学习模型的网页文本信息。主要特征如下：...

ZIP

商品描述文本清洗数据集

2025年9月30日 30 66 30

商品描述文本清洗数据集_Product_Description_Text_Cleaning_Dataset 数据来源：互联网公开数据标签：文本清洗, 商品描述, 自然语言处理, 文本预处理, 数据集, 机器学习, 文本分析, 数据标注数据概述：该数据集包含来自电商平台或其他来源的商品描述文本，记录了经过清洗后的商品标题和要点信息。主要特征如下：...