-
约鲁巴语文本去重音与文本校正数据集
2026年2月21日 30 33 10
约鲁巴语文本去重音与文本校正数据集_Yoruba_Text_Diacritic_Restoration_and_Text_Correction_Dataset 数据来源:互联网公开数据 标签:约鲁巴语, 文本校正, 去重音, 自然语言处理, 语言模型, 文本预处理, 数据清洗, 机器学习 数据概述:...
-
NLP_Based_医学CT文本简单评分算法评估实验结果数据
2026年1月29日 30 115 11
数据集概述 本数据集为“简单评分型自然语言处理(NLP)算法评估”实验的结果数据,包含两个文件,涉及医学CT相关文本的评分预测任务,记录了文本内容、实际评分、预测评分及分类等信息,可用于分析该NLP算法的性能表现。 文件详解 20230513_predicted_rating.csv 文件格式:CSV...
-
evoting_Sentiment_电子投票情感分析数据集
2026年2月7日 30 110 20
数据集概述 本数据集包含电子投票相关的情感数据,涵盖原始、清理后的电子投票数据文件及情感标签文件,共4个文件。数据用于电子投票场景下的文本情感分析,包含不同处理阶段的电子投票文本数据及对应的情感标签,可支持情感分析模型训练与验证。 文件详解 电子投票原始数据文件 文件名称:evotingall.xlsx 文件格式:XLSX...
-
NVivo_Based_文本词频分析与工具对比数据集
2026年1月31日 30 191 107
数据集概述 本数据集包含使用NVivo工具生成的文本词频搜索结果文件,以及一份对比AntConc与NVivo词频结果的电子表格,共5个文件。数据聚焦于文本词频分析,支持工具间的词频结果对比,适用于文本处理相关研究。 文件详解 文档文件(.docx格式,共3个) 文件名称:Word Freq-Stem All-min3 Alphabetical...
-
Transcription_data_多主体对话转录文档数据
2026年1月29日 30 44 19
数据集概述 本数据集包含7份转录文档,主要记录Paul、Vince、Jenny三位主体的对话内容,以及一份用于分析的数据文档。所有文件均为docx格式,无目录结构或数据拆分,可直接用于对话内容的提取与分析。 文件详解 主体转录文档(共6份) 文件名称:Transcription (Paul 2).docx、Transcription (Vince...
-
SentiTopicNet_Based_NLP数据与代码资源包
2026年1月29日 30 91 47
数据集概述 本数据集为SentiTopicNet相关的自然语言处理资源集合,包含原始数据、词典文件及配套代码。数据支持数据采集、预处理、情感分析和主题分析全流程任务,总计17个文件,覆盖数据、词典与代码三类资源,可用于自然语言处理相关的模型训练与分析。 文件详解 数据文件 文件名称:data.xlsx 文件格式:XLSX...
-
Crowd_informed_Based用户故事与问题匹配结果数据
2026年1月27日 30 103 66
数据集概述 本数据集包含论文“Towards Crowd-informed Risk Assessment for User Stories”所用的用户故事与问题匹配结果数据,涉及两个项目的匹配结果及对应的提示词文件,用于支持用户故事相关的风险评估研究,共包含3个文件。 文件详解 prompt.txt 文件格式:TXT...
-
Mapping_plague_Based_自然语言处理鼠疫地理映射数据集
2026年1月21日 30 6 3
数据集概述 本数据集为“通过自然语言处理映射鼠疫”项目的配套数据与代码,包含基于Sticker(1908)和Biraben(1975)两部鼠疫论著生成的原始文件、中间数据产品及最终地理编码鼠疫数据集,用于研究NLP库与地理编码服务从叙事文本生成量化数据集的性能。 文件详解 核心数据文件...
-
StopWords_Integrated_英文葡萄牙语停用词整合数据集_版本1
2026年1月19日 30 202 105
数据集概述 本数据集整合了英文和葡萄牙语的停用词集合,分为基础版和扩展版两个Excel文件,适用于文本挖掘任务。基础版包含带重音、无重音葡萄牙语及英文停用词,扩展版则进一步补充了更多词汇,部分词汇包含故意拼写错误以适配实际文本场景。 文件详解 文件1:StopWords_Integrated_Favaretto.xlsx 文件格式:XLSX...
-
Tibetan_SpaCy_Based_藏语语言模型工具包_ver1_0_0_1
2026年1月15日 30 114 65
数据集概述 本数据集为适用于SpaCy环境的藏语语言模型工具包,由James Engels开发,属于伦敦大学亚非学院与莱比锡大学联合项目Divergent Discourses。模型使用Botok分词器处理藏语,替换音节分隔符为空格,包含停用词列表,当前版本对标准词汇处理效果良好,正开发更复杂版本,共含3个文件。 文件详解...
-
Spanish_text_corpus_Based_Wikipedia_自然语言处理语言学研究数据
2026年1月7日 30 153 78
数据集概述 本数据集是从Wikipedia提取的西班牙语文本语料库,适用于自然语言处理(NLP)和语言学研究。提取过程采用特定平台,相关方法在文献中有所记载。数据集包含原始提取结果和经清洗过滤后的句子数据,共2个文件。 文件详解 文件名称:rawdata.dat.zip 文件格式:ZIP(压缩包)...
-
Thesis_Dataset_Berita_Kriminalitas_印尼网络犯罪新闻性别歧视研究数据2023
2025年12月28日 30 145 135
数据集概述 本数据集为印尼网络犯罪新闻性别歧视研究相关的论文数据集,包含2023年1月1日至12月31日印尼犯罪新闻摘要数据、预处理结果数据,以及使用词嵌入技术在去偏前后的特征向量提取数据,整体打包为一个压缩文件。 文件详解 文件名称:Dataset and Code.zip 文件格式:ZIP...
-
乌兹别克语停用词列表数据集
2025年12月23日 30 147 32
数据集概述 本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表,涵盖单字词、双字词及带搭配的双字词停用词,为乌兹别克语自然语言处理任务提供基础资源。 文件详解 压缩包文件: uzbek_stopwords.zip: ZIP格式压缩包,包含以下核心文件: stopwords_unigrams.txt:...
-
基于OPENNLP的模型学习数据集
2025年12月15日 30 68 37
数据集概述 该数据集为基于OPENNLP模型学习的训练数据,核心内容来源于萨拉托夫国立技术大学(以尤里·加加林命名)的俄语新闻源,包含文档文件与PDF文件各一份,为模型训练提供基础数据支持。 文件详解 文件名称:Data for Model Learning on base OPENNLP.docx,文件格式:docx,占比百分之五十,为文档类文件...
-
癌症健康差异驱动因素BERTopic建模与PyCaret评估文本数据集
2025年12月14日 30 180 46
数据集概述 本数据集围绕癌症健康差异驱动因素展开,通过BERTopic建模与PyCaret评估分析PubMed癌症健康差异相关摘要文本。数据经生物信息学工具获取与预处理,聚焦社会、行为等多维度变量对癌症治疗差异的影响,为识别差异驱动因素提供支持。 文件详解 文件名称:...
-
无监督学习网络文本内容数据集
2025年10月14日 30 120 71
无监督学习网络文本内容数据集_Unsupervised_Learning_Web_Content_Dataset 数据来源:互联网公开数据 标签:文本挖掘, 无监督学习, 自然语言处理, 网页内容, 文本预处理, 语料库, 数据清洗, 机器学习 数据概述: 该数据集包含来自网络抓取的文本内容,记录了用于无监督学习模型的网页文本信息。主要特征如下:...
-
商品描述文本清洗数据集
2025年9月30日 30 185 2
商品描述文本清洗数据集_Product_Description_Text_Cleaning_Dataset 数据来源:互联网公开数据 标签:文本清洗, 商品描述, 自然语言处理, 文本预处理, 数据集, 机器学习, 文本分析, 数据标注 数据概述: 该数据集包含来自电商平台或其他来源的商品描述文本,记录了经过清洗后的商品标题和要点信息。主要特征如下:...
-
社交媒体评论文本预处理数据集
2025年8月21日 30 10 4
社交媒体评论文本预处理数据集_Social_Media_Comment_Text_Preprocessed_Dataset 数据来源:互联网公开数据 标签:文本预处理, 社交媒体, 评论分析, 自然语言处理, 文本挖掘, 数据清洗, 情感分析, 语料库 数据概述:...
-
社交媒体情感分析文本数据集
2025年8月16日 30 80 45
社交媒体情感分析文本数据集_Social_Media_Sentiment_Analysis_Text_Dataset 数据来源:互联网公开数据 标签:情感分析, 文本分类, 机器学习, 自然语言处理, 社交媒体, 情感标注, 深度学习, 文本预处理 数据概述:...
-
预处理版虚假新闻识别数据集-ceasor6
2025年5月31日 30 61 50
预处理版虚假新闻识别数据集-ceasor6 数据来源:互联网公开数据 标签:虚假新闻,文本分析,自然语言处理,机器学习,文本预处理,情感分析,数据增强 数据概述:...



