找到104个数据集

标签: 文本预处理

过滤结果
  • 约鲁巴语文本去重音与文本校正数据集

    2026年2月21日 30 33 10

    约鲁巴语文本去重音与文本校正数据集_Yoruba_Text_Diacritic_Restoration_and_Text_Correction_Dataset 数据来源:互联网公开数据 标签:约鲁巴语, 文本校正, 去重音, 自然语言处理, 语言模型, 文本预处理, 数据清洗, 机器学习 数据概述:...
    packageimg
  • NLP_Based_医学CT文本简单评分算法评估实验结果数据

    2026年1月29日 30 115 11

    数据集概述 本数据集为“简单评分型自然语言处理(NLP)算法评估”实验的结果数据,包含两个文件,涉及医学CT相关文本的评分预测任务,记录了文本内容、实际评分、预测评分及分类等信息,可用于分析该NLP算法的性能表现。 文件详解 20230513_predicted_rating.csv 文件格式:CSV...
    packageimg
  • evoting_Sentiment_电子投票情感分析数据集

    2026年2月7日 30 110 20

    数据集概述 本数据集包含电子投票相关的情感数据,涵盖原始、清理后的电子投票数据文件及情感标签文件,共4个文件。数据用于电子投票场景下的文本情感分析,包含不同处理阶段的电子投票文本数据及对应的情感标签,可支持情感分析模型训练与验证。 文件详解 电子投票原始数据文件 文件名称:evotingall.xlsx 文件格式:XLSX...
    packageimg
  • NVivo_Based_文本词频分析与工具对比数据集

    2026年1月31日 30 191 107

    数据集概述 本数据集包含使用NVivo工具生成的文本词频搜索结果文件,以及一份对比AntConc与NVivo词频结果的电子表格,共5个文件。数据聚焦于文本词频分析,支持工具间的词频结果对比,适用于文本处理相关研究。 文件详解 文档文件(.docx格式,共3个) 文件名称:Word Freq-Stem All-min3 Alphabetical...
    packageimg
  • Transcription_data_多主体对话转录文档数据

    2026年1月29日 30 44 19

    数据集概述 本数据集包含7份转录文档,主要记录Paul、Vince、Jenny三位主体的对话内容,以及一份用于分析的数据文档。所有文件均为docx格式,无目录结构或数据拆分,可直接用于对话内容的提取与分析。 文件详解 主体转录文档(共6份) 文件名称:Transcription (Paul 2).docx、Transcription (Vince...
    packageimg
  • SentiTopicNet_Based_NLP数据与代码资源包

    2026年1月29日 30 91 47

    数据集概述 本数据集为SentiTopicNet相关的自然语言处理资源集合,包含原始数据、词典文件及配套代码。数据支持数据采集、预处理、情感分析和主题分析全流程任务,总计17个文件,覆盖数据、词典与代码三类资源,可用于自然语言处理相关的模型训练与分析。 文件详解 数据文件 文件名称:data.xlsx 文件格式:XLSX...
    packageimg
  • Crowd_informed_Based用户故事与问题匹配结果数据

    2026年1月27日 30 103 66

    数据集概述 本数据集包含论文“Towards Crowd-informed Risk Assessment for User Stories”所用的用户故事与问题匹配结果数据,涉及两个项目的匹配结果及对应的提示词文件,用于支持用户故事相关的风险评估研究,共包含3个文件。 文件详解 prompt.txt 文件格式:TXT...
    packageimg
  • Mapping_plague_Based_自然语言处理鼠疫地理映射数据集

    2026年1月21日 30 6 3

    数据集概述 本数据集为“通过自然语言处理映射鼠疫”项目的配套数据与代码,包含基于Sticker(1908)和Biraben(1975)两部鼠疫论著生成的原始文件、中间数据产品及最终地理编码鼠疫数据集,用于研究NLP库与地理编码服务从叙事文本生成量化数据集的性能。 文件详解 核心数据文件...
    packageimg
  • StopWords_Integrated_英文葡萄牙语停用词整合数据集_版本1

    2026年1月19日 30 202 105

    数据集概述 本数据集整合了英文和葡萄牙语的停用词集合,分为基础版和扩展版两个Excel文件,适用于文本挖掘任务。基础版包含带重音、无重音葡萄牙语及英文停用词,扩展版则进一步补充了更多词汇,部分词汇包含故意拼写错误以适配实际文本场景。 文件详解 文件1:StopWords_Integrated_Favaretto.xlsx 文件格式:XLSX...
    packageimg
  • Tibetan_SpaCy_Based_藏语语言模型工具包_ver1_0_0_1

    2026年1月15日 30 114 65

    数据集概述 本数据集为适用于SpaCy环境的藏语语言模型工具包,由James Engels开发,属于伦敦大学亚非学院与莱比锡大学联合项目Divergent Discourses。模型使用Botok分词器处理藏语,替换音节分隔符为空格,包含停用词列表,当前版本对标准词汇处理效果良好,正开发更复杂版本,共含3个文件。 文件详解...
    packageimg
  • Spanish_text_corpus_Based_Wikipedia_自然语言处理语言学研究数据

    2026年1月7日 30 153 78

    数据集概述 本数据集是从Wikipedia提取的西班牙语文本语料库,适用于自然语言处理(NLP)和语言学研究。提取过程采用特定平台,相关方法在文献中有所记载。数据集包含原始提取结果和经清洗过滤后的句子数据,共2个文件。 文件详解 文件名称:rawdata.dat.zip 文件格式:ZIP(压缩包)...
    packageimg
  • Thesis_Dataset_Berita_Kriminalitas_印尼网络犯罪新闻性别歧视研究数据2023

    2025年12月28日 30 145 135

    数据集概述 本数据集为印尼网络犯罪新闻性别歧视研究相关的论文数据集,包含2023年1月1日至12月31日印尼犯罪新闻摘要数据、预处理结果数据,以及使用词嵌入技术在去偏前后的特征向量提取数据,整体打包为一个压缩文件。 文件详解 文件名称:Dataset and Code.zip 文件格式:ZIP...
    packageimg
  • 乌兹别克语停用词列表数据集

    2025年12月23日 30 147 32

    数据集概述 本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表,涵盖单字词、双字词及带搭配的双字词停用词,为乌兹别克语自然语言处理任务提供基础资源。 文件详解 压缩包文件: uzbek_stopwords.zip: ZIP格式压缩包,包含以下核心文件: stopwords_unigrams.txt:...
    packageimg
  • 基于OPENNLP的模型学习数据集

    2025年12月15日 30 68 37

    数据集概述 该数据集为基于OPENNLP模型学习的训练数据,核心内容来源于萨拉托夫国立技术大学(以尤里·加加林命名)的俄语新闻源,包含文档文件与PDF文件各一份,为模型训练提供基础数据支持。 文件详解 文件名称:Data for Model Learning on base OPENNLP.docx,文件格式:docx,占比百分之五十,为文档类文件...
    packageimg
  • 癌症健康差异驱动因素BERTopic建模与PyCaret评估文本数据集

    2025年12月14日 30 180 46

    数据集概述 本数据集围绕癌症健康差异驱动因素展开,通过BERTopic建模与PyCaret评估分析PubMed癌症健康差异相关摘要文本。数据经生物信息学工具获取与预处理,聚焦社会、行为等多维度变量对癌症治疗差异的影响,为识别差异驱动因素提供支持。 文件详解 文件名称:...
    packageimg
  • 无监督学习网络文本内容数据集

    2025年10月14日 30 120 71

    无监督学习网络文本内容数据集_Unsupervised_Learning_Web_Content_Dataset 数据来源:互联网公开数据 标签:文本挖掘, 无监督学习, 自然语言处理, 网页内容, 文本预处理, 语料库, 数据清洗, 机器学习 数据概述: 该数据集包含来自网络抓取的文本内容,记录了用于无监督学习模型的网页文本信息。主要特征如下:...
    packageimg
  • 商品描述文本清洗数据集

    2025年9月30日 30 185 2

    商品描述文本清洗数据集_Product_Description_Text_Cleaning_Dataset 数据来源:互联网公开数据 标签:文本清洗, 商品描述, 自然语言处理, 文本预处理, 数据集, 机器学习, 文本分析, 数据标注 数据概述: 该数据集包含来自电商平台或其他来源的商品描述文本,记录了经过清洗后的商品标题和要点信息。主要特征如下:...
    packageimg
  • 社交媒体评论文本预处理数据集

    2025年8月21日 30 10 4

    社交媒体评论文本预处理数据集_Social_Media_Comment_Text_Preprocessed_Dataset 数据来源:互联网公开数据 标签:文本预处理, 社交媒体, 评论分析, 自然语言处理, 文本挖掘, 数据清洗, 情感分析, 语料库 数据概述:...
    packageimg
  • 社交媒体情感分析文本数据集

    2025年8月16日 30 80 45

    社交媒体情感分析文本数据集_Social_Media_Sentiment_Analysis_Text_Dataset 数据来源:互联网公开数据 标签:情感分析, 文本分类, 机器学习, 自然语言处理, 社交媒体, 情感标注, 深度学习, 文本预处理 数据概述:...
    packageimg
  • 预处理版虚假新闻识别数据集-ceasor6

    2025年5月31日 30 61 50

    预处理版虚假新闻识别数据集-ceasor6 数据来源:互联网公开数据 标签:虚假新闻,文本分析,自然语言处理,机器学习,文本预处理,情感分析,数据增强 数据概述:...
    packageimg