找到94个数据集

标签: 文本预处理

过滤结果
  • Spanish_text_corpus_Based_Wikipedia_自然语言处理语言学研究数据

    2026年1月7日 30 1 0

    数据集概述 本数据集是从Wikipedia提取的西班牙语文本语料库,适用于自然语言处理(NLP)和语言学研究。提取过程采用特定平台,相关方法在文献中有所记载。数据集包含原始提取结果和经清洗过滤后的句子数据,共2个文件。 文件详解 文件名称:rawdata.dat.zip 文件格式:ZIP(压缩包)...
    packageimg
  • Thesis_Dataset_Berita_Kriminalitas_印尼网络犯罪新闻性别歧视研究数据2023

    2025年12月28日 30 151 113

    数据集概述 本数据集为印尼网络犯罪新闻性别歧视研究相关的论文数据集,包含2023年1月1日至12月31日印尼犯罪新闻摘要数据、预处理结果数据,以及使用词嵌入技术在去偏前后的特征向量提取数据,整体打包为一个压缩文件。 文件详解 文件名称:Dataset and Code.zip 文件格式:ZIP...
    packageimg
  • 乌兹别克语停用词列表数据集

    2025年12月23日 30 199 59

    数据集概述 本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表,涵盖单字词、双字词及带搭配的双字词停用词,为乌兹别克语自然语言处理任务提供基础资源。 文件详解 压缩包文件: uzbek_stopwords.zip: ZIP格式压缩包,包含以下核心文件: stopwords_unigrams.txt:...
    packageimg
  • 基于OPENNLP的模型学习数据集

    2025年12月15日 30 89 82

    数据集概述 该数据集为基于OPENNLP模型学习的训练数据,核心内容来源于萨拉托夫国立技术大学(以尤里·加加林命名)的俄语新闻源,包含文档文件与PDF文件各一份,为模型训练提供基础数据支持。 文件详解 文件名称:Data for Model Learning on base OPENNLP.docx,文件格式:docx,占比百分之五十,为文档类文件...
    packageimg
  • 癌症健康差异驱动因素BERTopic建模与PyCaret评估文本数据集

    2025年12月14日 30 30 29

    数据集概述 本数据集围绕癌症健康差异驱动因素展开,通过BERTopic建模与PyCaret评估分析PubMed癌症健康差异相关摘要文本。数据经生物信息学工具获取与预处理,聚焦社会、行为等多维度变量对癌症治疗差异的影响,为识别差异驱动因素提供支持。 文件详解 文件名称:...
    packageimg
  • 无监督学习网络文本内容数据集

    2025年10月14日 30 154 67

    无监督学习网络文本内容数据集_Unsupervised_Learning_Web_Content_Dataset 数据来源:互联网公开数据 标签:文本挖掘, 无监督学习, 自然语言处理, 网页内容, 文本预处理, 语料库, 数据清洗, 机器学习 数据概述: 该数据集包含来自网络抓取的文本内容,记录了用于无监督学习模型的网页文本信息。主要特征如下:...
    packageimg
  • 商品描述文本清洗数据集

    2025年9月30日 30 3 1

    商品描述文本清洗数据集_Product_Description_Text_Cleaning_Dataset 数据来源:互联网公开数据 标签:文本清洗, 商品描述, 自然语言处理, 文本预处理, 数据集, 机器学习, 文本分析, 数据标注 数据概述: 该数据集包含来自电商平台或其他来源的商品描述文本,记录了经过清洗后的商品标题和要点信息。主要特征如下:...
    packageimg
  • 社交媒体评论文本预处理数据集

    2025年8月21日 30 26 13

    社交媒体评论文本预处理数据集_Social_Media_Comment_Text_Preprocessed_Dataset 数据来源:互联网公开数据 标签:文本预处理, 社交媒体, 评论分析, 自然语言处理, 文本挖掘, 数据清洗, 情感分析, 语料库 数据概述:...
    packageimg
  • 社交媒体情感分析文本数据集

    2025年8月16日 30 30 0

    社交媒体情感分析文本数据集_Social_Media_Sentiment_Analysis_Text_Dataset 数据来源:互联网公开数据 标签:情感分析, 文本分类, 机器学习, 自然语言处理, 社交媒体, 情感标注, 深度学习, 文本预处理 数据概述:...
    packageimg
  • 预处理版虚假新闻识别数据集-ceasor6

    2025年5月31日 30 156 29

    预处理版虚假新闻识别数据集-ceasor6 数据来源:互联网公开数据 标签:虚假新闻,文本分析,自然语言处理,机器学习,文本预处理,情感分析,数据增强 数据概述:...
    packageimg
  • 文本数据多模态分类与分析数据集TextDataMulti-ModalClassificationandAnalysisDataset-dipanwitac...

    2025年5月31日 30 42 20

    文本数据多模态分类与分析数据集TextDataMulti-ModalClassificationandAnalysisDataset-dipanwitachakrabarty 数据来源:互联网公开数据 标签:文本分类, 垃圾邮件检测, 情感分析, 文本预处理, 多模态数据, 自然语言处理, 机器学习, 数据挖掘 数据概述:...
    packageimg
  • 推特情感分析文本数据集TwitterSentimentAnalysisTextDataset-sahilkadiyan

    2025年5月31日 30 170 22

    推特情感分析文本数据集TwitterSentimentAnalysisTextDataset-sahilkadiyan 数据来源:互联网公开数据 标签:情感分析, 文本分类, 推特数据, 自然语言处理, 情感极性, 机器学习, 文本预处理, Hugging Face 数据概述:...
    packageimg
  • 乌克兰战争社交媒体文本分析数据集UkraineWarSocialMediaTextAnalysis-deepusingla

    2025年5月31日 30 28 12

    乌克兰战争社交媒体文本分析数据集UkraineWarSocialMediaTextAnalysis-deepusingla 数据来源:互联网公开数据 标签:乌克兰战争, 社交媒体, 文本分析, 自然语言处理, 舆情分析, 情感分析, 战争冲突, 文本预处理 数据概述:...
    packageimg
  • 乌尔都语推文情感分析数据集UrduTweetSentimentAnalysis-rimshajanjua

    2025年5月30日 30 159 56

    乌尔都语推文情感分析数据集UrduTweetSentimentAnalysis-rimshajanjua 数据来源:互联网公开数据 标签:情感分析, 文本分类, 乌尔都语, 自然语言处理, 机器学习, 文本预处理, 情感极性, 语料库 数据概述:...
    packageimg
  • 文本预处理语料库TextPreprocessingCorpus-dinhnhattruong

    2025年5月30日 30 33 25

    文本预处理语料库TextPreprocessingCorpus-dinhnhattruong 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,机器学习,文本挖掘,数据清洗,语言学,信息检索 数据概述:该数据集包含了来自互联网和公开出版物的文本数据,适用于文本预处理、自然语言处理等任务。主要特征如下:...
    packageimg
  • 商品标题文本预处理数据集ProductTitleTextPreprocessing-akshatgargbot

    2025年5月30日 30 115 26

    商品标题文本预处理数据集ProductTitleTextPreprocessing-akshatgargbot 数据来源:互联网公开数据 标签:商品标题, 文本预处理, 词干提取, 词形还原, 自然语言处理, 文本挖掘, 数据清洗, 机器学习 数据概述:...
    packageimg
  • 文本数据常用词汇统计分析数据集TextDataCommonWordStatisticsAnalysis-shivamanhar

    2025年5月30日 30 33 30

    文本数据常用词汇统计分析数据集TextDataCommonWordStatisticsAnalysis-shivamanhar 数据来源:互联网公开数据 标签:文本分析, 词频统计, 自然语言处理, 语料库, 数据清洗, 文本预处理, 基础词汇, 数据集 数据概述:...
    packageimg
  • 文字限制采样数据集SampledDataWordLimit190Dataset-amrkhaledsaleh

    2025年5月29日 30 6 4

    文字限制采样数据集SampledDataWordLimit190Dataset-amrkhaledsaleh 数据来源:互联网公开数据 标签:文本分析,数据集,自然语言处理,机器学习,语言学,文本挖掘,文本分类,文本预处理 数据概述:该数据集包含了经过采样的文本数据,每段文本的字数限制在190字内,适用于自然语言处理和文本分析任务。主要特征如下:...
    packageimg
  • 科勒里奇预处理文本数据集ColeridgeProcessedTextDataset-peaceduck

    2025年5月29日 30 89 82

    科勒里奇预处理文本数据集ColeridgeProcessedTextDataset-peaceduck 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,机器学习,文本分析,语言模型,数据处理,学术研究 数据概述:该数据集包含来自科勒里奇项目(Coleridge...
    packageimg
  • 人工智能生成文本预处理数据集AI-GeneratedTextPreprocessedDataset-arcfahad

    2025年5月29日 30 208 18

    人工智能生成文本预处理数据集AI-GeneratedTextPreprocessedDataset-arcfahad 数据来源:互联网公开数据 标签:人工智能,自然语言处理,文本生成,数据集,机器学习,文本预处理,语言模型,算法研究 数据概述: 该数据集包含经过预处理的由人工智能生成的文本数据,记录了多种类型和风格的文本内容。主要特征如下:...
    packageimg