找到44个数据集

标签: 文本清洗

过滤结果
  • NLP_Based_医学CT文本简单评分算法评估实验结果数据

    2026年1月29日 30 58 51

    数据集概述 本数据集为“简单评分型自然语言处理(NLP)算法评估”实验的结果数据,包含两个文件,涉及医学CT相关文本的评分预测任务,记录了文本内容、实际评分、预测评分及分类等信息,可用于分析该NLP算法的性能表现。 文件详解 20230513_predicted_rating.csv 文件格式:CSV...
    packageimg
  • 巴西总统演讲文本数据集_1985_2022年全量文本

    2026年1月31日 30 177 124

    数据集概述 本数据集包含1985年巴西重新民主化至2022年最后一个完整总统任期结束期间的全部总统演讲文本,以及预处理和后处理阶段使用的代码及相关文档,为研究巴西政治话语提供结构化资源。 文件详解 文件名称:base limpa e codigos.zip 文件格式:ZIP 内容说明:压缩包内包含两类核心内容:...
    packageimg
  • Serverless_Based_无服务器计算演化研究_计算文献综述_复制包数据

    2026年1月19日 30 99 69

    数据集概述 本数据集是“Understanding the Evolution of Serverless Computing: A Computational Literature Review”研究的复制包,包含Scopus数据集及基于主题建模的最终分析结果,通过LDA等技术识别学术文献中的主题集群,助力无服务器计算领域的可重复研究与进一步探索。...
    packageimg
  • Online_Social_Listening_Based_社交媒体监听原始及清洗数据集

    2026年1月13日 30 197 158

    数据集概述 本数据集为社交媒体监听数据集,包含原始数据和清洗后的数据两个文件,核心内容涉及社交媒体推文的情感分析相关信息,可用于社交媒体内容分析、情感趋势研究等场景。 文件详解 原始数据文件 文件名称:raw data.json 文件格式:JSON 字段映射介绍:包含社交媒体监听的原始数据,具体字段未明确展示,但为后续数据处理提供基础信息...
    packageimg
  • CERME_Topic_Model_Based_主题模型分析完整数据

    2025年12月20日 30 81 16

    数据集概述 该数据集是ESM论文的技术附录,包含CERME主题模型的相关文件,涵盖主题分布列表、可视化结果及模型生成代码,旨在确保研究透明度,为主题模型相关分析提供支持。 文件详解 文档类文件: Topic_model_CERME - pdf version.pdf: PDF格式,主题模型的PDF版本文档 ESM_CERME_technical...
    packageimg
  • 基于OPENNLP的模型学习数据集

    2025年12月15日 30 81 65

    数据集概述 该数据集为基于OPENNLP模型学习的训练数据,核心内容来源于萨拉托夫国立技术大学(以尤里·加加林命名)的俄语新闻源,包含文档文件与PDF文件各一份,为模型训练提供基础数据支持。 文件详解 文件名称:Data for Model Learning on base OPENNLP.docx,文件格式:docx,占比百分之五十,为文档类文件...
    packageimg
  • 科学教育研究主题建模数据集

    2025年12月10日 30 110 42

    数据集概述 本数据集包含Wiley期刊《Science Education》(前身为《General Science Quarterly》)近百年发表文章的文本数据,经清洗处理后用于自然语言处理分析,特别是潜在狄利克雷分配(LDA)主题建模。数据集包含5577篇1922年后发表的文章文本及相关元数据,并提供Jupyter...
    packageimg
  • 商品描述文本清洗数据集

    2025年9月30日 30 13 5

    商品描述文本清洗数据集_Product_Description_Text_Cleaning_Dataset 数据来源:互联网公开数据 标签:文本清洗, 商品描述, 自然语言处理, 文本预处理, 数据集, 机器学习, 文本分析, 数据标注 数据概述: 该数据集包含来自电商平台或其他来源的商品描述文本,记录了经过清洗后的商品标题和要点信息。主要特征如下:...
    packageimg
  • 印尼文本情感分析与预训练模型数据集

    2025年8月13日 30 116 106

    印尼文本情感分析与预训练模型数据集_Indonesian_Text_Sentiment_Analysis_and_Pre_trained_Model_Dataset 数据来源:互联网公开数据 标签:情感分析, 文本分类, 印尼语, 预训练模型, 自然语言处理, 数据增强, 文本清洗, 机器学习 数据概述:...
    packageimg
  • 马来语大规模文本数据集

    2025年6月1日 30 147 124

    马来语大规模文本数据集 数据来源:互联网公开数据 标签:马来语,自然语言处理,语言模型训练,文本数据,机器学习,深度学习,文本清洗 数据概述: 本数据集包含超过600万行独特的马来语文本,数据来源于多个公开数据集并经过清洗处理,确保数据的高质量和可用性。该数据集为研究人员和开发者提供了一个丰富且多样化的文本资源,适用于多种自然语言处理任务。...
    packageimg
  • Tashkeela清理阿拉伯语带音符语料库

    2025年6月1日 30 26 3

    Tashkeela清理阿拉伯语带音符语料库 数据来源:互联网公开数据 标签:阿拉伯语,自然语言处理,文本清洗,语音标注,语言模型,机器学习,数据标注 数据概述:...
    packageimg
  • CORD-19文本清洗数据集

    2025年5月31日 30 25 21

    CORD-19文本清洗数据集 数据来源:互联网公开数据 标签:文本清洗,COVID-19,学术研究,自然语言处理,数据预处理,文本挖掘,信息提取 数据概述: 本数据集是对CORD-19(COVID-19 Open Research...
    packageimg
  • 越南语文本分类数据集VietnameseTextClassificationDataset-hoangviettung

    2025年5月30日 30 152 87

    越南语文本分类数据集VietnameseTextClassificationDataset-hoangviettung 数据来源:互联网公开数据 标签:文本分类, 自然语言处理, 越南语, 多分类, 情感分析, 文本清洗, 机器学习, 深度学习 数据概述: 该数据集包含来自越南互联网的文本数据,记录了用于多类别文本分类的越南语文本示例。主要特征如下:...
    packageimg
  • 多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho

    2025年5月30日 30 153 137

    多语言恶意评论检测数据集MultilingualToxicCommentDetectionDataset-alphaecho 数据来源:互联网公开数据 标签:文本分类, 恶意评论, 多语言, 自然语言处理, 情感分析, 语言模型, 文本清洗, 机器学习 数据概述:...
    packageimg
  • 阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil

    2025年5月30日 30 121 35

    阿拉伯语文本去标点数据集ArabicTextDotlessDataset-ouassimbehlil 数据来源:互联网公开数据 标签:阿拉伯语, 文本处理, 文本清洗, 自然语言处理, 语言模型, 字符级分析, 数据预处理, 语料库 数据概述: 该数据集包含经过处理的阿拉伯语文本,记录了原始文本及其对应的去标点版本。主要特征如下:...
    packageimg
  • 维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen

    2025年5月29日 30 139 58

    维基文本清洗数据集第二部分WikitextCleanDataPart2Dataset-yingpengchen 数据来源:互联网公开数据 标签:自然语言处理,文本数据,数据集,文本清洗,机器学习,语言模型,信息检索,文本分析 数据概述: 该数据集是维基文本清洗数据集的第二部分,包含了从维基百科中提取和清洗过的文本数据。主要特征如下:...
    packageimg
  • 乱码文本清洗分析数据集GarbledTextCleaningAnalysisDataset-kaushal2896

    2025年5月29日 30 118 54

    乱码文本清洗分析数据集GarbledTextCleaningAnalysisDataset-kaushal2896 数据来源:互联网公开数据 标签:文本清洗, 数据预处理, 文本分析, 字符编码, 数据质量, 异常检测, 机器学习, 自然语言处理 数据概述: 该数据集包含经过预处理的文本数据,记录了经过编码处理后产生的乱码文本。主要特征如下:...
    packageimg
  • 越南语文本分类数据集VietnameseTextClassificationDataset-mrcausallll

    2025年5月28日 30 76 7

    越南语文本分类数据集VietnameseTextClassificationDataset-mrcausallll 数据来源:互联网公开数据 标签:文本分类, 越南语, 自然语言处理, 语料库, 商业, 行政, 文本清洗, 机器学习 数据概述: 该数据集包含来自越南语文本的数据,记录了越南语文本及其对应的类别标签。主要特征如下:...
    packageimg
  • 人工智能生成文本对比人类文本清洗数据集-dillonwongso

    2025年5月28日 30 130 34

    人工智能生成文本对比人类文本清洗数据集-dillonwongso 数据来源:互联网公开数据 标签:人工智能,文本生成,文本清洗,数据集,自然语言处理,机器学习,文本分析,对比研究 数据概述: 该数据集包含来自不同来源的人工智能生成文本和人类编写的文本,并经过清洗处理,旨在用于比较分析。主要特征如下:...
    packageimg
  • 简历文本清洗数据集ResumeCorpusCleanedDataset-joanirudh

    2025年5月28日 30 17 4

    简历文本清洗数据集ResumeCorpusCleanedDataset-joanirudh 数据来源:互联网公开数据 标签:自然语言处理,文本分析,数据集,机器学习,文本清洗,人力资源,信息提取,职业发展 数据概述: 该数据集包含经过清洗处理的简历文本数据,记录了个人简历中的关键信息。主要特征如下:...
    packageimg