找到4个数据集

标签: 预处理文本

过滤结果
  • NLP_评分算法评估中期结果_20230513

    2026年2月9日 30 107 23

    数据集概述 本数据集为“基于简单评分的自然语言处理(NLP)算法评估”实验的中间结果,包含2个文件,涵盖预处理后的文本数据及对应的元数据,用于记录算法实验过程中的核心信息与处理后的数据内容。 文件详解 元数据文件: 文件名称:20230513_merged_preprocessed.metadata.xml 文件格式:XML...
    packageimg
  • Astronomia_nova_Kepler著作预处理文本机器学习数据集

    2026年1月21日 30 128 79

    数据集概述 本数据集为开普勒《新天文学》(Astronomia nova)的预处理文本语料库,源自Donahue翻译的2015年修订版,经OCR和自动化文本处理生成UTF8编码的机器可读纯文本,移除特殊字符、引用标记等,保留部分OCR误差。包含3个文件,用于机器学习场景。 文件详解 readme.md 文件格式:MD...
    packageimg
  • Pinjaman_Online_Based_Twitter社交媒体在线贷款主题数据集

    2026年1月14日 30 75 52

    数据集概述 本数据集是基于Twitter平台的在线贷款(Pinjaman Online)主题数据,通过twint库采集,包含3个文件,覆盖原始与处理后的推文内容,涉及推文基本信息、互动数据及预处理文本,可用于分析在线贷款相关的社交媒体讨论特征。 文件详解 文件名称:pinjol_fix.csv 文件格式:CSV...
    packageimg
  • 古东斯拉夫宪章语料库补充材料1

    2025年12月13日 30 98 17

    数据集概述 该数据集为古东斯拉夫宪章语料库的补充材料1,包含12世纪末至14世纪上半叶来自斯摩棱斯克、波拉茨克和诺夫哥罗德的9份历史法律文本。文本经预处理、人工分词后整合为单字符串,同时附数据声明文档,支持基于语料库的语言距离测量与聚类分析。 文件详解 文本文件(.txt格式,共9个):...
    packageimg