-
NLP_评分算法评估中期结果_20230513
2026年2月9日 30 107 23
数据集概述 本数据集为“基于简单评分的自然语言处理(NLP)算法评估”实验的中间结果,包含2个文件,涵盖预处理后的文本数据及对应的元数据,用于记录算法实验过程中的核心信息与处理后的数据内容。 文件详解 元数据文件: 文件名称:20230513_merged_preprocessed.metadata.xml 文件格式:XML...
-
Astronomia_nova_Kepler著作预处理文本机器学习数据集
2026年1月21日 30 128 79
数据集概述 本数据集为开普勒《新天文学》(Astronomia nova)的预处理文本语料库,源自Donahue翻译的2015年修订版,经OCR和自动化文本处理生成UTF8编码的机器可读纯文本,移除特殊字符、引用标记等,保留部分OCR误差。包含3个文件,用于机器学习场景。 文件详解 readme.md 文件格式:MD...
-
Pinjaman_Online_Based_Twitter社交媒体在线贷款主题数据集
2026年1月14日 30 75 52
数据集概述 本数据集是基于Twitter平台的在线贷款(Pinjaman Online)主题数据,通过twint库采集,包含3个文件,覆盖原始与处理后的推文内容,涉及推文基本信息、互动数据及预处理文本,可用于分析在线贷款相关的社交媒体讨论特征。 文件详解 文件名称:pinjol_fix.csv 文件格式:CSV...
-
古东斯拉夫宪章语料库补充材料1
2025年12月13日 30 98 17
数据集概述 该数据集为古东斯拉夫宪章语料库的补充材料1,包含12世纪末至14世纪上半叶来自斯摩棱斯克、波拉茨克和诺夫哥罗德的9份历史法律文本。文本经预处理、人工分词后整合为单字符串,同时附数据声明文档,支持基于语料库的语言距离测量与聚类分析。 文件详解 文本文件(.txt格式,共9个):...



