数据集概述
本数据集包含100个文件,主题为功能词与非功能词分离的文本内容数据,覆盖钓鱼邮件、政治文本、虚假新闻等场景。文件类型以JSONL和JSON为主,各占50个,无目录层级结构,未区分训练/测试、数据/标签或原始/处理数据。
文件详解
- 文件类型及分布
- JSONL格式:共50个文件,占比50.0%。文件样本包括nf_phishing_combined2_5.jsonl、nf_pols_combined3_1.jsonl等。
- JSON格式:共50个文件,占比50.0%。文件样本包括fake_news_pp5_3_fold_1.json、prod_pp5_3_fold_2.json等。
- 内容主题样本:覆盖钓鱼邮件(phishing)、政治文本(pols)、虚假新闻(fake_news)、产品信息(prod)、工作相关文本(job)等场景。
适用场景
- 文本特征工程:用于提取功能词与非功能词特征,支持自然语言处理任务中的特征选择与优化。
- 虚假信息检测:基于钓鱼邮件、虚假新闻等场景的文本数据,研究功能词与非功能词在虚假信息识别中的作用。
- 文本分类研究:以政治文本、产品信息等多场景数据为基础,探索功能词与非功能词分离对文本分类模型性能的影响。
- 自然语言处理数据集构建:为构建功能词与非功能词相关的NLP数据集提供样本参考。