Func_Non_Func_words_separated_功能词与非功能词分离数据集

数据集概述

本数据集包含100个文件,主题为功能词与非功能词分离的文本内容数据,覆盖钓鱼邮件、政治文本、虚假新闻等场景。文件类型以JSONL和JSON为主,各占50个,无目录层级结构,未区分训练/测试、数据/标签或原始/处理数据。

文件详解

  • 文件类型及分布
  • JSONL格式:共50个文件,占比50.0%。文件样本包括nf_phishing_combined2_5.jsonl、nf_pols_combined3_1.jsonl等。
  • JSON格式:共50个文件,占比50.0%。文件样本包括fake_news_pp5_3_fold_1.json、prod_pp5_3_fold_2.json等。
  • 内容主题样本:覆盖钓鱼邮件(phishing)、政治文本(pols)、虚假新闻(fake_news)、产品信息(prod)、工作相关文本(job)等场景。

适用场景

  • 文本特征工程:用于提取功能词与非功能词特征,支持自然语言处理任务中的特征选择与优化。
  • 虚假信息检测:基于钓鱼邮件、虚假新闻等场景的文本数据,研究功能词与非功能词在虚假信息识别中的作用。
  • 文本分类研究:以政治文本、产品信息等多场景数据为基础,探索功能词与非功能词分离对文本分类模型性能的影响。
  • 自然语言处理数据集构建:为构建功能词与非功能词相关的NLP数据集提供样本参考。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 592.48 MiB
最后更新 2026年1月14日
创建于 2026年1月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。