Func_Non_Func_words_separated_功能词与非功能词分离数据集

本数据集包含100个文件，主题为功能词与非功能词分离的文本内容数据，覆盖钓鱼邮件、政治文本、虚假新闻等场景。文件类型以JSONL和JSON为主，各占50个，无目录层级结构，未区分训练/测试、数据/标签或原始/处理数据。

文件类型及分布
JSONL格式：共50个文件，占比50.0%。文件样本包括nf_phishing_combined2_5.jsonl、nf_pols_combined3_1.jsonl等。
JSON格式：共50个文件，占比50.0%。文件样本包括fake_news_pp5_3_fold_1.json、prod_pp5_3_fold_2.json等。
内容主题样本：覆盖钓鱼邮件（phishing）、政治文本（pols）、虚假新闻（fake_news）、产品信息（prod）、工作相关文本（job）等场景。

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	592.48 MiB
最后更新	2026年1月14日
创建于	2026年1月14日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。