-
EHSAN可解释医疗保健情感分析NLP数据集
2026年2月1日 30 123 54
数据集概述 本数据集为EHSAN(可解释医疗情感标注)数据集,包含医疗领域的情感标注数据及实验代码相关文件,共6个文件,均为XLSX格式,无目录结构。数据覆盖训练、测试、验证阶段的主题与情感标注内容,以及大语言模型标注的数据集。 文件详解 Final_train_topic_and_sentiment.xlsx 文件格式:XLSX...
-
MALAYALAM_MIX_CODE_食谱频道YouTube评论文本分类数据集
2026年1月20日 30 144 103
数据集概述 本数据集为用于文本分类的马拉雅拉姆语(混合代码)数据,来自YouTube平台“Veen's Curryworld”和“Lekshmi Nair”两个食谱频道的评论区,通过YouTube API抓取整合。包含“text”(评论内容)和“label”(分类标签)两个属性,标签分为感恩、食谱相关、视频相关等七类,总计含多类标注实例。 文件详解...
-
Phishing_NLP_Based网络钓鱼和社会工程威胁检测多分类数据集2025
2026年1月15日 30 128 24
数据集概述 本数据集包含624条英文消息,用于训练和评估基于自然语言处理(NLP)的钓鱼检测模型。每条消息标注为六种网络安全威胁或良性内容类别之一,支持多分类任务,适用于网络安全领域的机器学习应用,所有消息已匿名化处理。 文件详解 文件名称:phishing_nlp_dataset.xlsx 文件格式:XLSX...
-
Func_Non_Func_words_separated_功能词与非功能词分离数据集
2026年1月14日 30 138 121
数据集概述 本数据集包含100个文件,主题为功能词与非功能词分离的文本内容数据,覆盖钓鱼邮件、政治文本、虚假新闻等场景。文件类型以JSONL和JSON为主,各占50个,无目录层级结构,未区分训练/测试、数据/标签或原始/处理数据。 文件详解 文件类型及分布...
-
Twitter金融话题文本数据印度Nifty502017-2022
2025年4月14日 30 189 91
Twitter金融话题文本数据印度Nifty502017-2022 数据来源:互联网公开数据 数据来源: 本数据集收集自社交媒体平台,包含带有话题标签 nifty50 的推文,时间范围从 2017年9月 至 2022年9月,适用于金融情绪分析、股市舆情研究和自然语言处理模型训练。 数据内容: 该数据集记录了五年内包含 nifty50...



