-
OffensiveLang_Based攻击性语言数据集
2026年1月31日 30 118 85
数据集概述 本数据集为单文件归档的攻击性语言相关数据,文件类型为压缩包,未包含训练/测试、数据/标签或原始/处理等数据划分,无自述文件或内容预览可供参考。 文件详解 文件名称:OffensiveLang.zip 文件格式:ZIP(压缩包) 字段映射介绍:未提供压缩包内具体内容、字段及结构信息,仅可识别为归档文件类型。 适用场景...
-
TELEGRAM_PIRACY_版权盗版者访谈与调查数据
2026年1月30日 30 156 56
数据集概述 本数据集围绕TELEGRAM平台的版权盗版行为展开,包含对版权盗版者的访谈记录及盗版频道调查文件,共3份文档,均为docx格式,无分层目录结构,未划分训练/测试、数据/标签或原始/处理数据。 文件详解 文件名称:Telegram Interview 1 - 9.docx 文件格式:docx...
-
nlp2023_toxic_german_德语新闻评论毒性标注数据集
2026年1月27日 30 113 24
数据集概述 本数据集包含2021年11月4日至10日期间奥地利报纸DerStandard网站的新闻评论数据,共4473条原创评论(排除评论回复),涉及522篇文章。数据包含2818条无毒评论和1655条有毒评论,类别分布相对均衡。每条评论标注了二进制毒性标签,部分评论还包含粗俗语言、目标个体、目标群体、其他目标四类细分标签及文本位置信息。 文件详解...
-
Trawling_for_Trolling_Based_社交媒体骚扰类型标注数据集
2026年1月18日 30 67 45
数据集概述 本数据集包含12490行社交媒体内容样本,按仇恨言论、贬损内容、网络骚扰、亵渎内容和正常内容五类标注。数据主要来源于Twitter、Reddit和Wikipedia讨论页,无帖子元数据,可用于网络骚扰类型识别相关研究。 文件详解 文件名称:Dataset_to_upload.xlsx 文件格式:XLSX...
-
Google基于随机数的内容安全策略网站适配可行性分析论文附属数据集
2025年12月6日 30 50 13
数据集概述 本数据集为论文《Analyzing the Feasibility of Adopting Google's Nonce-Based CSP Solutions on Websites》的附属资料,包含论文原文、数据处理脚本、爬取工具及相关数据文件,支持复现研究结果。 文件详解 文件名称: LICENSE 文件格式: 无扩展名 内容:...
-
TikTok代表性数据发布数据集
2025年12月5日 30 126 15
数据集概述 该数据集包含TikTok视频及评论数据分析结果,按小时和日两个时间维度分类,覆盖互动指标、创作时间、地域分布等基础数据,以及主题、儿童相关内容、评论的专项分析,为TikTok内容生态研究提供结构化数据支持。 文件详解 数据集按时间维度和分析主题分为多层目录结构,核心文件说明如下: - 小时维度数据(tiktok-hour/hour/目录):...
-
Twitter上的阿拉伯语垃圾账户与恶意内容数据集
2025年6月4日 30 1 0
Twitter上的阿拉伯语垃圾账户与恶意内容数据集 数据来源:互联网公开数据 标签:阿拉伯语,垃圾信息,恶意内容,Twitter,社交媒体,内容安全,机器学习 数据概述:...
-
Safebooru图像数据集
2025年6月1日 30 84 68
Safebooru图像数据集 数据来源:互联网公开数据 标签:图像分类,标签分析,时间序列,机器学习,数据挖掘,内容安全,社区分析 数据概述:...
-
音视频内容真伪识别数据集Audio-VideoContentAuthenticityIdentification-punhill1
2025年5月20日 30 206 56
音视频内容真伪识别数据集Audio-VideoContentAuthenticityIdentification-punhill1 数据来源:互联网公开数据 标签:音视频, 假视频, 真实性, 深度学习, 视频分析, 数据标注, 多模态, 内容安全 数据概述: 该数据集包含用于音视频内容真伪识别的数据,记录了音视频文件的真实性标签。主要特征如下:...
-
用户生成内容安全检测数据集UserGeneratedContentSecurityDetectionDataset-prakriti21
2025年5月12日 30 6 2
用户生成内容安全检测数据集UserGeneratedContentSecurityDetectionDataset-prakriti21 数据来源:互联网公开数据 标签:文本安全, 内容审核, 用户生成内容, 恶意内容检测, 文本分析, 自然语言处理, 机器学习, 数据标注 数据概述:...
-
中文文本分类安全风险评估数据集ChineseTextClassificationSecurityRiskAssessment-leolu1998
2025年5月1日 30 186 7
中文文本分类安全风险评估数据集ChineseTextClassificationSecurityRiskAssessment-leolu1998 数据来源:互联网公开数据 标签:文本分类, 安全风险, 风险评估, 行业应用, 机器学习, 标注数据, 自然语言处理, 内容安全 数据概述:...
-
虚假视频检测数据集FakeVideoDetectionDataset-saurabhgautam12
2025年5月1日 30 161 81
虚假视频检测数据集FakeVideoDetectionDataset-saurabhgautam12 数据来源:互联网公开数据 标签:视频分析, 虚假视频, 图像识别, 深度学习, 视频伪造, 数据标注, 媒体鉴别, 内容安全 数据概述: 该数据集包含来自 saurabhgautam12-aaaaaa...
-
社交媒体内容分类数据集
2025年4月23日 31 90 13
标题:社交媒体内容分类数据集 数据内容:本数据集包含24783条不同的社交媒体推文及其相关分类信息。数据字段包括:推文内容、仇恨言论分类、攻击性语言分类、非仇恨非攻击性分类、总分类标签以及计数信息。 数据来源:互联网公开数据...
-
大规模文本数据集分析报告
2025年4月22日 31 99 41
标题:大规模文本数据集分析报告 数据内容: 该数据集包含两个主要字段: 1. text:包含487,235种不同的文本值,覆盖了广泛的文本内容,可能是从互联网公开数据中提取的。 2. generated:包含2种不同的值,可能是二元分类字段(例如,"是"或"否"),用于标识文本是否为生成内容。 数据来源:互联网公开数据 数据用途: 1....
-
网络欺凌毒性文本分类数据集
2025年4月15日 30 166 35
网络欺凌毒性文本分类数据集 数据来源:互联网公开数据 标签:网络欺凌,毒性文本,文本分类,自然语言处理,情感分析,内容安全,数据集 数据概述:...
-
巴西葡萄牙语冒犯性语言识别数据集
2025年4月15日 30 166 56
巴西葡萄牙语冒犯性语言识别数据集 数据来源:互联网公开数据 标签:冒犯性语言,巴西葡萄牙语,多任务注释,社交媒体,自然语言处理,文本分析,内容安全 数据概述:...
-
有毒评论分类数据集
2025年4月14日 30 59 18
有毒评论分类数据集 数据来源:互联网公开数据 标签:有毒评论,自然语言处理,情感分析,文本分类,机器学习,数据标注,内容安全 数据概述:...



