数据集 - 海数据

OffensiveLang_Based攻击性语言数据集

2026年1月31日 30 4 2

数据集概述本数据集为单文件归档的攻击性语言相关数据，文件类型为压缩包，未包含训练/测试、数据/标签或原始/处理等数据划分，无自述文件或内容预览可供参考。文件详解文件名称：OffensiveLang.zip 文件格式：ZIP（压缩包）字段映射介绍：未提供压缩包内具体内容、字段及结构信息，仅可识别为归档文件类型。适用场景...

ZIP

TELEGRAM_PIRACY_版权盗版者访谈与调查数据

2026年1月30日 30 70 7

数据集概述本数据集围绕TELEGRAM平台的版权盗版行为展开，包含对版权盗版者的访谈记录及盗版频道调查文件，共3份文档，均为docx格式，无分层目录结构，未划分训练/测试、数据/标签或原始/处理数据。文件详解文件名称：Telegram Interview 1 - 9.docx 文件格式：docx...

ZIP

nlp2023_toxic_german_德语新闻评论毒性标注数据集

2026年1月27日 30 44 22

数据集概述本数据集包含2021年11月4日至10日期间奥地利报纸DerStandard网站的新闻评论数据，共4473条原创评论（排除评论回复），涉及522篇文章。数据包含2818条无毒评论和1655条有毒评论，类别分布相对均衡。每条评论标注了二进制毒性标签，部分评论还包含粗俗语言、目标个体、目标群体、其他目标四类细分标签及文本位置信息。文件详解...

ZIP

Trawling_for_Trolling_Based_社交媒体骚扰类型标注数据集

2026年1月18日 30 69 24

数据集概述本数据集包含12490行社交媒体内容样本，按仇恨言论、贬损内容、网络骚扰、亵渎内容和正常内容五类标注。数据主要来源于Twitter、Reddit和Wikipedia讨论页，无帖子元数据，可用于网络骚扰类型识别相关研究。文件详解文件名称：Dataset_to_upload.xlsx 文件格式：XLSX...

ZIP

Google基于随机数的内容安全策略网站适配可行性分析论文附属数据集

2025年12月6日 30 121 4

数据集概述本数据集为论文《Analyzing the Feasibility of Adopting Google's Nonce-Based CSP Solutions on Websites》的附属资料，包含论文原文、数据处理脚本、爬取工具及相关数据文件，支持复现研究结果。文件详解文件名称: LICENSE 文件格式: 无扩展名内容:...

ZIP

TikTok代表性数据发布数据集

2025年12月5日 30 197 125

数据集概述该数据集包含TikTok视频及评论数据分析结果，按小时和日两个时间维度分类，覆盖互动指标、创作时间、地域分布等基础数据，以及主题、儿童相关内容、评论的专项分析，为TikTok内容生态研究提供结构化数据支持。文件详解数据集按时间维度和分析主题分为多层目录结构，核心文件说明如下： - 小时维度数据（tiktok-hour/hour/目录）：...

ZIP

Twitter上的阿拉伯语垃圾账户与恶意内容数据集

2025年6月4日 30 130 26

Twitter上的阿拉伯语垃圾账户与恶意内容数据集数据来源：互联网公开数据标签：阿拉伯语,垃圾信息,恶意内容,Twitter,社交媒体,内容安全,机器学习数据概述：...

ZIP

Safebooru图像数据集

2025年6月1日 30 42 19

Safebooru图像数据集数据来源：互联网公开数据标签：图像分类,标签分析,时间序列,机器学习,数据挖掘,内容安全,社区分析数据概述：...

ZIP

音视频内容真伪识别数据集Audio-VideoContentAuthenticityIdentification-punhill1

2025年5月20日 30 183 164

音视频内容真伪识别数据集Audio-VideoContentAuthenticityIdentification-punhill1 数据来源：互联网公开数据标签：音视频, 假视频, 真实性, 深度学习, 视频分析, 数据标注, 多模态, 内容安全数据概述：该数据集包含用于音视频内容真伪识别的数据，记录了音视频文件的真实性标签。主要特征如下：...

ZIP

用户生成内容安全检测数据集UserGeneratedContentSecurityDetectionDataset-prakriti21

2025年5月12日 30 38 21

用户生成内容安全检测数据集UserGeneratedContentSecurityDetectionDataset-prakriti21 数据来源：互联网公开数据标签：文本安全, 内容审核, 用户生成内容, 恶意内容检测, 文本分析, 自然语言处理, 机器学习, 数据标注数据概述：...

ZIP

中文文本分类安全风险评估数据集ChineseTextClassificationSecurityRiskAssessment-leolu1998

2025年5月1日 30 162 51

中文文本分类安全风险评估数据集ChineseTextClassificationSecurityRiskAssessment-leolu1998 数据来源：互联网公开数据标签：文本分类, 安全风险, 风险评估, 行业应用, 机器学习, 标注数据, 自然语言处理, 内容安全数据概述：...

ZIP

虚假视频检测数据集FakeVideoDetectionDataset-saurabhgautam12

2025年5月1日 30 210 83

虚假视频检测数据集FakeVideoDetectionDataset-saurabhgautam12 数据来源：互联网公开数据标签：视频分析, 虚假视频, 图像识别, 深度学习, 视频伪造, 数据标注, 媒体鉴别, 内容安全数据概述：该数据集包含来自 saurabhgautam12-aaaaaa...

ZIP

社交媒体内容分类数据集

2025年4月23日 31 117 106

标题：社交媒体内容分类数据集数据内容：本数据集包含24783条不同的社交媒体推文及其相关分类信息。数据字段包括：推文内容、仇恨言论分类、攻击性语言分类、非仇恨非攻击性分类、总分类标签以及计数信息。数据来源：互联网公开数据...

CSV

大规模文本数据集分析报告

2025年4月22日 31 22 8

标题：大规模文本数据集分析报告数据内容：该数据集包含两个主要字段： 1. text：包含487,235种不同的文本值，覆盖了广泛的文本内容，可能是从互联网公开数据中提取的。 2. generated：包含2种不同的值，可能是二元分类字段（例如，"是"或"否"），用于标识文本是否为生成内容。数据来源：互联网公开数据数据用途： 1....