数据集 - 海数据

ASE2021上下文感知代码变更嵌入补丁正确性评估数据集

2026年1月30日 30 159 68

数据集概述本数据集是论文“Context-Aware Code Change Embedding for Better Patch Correctness Assessment”的配套数据，包含实验所用补丁基准、实验结果文件及模型源代码。补丁分为Small和Large两类，结果覆盖RQ1和RQ2研究问题，支持补丁正确性评估模型的验证与分析。文件详解...

ZIP

GMHP7k_Based_德语社交媒体厌女症仇恨言论标注语料库数据

2026年1月27日 30 89 46

数据集概述本数据集为GMHP7k德语厌女症仇恨言论语料库，包含社交媒体平台用户发布的7061条帖子。由志愿者对每条帖子进行仇恨言论和厌女症仇恨言论的二元标注，Fleiss' Kappa标注者间信度分别为0.6409和0.8258，同时提供基于BERT模型的基线分类结果，仇恨言论和厌女症仇恨言论宏平均F1-score最高达0.79和0.75。文件详解...

ZIP

GitHub_Based_代码审查LLM重要性过滤模型训练与预测数据

2026年1月23日 30 24 8

数据集概述本数据集为722作业项目数据，包含1500条GitHub PR评论标注数据、BERT模型微调代码、训练后的最优模型及评论重要性预测与邮件通知代码，旨在通过LLM模型实现PR评论的重要性过滤，提升代码审查效率。文件详解数据文件文件名称：1500data.xlsx 文件格式：XLSX 字段映射介绍：包含3人标注的1500条GitHub...

ZIP

MentalHealth_SocialNetworks_Based_社交媒体心理健康评论多维度标注数据集

2025年12月31日 30 16 15

数据集概述本数据集包含两个Excel文件及相关文档、代码，核心为社交媒体心理健康评论标注数据。数据源自Instagram平台名人心理健康披露相关帖子的评论，共2287条，分别标注了极性、污名属性及情感类别，同时提供机器学习分类模型代码，支持社交媒体心理健康相关文本分析研究。文件详解数据文件文件名称：DatasetMH.xlsx...

ZIP

找到4个数据集

ASE2021上下文感知代码变更嵌入补丁正确性评估数据集

GMHP7k_Based_德语社交媒体厌女症仇恨言论标注语料库数据

GitHub_Based_代码审查LLM重要性过滤模型训练与预测数据

MentalHealth_SocialNetworks_Based_社交媒体心理健康评论多维度标注数据集

注册成功！