数据集 - 海数据

Reddit政治用户多主题互动数据集2007_2022

2025年12月18日 30 127 38

数据集概述本数据集包含2007-2022年Reddit政治子版块的用户互动数据，涵盖每周用户网络及消息数据库。网络中节点为用户，边为互动关系；消息库含主题、毒性、立场等属性，为研究政治话题互动提供支持。文件详解文件名称: message_data.zip 文件格式: ZIP压缩包内容说明:...

ZIP

自然历史馆藏数字化自然语言处理科学工作流补充材料

2025年12月15日 30 70 7

数据集概述该数据集是关于自然历史馆藏数字化科学工作流的补充材料，聚焦自然语言处理技术的应用，为相关研究提供额外文档支持。文件详解文件名称：oo_425114.pdf 文件格式：PDF 内容说明：补充材料文档，可能包含自然历史馆藏数字化工作流中自然语言处理技术应用的详细方法、案例或补充数据适用场景...

ZIP

ChatGPT与开发者判断差异研究数据集_Stack_Overflow_Java问题

2025年12月14日 30 181 65

数据集概述本数据集为一项探究ChatGPT判断与开发者判断差异的研究复现包，核心围绕Stack Overflow平台上的Java问题展开，通过复现包形式提供研究相关的完整数据，支持对AI与人类开发者判断差异的验证分析。文件详解文件名称: Replication Package.zip 文件格式: ZIP压缩包（.zip）文件内容:...

ZIP

平台X勒索软件攻击情感分析数据集

2025年12月14日 30 161 55

数据集概述本数据集围绕平台X勒索软件攻击事件展开情感分析，采用朴素贝叶斯方法探究公众对治理的信任度。数据集以压缩包形式存储，未提供文件内容预览，核心聚焦于相关事件的情感数据与分析过程。文件详解文件名称：PDN.zip 文件格式：ZIP压缩包（.zip）内容说明：数据集唯一文件为压缩包，未提供内部文件结构、字段映射等具体内容预览适用场景...

ZIP

图灵测试中语言模型作为评委的性能评估数据集

2025年12月12日 30 30 9

数据集概述本数据集围绕图灵测试展开，核心内容是评估语言模型作为评委的性能表现。通过相关实验设计，旨在探究语言模型在判断对话对象是否为人类时的能力，为人工智能评估领域提供数据支持。文件详解文件名称: conversas_teste_de_turing.pdf 文件格式: PDF (.pdf) 文件内容:...

ZIP

生态数据挖掘大语言模型评估与基准测试数据集

2025年12月12日 30 192 152

数据集概述本数据集包含生态数据挖掘场景下大语言模型（LLM）评估的完整资源，涵盖500篇摘要数据、专家验证的标注及模型输出，辅以可复现评估流程的脚本，支持LLM性能验证、模型探索及跨领域适配。文件详解文件名称: CodesAndDatasets.zip 文件格式: ZIP压缩包包含内容:...

ZIP

Eclipse与Mozilla缺陷跟踪数据集

2025年12月11日 30 98 88

数据集概述该数据集包含从Eclipse和Mozilla项目提取的超过二十万条缺陷报告数据，其中Eclipse项目四万七千条、Mozilla项目十六万八千条。数据不仅提供缺陷报告的单一快照，还涵盖报告生命周期内的所有增量修改记录。文件详解文件名称：msr2013-bug_dataset-master.zip 文件格式：ZIP（压缩包）...

ZIP

基于大语言模型的威胁启发工具比较基准研究复现包

2025年12月10日 30 135 3

数据集概述本数据集是支持《基于大语言模型的威胁启发工具比较基准研究》的复现包，包含基线构建、工具输出、威胁模型评估比较及F1分数、冗余度等详细结果，还补充了指令影响、语义相似度阈值测试等验证结果。文件详解文件名称: dvanlanduyt_fgcs_replication-package.zip 文件格式: ZIP（压缩包）包含内容:...

ZIP

用例文档自动缺陷检测研究数据集

2025年12月10日 30 51 8

数据集概述本数据集围绕软件用例文档的自动缺陷检测展开，包含多个真实或学术场景的用例文档，如个性化健康信息系统、自动导引车系统等，支持基于自然语言处理技术的早期缺陷检测研究，为软件工程需求分析阶段的质量提升提供数据基础。文件详解说明文档: README.txt: 文本格式，介绍数据集背景、使用规范及引用要求，包含文献引用格式和数据来源说明。...

ZIP

PyTextQltEval_自动化软件文档质量评估库数据集

2025年12月9日 30 86 34

数据集概述本数据集包含一个自动化软件文档质量评估库相关的压缩文件，聚焦于软件文档质量评估领域，为研究或应用文档质量自动化评估工具提供数据支持。文件详解文件名称: doc_quality.zip 文件格式: ZIP压缩包（.zip）内容说明: 压缩包内包含与PyTextQltEval自动化软件文档质量评估库相关的文件，具体内容需解压后查看...

ZIP

代码仓库聊天机器人弱监督方法数据集

2025年12月7日 30 182 175

数据集概述本数据集为论文《A Weak Supervision-Based Approach to Improve Chatbots for Code Repositories》的配套数据与脚本，包含用于改进代码仓库聊天机器人的弱监督方法相关文件，支持相关研究的复现与验证。文件详解 AlphaBot.zip:...

ZIP

参考问题建模技术应用数据集

2025年12月6日 30 193 159

数据集概述本数据集基于四千个参考交互样本，应用多种建模技术分析其主题相关性（aboutness）。数据以压缩包形式存储，未划分训练测试集、数据标签集及原始/处理数据集，提供基础分析素材。文件详解文件名称: index.zip 文件格式: ZIP (.zip) 内容说明:...

ZIP

代码变更质量问题识别与评审反馈分析数据集2024

2025年12月5日 30 102 44

数据集概述该数据集为提交至ENASE 2024的论文配套数据，包含用于分析代码变更中常见质量问题的评审反馈数据，以及数据提取、预处理的Python脚本，支持对代码评审反馈与质量问题关联的研究。文件详解数据文件: Jabref_pullrequest_comments.xlsx: XLSX格式，可能包含JabRef项目的拉取请求评审反馈原始数据...

ZIP

亚马逊Alexa人工智能系统人类价值需求实证分析论文数据集

2025年12月4日 30 116 70

数据集概述本数据集是论文《Human Value Requirements in AI Systems: Empirical Analysis of Amazon Alexa》的配套数据，包含亚马逊Alexa的用户评论数据、对应的人类价值标签，以及带有可视化的结果详情，用于支撑该论文的实证分析。文件详解...

ZIP

I_BiDaaS_TID_合成呼叫中心数据集

2025年12月4日 30 156 75

数据集概述本数据集为模拟呼叫中心交互数据，基于真实电话交互与典型呼叫中心对话场景构建，由演员模拟客户与坐席角色，通过不同移动及固定电话设备录制。包含原始音频波形、自动语音识别转录文本及词段时间戳、置信度得分等信息。文件详解 01_Synthetic CallCentresTID_I-...

ZIP

找到15个数据集

注册成功！