找到40个数据集

标签: NLP应用

过滤结果
  • 古典藏文标注语料库第一部分_基于BDRC数字化文本的分词版本

    2025年12月14日   

    数据集概述 本数据集是基于佛教数字资源中心(BDRC)数字化文本集的古典藏文分词版本语料库,采用TiMBL的基于记忆的标注器进行词性标注,未经过后处理或人工校正,包含12个压缩文件。 文件详解 该数据集包含12个压缩文件,具体说明如下: -...
    packageimg
  • 平台X勒索软件攻击情感分析数据集

    2025年12月14日   

    数据集概述 本数据集围绕平台X勒索软件攻击事件展开情感分析,采用朴素贝叶斯方法探究公众对治理的信任度。数据集以压缩包形式存储,未提供文件内容预览,核心聚焦于相关事件的情感数据与分析过程。 文件详解 文件名称:PDN.zip 文件格式:ZIP压缩包(.zip) 内容说明:数据集唯一文件为压缩包,未提供内部文件结构、字段映射等具体内容预览 适用场景...
    packageimg
  • 斯洛文尼亚语形容词形态标注数据库2024

    2025年12月13日   

    数据集概述 本数据集包含斯洛文尼亚语中六千个最常用形容词的形态标注,基于Gigafida 2.0语料库2024年3月的抽样数据提取。标注涵盖词缀、复合结构、非派生性等核心形态特征,为斯洛文尼亚语形态学研究提供结构化数据支持。 文件详解 文件名称: Annotated database of Slovenian adjectives.xlsx 文件格式:...
    packageimg
  • Discord网络犯罪探索与大语言模型应用数据集

    2025年12月12日   

    数据集概述 该数据集围绕Discord平台的网络犯罪探索展开,包含基于大语言模型的分析提示文件及标注指南,为研究网络犯罪相关内容的识别与分析提供支持。 文件详解 Annotation Guideline.pdf:PDF格式,提供网络犯罪内容标注的指导规则文档...
    packageimg
  • 构建日志分析数据集LogChunks

    2025年12月11日   

    数据集概述 该数据集包含从80个GitHub仓库收集的797条Travis CI构建日志,覆盖29种开发语言。日志按语言和仓库分类存储,部分日志含人工标注的构建失败原因片段,并标注关键词及结构分类,可用于构建日志分析研究。 文件详解 该数据集主要包含一个压缩文件,内部结构如下: - 文件名称: LogChunks.zip - 文件格式: ZIP...
    packageimg
  • 需求分类模型概率分布补充材料数据集

    2025年12月11日   

    数据集概述 本数据集是论文《Who Should Test the Requirement? A Comparative Study on Requirements Classification for Assigning Test Teams using the Pre-Trained...
    packageimg
  • Cochrane诊断性测试准确性参考数据集

    2025年12月11日   

    数据集概述 该数据集为Cochrane诊断性测试准确性(DTA)参考数据集,对应2018年AMIA年会论文中描述的内容,用于系统性评价中诊断测试准确性的数据提取与合成自动化及评估流程。 文件详解 文件名称: CL145_open_set_20181101.zip 文件格式: ZIP (.zip) 内容说明:...
    packageimg
  • 人工智能在科学数据库文献检索中的应用比较数据集

    2025年12月11日   

    数据集概述 该数据集包含在ChatGPT、Copilot和Gemini三种人工智能工具中执行文献检索命令的所有结果,内容围绕科学数据库文献检索中不同AI工具的搜索表达式比较展开,所有结果以PDF格式呈现,支持相关研究的验证与分析。 文件详解 该数据集包含十五个PDF格式文件,文件命名以不同AI工具和实验编号标识,具体如下:...
    packageimg
  • 基于上下文学习的大语言模型单元测试生成实证研究复现包

    2025年12月11日   

    数据集概述 本数据集是论文《基于上下文学习的大语言模型单元测试生成实证研究》的复现包,包含支持研究结果复现的相关文件,可用于验证大语言模型在单元测试生成任务中的表现。 文件详解 文件名称: parser.zip:压缩包格式,可能包含用于解析代码或测试用例的脚本或工具。 文件名称:...
    packageimg
  • 基于知识图谱的大语言模型谣言检测系统设计与算法优化数据集

    2025年12月10日   

    数据集概述 本数据集围绕基于知识图谱的大语言模型谣言检测系统设计与算法优化展开,涵盖KG-RumorDetect框架的模型架构、知识图谱集成、优化技术等核心内容,为谣言检测研究提供技术方案参考。 文件详解 文件名称: archive.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含与KG-...
    packageimg
  • 技术债务类型识别与分类机器学习复现包_ISE23

    2025年12月9日   

    数据集概述 本数据集是论文《StackOverflow讨论中技术债务类型的机器学习识别与分类》的复现包,包含研究所需的数据集、分析代码及可视化结果,支持相关研究的复现与扩展。 文件详解 数据文件: dataset.csv:CSV格式,提供复现研究用的原始数据集,包含Id、Category、Body字段...
    packageimg
  • 基于LLM工具支持HCI活动可用性可访问性用户体验系统文献图谱补充材料

    2025年12月9日   

    数据集概述 本数据集是论文《Investigating LLM-based tools to support Usability, Accessibility, User eXperience in HCI activities: A Systematic Literature Mapping》的补充材料,包含与文献图谱相关的已收录论文列表等内容。...
    packageimg
  • DebatePorts_Args_me_2019_Based_论点检索数据集完整数据

    2025年12月9日   

    数据集概述 该数据集为args.me语料库1.0的已清理版本,包含2019年年中从Debatewise、IDebate.org、Debatepedia和Debate.org四个辩论门户网站爬取的382545条论点,为论点检索研究提供结构化数据支持。 文件详解 文件名称:argsme-1.0-cleaned.zip 文件格式:ZIP压缩包(.zip)...
    packageimg
  • 大型语言模型在工业测试维护流程集成研究的补充数据集

    2025年12月9日   

    数据集概述 该数据集为论文《Exploring the Integration of Large Language Models in Industrial Test Maintenance Processes》的补充数据,包含未直接在论文中呈现的核心内容,为研究大型语言模型在工业测试维护流程中的应用提供辅助数据支持。 文件详解...
    packageimg
  • 反腐败游戏情感数据集2023

    2025年12月7日   

    数据集概述 该数据集为反腐败游戏(EgC v3)相关的情感数据集,包含情感分析、情境识别、情绪记录及问卷等数据文件,用于研究游戏场景中的情感相关内容,支持反腐败主题下的情感分析研究。 文件详解 该数据集包含五个文件,具体说明如下: - .xlsx格式文件(共4个): - reconhecimento da situação apresentada...
    packageimg
  • TalentCLEF2025人力资本管理技能与职位智能语料库

    2025年12月6日   

    数据集概述 本数据集为TalentCLEF2025竞赛语料库,包含多语言职位匹配(任务A)与职位技能预测(任务B)的训练、验证及测试数据,用于开发人力资本管理相关模型,支持人才匹配、技能发展与技能缺口检测等应用。 文件详解 数据集包含4个ZIP压缩文件,具体说明如下: - 压缩文件: - TaskA.zip:...
    packageimg
  • 多模态大语言模型在物理概念测试的响应数据集2025

    2025年12月6日   

    数据集概述 该数据集包含多款多模态大语言模型对四个物理概念测试(需图像解读)的完整响应,测试包括BEMA、TUG-K、QMVI和FTGOT,共一百零二题,每题提交十次,覆盖十五款模型的测试结果。 文件详解 文件名称:Polverini, Gregorcic - Data 2025-08-19.zip 文件格式:ZIP(压缩包)...
    packageimg
  • ChatGPT生成的推荐内容数据集

    2025年12月6日   

    数据集概述 本数据集包含由ChatGPT生成的推荐内容相关数据,以单一PDF文档形式呈现,为研究AI生成推荐的内容特征、结构逻辑等提供基础资料。 文件详解 文件名称:EDUUC8EU_supplementary_data.pdf 文件格式:PDF(.pdf)...
    packageimg
  • 跨数据库重复漏洞记录数据集

    2025年12月4日   

    数据集概述 该数据集包含来自跨数据库和GitHub Advisory Database的重复漏洞信息,以JSON格式存储,旨在支持漏洞匹配、重复检测相关研究。包含22,145条跨数据库重复漏洞对和133条GitHub专属重复漏洞对,共两个核心文件。 文件详解 该数据集包含一个压缩文件,内部包含两个JSON格式数据文件,具体说明如下: - 压缩文件:...
    packageimg
  • 客户支持训练数据集用于LLM虚拟助手

    2025年4月14日   

    客户支持训练数据集用于LLM虚拟助手 数据来源:互联网公开数据 标签:客户支持,LLM,虚拟助手,意图识别,实体提取,问答对,语言生成,训练数据,NLP应用 数据概述:...
    packageimg