找到2个数据集

标签: 文本相似性

过滤结果
  • SWT_bug定位研究数据集

    2026年2月12日 30 8 1

    数据集概述 本数据集包含SWT项目的bug定位研究相关数据,旨在解决bug报告与源代码文件之间的词汇不匹配问题。数据集结合了深度神经网络(DNN)和信息检索技术(rVSM),通过分析bug报告与源代码文件的文本相似性,以及学习术语关联,提高bug定位准确性。数据集包含两个文件,分别为XML和XLSX格式。 文件详解 SWT.xml 文件格式:XML...
    packageimg
  • Shakespeare_His_Contemporaries_Based_早期现代戏剧共享唯一四元组数据

    2026年1月1日 30 162 84

    数据集概述 本数据集基于Martin Mueller的语料库《莎士比亚及其同代人》,记录了该时期仅在两部戏剧中共同出现的四元组(至少四个词的序列)信息。包含3个文件,核心内容为戏剧间共享四元组的关联数据,可用于分析早期现代戏剧的文本关联与作者风格特征。 文件详解 shcshareduniquetetragramsplus-sheet2.csv...
    packageimg