找到35个数据集

标签: NLP应用

过滤结果
  • AI驱动的医疗知情同意书简明语言编辑评估数据集2025

    2025年12月25日 30 175 33

    数据集概述 本数据集是关于AI驱动医疗知情同意书简明语言编辑评估研究的补充材料,包含癌症相关知情同意书原始文本、两种AI编辑版本(Simple AI Edit和Complex AI Edit)、可读性评分数据及可复现分析的代码笔记本,支持医疗健康传播领域的研究。 文件详解 压缩文件: Corpus - Informed Consent...
    packageimg
  • MERMaid多模态反应挖掘提示与原始数据集

    2025年12月24日 30 91 56

    数据集概述 该数据集是MERMaid项目的配套数据,包含多模态反应挖掘任务中使用的提示词文件及Dataraider、KGWizard模块的原始响应文件,覆盖PDF处理相关的多模态数据挖掘内容。 文件详解 该数据集包含8个文件,具体说明如下: - prompts.zip:ZIP格式压缩文件,可能包含多模态反应挖掘任务中使用的提示词集合 -...
    packageimg
  • 软件工程研究中LLM使用态度的两阶段调查补充材料

    2025年12月23日 30 128 120

    数据集概述 本数据集是《软件工程研究中LLM使用态度:两阶段调查研究结果》一文的补充材料,包含论文中描述的两阶段调查工具的详细说明,为理解调查设计与实施提供补充信息。 文件详解 文件名称:FSE2025 - Humanai4SE - Supplementary material.pdf 文件格式:PDF (.pdf)...
    packageimg
  • Stack_Overflow协作者回答数量代码质量违规与辍学者综合预测分析复现包

    2025年12月22日 30 84 13

    数据集概述 本数据集为Stack Overflow案例研究的复现包,围绕协作者回答数量、代码质量违规及辍学者状态三个任务,对21种算法进行评估,包含数据预处理方法(如归一化、标准化等)及CodeBERT模型微调等研究相关材料。 文件详解 文件名称: Replication Package.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 荷兰文化期刊_De_Gids_主题建模数据集

    2025年12月22日 30 132 0

    数据集概述 本数据集是论文《Topic Modelling “De Gids”:An Explorative Study into the Use of Topic Modelling on a Cultural Periodical》的配套数据,包含论文原文及实验相关文件,用于支持对荷兰文化期刊《De Gids》的主题建模研究。 文件详解...
    packageimg
  • 从语音到交互界面_灯具文本指令数据集

    2025年12月22日 30 46 30

    数据集概述 该数据集包含一千二百七十二条针对应急灯具环境的指令样本,每条样本配有自然语言表达的提示文本。数据覆盖英语和西班牙语两个版本,英语版含训练、验证、测试集,西班牙语版仅含测试集。 文件详解 文件名称: data.zip 文件格式: ZIP (.zip) 文件内容:...
    packageimg
  • 数据2021年墨西哥立法选举推文选举模型设计与分析数据集

    2025年12月21日 30 189 1

    数据集概述 本数据集为Vigna-Gómez等人关于“2021年墨西哥立法选举推文选举模型设计与分析”手稿分析所用的处理数据,包含2020年12月至2021年5月的月度推文数据集及相关查询文档,支持选举模型研究。 文件详解 月度推文数据压缩包(共6个):...
    packageimg
  • Lexibank透明复合词提取数据集

    2025年12月21日 30 33 32

    数据集概述 本数据集为研究《Extracting Transparent Compounds from Lexibank》的配套代码与数据,用于从Lexibank中提取透明复合词,支持计算机辅助语言比较领域的相关分析。 文件详解 文件名称: extracting-compounds.zip 文件格式: ZIP (.zip) 文件内容:...
    packageimg
  • QuRE_Based_需求质量缺陷标注完整数据集

    2025年12月21日 30 72 16

    数据集概述 该数据集包含2111条工业需求文本,通过多年实际质量审查流程标注缺陷和弱词等信息,用于需求质量相关实证研究。当前为1.0.1版本,修正了之前说明文档为空的问题。 文件详解...
    packageimg
  • 开发者情感分析基准研究数据集

    2025年12月20日 30 66 10

    数据集概述 该数据集是一项关于软件提交信息情感与情绪分析的基准研究数据,包含实验代码、预处理脚本、模型实现文件、数据压缩包及标注指南文档,为分析开发者在代码提交过程中的情感倾向提供技术实现与数据支持。 文件详解 代码文件(.ipynb格式,共11个): sentiment_PLMs.ipynb:基于预训练语言模型(PLMs)的情感分析实验代码...
    packageimg
  • 议会公民身份法案讨论Voyant分析结果数据集

    2025年12月20日 30 143 90

    数据集概述 本数据集是通过在线工具Voyant对加拿大众议院和参议院关于《公民身份法案》的议会讨论文本进行分析后生成的结果文件,包含词云、趋势图等多种可视化图表,反映讨论文本的核心词汇及趋势特征。 文件详解 该数据集包含6个PNG格式的可视化文件,具体说明如下: -...
    packageimg
  • 行业中使用提示工程生成错误报告的经验报告表单

    2025年12月20日 30 191 183

    数据集概述 本数据集是一份用于收集行业经验的表单文档,围绕“使用提示工程生成错误报告”的实验展开。表单通过结构化问题收集受访者对大语言模型(LLM)在错误报告生成中的实用性、易用性、响应质量等多维度反馈,以及使用过程中的优缺点和总体评价。 文件详解 数据集包含一个PDF格式的表单文件,具体说明如下: - 文件名称:...
    packageimg
  • 印度时报新闻文章FinBERT评分数据集

    2025年12月19日 30 65 33

    数据集概述 本数据集包含从印度时报档案提取的新闻文章及其FinBERT评分结果,覆盖2017至2024年多个年份,以CSV、XLSX和PNG格式存储,为分析新闻文本的情感倾向提供结构化数据支持。 文件详解 CSV格式评分文件(共7个): 命名示例:score_TOI_2017.csv、score_TOI_2021.csv等...
    packageimg
  • 头巾相关数字极化分析的YouTube评论标注数据集

    2025年12月15日 30 191 166

    数据集概述 本数据集围绕头巾相关话题的数字极化现象,收集并标注了YouTube平台的用户评论,包含原始数据、语料库文件及一致性检验文件,为研究社交媒体上的观点极化提供支持。 文件详解 数据文件(.xlsx格式): Raw Data.xlsx:原始YouTube评论数据 Corpus 1.xlsx:第一部分标注语料库 Corpus...
    packageimg
  • DISCERN_Based_中文健康信息质量评估完整标注数据

    2025年12月15日 30 154 36

    数据集概述 该数据集为DISCERN标注数据集,包含收集的中文健康信息文本、网页元数据、DISCERN评分结果及补充文件,涉及校准示例、评分者信度、标注指南等内容,为健康信息质量评估研究提供数据支持。 文件详解 数据文件(.xlsx格式): Webpage meta.xlsx:网页元数据文件 rater1.xlsx:第一位评分者的DISCERN评分数据...
    packageimg
  • 古典藏文标注语料库第一部分_基于BDRC数字化文本的分词版本

    2025年12月14日 30 117 55

    数据集概述 本数据集是基于佛教数字资源中心(BDRC)数字化文本集的古典藏文分词版本语料库,采用TiMBL的基于记忆的标注器进行词性标注,未经过后处理或人工校正,包含12个压缩文件。 文件详解 该数据集包含12个压缩文件,具体说明如下: -...
    packageimg
  • 平台X勒索软件攻击情感分析数据集

    2025年12月14日 30 138 22

    数据集概述 本数据集围绕平台X勒索软件攻击事件展开情感分析,采用朴素贝叶斯方法探究公众对治理的信任度。数据集以压缩包形式存储,未提供文件内容预览,核心聚焦于相关事件的情感数据与分析过程。 文件详解 文件名称:PDN.zip 文件格式:ZIP压缩包(.zip) 内容说明:数据集唯一文件为压缩包,未提供内部文件结构、字段映射等具体内容预览 适用场景...
    packageimg
  • 斯洛文尼亚语形容词形态标注数据库2024

    2025年12月13日 30 196 155

    数据集概述 本数据集包含斯洛文尼亚语中六千个最常用形容词的形态标注,基于Gigafida 2.0语料库2024年3月的抽样数据提取。标注涵盖词缀、复合结构、非派生性等核心形态特征,为斯洛文尼亚语形态学研究提供结构化数据支持。 文件详解 文件名称: Annotated database of Slovenian adjectives.xlsx 文件格式:...
    packageimg
  • Discord网络犯罪探索与大语言模型应用数据集

    2025年12月12日 30 148 47

    数据集概述 该数据集围绕Discord平台的网络犯罪探索展开,包含基于大语言模型的分析提示文件及标注指南,为研究网络犯罪相关内容的识别与分析提供支持。 文件详解 Annotation Guideline.pdf:PDF格式,提供网络犯罪内容标注的指导规则文档...
    packageimg
  • 构建日志分析数据集LogChunks

    2025年12月11日 30 183 47

    数据集概述 该数据集包含从80个GitHub仓库收集的797条Travis CI构建日志,覆盖29种开发语言。日志按语言和仓库分类存储,部分日志含人工标注的构建失败原因片段,并标注关键词及结构分类,可用于构建日志分析研究。 文件详解 该数据集主要包含一个压缩文件,内部结构如下: - 文件名称: LogChunks.zip - 文件格式: ZIP...
    packageimg