找到122个数据集

标签: 人工标注

过滤结果
  • MESINESP2_Shared_task_Based_生物医学语义索引标注记录与银标准数据集_2020

    2026年1月1日   

    数据集概述 本数据集为MESINESP2研讨会后发布的补充数据,包含人工标注记录和银标准数据集两部分。人工标注记录涵盖竞赛评估数据集的验证与未验证标注信息;银标准数据集基于6支团队24次系统运行结果构建,含超580万数据点,可用于丰富生物医学语义索引任务的训练数据。 文件详解 all_annotations_withIDsv3.tsv 文件格式:TSV...
    packageimg
  • EB_Geo_Annotated_Manual_Location_Annotated_Dataset_大英百科全书条目地理人工标定参考数据集

    2025年12月26日   

    数据集概述 本数据集包含大英百科全书文章中人工标注的地理位置信息,每条记录涵盖文章在frances平台的URI链接、文章名称、文章描述及识别出的位置。数据集仅含一个JSON格式文件,未划分训练/测试集或原始/处理数据,可用于地理信息提取相关研究。 文件详解 文件名称:eb_geo_samples_annotated.json 文件格式:JSON...
    packageimg
  • PharmaCoNER药物物质化合物蛋白质命名实体识别西班牙语临床案例报告语料库

    2025年12月23日   

    数据集概述 该数据集是PharmaCoNER共享任务的人工标注黄金标准语料库,包含1000篇西班牙语临床案例报告,覆盖肿瘤学、泌尿学等多个医学领域,标注了药物物质、化合物、蛋白质等实体,适用于生物医学命名实体识别研究。 文件详解 文件名称: pharmaconer.zip 文件格式: ZIP压缩文件 内容说明:...
    packageimg
  • 软件工程摘要写作实证研究数据集

    2025年12月23日   

    数据集概述 本数据集是一项提交至IEEE Transactions on Software Engineering期刊的实证研究配套资料,核心围绕软件工程论文摘要对全文的总结效果展开研究,包含研究所需的输入数据、人工标注、分析脚本、图表生成代码、论文源码及构建文件。 文件详解 文件名称: qabstracts-zenodo.zip 文件格式: ZIP...
    packageimg
  • 情感分析与情绪挖掘实验数据集_情绪挖掘工具包EMTk

    2025年12月21日   

    数据集概述 本数据集为情感分析与情绪挖掘领域的实验数据,随情绪挖掘工具包(EMTk)Docker容器分发。包含Stack Overflow的4000余篇标注帖子及Jira的约4000个标注议题,均为人工标注的情绪与极性数据,可直接用于相关算法训练与验证。 文件详解 文件名称:collab-uniba/EMTK_datasets-v1.0.zip...
    packageimg
  • 数据中心API误用数据集2024

    2025年12月21日   

    数据集概述 本数据集聚焦数据中心的API误用问题,包含完整的误用数据、分类标签、影响类型及统计信息。数据集结构清晰,以Excel表格存储核心数据,辅以标注指南文档和代码示例压缩包,为研究API误用模式、影响及修复方法提供系统性支持。 文件详解 该数据集由三个文件组成,具体说明如下: - 核心数据文件: - Misuse collection -...
    packageimg
  • 可核查事实主张基准数据集

    2025年12月21日   

    数据集概述 该数据集为可核查事实主张的基准数据集,包含1960-2016年美国大选总统辩论中提取的陈述,以及人工标注的可核查性标签,将每条陈述分为非事实陈述、不重要事实陈述和可核查事实陈述三类。 文件详解 文件名称: ClaimBuster_Datasets.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 印地语文本宣传数据集2023_Prop_HiT

    2025年12月21日   

    数据集概述 本数据集是针对印地语文本的宣传检测数据集,包含来自三十二家印地语新闻网站的七百九十篇文章,采用人工标注方式标记十八种宣传技术。数据按训练集(五百五十篇)和测试集(二百四十篇)划分,为印地语宣传内容识别研究提供结构化标注数据。 文件详解 该数据集包含以下文件: - 压缩包文件: - Prop-HiT Dataset.zip:...
    packageimg
  • 达罗毗荼语混合文本情感分析与冒犯性语言识别数据集2020

    2025年12月21日   

    数据集概述 该数据集为三种低资源达罗毗荼语(泰米尔语、卡纳达语、马拉雅拉姆语)与英语的混合社交媒体评论数据,包含六万余条YouTube评论,经人工标注用于情感分析和冒犯性语言识别,标注者间一致性较高,支持相关自然语言处理研究。 文件详解 文件名称: DravidianCodeMix-2020.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 克罗地亚语动词隐喻扩展与配价模式数据集

    2025年12月21日   

    数据集概述 该数据集包含从克罗地亚语语料库中提取的438个例句,涉及152个通过隐喻或转喻扩展至言语域的动词。数据集支持对跨域配价模式的迁移与适应进行人工标注和分析,用于基于语料库的定性研究。 文件详解 文件名称:S2_Dataset.pdf 文件格式:PDF (.pdf)...
    packageimg
  • 大语言模型替代软件工程制品人工标注研究数据集

    2025年12月21日   

    数据集概述 本数据集围绕“大语言模型能否替代软件工程制品人工标注”的研究主题构建,包含实验所需的代码脚本、结果数据、可视化脚本及示例提示词文件,支持复现不同模型在多种软件工程任务中的标注效果对比实验。 文件详解 压缩包文件(共6个,.zip格式):...
    packageimg
  • JCURA2024PyLC图像测试集与土地覆盖掩码数据集

    2025年12月20日   

    数据集概述 本数据集是2024年JCURA项目“Mountains of Confusion: Evaluating Image Enhancement to Improve AI Landscape Classification”的图像测试集与土地覆盖掩码,包含24张测试图像及对应人工标注掩码,用于评估PyLC工具的景观分类效果。 文件详解...
    packageimg
  • 塞尔维亚语动词派生名词注释数据库

    2025年12月20日   

    数据集概述 本数据集包含塞尔维亚语中动词派生名词的注释数据,通过对CLASSLA-web.sr语料库中动词“očekivati(期待)”后接名词的例句进行人工标注,分析其形态、词缀、基动词及补语等特征,为研究动词派生名词的语言特性提供支持。 文件详解 文件名称: Annotated database of deverbal...
    packageimg
  • 自然语言处理大型语言模型蜕变测试数据集2025

    2025年12月19日   

    数据集概述 本数据集是ICSME 2025会议论文相关研究的配套数据,围绕自然语言处理(NLP)任务中大型语言模型(LLM)的蜕变测试展开,包含RQ1至RQ3及额外分析的实验结果、人工标注与汇总数据,所有文件以JSON格式存储,为LLM蜕变测试研究提供支撑。 文件详解 该数据集以ZIP压缩包形式组织,内部包含多个JSON文件和目录,具体说明如下: -...
    packageimg
  • LOD云伪传递关系标注数据集

    2025年12月19日   

    数据集概述 本数据集包含LOD云伪传递关系研究的人工标注金标准、图文件及评估结果,涵盖三元组标注数据、权重与非权重图文件、原始评估结果等,支撑传递关系优化算法的研究与验证。 文件详解 金标准文件: gold-...
    packageimg
  • DUPS_历时用法对相似性数据集

    2025年12月18日   

    数据集概述 该数据集包含英语单词不同时期用法对的相似性判断,以及基于此构建的历时词用法图(WUG版本),用法节点间的边权重由人工标注的语义邻近度决定,为词汇语义变化分析提供支持。 文件详解 文件名称: DUPS.zip:压缩文件格式,包含不同时期英语单词用法对的相似性判断数据 文件名称: DUPS-...
    packageimg
  • 印度艺术音乐旋律相似度数据集

    2025年12月18日   

    数据集概述 该数据集包含印度卡纳提克音乐和印度斯坦音乐的音频片段及人工标注的旋律乐句,分为原始版本和改进版本,用于开发和评估印度艺术音乐短时旋律模式相似度计算方法,支持音乐信息检索领域的相关研究。 文件详解 该数据集分为卡纳提克音乐(CMD)和印度斯坦音乐(HMD)两部分,各歌曲文件夹包含以下文件: - 卡纳提克音乐(23个歌曲文件夹): -...
    packageimg
  • BigGrams半监督HTML信息提取系统数据集

    2025年12月15日   

    数据集概述 该数据集为BigGrams半监督HTML信息提取系统相关的参考数据集,包含从真实网站抓取的网页数据,以及对应网站的人工标注参考实例数据,用于支持半监督信息提取方法的研究与验证。 文件详解 数据集包含一个ZIP压缩文件,解压后包含两个主要文件夹,具体说明如下: - 压缩文件: bigrams-reference-data-...
    packageimg
  • 西班牙语医学语义索引开发数据集

    2025年12月18日   

    数据集概述 该数据集为西班牙语医学语义索引(MESINESP)开发集,含七百五十条经人工标注的医学文献记录,标注使用DeCS编码(西班牙语版MeSH术语),每条记录至少由两名索引员标注并达成共识,可用于医学语义索引相关研究。 文件详解 压缩文件: mesinesp-development-set.zip,格式为ZIP,包含两个开发子集 官方开发集:...
    packageimg
  • 森林目标分割开源数据集_FinnForest

    2025年12月16日   

    数据集概述 该数据集为开源森林目标分割数据集,包含三百张覆盖薄雪的冬季森林图像。由DAC团队人工重新标注,修正原始标注不精确问题,提升数据质量,适用于分割任务。 文件详解 文件名称: Zrzut ekranu 2025-01-20 122252.png 文件格式: PNG (.png) 内容说明:...
    packageimg