找到21个数据集

标签: 自动标注

过滤结果
  • NICKLE_Based_韩国英语学习者中介语语料库数据

    2026年1月30日 30 11 9

    数据集概述 本数据集为NICKLE(Neungyule韩国英语学习者中介语语料库),含约100万词,包含书面和口语内容(比例约9:1),按主题和交际语境分为不同文本类型。语料库未明确标注 proficiency 水平,主要涵盖基础至中级水平,部分含高级文本,可通过来源大学名称或文本长度识别。 文件详解 文件名称:Basic statistical...
    packageimg
  • BioSample_Based_LLM自动标注评估数据集

    2026年1月30日 30 78 28

    数据集概述 本数据集用于评估大语言模型(LLMs)对BioSample数据的自动标注能力,包含细胞系本体映射和基因名称提取两类任务的测试数据、金标准及模型输出结果,支持生物样本数据自动化处理的模型性能验证与分析。 文件详解 细胞系本体映射相关文件...
    packageimg
  • YouTube_RAI_官方频道视频分段数据集_训练测试集

    2026年1月29日 30 199 170

    数据集概述 本数据集包含YouTube官方RAI频道(https://www.youtube.com/@rai)中时长超过5分钟的视频信息,涵盖视频ID、标题及分段数据。每个视频的分段数据以列表形式记录各章节的开始时间(毫秒)和章节标题,数据集分为训练集与测试集两个不重叠的部分。 文件详解 文件名称:train_yt_over5min.json...
    packageimg
  • ARAFA_Generated_Based_阿拉伯语大规模事实核查数据集

    2026年1月21日 30 80 77

    数据集概述 本数据集是面向阿拉伯语自然语言处理的大规模事实核查数据集ARAFA,通过大语言模型自动化框架构建,包含181,976条标注为支持、反驳或信息不足的主张-证据对,可用于阿拉伯语自动事实核查模型训练与评估。 文件详解 文件名称:ARAFA.json 文件格式:JSON...
    packageimg
  • Precision_Recall_F1_Based_自动标注与专家标注对比评估数据

    2026年1月18日 30 48 35

    数据集概述 本数据集包含自动标注与领域专家标注对比计算得出的Precision(精确率)、Recall(召回率)和F1 score(F1值),用于评估自动标注的质量。数据集仅含一个文件,无目录层级,未划分训练测试集、数据标签集或原始处理集。 文件详解 文件名称:table P_R_F.xlsx 文件格式:XLSX...
    packageimg
  • SGoaB_Project_Rijksmuseum文化遗产图像目标检测自动标注及人工验证数据

    2026年1月17日 30 119 27

    数据集概述 本数据集包含荷兰国立博物馆(Rijksmuseum)文化遗产数字对象图像的目标检测标注,分为自动标注和人工验证两个子集,用于评估Saint George on a Bike项目开发的目标检测模型,模型在该数据集上实现约79.4%的精确率和65.7%的召回率。 文件详解 自动目标检测标注文件 文件名称:SgoaB-Rijksmuseum-...
    packageimg
  • COLARE_Commit_Classification_代码变更细粒度上下文感知表示分类数据

    2026年1月11日 30 133 78

    数据集概述 本数据集为COLARE相关的代码变更提交分类数据,核心围绕代码变更的细粒度上下文感知表示展开,用于支持提交分类任务。数据集仅包含一个压缩文件,无额外目录结构,未划分训练/测试、数据/标签或原始/处理数据。 文件详解 文件名称:COLARE.zip 文件格式:ZIP(压缩文件)...
    packageimg
  • MTG_Jamendo音乐自动标注数据集

    2025年12月23日 30 6 5

    数据集概述 该数据集是用于音乐自动标注的开放数据集,包含五万五千多首完整音频曲目,覆盖流派、乐器、情绪/主题三类共一百九十五个标签。数据基于Jamendo平台的Creative Commons授权音乐及上传者提供的标签构建,提供详细数据划分及基线模型在不同标签集上的性能报告。 文件详解 文件名称: data.zip 文件格式: ZIP压缩包(.zip)...
    packageimg
  • 小鼠髓鞘再生与健康对照透射电镜图像分割数据集

    2025年12月22日 30 86 41

    数据集概述 该数据集包含成年小鼠胼胝体的透射电镜(TEM)图像,分为髓鞘再生验证数据集和健康对照数据集两类。数据提供实例分割(识别单个有髓轴突)与语义分割(区分轴突、内细胞质舌和髓鞘)的标注真值,以及基于髓鞘再生数据训练的ilastik分类器文件。 文件详解...
    packageimg
  • 中古荷兰语词汇重音模式与音节划分数据集

    2025年12月21日 30 167 138

    数据集概述 该数据集包含四万八千二百一十九个中古荷兰语词汇,均取自《中古荷兰语》光盘(1998年版)收录的二百零五篇韵文文本。所有词汇均标注了音节划分结果和词汇重音模式,为中古荷兰语语音特征研究提供基础数据。 文件详解...
    packageimg
  • 西班牙语医学语义索引开发数据集

    2025年12月18日 30 66 26

    数据集概述 该数据集为西班牙语医学语义索引(MESINESP)开发集,含七百五十条经人工标注的医学文献记录,标注使用DeCS编码(西班牙语版MeSH术语),每条记录至少由两名索引员标注并达成共识,可用于医学语义索引相关研究。 文件详解 压缩文件: mesinesp-development-set.zip,格式为ZIP,包含两个开发子集 官方开发集:...
    packageimg
  • 无伴奏合唱演唱数据集

    2025年12月16日 30 36 4

    数据集概述 该数据集包含西班牙巴塞罗那安东·布鲁克纳合唱团16名歌手无伴奏演唱三首曲目(《Locus Iste》《Niño Dios》《El Rossinyol》)的个人音频录音、MIDI文件、音高(f0)标注及音符标注,为合唱音准分析等研究提供支持。 文件详解 文件名称: ChoralSingingDataset.zip(压缩包) 文件格式: ZIP...
    packageimg
  • Mataws标注Web服务集合数据集

    2025年12月16日 30 108 14

    数据集概述 该数据集包含八百一十六个Web服务描述,基于Assam项目FullDataset扩展而来,通过Mataws工具添加语义标注。每个服务含语法版与语义版两种格式(WSDL和OWL-S),并按主题分类,为Web服务语义标注研究提供数据支持。 文件详解 文件名称: Annotated.FD-v1.0.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 循环水养殖系统鱼类实例分割数据集

    2025年12月15日 30 73 17

    数据集概述 本数据集遵循COCO标注标准,包含北欧两家商业循环水养殖系统(RAS)农场的88张鱼类图像及实例分割标注。标注采用多边形分割掩码,经人工质量评估,支持鱼类个体识别与计数研究。 文件详解 文档文件: README.md:Markdown格式,包含数据集简介、COCO标注标准说明、数据来源与处理流程等背景信息。 图像文件:...
    packageimg
  • SocialDisNER西班牙语推文疾病提及标注数据集

    2025年12月12日 30 186 96

    数据集概述 该数据集为SocialDisNER语料库,包含人工标注的西班牙语推文疾病提及金标准数据(训练集5000条、验证集2500条)及自动标注的大规模银标准数据(85000余条推文),覆盖疾病、药物等多类实体,用于研究社交媒体健康内容中的疾病提及识别。 文件详解 主数据压缩包: SocialDisNER_Data.zip 包含training-...
    packageimg
  • 学位论文致谢支持与情感人工标注数据集

    2025年12月8日 30 52 35

    数据集概述 该数据集是学位论文致谢部分的人工标注数据,围绕致谢内容中的支持关系与情感倾向展开标注。包含支持类型标注、情感极性标注及相关元数据,辅以编码手册说明标注规则,为自然语言处理领域中致谢文本的情感分析和支持关系识别研究提供基础数据。 文件详解 数据文件: metadata.csv: CSV格式,包含数据的元信息,如致谢文本的基本标识等字段...
    packageimg
  • 藏语古典词性标注词汇表

    2025年12月4日 30 89 56

    数据集概述 该数据集是为自然语言处理(NLP)任务构建的藏语古典词性标注词汇表。数据来源于动词词干数字化版本及人工标注的训练数据,部分词汇通过手动添加以优化基于规则的词性标注,适用于藏语古典文本的词性分析与处理。 文件详解 文件名称: Lexicons.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 社交媒体评论情感分析数据集SocialMediaCommentSentimentAnalysis-ayuauliaa

    2025年4月29日 30 192 144

    社交媒体评论情感分析数据集SocialMediaCommentSentimentAnalysis-ayuauliaa 数据来源:互联网公开数据 标签:情感分析, 评论数据, 社交媒体, 文本分类, 自动标注, 舆情分析, 自然语言处理, 机器学习 数据概述: 该数据集包含来自YouTube平台Mata...
    packageimg
  • 医疗健康糖尿病数据自动标注数据集HealthDBTSATSDataset-joaogabrieln

    2025年4月22日 30 95 39

    医疗健康糖尿病数据自动标注数据集HealthDBTSATSDataset-joaogabrieln 数据来源:互联网公开数据 标签:医疗健康,糖尿病,数据集,自动标注,机器学习,医学影像,疾病诊断,自然语言处理 数据概述: 该数据集包含来自医疗机构的糖尿病患者相关数据,并结合了自动标注信息,旨在支持糖尿病诊断,治疗和研究。主要特征如下:...
    packageimg
  • HackerEarth图像自动标注深度学习竞赛数据集

    2025年4月19日 30 160 55

    HackerEarth图像自动标注深度学习竞赛数据集 数据来源:互联网公开数据 标签:图像识别,深度学习,自动标注,竞赛,HackerEarth,计算机视觉,机器学习 数据概述:...
    packageimg