找到4,497个数据集

标签: 文本分类

过滤结果
  • Crowd_Based_用户需求在线反馈众包标注结果数据

    2026年1月30日   

    数据集概述 本数据集为Figure Eight平台开展的众包标注实验结果,来源于REFSQ 2020发表的论文研究。核心内容是对在线反馈中的用户需求进行识别与分类的标注数据,可用于需求工程领域的模型训练与验证,仅包含一个压缩文件。 文件详解 文件名称:Crowd based annotation.zip 文件格式:ZIP(压缩文件)...
    packageimg
  • Rebetiko_Based歌曲歌词与元数据语料库数据集

    2026年1月30日   

    数据集概述 本数据集为Rebetiko歌曲语料库,包含五千一百六十五首Rebetiko歌曲的歌词与元数据,其中三千七百七十二首提供歌词内容。元数据涵盖歌曲标题、来源页面名称、发行年份、乐器配置、相关艺术家(作曲家、作词家、乐器演奏者及歌手)姓名、唱片编号、舞蹈节奏类型及录制地点,所有内容均以现代希腊语呈现。数据集仅包含一个文件。 文件详解...
    packageimg
  • PaGA_12_Based_26类体裁德语文本分类语料库

    2026年1月30日   

    数据集概述 本数据集为2012年帕德博恩体裁分析语料库(PaGA-12),包含1639个HTML文档,覆盖26种文本体裁。所有文档采集于2009年10月18日至11月20日,每个文档手动标注唯一体裁,每种体裁至少包含50个文档。文档均为德语文本,已移除框架集,以MySQL数据库转储形式交付。 文件详解 文件名称:corpus-paga-12.zip...
    packageimg
  • EBPI_Based_生物途径图像信息提取机器学习框架数据

    2026年1月30日   

    数据集概述 本数据集为生物途径图像信息提取的机器学习框架相关数据,包含466种目标化学品的筛选与统计信息、箭头检测的训练验证及测试数据集与标签、EBPI工具提取的反应信息,以及基于BioBERT的文本分类数据集,覆盖图像检测与文本分类两类机器学习任务的相关数据。 文件详解 466 target chemicals_selected...
    packageimg
  • CLEF_2024_议会辩论_意识形态与权力识别_训练数据

    2026年1月29日   

    数据集概述 本数据集是CLEF 2024“议会辩论意识形态与权力识别”共享任务的训练集,源自ParlaMint语料库4.0版本,包含奥地利、比利时等20余个国家及地区议会的辩论演讲文本,标注有意识形态倾向(左/右)和权力属性(执政联盟/反对党)等信息。 文件详解 文件名称:trainingset-ideology-power.zip 文件格式:ZIP...
    packageimg
  • Corpus_of_protocols_实验协议语料库数据集

    2026年1月29日   

    数据集概述 本数据集为用于学术分析的实验协议语料库,包含经分析的实验协议相关数据,旨在为学术研究提供结构化的协议文本资源。数据集仅含一个文件,无目录层级划分,未区分训练/测试、数据/标签或原始/处理数据,专注于提供完整的实验协议语料内容。 文件详解 文件名称:corpus of protocols.xlsx 文件格式:XLSX...
    packageimg
  • CrisisNLP_Based社交媒体众包地震灾害评估数据集

    2026年1月29日   

    数据集概述 本数据集用于支持论文“Explore the potential of using social media crowdsourcing for earthquake damage...
    packageimg
  • Transcription_data_多主体对话转录文档数据

    2026年1月29日   

    数据集概述 本数据集包含7份转录文档,主要记录Paul、Vince、Jenny三位主体的对话内容,以及一份用于分析的数据文档。所有文件均为docx格式,无目录结构或数据拆分,可直接用于对话内容的提取与分析。 文件详解 主体转录文档(共6份) 文件名称:Transcription (Paul 2).docx、Transcription (Vince...
    packageimg
  • Europarl_v7_Based_英葡CBOW词向量模型数据

    2026年1月28日   

    数据集概述 本数据集包含基于Europarl语料库(版本7)训练的英语和葡萄牙语CBOW词向量模型,使用FastText工具及子词选项,共40轮训练。数据集含模型文件、词汇向量文件及词汇邻居变化记录文件,可用于自然语言处理相关研究与应用。 文件详解 英语模型文件 文件名称:cbowN_europarl_v7_en_sub_epoch_40.bin...
    packageimg
  • 利用机器学习和自然语言处理技术对农业试验站项目分类数据集进行处理

    2026年1月28日   

    数据集概述 本数据集为论文“Leveraging Machine Learning and Natural Language Processing Techniques for Agriculture Experiment Station Project...
    packageimg
  • GMHP7k_Based_德语社交媒体厌女症仇恨言论标注语料库数据

    2026年1月27日   

    数据集概述 本数据集为GMHP7k德语厌女症仇恨言论语料库,包含社交媒体平台用户发布的7061条帖子。由志愿者对每条帖子进行仇恨言论和厌女症仇恨言论的二元标注,Fleiss' Kappa标注者间信度分别为0.6409和0.8258,同时提供基于BERT模型的基线分类结果,仇恨言论和厌女症仇恨言论宏平均F1-score最高达0.79和0.75。 文件详解...
    packageimg
  • African_News_Corpus_非洲19种语言新闻语料数据

    2026年1月27日   

    数据集概述 本数据集为非洲19种语言的单语种新闻语料库,来源包括VOA、BBC、Isolezwe等平台及项目。数据由不同来源整合而成,涉及多种非洲本土语言,总计包含20个文件,均为压缩格式,无目录层级结构。 文件详解 压缩文件包...
    packageimg
  • novel_request_Based_十部小说中文请求句语料数据

    2026年1月27日   

    数据集概述 本数据集包含从十部小说中提取的中文请求句语料,核心内容为小说中的请求类句子集合,可用于中文自然语言处理领域的相关研究,数据集仅包含一个文件。 文件详解 文件名称:corpus novel_request.xlsx 文件格式:XLSX 字段映射介绍:未提供具体字段信息,文件内容为从十部小说中提取的中文请求句语料集合 适用场景...
    packageimg
  • Sources_Based_量子与经典测量不确定性来源分类数据集_v2

    2026年1月26日   

    数据集概述 本数据集收录物理教育研究中,参与者对测量调查问题的自然语言回答,聚焦量子与经典力学实验场景下测量不确定性的认知来源。数据按多类别编码方案标注,适用于多分类机器学习技术评估,含单份Excel文件。 文件详解 文件名称:sources_v2.xlsx 文件格式:XLSX...
    packageimg
  • Astronomia_nova_Kepler著作预处理文本机器学习数据集

    2026年1月21日   

    数据集概述 本数据集为开普勒《新天文学》(Astronomia nova)的预处理文本语料库,源自Donahue翻译的2015年修订版,经OCR和自动化文本处理生成UTF8编码的机器可读纯文本,移除特殊字符、引用标记等,保留部分OCR误差。包含3个文件,用于机器学习场景。 文件详解 readme.md 文件格式:MD...
    packageimg
  • Hinglish_Youtube_Based印度烹饪频道观众评论情感分析数据集

    2026年1月26日   

    数据集概述 本数据集收集自印度两大知名Youtube烹饪频道(Nisha Madhulika和Kabita’s Kitchen)的观众评论,核心为Hinglish语言评论,包含4900条/频道的标注数据,共划分7类标签(感谢、食谱相关、视频相关、赞扬、混合、未定义、建议与疑问),所有标注为人工完成,支持文本分类任务。 文件详解 数据文件(CSV格式)...
    packageimg
  • TuReV_Corpus_France_24突尼斯革命在线新闻语料库

    2026年1月26日   

    数据集概述 本数据集为TuReV语料库,包含从France 24网站提取的突尼斯革命相关在线新闻内容,是研究该历史事件媒体报道的结构化文本资源。数据集仅含一个文件,无目录层级或数据拆分,便于直接使用。 文件详解 文件名称:corpus TuReV.docx 文件格式:DOCX 字段映射介绍:包含从France...
    packageimg
  • 罕见病MEDLINE事件注册库_2023年人工标注文献与分类评估数据

    2026年1月26日   

    数据集概述 本数据集为2023年生成,基于2022年从MEDLINE(科学文献)和Event Registry(新闻)收集的数据,支持罕见病挖掘项目。包含16种罕见病的人工标注文献,涉及科学论文和新闻文章的标注及分类器评估数据,用于相关研究论文的开发。 文件详解 JSON文件 文件名称:preproc2-input-...
    packageimg
  • 哥伦比亚_El_Tiempo_日报单日新闻提取数据_20221111

    2026年1月25日   

    数据集概述 本数据集为哥伦比亚《El Tiempo》日报2022年11月11日的新闻提取数据,包含当天该报纸发布的新闻内容,以结构化格式存储,可用于新闻内容分析、媒体研究等场景,数据集仅含一个文件。 文件详解 文件名称:news_eltiempo_11-11-2022.json 文件格式:JSON...
    packageimg
  • Wikidata_Based_新闻标题到知识图谱事件类映射评估数据集

    2026年1月25日   

    数据集概述 本数据集是基于Wikidata构建的新闻标题到事件类映射语料库,用于支持新闻标题与知识图谱中事件类的关联评估框架研究。数据集包含1个JSON文件,无训练测试、数据标签或原始处理数据的拆分,为新闻事件分类映射任务提供基础数据支持。 文件详解 文件名称:news_event_identication_dataset.json 文件格式:JSON...
    packageimg