找到4,491个数据集

标签: 文本分类

过滤结果
  • 基于论坛对话的软件用户反馈分类数据集

    2026年2月15日 30 43 31

    数据集概述 本数据集围绕软件论坛帖子中的用户反馈展开,对比句子级与帖子级内容分析的差异,包含手动标注的帖子级分类数据及编码指南。通过分析开源软件论坛的用户反馈,识别出仅在帖子级可见的五种新反馈类型,揭示上下文信息对产品改进洞察的补充价值。 文件详解 文件名称:Post_Level_Classification_and_guideline.xlsx...
    packageimg
  • CDR_Based_碳移除协同效益挑战与局限证据映射分类法数据集

    2026年1月28日 30 105 84

    数据集概述 本数据集与论文“A taxonomy to map evidence on the co-benefits, challenges, and limits of carbon dioxide...
    packageimg
  • 阿姆哈拉语监督式主题分类语料库

    2026年2月12日 30 52 44

    数据集概述 本数据集为阿姆哈拉语主题分类监督语料库,由埃塞俄比亚记者专业标注,文件名为Supervised_Topic_Classifier_Corpus.xml。数据集包含一份XML格式文件,未划分训练/测试集、数据/标签集或原始/处理集,可用于自然语言处理领域的阿姆哈拉语文本分类研究,需进一步优化完善。 文件详解...
    packageimg
  • Subj_Based_文本主观性二分类数据集

    2026年2月9日 30 29 25

    数据集概述 本数据集为Subj主观性分类数据集,包含一万份文档,是用于二分类任务的数据集,任务为将文档(即句子)分为主观或客观两类。数据集包含文本内容、分类标签及交叉验证划分文件,可用于自然语言处理领域的主观性分析研究。 文件详解 texts.txt 文件格式:TXT 字段映射介绍:文档集合,每行对应一份文本数据 score.txt 文件格式:TXT...
    packageimg
  • WebKb_4UNI_Based_网页分类数据集

    2026年2月9日 0 181 161

    数据集概述 本数据集由卡内基梅隆大学文本学习小组收集,包含来自康奈尔、德克萨斯、华盛顿、威斯康星4所大学计算机科学系的网页及其他大学的杂项网页,总计8282页。网页被分为学生、教职员工、工作人员、部门、课程、项目和其他7个类别,用于文本分类任务。 文件详解 文本文件 文件名称:texts.txt、texts_2.txt 文件格式:TXT...
    packageimg
  • Goodreads_Based_书籍分类描述数据集

    2026年1月31日 30 210 25

    数据集概述 本数据集是从书籍评论平台Goodreads收集的书籍描述集合,包含三万三千五百九十四条书籍描述,分为儿童、漫画、超自然奇幻、历史与传记、犯罪与悬疑惊悚、诗歌、浪漫和青年成人八类,涵盖书籍标题和描述信息。 文件详解 texts.txt 文件格式:TXT 字段映射介绍:文档集(文本),每行对应一条书籍描述 score.txt 文件格式:TXT...
    packageimg
  • Healthcare_Based_医疗文章专业非专业分类研究数据

    2026年1月28日 30 195 66

    数据集概述 本数据集为医疗文章专业级分类研究而收集,包含标注为“专业”和“非专业”的医疗文章数据,以及实验验证所需的源代码,可用于医疗文本分类相关研究。 文件详解 readme.md 文件格式:MD 字段映射介绍:包含研究背景说明、Python版本要求(Python...
    packageimg
  • Youtube_API_Based_社交媒体历史场景标题数据集

    2026年2月8日 30 162 7

    数据集概述 本数据集通过Youtube API获取,包含多种历史场景下的社交媒体标题数据。数据集结构简单,仅含一个JSON格式文件,无目录层级划分,未提供训练/测试、数据/标签或原始/处理数据的划分,也无README或内容预览文件。 文件详解 文件名称:youtube_collection.json 文件格式:JSON...
    packageimg
  • Telugu_Suicide_Based心理健康检测泰卢固语文本数据集

    2026年2月6日 30 113 89

    数据集概述 本数据集是Kaggle英文自杀检测数据集前5万行的泰卢固语翻译版,使用IndicTrans2翻译模型生成。核心内容为含自杀倾向标注的泰卢固语文本,每条数据包含文本内容及“自杀倾向”或“非自杀倾向”的分类标签,旨在支持泰卢固语心理健康检测相关研究,共包含2个文件。 文件详解 README.md 文件格式:MD...
    packageimg
  • 保护现状免受绿色病毒侵害_德国政治宣传文档集

    2026年2月1日 30 115 83

    数据集概述 本数据集包含100个文档,均为.docx格式,主要涉及FPÖ和AfD两个政治团体的宣传内容,主题围绕反对欧盟气候政策、绿色协议等相关议题。文档未进行训练/测试、数据/标签或原始/处理的拆分,无目录结构,命名无明显规律,语义关键词涉及生物学中的“基因”。 文件详解 文件名称:包括FPÖ_52Verbot für...
    packageimg
  • dsfsi_Based非洲语言新闻语料库2022

    2026年2月1日 30 126 106

    数据集概述 本数据集为2022年的isiZulu新闻(含文章及标题)与Siswati新闻(仅标题)语料库,包含相关非洲语言的新闻文本资源,支持非洲语言的自然语言处理研究,数据集以单个压缩文件形式呈现。 文件详解 文件名称:dsfsi/za-isizulu-siswati-news-2022-v0.9.5.zip 文件格式:ZIP...
    packageimg
  • INCITE_Based煽动性言论标注研究数据集

    2026年2月1日 30 25 5

    数据集概述 本数据集为标注的煽动性言论数据集,与论文“Understanding Inciting Speech As New Malice”相关,该论文已被IEEE Transactions on Computational Social Systems接收。数据集用于支持煽动性言论的研究与分析,包含一份文件。 文件详解 文件名称:INCITE-...
    packageimg
  • OffensiveLang_Based攻击性语言数据集

    2026年1月31日 30 26 9

    数据集概述 本数据集为单文件归档的攻击性语言相关数据,文件类型为压缩包,未包含训练/测试、数据/标签或原始/处理等数据划分,无自述文件或内容预览可供参考。 文件详解 文件名称:OffensiveLang.zip 文件格式:ZIP(压缩包) 字段映射介绍:未提供压缩包内具体内容、字段及结构信息,仅可识别为归档文件类型。 适用场景...
    packageimg
  • Urdu_Based乌尔都语攻击性内容数据集及实现代码

    2026年1月30日 30 7 1

    数据集概述 本数据集包含乌尔都语攻击性语言相关的Python代码和多种特征文件,用于复现研究论文结果并扩展相关发现。数据集共含5个文件,无目录层级,主要分为数据文件和代码文件两类,支持乌尔都语文本的攻击性内容分析任务。 文件详解 数据文件(.xlsx格式,共3个) dataset-unigram.xlsx:乌尔都语攻击性内容的单字词特征数据...
    packageimg
  • Crowd_Based_用户需求在线反馈众包标注结果数据

    2026年1月30日 30 145 15

    数据集概述 本数据集为Figure Eight平台开展的众包标注实验结果,来源于REFSQ 2020发表的论文研究。核心内容是对在线反馈中的用户需求进行识别与分类的标注数据,可用于需求工程领域的模型训练与验证,仅包含一个压缩文件。 文件详解 文件名称:Crowd based annotation.zip 文件格式:ZIP(压缩文件)...
    packageimg
  • Rebetiko_Based歌曲歌词与元数据语料库数据集

    2026年1月30日 30 60 28

    数据集概述 本数据集为Rebetiko歌曲语料库,包含五千一百六十五首Rebetiko歌曲的歌词与元数据,其中三千七百七十二首提供歌词内容。元数据涵盖歌曲标题、来源页面名称、发行年份、乐器配置、相关艺术家(作曲家、作词家、乐器演奏者及歌手)姓名、唱片编号、舞蹈节奏类型及录制地点,所有内容均以现代希腊语呈现。数据集仅包含一个文件。 文件详解...
    packageimg
  • PaGA_12_Based_26类体裁德语文本分类语料库

    2026年1月30日 30 73 25

    数据集概述 本数据集为2012年帕德博恩体裁分析语料库(PaGA-12),包含1639个HTML文档,覆盖26种文本体裁。所有文档采集于2009年10月18日至11月20日,每个文档手动标注唯一体裁,每种体裁至少包含50个文档。文档均为德语文本,已移除框架集,以MySQL数据库转储形式交付。 文件详解 文件名称:corpus-paga-12.zip...
    packageimg
  • EBPI_Based_生物途径图像信息提取机器学习框架数据

    2026年1月30日 30 78 57

    数据集概述 本数据集为生物途径图像信息提取的机器学习框架相关数据,包含466种目标化学品的筛选与统计信息、箭头检测的训练验证及测试数据集与标签、EBPI工具提取的反应信息,以及基于BioBERT的文本分类数据集,覆盖图像检测与文本分类两类机器学习任务的相关数据。 文件详解 466 target chemicals_selected...
    packageimg
  • CLEF_2024_议会辩论_意识形态与权力识别_训练数据

    2026年1月29日 30 161 109

    数据集概述 本数据集是CLEF 2024“议会辩论意识形态与权力识别”共享任务的训练集,源自ParlaMint语料库4.0版本,包含奥地利、比利时等20余个国家及地区议会的辩论演讲文本,标注有意识形态倾向(左/右)和权力属性(执政联盟/反对党)等信息。 文件详解 文件名称:trainingset-ideology-power.zip 文件格式:ZIP...
    packageimg
  • Corpus_of_protocols_实验协议语料库数据集

    2026年1月29日 30 105 103

    数据集概述 本数据集为用于学术分析的实验协议语料库,包含经分析的实验协议相关数据,旨在为学术研究提供结构化的协议文本资源。数据集仅含一个文件,无目录层级划分,未区分训练/测试、数据/标签或原始/处理数据,专注于提供完整的实验协议语料内容。 文件详解 文件名称:corpus of protocols.xlsx 文件格式:XLSX...
    packageimg