数据集 - 海数据

Stamatatos06_Based_作者识别C10文本数据集_2015

2026年1月22日

数据集概述本数据集包含来自十位不同作者（C10）的五百篇文本，用于作者识别研究。数据以压缩包形式提供，内部包含一个JSON文件记录真实标签（ground truth），无训练/测试、数据/标签或原始/处理数据的划分。文件详解文件名称：stamatatos06-authorship-attribution-...

ZIP

CrUISE_AC_Based_ICSE2025用户故事优化研究完整数据

2026年1月22日

数据集概述本数据集为ICSE2025论文研究配套数据，包含用户故事、问题跟踪数据、分类训练集、提示文本及评估结果等10个文件。核心内容是支持CrUISE-AC方法的验证，该方法通过利用众包知识优化用户故事的验收标准，涵盖电商与CMS领域的用户故事、问题数据及人工标注训练集。文件详解用户故事数据文件名称：User stories...

ZIP

CyberSecNews_Based_德英网络安全新闻人工分类标注数据集

2026年1月21日

ZIP

数据20Newsgroup_Based_机器学习解释评估人工标注词权重数据

2026年1月21日

数据集概述本数据集是论文“Quantitative Evaluation of Machine Learning Explanations: A Human-Grounded...

ZIP

Telegram_Google_Play_Store_印尼语用户评论数据集

2026年1月21日

数据集概述本数据集为从Google Play商店收集的Telegram即时通讯应用的用户评论数据，包含印尼语评论文本、1-5星用户评分、时间戳、应用版本及可用的开发者回复等信息，还涵盖评论者用户名、回复信息等元数据，适用于情感分析、移动应用用户体验研究及印尼语自然语言处理研究。文件详解文件名称：dataset_telegram.xlsx...

ZIP

SDG13_Based联合国可持续发展目标出版物识别方法比较研究数据2022

2026年1月20日

数据集概述本数据集围绕联合国可持续发展目标13（气候行动）相关出版物识别方法的比较研究，包含研究中使用的样本DOI数据和检索词分类数据，支持对不同识别方法的效果评估与分析。文件详解文件名称：Sample_DOIs.xlsx 文件格式：XLSX 字段映射介绍：包含与SDG13气候行动相关的出版物样本DOI信息，用于识别方法的测试与验证...

ZIP

mromanello_APh_Corpus_v2_0_自然语言处理语料库数据

2026年1月20日

数据集概述本数据集为APh语料库v2.0版本，由Matteo Filipponi用于瑞士联邦理工学院（EPFL）硕士项目评估。数据以压缩包形式存储，无训练测试、数据标签或原始处理数据的拆分，未提供自述文件或内容预览。文件详解文件名称：mromanello/APh_Corpus-v2.0.zip 文件格式：ZIP...

ZIP

Documentation_defects_Based_文档缺陷分类研究数据

2026年1月20日

数据集概述本数据集包含101个根据分类体系进行分类的文档缺陷记录，用于研究文档缺陷的分类特征与分布情况。数据集仅包含一个文件，未进行训练/测试、数据/标签或原始/处理数据的拆分，无目录结构，文件类型单一。文件详解文件名称：silva_techdebt2023_documentationdebt.xlsx 文件格式：XLSX...

ZIP

MongoDB_基于文本挖掘和机器学习的女性暴力类型非结构化文本分类研究数据

2026年1月20日

数据集概述本数据集包含用于女性暴力类型非结构化文本分类研究的真实新闻数据，数据提取自MongoDB数据库，记录了新闻的日期、标题和正文内容，支持通过文本挖掘和机器学习技术开展相关分析。文件详解文件名称：Noticias.metadata.json 文件格式：JSON...

ZIP

CONTRAST_IT_Based意大利语新闻语料库数据集2011_2012

2026年1月20日

数据集概述本数据集为CONTRAST-IT多语言语料库的意大利语部分，包含2011-2012年从意大利三家电子日报（repubblica.it、lastampa.it、corriere.it）采集的531篇真实新闻文章，总计约三十万字，覆盖政治、体育、科技等多个主题，用于多语言对比语言学研究。文件详解意大利语新闻文章文件...

ZIP

MALAYALAM_MIX_CODE_食谱频道YouTube评论文本分类数据集

2026年1月20日

数据集概述本数据集为用于文本分类的马拉雅拉姆语（混合代码）数据，来自YouTube平台“Veen's Curryworld”和“Lekshmi Nair”两个食谱频道的评论区，通过YouTube API抓取整合。包含“text”（评论内容）和“label”（分类标签）两个属性，标签分为感恩、食谱相关、视频相关等七类，总计含多类标注实例。文件详解...

ZIP

Jack_the_Ripper_Corpus_开膛手杰克信件语料库数据v1_0

2026年1月20日

数据集概述本数据集为开膛手杰克信件语料库v1.0，包含与开膛手杰克相关的信件文本集合，是用于历史研究和文本分析的语料资源。数据集以压缩包形式存储，未进行训练测试、数据标签或原始处理数据的拆分。文件详解文件名称：andreanini/jacktherippercorpus-v1.0.zip 文件格式：ZIP（压缩包）...

ZIP

Shared_Research_Repository_BL报纸样本纯文本数据集

2026年1月19日

数据集概述本数据集包含Shared Research Repository发布的报纸文章纯文本数据，以压缩包形式提供，可用于自然语言处理相关的文本分析任务，总计包含一个文件。文件详解压缩文件文件名称：newspaper_text.zip 文件格式：ZIP...

ZIP

Hinglish_Youtube_Based印度烹饪频道观众评论情感分析数据集

2026年1月19日

数据集概述本数据集收集自印度两大知名Youtube烹饪频道（Nisha Madhulika和Kabita’s Kitchen）的观众评论，核心为Hinglish语言评论，包含4900条/频道的标注数据，共划分7类标签（感谢、食谱相关、视频相关、赞扬、混合、未定义、建议与疑问），所有标注为人工完成，支持文本分类任务。文件详解数据文件（CSV格式）...

Trawling_for_Trolling_Based_社交媒体骚扰类型标注数据集

2026年1月18日

数据集概述本数据集包含12490行社交媒体内容样本，按仇恨言论、贬损内容、网络骚扰、亵渎内容和正常内容五类标注。数据主要来源于Twitter、Reddit和Wikipedia讨论页，无帖子元数据，可用于网络骚扰类型识别相关研究。文件详解文件名称：Dataset_to_upload.xlsx 文件格式：XLSX...

ZIP

Fake_News_Database_Based_事实核查虚假与真实新闻分类数据

2026年1月15日

数据集概述本数据集为经过整理的事实核查新闻数据库，包含近七万条URL，覆盖虚假与真实新闻内容，并按主题分类。核心内容为事实核查的新闻条目，支持虚假新闻识别与相关研究，总计包含2个文件。文件详解 readme.txt 文件格式：TXT 内容介绍：数据集说明文档，解释数据库构成及json文件的字段含义。 fake_news_db.json...

ZIP

Bridging_Oceans_Based_南美生物海洋走廊区域一体化文献数据集

2026年1月15日

数据集概述本数据集聚焦南美生物海洋走廊与区域一体化主题，包含文献元数据Excel文件及Iramuteq生成的文本分类TXT文件。核心为59条文献的详细元数据，涵盖出版类型、作者、摘要等信息，辅以5个分类文本文件，支撑该领域的文献分析与主题挖掘。文件详解 Excel元数据文件文件名称：dataset_SLR.xlsx 文件格式：XLSX...

ZIP

Annexe_7_Corpus_Based_法国媒体文章与公民评论完整语料库数据

2026年1月15日

数据集概述本数据集为Annexe 7法国媒体文章与公民评论完整语料库，包含法国媒体发布的文章及公民对其的评论内容，以压缩包形式提供，是用于自然语言处理研究的文本语料资源。文件详解文件名称：7. Annexe 7 Corpus version complète articles médias et commentaires citoyens...

ZIP

CLEF_Shared_Task_2024_议会辩论意识形态与权力识别测试数据集

2026年1月15日

数据集概述本数据集为2024年CLEF议会辩论意识形态与权力识别共享任务的测试集，内容选自ParlaMint语料库（4.0版）的议会演讲文本。数据格式与训练集一致，但未包含标签信息，仅用于任务测试阶段的模型评估，包含1个压缩文件。文件详解文件名称：ideology-power-st-testset.zip 文件格式：ZIP...

ZIP

Webis_Clickbait_Based_2016年Twitter推文标注数据集

2026年1月15日

数据集概述本数据集为Webis Clickbait Corpus 2016，包含2014年从转发量前20的新闻出版商处采样的2992条Twitter推文，由三位独立标注者手动标注是否为clickbait，其中767条被多数标注者判定为clickbait。多数投票结果可作为构建clickbait检测技术的基准真值，是该领域首个数据集。文件详解...

ZIP

找到4,514个数据集

注册成功！