-
NASA_Based_系外行星出版物摘要预处理数据集
2026年1月31日 30 173 169
数据集概述 本数据集为NASA收集的系外行星相关出版物摘要预处理数据,包含5个文件,存储为可导入Pandas的JSON格式压缩文件及说明文档,便于研究者快速获取系外行星文献的结构化摘要信息。 文件详解 Readme.md 文件格式:MD 字段映射介绍:包含数据集标题、日期、作者及内容说明,列出各数据文件的核心内容...
-
YouTube_Abusive_Comments_数据集
2026年1月30日 30 64 4
数据集概述 本数据集收集了来自YouTube热门视频(如音乐视频、《小猪佩奇》等动画片)的辱骂评论及特定词汇,包含性辱骂评论等内容,为社交媒体评论内容分析提供基础数据支持。 文件详解 文件名称:Sexual Abusive Comments by Roma3 & INNO.xlsx 文件格式:XLSX...
-
Youtube_Source_智能农业主题评论标注数据集
2026年1月30日 30 75 59
数据集概述 本数据集包含16个智能农业相关YouTube视频的7334条用户评论,已标注为表扬、意见、建议、未定义、查询、混合6类标签。涵盖日本、欧洲、印度等地区的智能农业技术应用,数据可用于分析用户对智能农业的态度与反馈,包含CSV数据文件和DOCX说明文档。 文件详解 Farming data.csv 文件格式:CSV...
-
YouTube_API_Based_马拉地语食谱频道评论标注数据集
2026年1月27日 30 166 25
数据集概述 本数据集通过YouTube API采集马拉地语食谱频道评论,覆盖Anjali Recipe Marathi等12个热门频道。评论经人工标注为感谢、食谱相关、视频相关、赞扬、混合、未定义、建议与查询7类,包含标注类别及对应样本量,为分析马拉地语食谱频道用户互动提供结构化数据。 文件详解 数据文件 文件名称:devnagiri.csv...
-
BCC_Corpus_Based_中文时间词空间化分类与频率标注数据
2026年1月27日 30 166 60
数据集概述 本数据集为论文“The role of spatial terms in time expressions: A case study of Chinese temporal...
-
低资源语言数据集_基于肯尼亚本土语言与斯瓦希里语的平行语料库_v1_0_0
2026年1月21日 30 83 14
数据集概述 本数据集包含肯尼亚三种本土语言(Kidaw'ida、Kalenjin、Dholuo)与斯瓦希里语的平行语料库,每种语料库平均含三万句对,用于训练机器翻译模型,支持斯瓦希里语与本土语言间的翻译,由USIU-Africa等机构研究者创建,将持续更新优化。 文件详解 文件名称:waleghwa/low-resource-language-...
-
CPLP_tuites_Based_葡萄牙语多中心推特语料库数据_2022
2026年1月21日 30 132 98
数据集概述 本数据集为CPLP:tuítes葡萄牙语多中心推特语料库,包含来自安哥拉、巴西、佛得角等七个葡语国家53个新闻机构账号的125,827条推特,共2,633,507个词元。涵盖原始推文、元数据及标注文件三类资源,是研究葡萄牙语多中心变体的结构化语料资源。 文件详解 原始推文文件 文件名称:tweets_untagged.zip...
-
Pinjaman_Online_Based_Twitter社交媒体在线贷款主题数据集
2026年1月14日 30 185 79
数据集概述 本数据集是基于Twitter平台的在线贷款(Pinjaman Online)主题数据,通过twint库采集,包含3个文件,覆盖原始与处理后的推文内容,涉及推文基本信息、互动数据及预处理文本,可用于分析在线贷款相关的社交媒体讨论特征。 文件详解 文件名称:pinjol_fix.csv 文件格式:CSV...
-
Čengić_Projekt_Glagolska_valencija_古希腊文本动词配价标注数据集
2026年1月7日 30 109 28
数据集概述 本数据集包含古希腊选定文本中不同版本的动词配价标注示例,涵盖多个标注模型的完整与非完整版本,涉及XML格式标注文件及DOCX格式文本版本,可用于古希腊语言学及自然语言处理领域的动词配价研究。 文件详解 XML标注文件(共4个)...
-
巴西中等教育考试问题数据集2010_2022
2025年12月23日 30 32 13
数据集概述 该数据集提取自巴西国家教育研究所(INEP)网站公开的ENEM考试试题,覆盖2010至2022年。数据包含考试题目文本、选项列表、年份、学科领域及正确答案,通过脚本处理PDF文件生成,为研究巴西中等教育考试内容提供结构化数据支持。 文件详解 文件名称: enem_questions.zip 文件格式: ZIP压缩包 核心字段映射:...
-
COVID_19新闻发布会语料库
2025年12月16日 30 180 116
数据集概述 该数据集是一个机器可读的文本语料库,收集了全球各国政府及世界卫生组织在新冠疫情期间的每日新闻发布会内容,涵盖疫情状态更新、政策决策等信息,目前包含英国、苏格兰、威尔士、北爱尔兰及世界卫生组织的多场发布会记录。 文件详解 文件名称: Covid19_Press_Briefings_Corpus.zip 文件格式: ZIP(压缩包格式)...
-
风险识别混合模型数据集与源码_BERT_IndoBERT与随机森林
2025年12月10日 30 181 90
数据集概述 本数据集包含2024年3月4日至15日从Google Play Store爬取的用户反馈评论数据,仅包含1至3星评级的评论,由ISP管理方手动标注,用于支持基于BERT-IndoBERT与随机森林混合模型的风险识别研究。 文件详解 文件名称: BERT.zip:压缩文件,可能包含与BERT模型相关的数据集或源码文件 文件名称:...
-
加泰罗尼亚通用网络爬取语料库2020
2025年12月4日 30 188 164
数据集概述 该数据集是加泰罗尼亚语文本语料库的子库,通过爬取2020年7月最受欢迎的500个.cat和.ad域名获取,包含约四亿三千五百万个词、一千九百四十五万余句和一百零一万六千余篇文档,文档以单行新行分隔,用于语言学或自然语言处理研究。 文件详解 文件名称: catalan_general_crawling.zip 文件格式: ZIP(.zip)...



