数据集 - 海数据

Biografischportaal_nl_荷兰传记文本命名实体识别数据集

2026年1月21日

数据集概述本数据集用于荷兰传记文本的命名实体识别，包含六种实体类型（PERSON、LOCATION、ORGANIZATION、DATE、ARTWORK、MISC）的标注。原始数据来源于荷兰传记门户网站，标注文件经人工检查分词和句子拆分，总计包含六个文件。文件详解...

ZIP

BanglaAbuseMeme_Based_孟加拉语辱骂表情包分类标注数据集

2026年1月20日

数据集概述本数据集为针对孟加拉语辱骂表情包分类任务构建的标注数据集，包含从网络获取的4000个数据点。旨在解决低资源语言环境下孟加拉语辱骂表情包检测模型缺乏基准数据的问题，支持相关AI模型的训练与评估，助力社交媒体平台的在线安全治理。文件详解文件名称：BanglaAbuseMeme.zip 文件格式：ZIP（压缩包）...

ZIP

MALAYALAM_MIX_CODE_食谱频道YouTube评论文本分类数据集

2026年1月20日

数据集概述本数据集为用于文本分类的马拉雅拉姆语（混合代码）数据，来自YouTube平台“Veen's Curryworld”和“Lekshmi Nair”两个食谱频道的评论区，通过YouTube API抓取整合。包含“text”（评论内容）和“label”（分类标签）两个属性，标签分为感恩、食谱相关、视频相关等七类，总计含多类标注实例。文件详解...

ZIP

IMTVault_Based_低资源语言语际标注文本提取与富集数据集_2022

2026年1月19日

数据集概述本数据集为IMTVault，主要内容是从语法描述和类型学调查文章中提取并富集的低资源语言语际标注文本。数据集由1个压缩文件构成，无训练测试、数据标签或原始处理数据的拆分，适用于低资源语言的语言学研究与资源开发。文件详解文件名称：cldf-datasets/imtvault-v1.2.zip 文件格式：ZIP...

ZIP

AsanteTwiSenti_Based_加纳阿桑特语推文多语言情感标注数据集

2026年1月19日

数据集概述本数据集为加纳阿桑特语推文情感标注语料库AsanteTwiSenti，包含九千五百零七条手动标注的推特数据，标注类别涵盖积极、消极、中性、加纳皮钦语、多语言及单语言。数据集共六个文件，支持非洲本土语言情感分析研究，无训练测试或原始处理数据拆分。文件详解数据文件（共5个）...

ZIP

Sentiment_Aligned_乌拉尔语系四语言情感分析与词嵌入数据_2023

2026年1月15日

数据集概述本数据集包含厄尔兹亚语、科米-齐良语、莫克沙语和乌德穆尔特语四种乌拉尔语系语言的情感分析相关数据，包括对齐的情感标注数据、词嵌入向量、代码及情感分析模型，适用于低资源语言情感分析研究。文件详解情感标注数据文件文件名称：sentiment_eval_data.json 文件格式：JSON...

ZIP

TECA_Textual_Entailment_Catalan数据集v_1_0_2

2026年1月15日

数据集概述本数据集为加泰罗尼亚语文本蕴含（TE）数据集TECA，包含catalan_TE1和vilaweb_TE两个子集，共14997和6166对标注的前提与假设句子对，标注类别为蕴含、矛盾或中立。数据来源于加泰罗尼亚语文本语料库和Vilaweb新闻专线，以.zip格式发布，无训练测试等拆分。文件详解文件名称：TECA_v.1.0.2.zip...

ZIP

Sentiment_Analysis_Based_荷兰语推文自动与人工情感分析对比数据

2026年1月14日

数据集概述本数据集为Lynette Joosten学士论文所用，包含荷兰语推文的情感分析相关数据，对比了自动与人工情感分析的结果。数据以六个Excel文件呈现，分别对应ING、Rabobank等不同对象的情感分析内容，适用于NLP情感分析方法的效果验证与对比研究。文件详解荷兰语推文情感分析文件集（共6个）文件名称：ING...

ZIP

Dzongkha_Handwritten_Digit_Dataset_NLP任务数据集

2026年1月13日

数据集概述本数据集为宗喀语手写数字图像数据，包含1000张JPG格式图像，涵盖0至9共10类宗喀语数字字符，由不丹100名不同背景人员手写采集，旨在填补宗喀语手写字符识别基准数据集的空白，支持自然语言处理相关研究。文件详解文件名称：Dataset.zip 文件格式：ZIP...

ZIP

Lower_Fungom_Mundabli_Based_非洲语言词汇数字化完整数据

2025年12月24日

数据集概述该数据集为Mundabli语言的225词表，Mundabli属Yemne-Kimbi语组，通行于喀麦隆西北部Menchum区Fungom分区Lower Fungom地区，语言有声调且名词前缀演变为修饰语一致标记，词表包含两位顾问提供的词汇及个体变异。文件详解...

ZIP

Gigatrue_Cleaned_英文摘要清理数据集

2025年12月23日

数据集概述该数据集是对Harvard/gigaword数据集的清理版本，添加了生成的数值，并使用truecase工具进行了大小写标准化处理。数据集包含1个PDF文件，无训练/测试、数据/标签或原始/处理数据的拆分，为摘要任务研究提供基础数据。文件详解文件名称: Gigatrue Slovak abstractive summarisation...

ZIP

数据73种语言句子级释义语料库TaPaCo

2025年12月22日

数据集概述该数据集为73种语言的句子级释义语料库TaPaCo，从Tatoeba数据库提取，经语言无关过滤和修剪步骤处理。含约190万句，每种语言20万至25万句，覆盖无其他释义数据集的语言，部分语言人工评估显示半数至四分之三释义正确。文件详解文件名称: tapaco_v1.0.zip：压缩包格式，包含73种语言的句子级释义语料库数据文件名称:...

ZIP

HIPE_2022共享任务命名实体数据集

2025年12月22日

数据集概述本数据集是HIPE-2022共享任务的专用数据，用于多语言历史文档中的命名实体识别与分类（NERC）及实体链接（EL）任务。基于六个原始数据集构建，涵盖约两百年的历史报纸和经典评注，包含多种语言和实体标注方案。文件详解文件名称: HIPE-2022-data-2.1-test-all-unmasked.zip 文件格式: ZIP压缩包...

ZIP

Lower_Fungom_Ngun_Based_喀麦隆Ngun语言词汇资源数据集

2025年12月22日

数据集概述该数据集为Ngun语言的225词表，Ngun是蒙巴姆语的一种变体，属于也门-金比语族，使用于喀麦隆西北部Menchum省Fungom分区的Lower Fungom地区，语言具有声调及名词前缀特征，记录了两位顾问间的词汇变异。文件详解文件名称:...

ZIP

KPAAMCAM_IDP_Lower_Fungom_Biya_Based_500名词词表完整数据

2025年12月21日

数据集概述该数据集是一份包含500个名词的Biya Mungbam语言词表，Biya Mungbam是喀麦隆西北部Menchum区Lower Fungom地区使用的语言。词表基于两名男女发音人的数据，记录了声调、前缀、词根及名词短语等方面的个体差异。文件详解文件名称：KPAAMCAM-IDP_NTs_BIYA 500 NOUNS...

ZIP

印地语文本宣传数据集2023_Prop_HiT

2025年12月21日

数据集概述本数据集是针对印地语文本的宣传检测数据集，包含来自三十二家印地语新闻网站的七百九十篇文章，采用人工标注方式标记十八种宣传技术。数据按训练集（五百五十篇）和测试集（二百四十篇）划分，为印地语宣传内容识别研究提供结构化标注数据。文件详解该数据集包含以下文件： - 压缩包文件: - Prop-HiT Dataset.zip:...

ZIP

达罗毗荼语混合文本情感分析与冒犯性语言识别数据集2020

2025年12月21日

数据集概述该数据集为三种低资源达罗毗荼语（泰米尔语、卡纳达语、马拉雅拉姆语）与英语的混合社交媒体评论数据，包含六万余条YouTube评论，经人工标注用于情感分析和冒犯性语言识别，标注者间一致性较高，支持相关自然语言处理研究。文件详解文件名称: DravidianCodeMix-2020.zip 文件格式: ZIP压缩包内容说明:...

ZIP

皮卡德语标注语料库

2025年12月20日

数据集概述该数据集包含25篇皮卡德语文本，经人工标注词性、词元、法语翻译及地点实体，由法国ANR资助的RESTAURE项目产出，标注流程详见指定学术文章。文件详解文件名称: corpus_picard_restaure.zip（压缩包）文件格式: ZIP 包含内容: "extraits_reference_bruts"文件夹（若有）:...

ZIP

孟加拉语AI解决数学奥林匹克问题基准数据集

2025年12月19日

数据集概述该数据集围绕孟加拉语AI解决数学奥林匹克问题基准展开，通过评估大语言模型（LLMs）配置、微调特定数据集及应用检索增强生成（RAG）等方法，提升模型在多语言环境下的推理精度，为数学推理研究提供支持。文件详解文件名称：13624ijnlc04.pdf 文件格式：PDF（.pdf）...

ZIP

Gigatrue斯洛伐克语抽象摘要数据集

2025年12月19日

数据集概述本数据集为合成Gigaword数据集的斯洛伐克语翻译版本，基于Gigatrue数据集通过SeamlessM4T-v2工具翻译生成，专注于抽象摘要任务，为斯洛伐克语文本摘要研究提供数据支持。文件详解文件名称: Gigatrue Slovak abstractive summarisation dataset.pdf 文件格式: PDF...

ZIP

找到60个数据集

注册成功！