数据集 - 海数据

Variations_Based_斯洛伐克语附着词位置变异研究数据集

2026年1月23日

数据集概述本数据集为论文“Variations on positioning of clitics in Slovak (on the basis of corpus and experimental data)”配套数据，核心内容围绕斯洛伐克语中附着词的位置变异展开，基于语料库和实验数据构建，包含一个文件，用于支撑相关语言学研究分析。文件详解...

ZIP

GreetingsFrom_Based历史明信片地址转录数据集2023

2026年1月22日

数据集概述本数据集包含500张具有历史意义的明信片背面的地址转录数据，覆盖比利时、法国、德国、卢森堡、荷兰和英国六个国家。数据集提供人类标注的Ground Truth（GT）和手写文本识别（HTR）两种转录版本，用于历史明信片地址信息的提取研究。文件详解 GreetingsFrom_GT.zip 文件格式：ZIP...

ZIP

ARAFA_Generated_Based_阿拉伯语大规模事实核查数据集

2026年1月21日

数据集概述本数据集是面向阿拉伯语自然语言处理的大规模事实核查数据集ARAFA，通过大语言模型自动化框架构建，包含181,976条标注为支持、反驳或信息不足的主张-证据对，可用于阿拉伯语自动事实核查模型训练与评估。文件详解文件名称：ARAFA.json 文件格式：JSON...

ZIP

Charrier_PhilTransB_NLP_NESpups3变量数据

2026年1月21日

数据集概述本数据集包含1个文件，文件名为Charrier_PhilTransB_NLP_NESpups3.xlsx，文件格式为xlsx。数据涉及自然语言处理（NLP）相关变量，无训练/测试、数据/标签、原始/处理数据的划分，无自述文件或内容预览。文件详解文件名称：Charrier_PhilTransB_NLP_NESpups3.xlsx...

ZIP

LODsyndesisIE_Evaluation_实体识别评估集与结果数据

2026年1月21日

数据集概述本数据集包含LODsyndesisIE实体识别任务的评估资源，涵盖SimpleWiki、MSNBC、AQUAINT三个评估集的10篇测试文本（平均每篇83.2词、含15.8个实体），以及不同实体识别工具的效果与效率评估结果，用于验证实体识别及LODsyndesis内容富集能力。文件详解评估文本文件（TXT格式）...

ZIP

generated_texts_Based_生物基因NLP微调模型评估数据

2026年1月21日

数据集概述本数据集包含用于模型评估的微调模型生成文本，核心围绕生物基因领域的NLP文本生成任务。数据集仅含1个JSON格式文件，无训练/测试、数据/标签或原始/处理数据划分，无目录层级结构，是生物基因NLP模型评估的专用文本资源。文件详解文件名称：generated_texts.json 文件格式：JSON...

ZIP

Topic_Modeling_Based_社会与新闻媒体主题建模基准数据集

2026年1月21日

数据集概述本数据集为主题建模任务提供基准数据，包含20个新闻组数据集及Reddit健康论坛r/Cancer的帖子集合，用于比较基于粒子群优化（PSO）的聚类方法与传统主题建模技术。数据集共4个文件，支持NLP领域的主题建模研究与算法评估。文件详解文档类文件文件名称：readme.docx 文件格式：DOCX...

ZIP

Topic_Modeling_Based_女性图书馆员相关文献主题分析数据集

2026年1月20日

数据集概述本数据集围绕女性图书馆员相关文章的主题建模展开，包含用于NLP分析的代码文件、数据文件及文献检索查询文件，共4个文件，覆盖主题建模的核心过程与数据基础。文件详解代码文件文件名称：Bertopic_Female_Lib.ipynb、scattertext.ipynb 文件格式：.ipynb...

ZIP

Digital_tools_gamification_消费者垃圾分类活动数据集

2026年1月19日

数据集概述本数据集围绕智慧城市中提升消费者垃圾分类活动的数字化工具与游戏化策略展开，包含参与者选择方法、三类调查问卷翻译、人口统计分析等内容，共5个文件，覆盖文档与数据两种类型，为相关研究提供结构化支持。文件详解数据说明文档文件名称：data_description.pdf 文件格式：PDF...

ZIP

Chinese_Speech_to_Text_Based中文学习者语音样本与转录数据

2026年1月18日

数据集概述本数据集包含31名学习者的中文语音样本（单词语音），以及对应的转录文本和准确率评分，用于支持中文语音转文字相关的研究与应用。数据集仅包含一个文件，无训练/测试、数据/标签或原始/处理数据的划分。文件详解文件名称：Dataset Chinese Speech to Text.xlsx 文件格式：XLSX...

ZIP

Islamophobic_Hate_Speech_Based社交媒体强弱仇恨言论检测数据2019

2026年1月11日

数据集概述本数据集为2019年发表的“Detecting weak and strong Islamophobic hate speech on social media”研究配套数据，包含数据、代码及标注指南，共9个文件。涵盖社交媒体伊斯兰恐惧症仇恨言论的检测相关资源，可用于分析不同强度仇恨言论的特征与识别方法。文件详解文档文件...

ZIP

Fraud_Detection_Based_NLP与AI驱动欺诈检测整合研究数据

2026年1月15日

数据集概述本数据集对应研究主题“整合NLP、AI驱动数据分析、风险评估与电子举报系统的欺诈检测”，包含一份Excel格式文件，记录相关研究的响应数据，可用于欺诈检测领域的技术整合研究参考。文件详解文件名称：Integration of NLP, AI-Driven Data Analysis, Risk Assessment, and...

ZIP

Annexe_7_Corpus_Based_法国媒体文章与公民评论完整语料库数据

2026年1月15日

数据集概述本数据集为Annexe 7法国媒体文章与公民评论完整语料库，包含法国媒体发布的文章及公民对其的评论内容，以压缩包形式提供，是用于自然语言处理研究的文本语料资源。文件详解文件名称：7. Annexe 7 Corpus version complète articles médias et commentaires citoyens...

ZIP

CLEF_Shared_Task_2024_议会辩论意识形态与权力识别测试数据集

2026年1月15日

数据集概述本数据集为2024年CLEF议会辩论意识形态与权力识别共享任务的测试集，内容选自ParlaMint语料库（4.0版）的议会演讲文本。数据格式与训练集一致，但未包含标签信息，仅用于任务测试阶段的模型评估，包含1个压缩文件。文件详解文件名称：ideology-power-st-testset.zip 文件格式：ZIP...

ZIP

Sentiment_Aligned_乌拉尔语系四语言情感分析与词嵌入数据_2023

2026年1月15日

数据集概述本数据集包含厄尔兹亚语、科米-齐良语、莫克沙语和乌德穆尔特语四种乌拉尔语系语言的情感分析相关数据，包括对齐的情感标注数据、词嵌入向量、代码及情感分析模型，适用于低资源语言情感分析研究。文件详解情感标注数据文件文件名称：sentiment_eval_data.json 文件格式：JSON...

ZIP

RefWUG_Based_德语历时参考词使用图数据_Version1_1_0_2021

2026年1月14日

数据集概述本数据集包含通过参考使用采样创建的德语历时词使用图（WUGs），版本为1.1.0，发布于2021年12月15日。数据用于分析德语词汇在不同时间语境下的语义变化，可通过WUGsite获取数据格式说明、处理代码及更多相关数据集，核心文件为压缩包形式。文件详解文件名称：refwug.zip 文件格式：ZIP（压缩包）...

ZIP

Costa_Rican_News_Sources_Based_假新闻检测数据集_Beta

2026年1月13日

数据集概述本数据集为哥斯达黎加新闻源假新闻检测Beta版数据集，包含预处理后的西班牙语和英语新闻文本，以及通过LIWC词典分析的结果。数据用于评估数据挖掘模型对哥斯达黎加新闻网站生成的真实或潜在假新闻的分类能力，以验证模型可靠性并为后续研究扩展奠定基础。文件详解数据源文件（datasource_clasificado_webhose.xls）...

ZIP

DBpedia_Conversation_Question_Answering_Dataset

2026年1月12日

数据集概述本数据集基于DBpedia构建，包含一百一十五个问题及五十组对话内容，用于支持对话式问答相关研究。数据集以单一JSON文件形式存储，未划分训练/测试集、数据/标签集或原始/处理集，可直接用于对话式问答模型的训练或评估。文件详解文件名称：context_questions_benchmark.json 文件格式：JSON...