数据集 - 海数据

乌克兰地缘政治新闻文本位置信息数据集

2026年2月25日 30 151 74

乌克兰地缘政治新闻文本位置信息数据集_Ukraine_Geopolitical_News_Text_Location_Dataset 数据来源：互联网公开数据标签：乌克兰, 地缘政治, 新闻文本, 地理位置, 文本分析, 实体识别, 命名实体识别, 数据标注数据概述：...

ZIP

俄乌冲突新闻文本嵌入数据集

2026年2月24日 30 167 120

俄乌冲突新闻文本嵌入数据集_Russia_Ukraine_Conflict_News_Text_Embedding_Dataset 数据来源：互联网公开数据标签：俄乌冲突，新闻文本，文本嵌入，自然语言处理，语义分析，信息检索，机器学习，战争报道数据概述：该数据集包含来自互联网的新闻报道文本，记录了关于俄乌冲突的各种信息。主要特征如下：...

ZIP

阿拉伯新闻文本情感分析数据集

2026年2月22日 30 119 113

阿拉伯新闻文本情感分析数据集_Arabic_News_Text_Sentiment_Analysis 数据来源：互联网公开数据标签：阿拉伯语, 情感分析, 文本分类, 自然语言处理, 新闻文本, 情感极性, 机器翻译, 语料库数据概述：该数据集包含来自阿拉伯新闻网站的文本数据，记录了新闻文章的内容及其对应的情感极性标签。主要特征如下：...

ZIP

阿姆哈拉语监督式主题分类语料库

2026年2月12日 30 109 18

数据集概述本数据集为阿姆哈拉语主题分类监督语料库，由埃塞俄比亚记者专业标注，文件名为Supervised_Topic_Classifier_Corpus.xml。数据集包含一份XML格式文件，未划分训练/测试集、数据/标签集或原始/处理集，可用于自然语言处理领域的阿姆哈拉语文本分类研究，需进一步优化完善。文件详解...

ZIP

VAW_Based暴力侵害妇女新闻文本挖掘研究数据

2026年2月9日 30 137 123

数据集概述本数据集为暴力侵害妇女（VAW）相关研究的文本挖掘数据，包含从MongoDB数据库提取的真实VAW新闻内容，记录新闻的日期、标题及正文，用于通过文本挖掘技术开展主题建模研究，探索VAW相关社会问题。文件详解 Noticias.metadata.json 文件格式：JSON...

ZIP

AnCora_西班牙语多层面标注语料库数据3_0_1

2026年1月31日 30 88 43

数据集概述本数据集为AnCora 3.0.1西班牙语语料库，包含约50万字的新闻文本，覆盖词元、词性、句法成分、论元结构、动词语义类、名物化隐含论元等多层面标注，支持自然语言处理相关研究与应用。文件详解文件名称：AnCora 3.0.1 Spanish.zip 文件格式：ZIP...

ZIP

TuReV_Corpus_突尼斯革命在线新闻报道语料库

2026年1月30日 30 87 80

数据集概述本数据集为TuReV语料库，收录了关于突尼斯革命的在线新闻报道文本，是用于自然语言处理（NLP）研究的单文件语料库资源，可支持对突尼斯革命相关新闻内容的文本分析任务。文件详解文件名称：corpus TuReV.docx 文件格式：DOCX...

ZIP

VUAMC_Based_BNC_Baby隐喻标注语料库数据

2026年1月30日 30 164 139

数据集概述本数据集为VUAMC隐喻标注语料库，选取BNC-Baby文件中的摘录文本进行隐喻标注，涵盖学术文本、新闻文本、小说、对话四种语域，各约五万字。标注内容包括隐喻相关词、隐喻信号词、非隐喻相关词等类别，隐喻相关词进一步区分明确隐喻与边界案例，以及直接、间接、隐性隐喻类型，还标注了多词表达式和隐喻分析排除词。文件详解...

ZIP

corpus_西班牙语国际媒体疫情期间阅读与教育影响新闻分析数据

2026年1月28日 30 80 0

数据集概述本数据集包含117篇西班牙语国际媒体和通讯社的新闻报道，构成了分析疫情期间阅读与教育影响的研究语料库。数据集为单一文档文件，未进行训练测试或原始处理数据的拆分，可用于相关主题的文本内容分析。文件详解文件名称：corpusnoticias.docx 文件格式：DOCX...

ZIP

HornMT_Based_非洲之角多语言机器翻译基准平行语料数据集

2026年1月27日 30 116 111

数据集概述本数据集是针对非洲之角语言的机器翻译基准平行语料库，包含阿法尔语、阿姆哈拉语、英语、奥罗莫语、索马里语、提格雷尼亚语6种语言的新闻片段平行文本，以及每条文本对应的元数据（如新闻范围、类别、来源等），支持多语言机器翻译研究与系统开发。文件详解核心数据文件目录名称：data/...

ZIP

TuReV_Corpus_France_24突尼斯革命在线新闻语料库

2026年1月26日 30 75 65

数据集概述本数据集为TuReV语料库，包含从France 24网站提取的突尼斯革命相关在线新闻内容，是研究该历史事件媒体报道的结构化文本资源。数据集仅含一个文件，无目录层级或数据拆分，便于直接使用。文件详解文件名称：corpus TuReV.docx 文件格式：DOCX 字段映射介绍：包含从France...

ZIP

La_Repubblica_Based_意大利共和报2011年文章摘录数据

2026年1月21日 30 9 6

数据集概述本数据集包含意大利报纸《La Repubblica》2011年的文章摘录，对搜索关键词（dialett、Italian、lingu*）进行了高亮标注，仅用于科学研究。数据集文件总数为1，无目录结构，主要文件格式为DOCX。文件详解文件名称：Zenodo_Data.docx 文件格式：DOCX 字段映射介绍：包含意大利报纸《La...

ZIP

COVID_19_Fake_News_Detection_虚假新闻识别数据集

2026年1月20日 30 128 21

数据集概述本数据集为COVID-19相关的虚假新闻检测数据，由Patwa等人于2021年发布，用于识别和分析新冠疫情期间的虚假信息内容，支持虚假新闻检测模型的训练与验证。文件详解文件名称：Data.xlsx 文件格式：XLSX 字段映射介绍：未提供具体字段信息，推测包含新闻文本内容及对应的真实性标签（真实/虚假）等核心检测字段。数据来源...

ZIP

AnCora_Catalan_Based_加泰罗尼亚语多层面标注语料库_2_0_0版

2026年1月18日 30 200 134

数据集概述本数据集为AnCora Catalan 2.0.0加泰罗尼亚语语料库，包含约五十万字，主要基于新闻文本构建。数据在词元与词性、句法成分与功能、论元结构与题元角色、动词语义类、名词WordNet同义词集关联、命名实体及共指关系等多层面进行标注，是自然语言处理研究的基础资源。文件详解文件名称：AnCora Catalan 2.0.0.zip...

ZIP

Fake_News_Database_Based_事实核查虚假与真实新闻分类数据

2026年1月15日 30 184 55

数据集概述本数据集为经过整理的事实核查新闻数据库，包含近七万条URL，覆盖虚假与真实新闻内容，并按主题分类。核心内容为事实核查的新闻条目，支持虚假新闻识别与相关研究，总计包含2个文件。文件详解 readme.txt 文件格式：TXT 内容介绍：数据集说明文档，解释数据库构成及json文件的字段含义。 fake_news_db.json...

ZIP

Costa_Rican_News_Sources_Based_假新闻检测数据集_Beta

2026年1月13日 30 200 92

数据集概述本数据集为哥斯达黎加新闻源假新闻检测Beta版数据集，包含预处理后的西班牙语和英语新闻文本，以及通过LIWC词典分析的结果。数据用于评估数据挖掘模型对哥斯达黎加新闻网站生成的真实或潜在假新闻的分类能力，以验证模型可靠性并为后续研究扩展奠定基础。文件详解数据源文件（datasource_clasificado_webhose.xls）...

ZIP

Sentiment_Analysis_Based_奥运会遗产新闻多分类器情感分析结果数据

2026年1月13日 30 64 3

数据集概述本数据集包含基于三个分类器融合的奥运会遗产新闻情感分析结果，覆盖2012年伦敦和2016年里约奥运会遗产相关的1271篇新闻。数据通过Google搜索获取，对新闻标题和正文分别进行情感分类，最终输出14个Excel文件，记录新闻的搜索排名、发布日期、链接、标题及对应的情感标签。文件详解...

ZIP

Patriani_Silva_2025气候大会COP活动报道新闻语料库

2025年12月16日 30 18 1

数据集概述本数据集为Patriani和Silva（2025）研究工作中分析的新闻语料库，聚焦《环球报》和UOL对气候大会COP活动的报道，用于探讨叙事与气候正义的关联。文件详解文件名称：PATRIANI; SILVA, 2025 - CORPUS DE NOTÍCIAS.pdf 文件格式：PDF...

ZIP

新闻话语中的词汇同义现象数据集

2025年12月9日 30 63 31

数据集概述本数据集围绕新闻话语中的词汇同义现象展开，包含一份PDF格式的文档，聚焦于该主题的研究内容，为分析新闻文本中的词汇同义关系提供资料支持。文件详解文件名称：Kamalova Shahlo.pdf 文件格式：PDF（.pdf）内容说明：该文档围绕“新闻话语中的词汇同义现象”主题展开，具体内容需查阅文档原文，未提供字段映射信息适用场景...

ZIP

路透社21578基准语料库

2025年12月8日 30 140 129

数据集概述该数据集为路透社21578基准语料库，是一个用于文本分类等任务的经典基准数据集，以压缩文件形式存储，未提供训练/测试、数据/标签等拆分信息。文件详解文件名称: RCV1.zip 文件格式: ZIP压缩包（.zip）内容说明: 该压缩包包含路透社21578基准语料库的相关数据，无可用内容预览，未检测到命名模式或拆分结构。适用场景...

ZIP

找到201个数据集

注册成功！