数据集概述
本数据集包含二十万篇新闻文章,通过命名实体链接技术将新闻实体与DBPedia关联,支持新闻探索中的钻取与汇总操作。数据集共包含四个文件,无目录结构,主要文件类型为JSON和ZIP格式,未划分训练/测试集或数据/标签集。
文件详解
- relevance_evaluation_response.json
- 文件格式:JSON
- 字段映射介绍:未提供具体字段信息,推测包含相关性评估的响应数据
- relevance_survey_question.json
- 文件格式:JSON
- 字段映射介绍:未提供具体字段信息,推测包含相关性调查的问题数据
- news_entity.json.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:压缩包内包含JSON文件,推测记录新闻实体与DBPedia的链接信息
- news.json.zip
- 文件格式:ZIP(压缩包)
- 字段映射介绍:压缩包内包含JSON文件,推测记录二十万篇新闻文章的原始或结构化数据
适用场景
- 新闻数据探索研究:支持新闻内容的钻取(Drill-down)与汇总(Roll-up)操作功能开发与验证
- 命名实体链接应用:分析新闻实体与DBPedia的关联模式及实体链接效果
- 新闻相关性评估:利用相关性评估响应和调查问题数据开展新闻内容相关性研究
- 新闻数据挖掘:基于二十万篇新闻文章数据进行主题分析、趋势挖掘等研究