中文新闻语料库-2011至最新-ceshine

中文新闻语料库-2011至最新-ceshine 数据来源:互联网公开数据 标签:中文新闻,语料库,NLP,文本分析,传统中文,简体中文,互联网新闻,新闻媒体

数据概述: 本数据集收录了来自传统中文和简体中文的新闻文章链接和部分元数据。数据集包括一些非中国官方媒体的互联网新闻来源,这些来源的数据值得单独成集。由于数据集的收集范围有限,因此不适用于事件覆盖分析,主要用于自然语言处理(NLP)算法的语料库。

数据采集过程: 新闻文章的链接通过新闻媒体的RSS订阅源或Twitter账户收集。然后下载并解析网页内容,使用元标签提取每篇文章的标题、摘要/总结和封面图片(这些信息通常用于Twitter和Facebook的内容摘要卡片)。

注意事项: 对元标签仅进行了基本的文本清理。

数据字段: title:文章标题,来源于og:title或twitter:title元标签。 desc:文章摘要,来源于twitter:description或og:description元标签。 image:封面图片URL,来源于twitter:image或og:image元标签。 url:文章URL。 source:新闻来源代码。 date:文章在Twitter或RSS订阅源上的发布日期,格式为YYYYMMDD。

本数据集不提供文章的完整文本,用户需要使用提供的链接自行爬取文章内容。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 30.89 MiB
最后更新 2025年4月23日
创建于 2025年4月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。