黑客新闻平台内容分析语料库数据集-2006至2023

黑客新闻平台内容分析语料库数据集-2006至2023 数据来源:互联网公开数据 标签:黑客新闻,计算机科学,创业,数据集,社交媒体,用户行为,新闻分析

数据概述: 本数据集包含 hacker news 自2006年成立以来约四分之一的故事和评论的随机样本。hacker news 是一个专注于计算机科学和创业的社交新闻网站,由保罗·格雷厄姆的投资基金和创业孵化器 Y Combinator 运营。网站内容主要是能够满足人们好奇心的各类信息。

数据集中的每篇故事包含故事ID、发布者、发布时间以及故事获得的积分数量等信息。需要注意的是,文本字段中可能包含不当语言,所有文本均为作者自写,不代表 Kaggle 或 hacker news 的立场,并未经过任何背书。

数据来源方面,该数据集由 hacker news 在 MIT 许可证下公开提供。

数据用途概述: 该数据集适用于用户行为分析、新闻内容分析、社交媒体研究等多种场景。研究者可以利用此数据探索 hacker news 是否被一小部分用户主导;分析该网站是否对 Y Combinator 创业公司存在偏见;研究 hacker news 的报道量是否能预测创业公司的成功等。此外,数据集还适合用于教育和培训,帮助学习者了解新闻网站的内容构成和用户行为模式。该数据集在 Kaggle 上可以用于分析、分享和讨论,同时也可在 BigQuery 上进行更大规模和实时更新的数据分析,BigQuery 版本的数据量约为本数据集的四倍。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 695.91 MiB
最后更新 2025年6月4日
创建于 2025年6月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。