黑客新闻文本嵌入数据集-2023-julien040

黑客新闻文本嵌入数据集-2023-julien040 数据来源：互联网公开数据标签：黑客新闻,OpenAI,文本嵌入,自然语言处理,计算机科学,创业,数据集,API

数据概述：本数据集包含超过100,000篇来自黑客新闻（Hacker News）的帖子，黑客新闻是一个专注于计算机科学和创业的社交新闻网站。每篇帖子包含以下字段：

id：帖子的唯一标识符（主键） title：帖子标题 url：帖子链接 score：帖子得分 time：帖子时间戳 comments：评论数量 author：帖子作者 embeddings：表示帖子内容的1536个浮点数数组

数据集许可协议为CC BY-NC-SA 4.0，仅包含得分大于100的帖子。每篇文章的文本从链接中提取，嵌入向量使用OpenAI的text-ada-embeddings-002模型计算得出。

数据用途概述：该数据集适用于多种自然语言处理任务，包括文本分类、聚类和情感分析。嵌入向量还可以用于相似性搜索和推荐系统等任务。

数据集收集：数据通过Hacker News API收集。详细收集过程和嵌入向量计算方法可在作者的博客文章中找到，链接如下：（作者博客文章链接：待提供）

未来更新：作者计划定期更新数据集以包含最新的黑客新闻帖子，并可能根据用户反馈添加新字段。用户如有任何意见或建议，欢迎随时联系作者。

示例用法：以下是如何使用Pandas导入story.csv文件并将embeddings列从JSON格式转换为numpy数组的示例代码：

```python import pandas as pd import numpy as np import json

加载数据集 df = pd.read_csv('story.csv')

将embeddings列从JSON格式转换为numpy数组 df['embeddings'] = df['embeddings'].apply(lambda x: np.array(json.loads(x))) ```

现在，embeddings列中的每个帖子都包含一个形状为(1536,)的numpy数组。

数据与资源

字段	值
版本	1.0
数据集大小	769.78 MiB
最后更新	2025年6月4日
创建于	2025年6月4日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。