黑客新闻文本嵌入数据集-2023-julien040

黑客新闻文本嵌入数据集-2023-julien040 数据来源:互联网公开数据 标签:黑客新闻,OpenAI,文本嵌入,自然语言处理,计算机科学,创业,数据集,API

数据概述: 本数据集包含超过100,000篇来自黑客新闻(Hacker News)的帖子,黑客新闻是一个专注于计算机科学和创业的社交新闻网站。每篇帖子包含以下字段:

id:帖子的唯一标识符(主键) title:帖子标题 url:帖子链接 score:帖子得分 time:帖子时间戳 comments:评论数量 author:帖子作者 embeddings:表示帖子内容的1536个浮点数数组

数据集许可协议为CC BY-NC-SA 4.0,仅包含得分大于100的帖子。每篇文章的文本从链接中提取,嵌入向量使用OpenAI的text-ada-embeddings-002模型计算得出。

数据用途概述: 该数据集适用于多种自然语言处理任务,包括文本分类、聚类和情感分析。嵌入向量还可以用于相似性搜索和推荐系统等任务。

数据集收集: 数据通过Hacker News API收集。详细收集过程和嵌入向量计算方法可在作者的博客文章中找到,链接如下: (作者博客文章链接:待提供)

未来更新: 作者计划定期更新数据集以包含最新的黑客新闻帖子,并可能根据用户反馈添加新字段。用户如有任何意见或建议,欢迎随时联系作者。

示例用法: 以下是如何使用Pandas导入story.csv文件并将embeddings列从JSON格式转换为numpy数组的示例代码:

```python import pandas as pd import numpy as np import json

加载数据集 df = pd.read_csv('story.csv')

将embeddings列从JSON格式转换为numpy数组 df['embeddings'] = df['embeddings'].apply(lambda x: np.array(json.loads(x))) ```

现在,embeddings列中的每个帖子都包含一个形状为(1536,)的numpy数组。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 769.78 MiB
最后更新 2025年6月4日
创建于 2025年6月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。