黑客新闻文本嵌入数据集-2023-julien040
数据来源:互联网公开数据
标签:黑客新闻,OpenAI,文本嵌入,自然语言处理,计算机科学,创业,数据集,API
数据概述:
本数据集包含超过100,000篇来自黑客新闻(Hacker News)的帖子,黑客新闻是一个专注于计算机科学和创业的社交新闻网站。每篇帖子包含以下字段:
id:帖子的唯一标识符(主键)
title:帖子标题
url:帖子链接
score:帖子得分
time:帖子时间戳
comments:评论数量
author:帖子作者
embeddings:表示帖子内容的1536个浮点数数组
数据集许可协议为CC BY-NC-SA 4.0,仅包含得分大于100的帖子。每篇文章的文本从链接中提取,嵌入向量使用OpenAI的text-ada-embeddings-002模型计算得出。
数据用途概述:
该数据集适用于多种自然语言处理任务,包括文本分类、聚类和情感分析。嵌入向量还可以用于相似性搜索和推荐系统等任务。
数据集收集:
数据通过Hacker News API收集。详细收集过程和嵌入向量计算方法可在作者的博客文章中找到,链接如下:
(作者博客文章链接:待提供)
未来更新:
作者计划定期更新数据集以包含最新的黑客新闻帖子,并可能根据用户反馈添加新字段。用户如有任何意见或建议,欢迎随时联系作者。
示例用法:
以下是如何使用Pandas导入story.csv文件并将embeddings列从JSON格式转换为numpy数组的示例代码:
```python
import pandas as pd
import numpy as np
import json
加载数据集
df = pd.read_csv('story.csv')
将embeddings列从JSON格式转换为numpy数组
df['embeddings'] = df['embeddings'].apply(lambda x: np.array(json.loads(x)))
```
现在,embeddings列中的每个帖子都包含一个形状为(1536,)的numpy数组。