arXiv论文摘要与嵌入向量每日更新数据集

arXiv论文摘要与嵌入向量每日更新数据集 数据来源:互联网公开数据 标签:arXiv,论文,摘要,嵌入向量,自然语言处理,机器学习,科研,学术,每日更新 数据概述: 本数据集包含每日arXiv论文的标题、摘要以及对应的嵌入向量。数据集每天更新,其中不包含周六、周日及节假日的论文。嵌入向量的计算方法详见提供的Notebook文件。 完整代码可在GitHub上找到:https://github.com/orxaicom/daily-arxiv-embeddings 该数据集被用于可视化arXiv每日论文,可视化结果可在网站上查看:https://www.orxai.com

数据用途概述: 该数据集适用于多种研究和应用场景,包括但不限于:论文主题分析、论文检索与推荐、学术趋势分析、可视化展示、自然语言处理研究、机器学习模型训练等。研究人员可以利用嵌入向量进行论文相似度计算、聚类分析,从而探索学术领域的最新进展。同时,该数据集也为构建个性化论文推荐系统提供了基础数据。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 4.45 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。