arXiv论文多标记语言数据集-2023年1月至2023年10月
数据来源:互联网公开数据
标签:arXiv,论文,多标记语言,科学研究,机器学习,自然语言处理,文本处理,学术资源
数据概述:
本数据集包含63,357篇从2023年1月至2023年10月期间发布的arXiv论文,这些论文已被转换为多标记语言(.mmd)格式。数据集包括每篇论文的原始arXiv文章ID、标题、摘要、作者、出版日期、URL以及相应的markdown文件。
数据用途概述:
该数据集适用于多种应用场景,包括语义搜索、领域特定语言建模、问答系统和文本摘要。研究人员可利用此数据集进行语义搜索技术的开发和评估;自然语言处理领域的专家可以基于此数据集训练和优化语言模型;教育机构可利用此数据集进行学术资源的管理和分发;此外,该数据集也是进行文本摘要和问答系统开发的理想资源。
数据集的整理过程采用神经光学字符识别技术(Nougat)进行OCR处理,随后进行自定义的文本处理步骤,包括提取作者信息、移除参考文献部分以及执行额外的清理和格式化工作。更多细节请参考我们的GitHub仓库。
引用信息:
原始论文由arXiv维护,并受原始作者的版权保护。请参阅arXiv的许可信息页面获取更多详情。我们以Creative Commons Attribution-Noncommercial-ShareAlike (CC BY-NC-SA 4.0)许可证发布本数据集。如果您在研究或项目中使用了本数据集,请按以下格式引用:
@misc{acar_arxiver2024,
author = {Alican Acar, Alara Dirik, Muhammet Hatipoglu},
title = {ArXiver},
year = {2024},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/datasets/neuralwork/arxiver}}
}