arXiv论文多标记语言数据集-2023年1月至2023年10月

arXiv论文多标记语言数据集-2023年1月至2023年10月 数据来源:互联网公开数据 标签:arXiv,论文,多标记语言,科学研究,机器学习,自然语言处理,文本处理,学术资源 数据概述: 本数据集包含63,357篇从2023年1月至2023年10月期间发布的arXiv论文,这些论文已被转换为多标记语言(.mmd)格式。数据集包括每篇论文的原始arXiv文章ID、标题、摘要、作者、出版日期、URL以及相应的markdown文件。 数据用途概述: 该数据集适用于多种应用场景,包括语义搜索、领域特定语言建模、问答系统和文本摘要。研究人员可利用此数据集进行语义搜索技术的开发和评估;自然语言处理领域的专家可以基于此数据集训练和优化语言模型;教育机构可利用此数据集进行学术资源的管理和分发;此外,该数据集也是进行文本摘要和问答系统开发的理想资源。 数据集的整理过程采用神经光学字符识别技术(Nougat)进行OCR处理,随后进行自定义的文本处理步骤,包括提取作者信息、移除参考文献部分以及执行额外的清理和格式化工作。更多细节请参考我们的GitHub仓库。 引用信息: 原始论文由arXiv维护,并受原始作者的版权保护。请参阅arXiv的许可信息页面获取更多详情。我们以Creative Commons Attribution-Noncommercial-ShareAlike (CC BY-NC-SA 4.0)许可证发布本数据集。如果您在研究或项目中使用了本数据集,请按以下格式引用: @misc{acar_arxiver2024, author = {Alican Acar, Alara Dirik, Muhammet Hatipoglu}, title = {ArXiver}, year = {2024}, publisher = {Hugging Face}, howpublished = {\url{https://huggingface.co/datasets/neuralwork/arxiver}} }

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 822.0 MiB
最后更新 2025年6月4日
创建于 2025年6月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。