数据集

arXiv论文多标记语言数据集-2023年1月至2023年10月

arXiv论文多标记语言数据集-2023年1月至2023年10月数据来源：互联网公开数据标签：arXiv,论文,多标记语言,科学研究,机器学习,自然语言处理,文本处理,学术资源数据概述：本数据集包含63,357篇从2023年1月至2023年10月期间发布的arXiv论文，这些论文已被转换为多标记语言（.mmd）格式。数据集包括每篇论文的原始arXiv文章ID、标题、摘要、作者、出版日期、URL以及相应的markdown文件。数据用途概述：该数据集适用于多种应用场景，包括语义搜索、领域特定语言建模、问答系统和文本摘要。研究人员可利用此数据集进行语义搜索技术的开发和评估；自然语言处理领域的专家可以基于此数据集训练和优化语言模型；教育机构可利用此数据集进行学术资源的管理和分发；此外，该数据集也是进行文本摘要和问答系统开发的理想资源。数据集的整理过程采用神经光学字符识别技术（Nougat）进行OCR处理，随后进行自定义的文本处理步骤，包括提取作者信息、移除参考文献部分以及执行额外的清理和格式化工作。更多细节请参考我们的GitHub仓库。引用信息：原始论文由arXiv维护，并受原始作者的版权保护。请参阅arXiv的许可信息页面获取更多详情。我们以Creative Commons Attribution-Noncommercial-ShareAlike (CC BY-NC-SA 4.0)许可证发布本数据集。如果您在研究或项目中使用了本数据集，请按以下格式引用： @misc{acar_arxiver2024, author = {Alican Acar, Alara Dirik, Muhammet Hatipoglu}, title = {ArXiver}, year = {2024}, publisher = {Hugging Face}, howpublished = {\url{https://huggingface.co/datasets/neuralwork/arxiver}} }

数据与资源

arXiv论文多标记语言数据集-2023年1月至2023年10月.zipZIP
822.00 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	822.0 MiB
最后更新	2025年6月4日
创建于	2025年6月4日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

arXiv论文多标记语言数据集-2023年1月至2023年10月

数据与资源

附加信息

注册成功！