Image2SMILES_Based_分子OCR真实图像测试数据集

数据集概述

本数据集是论文《Image2SMILES: Transformer-based Molecular Optical Recognition Engine》的测试数据集,包含从《Journal of Organic Chemistry》2020年各卷24篇论文中提取的296组分子结构数据,每组含图像及对应官能团SMILES(FG-SMILES),用于分子光学识别模型测试。

文件详解

  • 文件名称:Molecule_OCR_real_images.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含296组分子结构相关数据,每组对应1张分子图像文件及1个记录该分子官能团SMILES(FG-SMILES)的文件,具体字段需解压后查看原始文件结构。

数据来源

论文《Image2SMILES: Transformer-based Molecular Optical Recognition Engine》

适用场景

  • 分子光学识别模型测试: 用于验证Transformer基分子光学识别引擎(Image2SMILES)从图像提取分子结构的准确性。
  • 有机化学分子结构数字化研究: 辅助开发从学术论文图像中自动提取分子SMILES的技术工具。
  • 化学文献数据挖掘: 为批量处理有机化学论文中的分子图像、构建结构化分子数据库提供测试数据。
  • 跨模态分子数据转换研究: 探索图像到SMILES字符串的跨模态转换算法性能优化方向。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 4.72 MiB
最后更新 2026年1月27日
创建于 2026年1月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。