-
Arabic_Dataset_阿拉伯语疾病命名实体识别多标注方案数据集
2026年1月22日 30 130 47
数据集概述 本数据集为阿拉伯语自然语言处理社区提供了专门用于疾病命名实体识别任务的标注数据。包含超六万个单词,由两位独立标注者采用IO方案手动标注,标注一致性达95.14%。此外还包含IOE、IOB等六种额外标注方案及词性标签、停用词等五种语言学特征,填补了阿拉伯语多标注方案研究的空白。 文件详解 文件名称:dataset.zip 文件格式:ZIP...
-
数据19世纪法国商业名录数据集
2025年12月23日 30 12 7
数据集概述 该数据集包含1798至1861年间法国商业名录的页面与条目,分为标注数据集(8765条人工修正条目)和未标注数据集(1058196条原始条目),用于评估19世纪法语文档的OCR与NER性能。 文件详解 文件名称: README.md 文件格式: Markdown(.md) 内容: 数据集概述、引用方式、使用许可等说明文档 文件名称:...



