-
Arabic_Dataset_阿拉伯语疾病命名实体识别多标注方案数据集
2026年1月22日 30 102 57
数据集概述 本数据集为阿拉伯语自然语言处理社区提供了专门用于疾病命名实体识别任务的标注数据。包含超六万个单词,由两位独立标注者采用IO方案手动标注,标注一致性达95.14%。此外还包含IOE、IOB等六种额外标注方案及词性标签、停用词等五种语言学特征,填补了阿拉伯语多标注方案研究的空白。 文件详解 文件名称:dataset.zip 文件格式:ZIP...
-
ARAFA_Generated_Based_阿拉伯语大规模事实核查数据集
2026年1月21日 30 11 9
数据集概述 本数据集是面向阿拉伯语自然语言处理的大规模事实核查数据集ARAFA,通过大语言模型自动化框架构建,包含181,976条标注为支持、反驳或信息不足的主张-证据对,可用于阿拉伯语自动事实核查模型训练与评估。 文件详解 文件名称:ARAFA.json 文件格式:JSON...
-
ArabicNewscredibility_Based_Twitter阿拉伯新闻可信度评估数据集
2026年1月8日 30 26 12
数据集概述 本数据集包含阿拉伯语Twitter新闻可信度评估相关的数据集、模型代码及说明文档。核心内容为基于情感分析和集成学习构建的新闻可信度模型,提供了带特征的新闻数据集、标注回复数据、推文ID列表及模型实现代码,可用于研究Twitter平台阿拉伯新闻的可信度评估方法。 文件详解 数据文件...



