评估数据集页面语义标注真实性的数据集

评估数据集页面语义标注真实性的数据集 数据来源:互联网公开数据
标签:数据集,语义标注,真实性评估,机器学习,网页分析,数据质量,分类任务

数据概述:
本数据集用于评估带有schema.org/Dataset标记的网页页面的真实性和准确性。数据集包含训练集、测试集和验证集,分别包含149,402、33,648和38,926个样本。每个样本包含以下字段:网页URL(source_url)、是否为真实数据集页面的二元标签(label)、数据集名称(name)、数据集描述(description)、是否包含分布元数据(distribution)、是否包含编码或文件格式元数据(encoding_or_file_format)、数据集提供者或发布者名称(provider_or_publisher)、数据集作者或创建者名称(author_or_creator)、数据集的数字对象唯一标识符(doi)、是否包含数据目录(catalog)、是否提供创建时间(dateCreated)、是否提供修改时间(dateModified)、是否提供发布时间(datePublished)。

数据用途概述:
该数据集适用于评估带有语义标注的网页页面是否为真实数据集页面,可用于分类任务、数据质量分析、语义标注优化等相关研究。研究者可以利用该数据集训练分类模型,识别网页页面的真实数据集属性;数据集发布平台可以基于该数据集改进语义标注策略,提升数据集页面的标注准确性;学术机构和企业可以结合该数据集进行数据质量评估,优化数据资源的管理与应用。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 47.85 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。