BigGrams半监督HTML信息提取系统数据集

数据集概述

该数据集为BigGrams半监督HTML信息提取系统相关的参考数据集,包含从真实网站抓取的网页数据,以及对应网站的人工标注参考实例数据,用于支持半监督信息提取方法的研究与验证。

文件详解

数据集包含一个ZIP压缩文件,解压后包含两个主要文件夹,具体说明如下: - 压缩文件: bigrams-reference-data-sets.zip(ZIP格式),内部包含两个子文件夹 - websites文件夹: 存储从真实网站抓取的网页数据,涉及网站包括agatameble.pl(电商网站)、filmweb.pl(电影网站)、ptaki.info(鸟类网站) - reference-seeds文件夹: 存储参考实例数据,包含三个子文件夹(agatameble.pl、filmweb.pl、ptaki.info),每个子文件夹下有reference-seeds.csv文件,记录对应网站网页中各值的人工标注真值

适用场景

  • 信息提取研究: 用于半监督HTML信息提取系统的训练、测试与性能验证
  • 网页数据处理: 支持网页结构化数据抽取方法的开发与优化
  • 自然语言处理: 适用于基于HTML文本的信息抽取算法研究
  • 机器学习: 可作为半监督学习模型在信息提取任务中的实验数据集
packageimg

数据与资源

该数据集没有数据

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2025年12月15日
创建于 2025年12月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。