视频制作拍摄板文本信息识别数据集-madisoncourtney
数据来源:互联网公开数据
标签:拍摄板,文本识别,视频制作,机器训练,元数据,转录,图像识别,美国公共广播档案,计算机视觉
数据概述:
本数据集旨在用于训练和测试机器学习系统,以从视频制作中的拍摄板(又称场记板或打板)或屏幕文本中提取信息。 数据集包含对视频中拍摄板上出现的文本的转录和相关上下文信息。 数据集的每条数据对应一个拍摄板图像,包含其文本转录、类型、子类型、修饰符和关键信息。
数据来源于对视频中拍摄板文本的观察,包括直接转录和上下文信息。 对于难以辨认的文本,采用近似转录。 数据信息由拍摄板的原始创建者提供,并被认为是准确的。 数据集中的每个拍摄板实例都经过独立标记。
数据集包含两种数据级别:直接转录和上下文信息。 直接转录是对拍摄板上文本的逐字记录,如果文本难以辨认,则进行近似处理。 上下文信息则以键值对的形式呈现,例如“节目标题”、“剧集标题”、“系列标题”、“标题”、“剧集编号”、“创建日期”、“播出日期”、“日期”、“导演”、“制片人”、“摄像”等。 日期格式已标准化为YYYY-MM-DD,人名已标准化为姓氏,名字 中间名。
数据用途概述:
该数据集主要用于训练和评估机器学习模型,特别是用于从视频图像中自动提取文本信息的模型。 它可以应用于多种场景,包括:视频元数据自动生成、视频内容索引、视频检索、字幕生成等。 此外,该数据集也可用于研究拍摄板文本的识别技术,以及探索不同拍摄板类型和文本呈现方式对识别效果的影响。
数据集结构:
数据为表格形式,包含7列和503行。 每行代表一个已标记的图像。 列定义如下:
filename:图像文件的名称
seen:布尔型字段,用于标注过程中的记录
type-label:图像中场景的类型。 此集合中的所有图像类型均为 "S",表示 "拍摄板"
subtype-label:图像中场景的子类型。 可能的子类型包括 "H"(手写)、"C"(场记板)、"D"(简单数字文本)、"B"(条形上的拍摄板)、"G"(图形)
modifier:布尔值,指示拍摄板是否为“过渡”状态,即静态图像是在拍摄板淡入或淡出时捕获的
note-3:拍摄板上出现的文本的逐字转录
note-4:以键值对结构呈现的数据,指示拍摄板上呈现的重要数据值。 键包括 "节目标题"、"剧集标题"、"系列标题"、"标题"、"剧集编号"、"创建日期"、"播出日期"、"日期"、"导演"、"制片人"、"摄像"等。 日期已标准化为YYYY-MM-DD。 姓名已标准化为姓氏,名字 中间名。
数据格式:
数据集目录包含表格数据、图像文件以及用于查看和/或编辑标签的实用程序。 数据也以JSON和CSV格式序列化提供。 数据集包含美国公共广播档案中节目的元数据。 任何使用本数据集引用的节目的行为均受美国公共广播档案的使用条款的约束。