MeMAD_Source_欧洲项目视听数据描述对比数据集_2018_2019

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

MeMAD_Source_欧洲项目视听数据描述对比数据集_2018_2019

数据集概述

本数据集为欧洲MeMAD项目的一部分，包含萨里大学创建的人工内容描述（CD）语料和阿尔托大学生成的机器描述（MD）语料，针对45部电影的500个视频片段构建。数据集通过电影ID和6位代码对齐两种描述，支持分析人类与机器生成视频描述的差异，用于多模态内容管理技术研发。

文件详解

readme file and distribution licence-Surrey dataset.txt
文件格式：TXT
字段映射介绍：包含数据集背景、创建目的、使用许可等说明文档内容。
MeMAD500 CLIPS 6-digit codes_Surrey.csv
文件格式：CSV
字段映射介绍：包含电影编号、电影标题、片段总数、分三段的片段数量及范围等信息，用于对齐CD和MD语料。
MeMAD500_CD_Surrey.xml
文件格式：XML
字段映射介绍：萨里大学人工创建的视频场景描述语料，采用TEI标签编码，包含片段ID、时间码、词性标注等元数据。
MeMAD500_MD_Surrey.xml
文件格式：XML
字段映射介绍：阿尔托大学机器生成的视频描述语料，结构与CD语料一致，用于与人工描述对比。

数据来源

欧洲MeMAD项目（Methods for Managing Audiovisual Data: Combining Automatic Efficiency with Human Accuracy，项目编号780069）

适用场景

多模态内容描述技术评估：对比人类与机器生成视频描述的差异，优化机器描述模型。
视听数据管理研发：支持开发多语言、多场景的数字视听信息管理与访问技术。
计算机视觉与机器学习应用：结合人类处理多模态内容的洞察，改进视频理解算法。
自然语言处理研究：分析视频场景描述的语言特征，提升机器生成文本的自然度与准确性。

数据与资源

4727751.zipZIP
86.39 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	86.39 MiB
最后更新	2026年1月20日
创建于	2026年1月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？