信息检索数据集_互联网电影数据库IMDB

数据集概述

该数据集是为里约热内卢联邦大学硕士阶段的信息检索研究项目构建的,包含近十一万五千个XML格式文档,为互联网电影数据库(IMDB)的子集。每个文档记录一部电影的详细信息,涵盖基本属性、制作团队、发行信息等维度,为信息检索领域的实验提供电影相关的结构化数据支持。

文件详解

  • 压缩文件:
  • Complete dataset.rar:RAR格式的压缩文件,包含完整的数据集文件
  • 样本文件:
  • sample.xml:XML格式的样本文件,单部电影信息的示例文档,包含字段如ID、标题、年份、国家、演员及角色、类型、时长、关键词、剧情简介等

数据来源

里约热内卢联邦大学(UFRJ)

适用场景

  • 信息检索算法测试:可用于验证电影数据的文本检索、信息抽取等算法性能
  • 电影元数据结构化分析:研究XML文档中电影多维度信息的组织与关联模式
  • 多媒体信息检索研究:探索基于电影属性、关键词等元数据的检索模型优化
  • 自然语言处理应用:用于电影剧情文本的语义分析、实体识别等任务训练
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 96.62 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。