基于希伯来语字幕预测IMDb评分的电视剧集数据集-lielbinyamin1997
数据来源:互联网公开数据
标签:IMDb, 希伯来语字幕, 电视剧集, 评分预测, 自然语言处理, 机器学习, 情感分析, 推荐系统
数据概述:
本数据集旨在通过数据挖掘技术,利用电视剧集希伯来语字幕来预测剧集评分。数据集包含剧集信息、希伯来语字幕以及对应的IMDb评分。数据集共包含34,673条数据,主要由两个表格构成:
剧集元数据表:包含每集电视剧的详细信息。
剧集字幕表:包含每集剧集的希伯来语字幕及其对应的sub_id。
1. 剧集元数据表(tv_imdb_episode_data.csv)
该表包含详细的IMDb剧集信息,包括剧集评分、投票数和类型等。
列解释:
tconst_episode:剧集的唯一IMDb标识符。
tconst_season:季的唯一IMDb标识符。
seasonNumber:剧集所属季的季数。
episodeNumber:剧集在该季中的集数。
title_episode:剧集标题。
runtimeMinutes:剧集时长(分钟)。
title_series:剧集名称。
averageRating_season:该季的平均IMDb评分。
numVotes_series:该剧集的总投票数。
averageRating_episode:该剧集的IMDb评分。
numVotes_episode:该剧集的投票数。
Year_episode:剧集发布年份。
sub_id:字幕ID(用于与字幕数据集匹配)。
genres:剧集类型(例如:剧情、喜剧、科幻)。
2. 剧集字幕表(subid_subtitles.csv)
该表包含剧集的原始希伯来语字幕文本,通过sub_id与剧集元数据表对应。
列解释:
sub_id:字幕ID(与元数据表中的sub_id对应)。
subtitles:剧集的完整希伯来语字幕。
数据准备流程
1. 数据收集与合并
IMDb数据被抓取并结构化为一个包含剧集评分、剧集详细信息和投票数的表格。
希伯来语字幕从Wizdom API获取,需要与对应的IMDb剧集进行映射。
剧集集数和季数从API响应中的versioname提取,以确保准确匹配。
2. 字幕摘要与嵌入
使用Dicta-IL/dictalm2.0-instruct模型(针对希伯来语文本优化)来总结剧集字幕。
应用均值池化来获得代表每集完整字幕摘要的嵌入向量。
潜在应用场景
该数据集可用于:
✅ 自然语言处理(NLP):分析希伯来语字幕来预测IMDb评分。
✅ 机器学习和人工智能:训练模型以确定字幕如何影响观众评分。
✅ 情感分析:从剧集字幕中提取基于情感的见解。
✅ 基于内容的推荐系统:使用字幕和评分来改进电视剧推荐。
如何使用此数据集
加载两个表格,并在sub_id列上进行合并,将字幕数据与剧集元数据结合起来。
致谢
IMDb提供剧集元数据。
Wizdom API提供希伯来语字幕数据。
Dicta-IL希伯来语NLP模型提供摘要。