基于希伯来语字幕预测IMDb评分的电视剧集数据集-lielbinyamin1997

基于希伯来语字幕预测IMDb评分的电视剧集数据集-lielbinyamin1997 数据来源:互联网公开数据 标签:IMDb, 希伯来语字幕, 电视剧集, 评分预测, 自然语言处理, 机器学习, 情感分析, 推荐系统 数据概述: 本数据集旨在通过数据挖掘技术,利用电视剧集希伯来语字幕来预测剧集评分。数据集包含剧集信息、希伯来语字幕以及对应的IMDb评分。数据集共包含34,673条数据,主要由两个表格构成:

剧集元数据表:包含每集电视剧的详细信息。 剧集字幕表:包含每集剧集的希伯来语字幕及其对应的sub_id。 1. 剧集元数据表(tv_imdb_episode_data.csv) 该表包含详细的IMDb剧集信息,包括剧集评分、投票数和类型等。

列解释:

tconst_episode:剧集的唯一IMDb标识符。 tconst_season:季的唯一IMDb标识符。 seasonNumber:剧集所属季的季数。 episodeNumber:剧集在该季中的集数。 title_episode:剧集标题。 runtimeMinutes:剧集时长(分钟)。 title_series:剧集名称。 averageRating_season:该季的平均IMDb评分。 numVotes_series:该剧集的总投票数。 averageRating_episode:该剧集的IMDb评分。 numVotes_episode:该剧集的投票数。 Year_episode:剧集发布年份。 sub_id:字幕ID(用于与字幕数据集匹配)。 genres:剧集类型(例如:剧情、喜剧、科幻)。 2. 剧集字幕表(subid_subtitles.csv) 该表包含剧集的原始希伯来语字幕文本,通过sub_id与剧集元数据表对应。

列解释:

sub_id:字幕ID(与元数据表中的sub_id对应)。 subtitles:剧集的完整希伯来语字幕。 数据准备流程 1. 数据收集与合并

IMDb数据被抓取并结构化为一个包含剧集评分、剧集详细信息和投票数的表格。 希伯来语字幕从Wizdom API获取,需要与对应的IMDb剧集进行映射。 剧集集数和季数从API响应中的versioname提取,以确保准确匹配。 2. 字幕摘要与嵌入

使用Dicta-IL/dictalm2.0-instruct模型(针对希伯来语文本优化)来总结剧集字幕。 应用均值池化来获得代表每集完整字幕摘要的嵌入向量。 潜在应用场景 该数据集可用于:

✅ 自然语言处理(NLP):分析希伯来语字幕来预测IMDb评分。 ✅ 机器学习和人工智能:训练模型以确定字幕如何影响观众评分。 ✅ 情感分析:从剧集字幕中提取基于情感的见解。 ✅ 基于内容的推荐系统:使用字幕和评分来改进电视剧推荐。 如何使用此数据集 加载两个表格,并在sub_id列上进行合并,将字幕数据与剧集元数据结合起来。 致谢

IMDb提供剧集元数据。 Wizdom API提供希伯来语字幕数据。 Dicta-IL希伯来语NLP模型提供摘要。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 六月 4, 2025, 18:13 (UTC)
创建于 六月 4, 2025, 18:11 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。