数据集

基于希伯来语字幕预测IMDb评分的电视剧集数据集-lielbinyamin1997

基于希伯来语字幕预测IMDb评分的电视剧集数据集-lielbinyamin1997 数据来源：互联网公开数据标签：IMDb, 希伯来语字幕, 电视剧集, 评分预测, 自然语言处理, 机器学习, 情感分析, 推荐系统数据概述：本数据集旨在通过数据挖掘技术，利用电视剧集希伯来语字幕来预测剧集评分。数据集包含剧集信息、希伯来语字幕以及对应的IMDb评分。数据集共包含34,673条数据，主要由两个表格构成：

剧集元数据表：包含每集电视剧的详细信息。剧集字幕表：包含每集剧集的希伯来语字幕及其对应的sub_id。 1. 剧集元数据表（tv_imdb_episode_data.csv）该表包含详细的IMDb剧集信息，包括剧集评分、投票数和类型等。

列解释：

tconst_episode：剧集的唯一IMDb标识符。 tconst_season：季的唯一IMDb标识符。 seasonNumber：剧集所属季的季数。 episodeNumber：剧集在该季中的集数。 title_episode：剧集标题。 runtimeMinutes：剧集时长（分钟）。 title_series：剧集名称。 averageRating_season：该季的平均IMDb评分。 numVotes_series：该剧集的总投票数。 averageRating_episode：该剧集的IMDb评分。 numVotes_episode：该剧集的投票数。 Year_episode：剧集发布年份。 sub_id：字幕ID（用于与字幕数据集匹配）。 genres：剧集类型（例如：剧情、喜剧、科幻）。 2. 剧集字幕表（subid_subtitles.csv）该表包含剧集的原始希伯来语字幕文本，通过sub_id与剧集元数据表对应。

列解释：

sub_id：字幕ID（与元数据表中的sub_id对应）。 subtitles：剧集的完整希伯来语字幕。数据准备流程 1. 数据收集与合并

IMDb数据被抓取并结构化为一个包含剧集评分、剧集详细信息和投票数的表格。希伯来语字幕从Wizdom API获取，需要与对应的IMDb剧集进行映射。剧集集数和季数从API响应中的versioname提取，以确保准确匹配。 2. 字幕摘要与嵌入

使用Dicta-IL/dictalm2.0-instruct模型（针对希伯来语文本优化）来总结剧集字幕。应用均值池化来获得代表每集完整字幕摘要的嵌入向量。潜在应用场景该数据集可用于：

✅ 自然语言处理（NLP）：分析希伯来语字幕来预测IMDb评分。 ✅ 机器学习和人工智能：训练模型以确定字幕如何影响观众评分。 ✅ 情感分析：从剧集字幕中提取基于情感的见解。 ✅ 基于内容的推荐系统：使用字幕和评分来改进电视剧推荐。如何使用此数据集加载两个表格，并在sub_id列上进行合并，将字幕数据与剧集元数据结合起来。致谢

IMDb提供剧集元数据。 Wizdom API提供希伯来语字幕数据。 Dicta-IL希伯来语NLP模型提供摘要。

数据与资源

versions_20250408044307.zipZIP
压缩文件（.zip），可能包含多个数据文件。

下载

附加信息

字段	值
版本	1.0
最后更新	六月 4, 2025, 18:13 (UTC)
创建于	六月 4, 2025, 18:11 (UTC)
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。