电视节目剧集评论与剧集摘要匹配数据集2021-bobotran

电视节目剧集评论与剧集摘要匹配数据集2021-bobotran 数据来源:互联网公开数据 标签:剧集评论,剧集摘要,电视节目,spoiler检测,文本匹配,语义分析,教育,科研

数据概述: 本数据集包含从Reddit剧集讨论线程中抓取的522,991条关于13个不同电视节目的评论。与其他spoiler数据集不同,该数据集为每个评论指定了具体的剧集编号(及剧集名称),从而实现了对特定剧集的spoiler检测和评论匹配。此外,数据集还包含了每个(剧集, episode)对的剧集摘要。对于每个剧集,任务是根据评论为其对应的剧集摘要进行排序。

数据集包括两个主要文件夹:matching和filtering。matching文件夹包含用于训练spoiler匹配模型的数据集,而filtering文件夹包含自动标注过程中的中间数据。matching/with_autolabels文件夹包含主要的数据集,其中test.json和val.json由人工标注的相关评论组成,而train.json包含自动标注的相关评论。为了测试模型在未见过的剧集上的性能,test.json由来自4个未出现在val.json和train.json中的剧集的评论组成。matching/handlabeled_only文件夹与matching/with_autolabels文件夹共享相同的test.json,但train.json和val.json分别从matching/with_autolabels/val.json中按80-20的比例划分。filtering/handlabeled文件夹包含用于训练自动标注器的数据集,其中第一列的1表示无关评论,0表示相关评论,最后两列分别是剧集名称和剧集编号。filtering/unlabeled文件夹将未标注的评论分为两部分以方便内存加载,所有评论的第一列均为-1,表示未标注。

数据用途概述: 该数据集适用于spoiler检测、文本匹配、语义分析等多种研究场景。研究人员可以利用此数据集训练spoiler匹配模型;教育者可以将其用于教学示例;科研人员可以通过分析评论与摘要匹配的关联性,深入理解观众对剧集内容的反应和反馈。此外,数据集也适用于自然语言处理领域的相关研究,如评论分类、情感分析等。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 47.45 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。