数据集

电视节目剧集评论与剧集摘要匹配数据集2021-bobotran

电视节目剧集评论与剧集摘要匹配数据集2021-bobotran 数据来源：互联网公开数据标签：剧集评论,剧集摘要,电视节目,spoiler检测,文本匹配,语义分析,教育,科研

数据概述：本数据集包含从Reddit剧集讨论线程中抓取的522,991条关于13个不同电视节目的评论。与其他spoiler数据集不同，该数据集为每个评论指定了具体的剧集编号（及剧集名称），从而实现了对特定剧集的spoiler检测和评论匹配。此外，数据集还包含了每个(剧集, episode)对的剧集摘要。对于每个剧集，任务是根据评论为其对应的剧集摘要进行排序。

数据集包括两个主要文件夹：matching和filtering。matching文件夹包含用于训练spoiler匹配模型的数据集，而filtering文件夹包含自动标注过程中的中间数据。matching/with_autolabels文件夹包含主要的数据集，其中test.json和val.json由人工标注的相关评论组成，而train.json包含自动标注的相关评论。为了测试模型在未见过的剧集上的性能，test.json由来自4个未出现在val.json和train.json中的剧集的评论组成。matching/handlabeled_only文件夹与matching/with_autolabels文件夹共享相同的test.json，但train.json和val.json分别从matching/with_autolabels/val.json中按80-20的比例划分。filtering/handlabeled文件夹包含用于训练自动标注器的数据集，其中第一列的1表示无关评论，0表示相关评论，最后两列分别是剧集名称和剧集编号。filtering/unlabeled文件夹将未标注的评论分为两部分以方便内存加载，所有评论的第一列均为-1，表示未标注。

数据用途概述：该数据集适用于spoiler检测、文本匹配、语义分析等多种研究场景。研究人员可以利用此数据集训练spoiler匹配模型；教育者可以将其用于教学示例；科研人员可以通过分析评论与摘要匹配的关联性，深入理解观众对剧集内容的反应和反馈。此外，数据集也适用于自然语言处理领域的相关研究，如评论分类、情感分析等。

数据与资源

versions_20250401044719.zipZIP
47.45 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	47.45 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。