维基百科电影剧情描述去名数据集-abbrivia

维基百科电影剧情描述去名数据集-abbrivia 数据来源:互联网公开数据 标签:电影,剧情,自然语言处理,主题建模,停用词,名字识别,维基百科

数据概述: 本数据集包含从维基百科抓取的35,000部电影的剧情描述,并移除了其中的所有名字。数据集通过内置的命名实体识别(NER)技术生成,并经过hunspell en_US词典处理,去除了常见的字典词汇。该数据集旨在为自然语言处理(NLP)任务,尤其是主题建模提供支持。在NLP分析中,人名和其他命名实体通常作为停用词处理,以避免它们成为主题建模中的强标记。

数据用途概述: 该数据集适用于自然语言处理中的主题建模、文本分类、情感分析等多种场景。研究人员和开发者可以利用该数据集去除剧情描述中的名字,从而更好地理解和分析电影内容。此外,该数据集还可以用于扩展通用NLP流水线中的停用词列表,提高文本处理的准确性。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.16 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。