数据集

维基百科电影剧情描述去名数据集-abbrivia

维基百科电影剧情描述去名数据集-abbrivia 数据来源：互联网公开数据标签：电影,剧情,自然语言处理,主题建模,停用词,名字识别,维基百科

数据概述：本数据集包含从维基百科抓取的35,000部电影的剧情描述，并移除了其中的所有名字。数据集通过内置的命名实体识别（NER）技术生成，并经过hunspell en_US词典处理，去除了常见的字典词汇。该数据集旨在为自然语言处理（NLP）任务，尤其是主题建模提供支持。在NLP分析中，人名和其他命名实体通常作为停用词处理，以避免它们成为主题建模中的强标记。

数据用途概述：该数据集适用于自然语言处理中的主题建模、文本分类、情感分析等多种场景。研究人员和开发者可以利用该数据集去除剧情描述中的名字，从而更好地理解和分析电影内容。此外，该数据集还可以用于扩展通用NLP流水线中的停用词列表，提高文本处理的准确性。

数据与资源

versions_20250407020251.zipZIP
0.16 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.16 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。