印度讽刺新闻标题数据集1963-2021

印度讽刺新闻标题数据集1963-2021 数据来源:互联网公开数据 标签:讽刺新闻,印度,新闻标题,数据集,文本分析,社交媒体,档案馆

数据概述: 本数据集旨在解决印度语境下高质量讽刺新闻标题数据集稀缺的问题。虽然已有其他相关数据集,但主要来源于社交媒体平台,内容多为非正式的评论回复,缺乏完整背景信息。为此,本数据集选择了印度两家以讽刺新闻闻名的网站:The Fauxy 和 The Unreal Times。通过抓取The Fauxy的新闻标题相对直接,但The Unreal Times在2016年11月关闭后,我们利用了Archive.org的Wayback Machine来提取存档快照中的标题。尽管受到访问频率限制,我们最终收集到The Fauxy的2128条标题和The Unreal Times的1919条标题,总共4047条记录。

数据用途概述: 该数据集适用于讽刺新闻识别、文本分析和自然语言处理研究等场景。研究人员可以通过本数据集进行讽刺新闻的识别训练,提高模型的准确性和鲁棒性。此外,数据集也可用于媒体分析、内容推荐系统开发以及文化研究等领域,帮助更好地理解印度社会的讽刺文化及其传播方式。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.36 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。