金融欺诈与非欺诈相关的新闻分类数据集

金融欺诈与非欺诈相关的新闻分类数据集

数据来源:互联网公开数据

标签:金融欺诈,非欺诈,新闻分类,自然语言处理,金融科技,数据标注

数据概述 本数据集旨在帮助用户对新闻文章进行分类,区分金融欺诈相关和非欺诈相关的内容。由于现有公开数据集中缺乏满足该需求的资源,本数据集由研究团队从头构建,旨在为类似研究提供支持。

数据集包含以下两个CSV文件: 1. fraud.csv:包含2500条新闻片段,内容涉及金融欺诈事件,数据来源为《纽约时报》和《印度时报》。 2. nonfraud.csv:包含2500条新闻片段,内容涉及与金融欺诈相关的互补主题(如金融行业动态、政策法规等),同样来源于《纽约时报》和《印度时报》。

每条新闻片段均为经过筛选和整理的独立条目,确保内容的多样性和代表性。

数据用途概述 本数据集适用于以下场景: 1. 新闻分类任务:可用于构建和训练基于文本的分类模型,识别新闻文章是否涉及金融欺诈事件。 2. 自然语言处理研究:为相关研究提供标注好的金融领域文本数据,支持文本分类、情感分析、主题建模等任务。 3. 金融风险监测:金融机构、监管机构和研究人员可利用该数据集开发工具,监测和预警金融欺诈相关事件。 4. 教育与培训:可用于教学和培训,帮助学生和从业者理解金融欺诈的识别方法和相关技术。 5. 数据增强:与其他金融领域数据集结合使用,提升模型的泛化能力。

通过分析数据集中的新闻片段,用户可以探索金融欺诈事件的特征、语言模式以及相关主题的分布规律,为实际应用提供数据支持。

数据贡献者 本数据集的主要贡献者包括: - Sayan Biswas (sayanb@sahaj.ai) - Oshin Anand (oshina@sahaj.ai) - Dileep Bapat (dileepb@sahaj.ai)

希望本数据集能够为相关研究和应用提供有价值的帮助。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.59 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。