金融欺诈与非欺诈相关的新闻分类数据集
数据来源:互联网公开数据
标签:金融欺诈,非欺诈,新闻分类,自然语言处理,金融科技,数据标注
数据概述
本数据集旨在帮助用户对新闻文章进行分类,区分金融欺诈相关和非欺诈相关的内容。由于现有公开数据集中缺乏满足该需求的资源,本数据集由研究团队从头构建,旨在为类似研究提供支持。
数据集包含以下两个CSV文件:
1. fraud.csv:包含2500条新闻片段,内容涉及金融欺诈事件,数据来源为《纽约时报》和《印度时报》。
2. nonfraud.csv:包含2500条新闻片段,内容涉及与金融欺诈相关的互补主题(如金融行业动态、政策法规等),同样来源于《纽约时报》和《印度时报》。
每条新闻片段均为经过筛选和整理的独立条目,确保内容的多样性和代表性。
数据用途概述
本数据集适用于以下场景:
1. 新闻分类任务:可用于构建和训练基于文本的分类模型,识别新闻文章是否涉及金融欺诈事件。
2. 自然语言处理研究:为相关研究提供标注好的金融领域文本数据,支持文本分类、情感分析、主题建模等任务。
3. 金融风险监测:金融机构、监管机构和研究人员可利用该数据集开发工具,监测和预警金融欺诈相关事件。
4. 教育与培训:可用于教学和培训,帮助学生和从业者理解金融欺诈的识别方法和相关技术。
5. 数据增强:与其他金融领域数据集结合使用,提升模型的泛化能力。
通过分析数据集中的新闻片段,用户可以探索金融欺诈事件的特征、语言模式以及相关主题的分布规律,为实际应用提供数据支持。
数据贡献者
本数据集的主要贡献者包括:
- Sayan Biswas (sayanb@sahaj.ai)
- Oshin Anand (oshina@sahaj.ai)
- Dileep Bapat (dileepb@sahaj.ai)
希望本数据集能够为相关研究和应用提供有价值的帮助。