用于 NLP 任务的高质量金融新闻数据集

此存储库包含从各个金融网站精心抓取的数据集。数据提取过程可确保文本高质量且准确,包括网站及其嵌入 PDF 的内容。 数据集特征 日期: 公告日期。 主题:财经新闻的主题。 内容:公告的全部内容,包括网站文本和 PDF。 附加处理字段 我们应用先进的 Mixtral 7X8 模型来生成以下附加字段: ParaphrasedSubject:原始主题的释义版本。 CompactedSummary:简洁的摘要,限制为 1.5 行。 DetailedSummary:内容的详细摘要。 影响:该公告的影响,总结为两行。 方法论 由于与 Mistral AI 团队进行了广泛的讨论和合作,用于生成附加字段的提示非常有效。这确保了数据集提供有价值的见解,并为进一步的分析和模型训练做好准备。

用法 该数据集可用于各种应用,包括但不限于: 财经新闻分析 抽象/提取摘要任务 机器学习模型训练 自然语言处理任务

packageimg

数据与资源

附加信息

字段
数据集大小 1.5 MiB
最后更新 2025年2月13日
创建于 2025年2月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。