金融新闻文本挖掘平行语料库数据集2007_2020

数据集概述

本数据集为金融领域的英汉平行新闻语料库,包含2007至2020年的60,473篇双语文档,涵盖新闻的标题、正文等核心内容,可用于金融领域的平行双语文本挖掘研究。

文件详解

  • 文件名称:FT-en-zh.rar
  • 文件格式:RAR压缩包
  • 内容说明:包含所有文档的单文件集合,每条文档字段为id、time、english_title、chinese_title、integer、english_body、chinese_body
  • 文件名称:FTIE.zip
  • 文件格式:ZIP压缩包
  • 内容说明:包含所有文档的独立文件集合,每条文档结构与上述字段一致

数据来源

Financial Times news website(https://www.ft.com/

适用场景

  • 金融领域机器翻译模型训练与优化
  • 英汉双语新闻文本对齐与语料库构建研究
  • 金融术语跨语言映射与语义分析
  • 跨语言金融事件抽取与信息检索应用
  • 金融领域多语言文本挖掘算法验证
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 148.08 MiB
最后更新 2025年12月15日
创建于 2025年12月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。