MarkupMnA_并购协议标注数据集

数据集概述

该数据集包含151份美国上市公司并购协议的标注语料,基于SEC EDGAR数据库的HTML filings,添加了章节标题、章节号、页码等标注,采用BEIOS标签方案。旨在支持法律合同长文档的层级表示研究,可与MAUD数据集结合用于法律NLP研究。

文件详解

  • 压缩包文件:
  • MarkupMnA.zip:ZIP格式压缩包,包含151份并购协议的标注数据
  • 映射文件:
  • Contract Name to HTML Link Mapping.csv:CSV格式文件,字段包括合同名称(Name)、EDGAR filings链接(Link to EDGAR Filing)、数据集中的名称(Name in Dataset)

适用场景

  • 法律NLP研究:用于训练章节标题标注等序列标注任务模型
  • 法律文档处理:开发法律合同的层级表示与结构化解析工具
  • 法律智能系统:辅助并购协议等长文档的自动化信息提取与分析
  • 法律数据增强:与MAUD数据集结合,扩展法律阅读理解任务的研究维度
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 15.86 MiB
最后更新 2025年12月15日
创建于 2025年12月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。