数据集

美国和加州立法提案摘要数据集-undersc0re

美国和加州立法提案摘要数据集-undersc0re 数据来源：互联网公开数据标签：立法,提案,摘要,文本分析,自然语言处理,美国,加州,法律,文本长度数据概述：本数据集包含了美国联邦立法提案和加州立法提案的摘要信息，总计超过23000条记录。数据分为训练集（train）、加州测试集（ca_test）和测试集（test）三个部分。

数据集包含以下关键字段：

text：立法提案的完整文本。 summary：立法提案的摘要信息。 title：立法提案的标题。仅适用于美国联邦立法提案，加州提案无此字段。 text_len：立法提案文本的字符长度。 sum_len：立法提案摘要的字符长度。

数据集的构成：

训练集（train）：包含18949条记录，用于模型训练。加州测试集（ca_test）：包含1237条加州立法提案记录，用于测试。测试集（test）：包含3269条记录，用于最终测试。

数据集的结构示例：

{ "summary": "提案的摘要信息", "text": "提案的完整文本。", "title": "一项关于修订xxx条款的法案。" }

数据用途概述：该数据集适用于多种文本分析和自然语言处理任务，例如：

文本摘要：利用提案文本生成摘要。文本分类：根据提案内容进行分类。信息抽取：从提案文本中提取关键信息。法律文本分析：研究立法提案的语言风格、内容特点等。模型训练：用于训练文本摘要、文本生成等模型。研究人员、数据科学家和自然语言处理工程师可以利用该数据集进行模型构建、算法验证和研究探索。

数据与资源

versions_20250402135605.zipZIP
51.84 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	51.84 MiB
最后更新	2025年4月24日
创建于	2025年4月24日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

美国和加州立法提案摘要数据集-undersc0re

数据与资源

附加信息

注册成功！