美国和加州立法提案摘要数据集-undersc0re
数据来源:互联网公开数据
标签:立法,提案,摘要,文本分析,自然语言处理,美国,加州,法律,文本长度
数据概述:
本数据集包含了美国联邦立法提案和加州立法提案的摘要信息,总计超过23000条记录。数据分为训练集(train)、加州测试集(ca_test)和测试集(test)三个部分。
数据集包含以下关键字段:
text:立法提案的完整文本。
summary:立法提案的摘要信息。
title:立法提案的标题。仅适用于美国联邦立法提案,加州提案无此字段。
text_len:立法提案文本的字符长度。
sum_len:立法提案摘要的字符长度。
数据集的构成:
训练集(train):包含18949条记录,用于模型训练。
加州测试集(ca_test):包含1237条加州立法提案记录,用于测试。
测试集(test):包含3269条记录,用于最终测试。
数据集的结构示例:
{
"summary": "提案的摘要信息",
"text": "提案的完整文本。",
"title": "一项关于修订xxx条款的法案。"
}
数据用途概述:
该数据集适用于多种文本分析和自然语言处理任务,例如:
文本摘要:利用提案文本生成摘要。
文本分类:根据提案内容进行分类。
信息抽取:从提案文本中提取关键信息。
法律文本分析:研究立法提案的语言风格、内容特点等。
模型训练:用于训练文本摘要、文本生成等模型。
研究人员、数据科学家和自然语言处理工程师可以利用该数据集进行模型构建、算法验证和研究探索。