印度最高法院判决文件与分析数据集1963-2021
数据来源:互联网公开数据
标签:最高法院,印度,法律判决,文本分析,命名实体识别,TF-IDF,词向量,情感分析,RNN
数据概述:
本数据集包含从印度最高法院网站抓取的判决文件及其分析结果。数据集包括两个主要文件:data_files.csv 和 dataset_supreme.csv。data_files.csv 文件记录了每个判决文件的唯一标识符(UUID)、判决日期以及对应PDF文件的直接链接。dataset_supreme.csv 文件则包含了对这些判决文件进行的多种自然语言处理(NLP)任务的结果,包括命名实体识别(NER)、TF-IDF 分析、词向量转换(vec2word)、情感分析以及循环神经网络(RNN)的输出。
数据用途概述:
该数据集适用于法律研究、文本分析、情感分析以及判决模式识别等多种场景。研究人员可以通过此数据集进行法律条款的识别与分析,了解判决的趋势和模式;律师和法律工作者可以利用数据分析结果来辅助案件处理;此外,数据集也适合用于教育培训,帮助学习者理解和分析法律判决文件的结构和内容。
举例:
例如,data_files.csv 文件中的一条记录可能为:
File Name: 123e4567-e89b-12d3-a456-426614174000
Date: 2021-05-13
Link: http://example.com/judgment/123e4567-e89b-12d3-a456-426614174000.pdf
而 dataset_supreme.csv 文件中的一条记录可能为:
File Name: 123e4567-e89b-12d3-a456-426614174000
Named Entities: [印度最高法院, 某某律师, 法律条款X]
TF-IDF Keywords: [判决, 法律, 律师]
Vector Embeddings: [0.1, 0.2, 0.3, ...]
Sentiment: Positive
RNN Output: [0.8, 0.2]