梵文关系数据集

梵文关系数据集 数据来源:互联网公开数据
标签:梵文,句法分析,语料库,关系数据,NLP,语言学研究,文本分析
数据概述:
本数据集基于CoNLL-U格式文件构建,将原始的结构化文本数据转换为关系型数据格式,并存储为 Feather 文件以提高数据处理的效率和灵活性。数据集包含两个主要文件:words.feather 和 text_lines.feather,分别存储词汇级和文本行级的信息。

词汇级数据包含以下字段:ID、FORM(词形)、LEMM(词根)、UPOS(词性)、XPOS(细粒度词性)、FEATS(形态特征)、HEAD(句法依存关系中的主词)、DEPREL(依存关系类型)、DEPS(依存关系目标)、MISC(额外信息)、LEMMA_ID、unsandhied_form(去复合化形式)、semantic_id(语义标识符)、text_line_id(文本行标识符)。

文本行级数据包含以下字段:text_id(文本标识符)、chapter_id(章节标识符)、text_line(文本行内容)、text_line_id(文本行标识符)、text_line_counter(文本行计数)、text_line_subcounter(文本行子计数)。

此外,数据集还包括texts.csv 和 chapters.csv 文件,这些文件来源于梵文语料库(DCS)的数据库导出,用于提供文本和章节的详细信息。

数据用途概述:
该数据集适用于梵文语言学研究、句法分析、语料库构建以及自然语言处理(NLP)模型的训练与开发。研究人员可以利用此数据集进行句法依存关系分析、形态学特征提取、语义关系建模等研究。此外,数据集的结构化设计使其便于进行大规模数据处理和高效查询,适用于构建梵文文本分析工具、开发梵文语料库索引系统,以及支持梵文文本的自动化处理任务。
数据集的高效存储格式(Feather)和清晰的字段定义使其非常适合用于学术研究、语料库管理以及语言技术开发场景。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 471.78 MiB
最后更新 2025年6月1日
创建于 2025年6月1日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。