数据集

梵文关系数据集

梵文关系数据集数据来源：互联网公开数据
标签：梵文,句法分析,语料库,关系数据,NLP,语言学研究,文本分析
数据概述：
本数据集基于CoNLL-U格式文件构建，将原始的结构化文本数据转换为关系型数据格式，并存储为 Feather 文件以提高数据处理的效率和灵活性。数据集包含两个主要文件：words.feather 和 text_lines.feather，分别存储词汇级和文本行级的信息。

词汇级数据包含以下字段：ID、FORM（词形）、LEMM（词根）、UPOS（词性）、XPOS（细粒度词性）、FEATS（形态特征）、HEAD（句法依存关系中的主词）、DEPREL（依存关系类型）、DEPS（依存关系目标）、MISC（额外信息）、LEMMA_ID、unsandhied_form（去复合化形式）、semantic_id（语义标识符）、text_line_id（文本行标识符）。

文本行级数据包含以下字段：text_id（文本标识符）、chapter_id（章节标识符）、text_line（文本行内容）、text_line_id（文本行标识符）、text_line_counter（文本行计数）、text_line_subcounter（文本行子计数）。

此外，数据集还包括texts.csv 和 chapters.csv 文件，这些文件来源于梵文语料库（DCS）的数据库导出，用于提供文本和章节的详细信息。

数据用途概述：
该数据集适用于梵文语言学研究、句法分析、语料库构建以及自然语言处理（NLP）模型的训练与开发。研究人员可以利用此数据集进行句法依存关系分析、形态学特征提取、语义关系建模等研究。此外，数据集的结构化设计使其便于进行大规模数据处理和高效查询，适用于构建梵文文本分析工具、开发梵文语料库索引系统，以及支持梵文文本的自动化处理任务。
数据集的高效存储格式（Feather）和清晰的字段定义使其非常适合用于学术研究、语料库管理以及语言技术开发场景。

数据与资源

梵文关系数据集.zipZIP
471.78 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	471.78 MiB
最后更新	2025年6月1日
创建于	2025年6月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

梵文关系数据集

数据与资源

附加信息

注册成功！