找到4个数据集

格式: ZIP 标签: 原始文本

过滤结果
  • 罗马尼亚法律领域命名实体识别数据集

    2025年12月5日 30 86 50

    数据集概述 该数据集是罗马尼亚法律领域的人工标注语料库,包含法律文献中的组织、地点、人物、时间及法律资源实体标注,提供细粒度法律文献类型划分及部分地点的GEONAMES编码,支持多格式访问与语义网络数据应用。 文件详解 数据集以压缩包形式提供,包含多个子文件夹及文件,具体如下: - 压缩包文件: - legalnero.zip:...
    packageimg
  • IN02071_德奥帕坦碑铭翻译数据集

    2025年12月4日 30 167 72

    数据集概述 本数据集包含IN02071德奥帕坦碑铭的翻译文档,以两种格式呈现,为研究该碑铭内容提供文本资料支持。 文件详解 文件名称:IN02071 CXVIII Deopatan Inscription.docx 文件格式:DOCX 内容说明:德奥帕坦碑铭的翻译文档,为可编辑的文字处理格式 文件名称:IN02071 CXVIII Deopatan...
    packageimg
  • 哥廷根印度语言电子文本注册_阿兰亚卡数据集

    2025年12月4日 30 129 13

    数据集概述 本数据集是哥廷根印度语言电子文本注册(GRETIL)中关于阿兰亚卡(ĀRAṆYAKA)的电子文本资源,包含一个HTML格式的文本文件,为印度语言相关的文献研究提供原始文本数据支持。 文件详解 文件名称: sankharu.htm 文件格式: HTML (.htm) 内容说明:...
    packageimg
  • 无词干提取文本数据集DatasetTanpaStemming-skripsheet

    2025年4月26日 30 83 7

    无词干提取文本数据集DatasetTanpaStemming-skripsheet 数据来源:互联网公开数据 标签:文本分析,数据集,自然语言处理,机器学习,文本处理,信息检索,语言技术,数据分析 数据概述: 该数据集包含未进行词干提取处理的文本数据,记录了原始文本的完整形态。主要特征如下: 时间跨度:...
    packageimg