找到36个数据集

标签: 原始文本

过滤结果
  • 一本书的DNA_解读努韦里的_终极野心_数据集

    2025年12月16日   

    数据集概述 该数据集基于KITAB项目生成的文本复用对齐数据,分析中世纪伊斯兰百科全书《终极野心》作者努韦里的文献来源使用模式,包含OpenITI语料库元数据、文本复用对齐文件及PowerBI可视化文件,支持研究作者对早期文献的复用路径与选择逻辑。 文件详解 元数据文件:...
    packageimg
  • 无来源_Based_Vohidov_Vosit_Vohidovich_生平学术活动完整数据_注_根据分析_用户提供的数据名称为俄文转写形式_VOHIDOV...

    2025年12月15日   

    数据集概述 本数据集包含一份关于Vohidov Vosit Vohidovich生平与学术活动的PDF文档,聚焦其个人经历及科研工作相关内容。 文件详解 文件名称: Abdumutalibova Mag’firat Mirodil qizi.pdf 文件格式: PDF (.pdf) 文件内容: 文档记录Vohidov Vosit...
    packageimg
  • 基于OPENNLP的模型学习数据集

    2025年12月15日   

    数据集概述 该数据集为基于OPENNLP模型学习的训练数据,核心内容来源于萨拉托夫国立技术大学(以尤里·加加林命名)的俄语新闻源,包含文档文件与PDF文件各一份,为模型训练提供基础数据支持。 文件详解 文件名称:Data for Model Learning on base OPENNLP.docx,文件格式:docx,占比百分之五十,为文档类文件...
    packageimg
  • 提格利尼亚语语言建模数据集TLMD_v1_0_0

    2025年12月13日   

    数据集概述 该数据集是为提格利尼亚语语言建模构建的单语种数据集,是同类数据中规模最大的提格利尼亚语数据集。数据经轻量清理,包含训练集(百分之九十八)和验证集(百分之二),支持自然语言处理研究。 文件详解 文件名称: tlmd_v1.0.0.zip 文件格式: ZIP压缩包 数据结构:...
    packageimg
  • 加泰罗尼亚政府网页爬取语料库2020

    2025年12月13日   

    数据集概述 该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。 文件详解 文件名称: catalan_government_crawling.zip 文件格式: ZIP...
    packageimg
  • IN02095_昌古纳拉扬门湿婆林伽基座铭文_译文

    2025年12月12日   

    数据集概述 该数据集为IN02095昌古纳拉扬门湿婆林伽基座铭文的译文资料,包含两种格式的铭文翻译文档,为研究该历史铭文内容提供直接文本支持。 文件详解 文件名称:IN02095 CLX Cangu Gate Stone.docx 文件格式:docx 内容说明:昌古纳拉扬门湿婆林伽基座铭文的译文文档,以Word格式存储 文件名称:IN02095 CLX...
    packageimg
  • 哥廷根印度语言电子文本注册库_印度尼西亚语文本

    2025年12月12日   

    数据集概述 本数据集是哥廷根印度语言电子文本注册库(GRETIL)中收录的印度尼西亚语文本集合,包含两篇HTML格式的文本摘录文件,为研究印度尼西亚语文献提供基础数据支持。 文件详解 文件名称: sktexcerptsjb_pu.htm:HTML格式文件,为印度尼西亚语文本摘录。 文件名称:...
    packageimg
  • 哥廷根印度语言电子文本注册库_罗摩衍那数据集

    2025年12月10日   

    数据集概述 本数据集是哥廷根印度语言电子文本注册库(GRETIL)中关于《罗摩衍那》(Rāmāyaṇa)的电子文本集合,包含多个章节或版本的文本文件,为印度古典文学研究提供基础资料。 文件详解 该数据集由13个HTML格式文件组成,具体如下: -...
    packageimg
  • 基于大语言模型重写故事的葡萄牙语叙事性别偏见研究数据集

    2025年12月10日   

    数据集概述 本数据集为葡萄牙语文学作品语料库,用于研究大语言模型生成叙事中的性别偏见。语料库含五百九十二部作品,经筛选后得两万八千三百一十七个句子、七十七万四千五百一十六个词,作品覆盖不同历史时期与文学风格,每部最多取一百句以平衡分布。 文件详解...
    packageimg
  • Webis_Based_Crowd_Paraphrase_Corpus_2011_释义语料库完整数据

    2025年12月9日   

    数据集概述 该数据集包含2011年通过Mechanical Turk众包获取的7859条候选释义文本,其中4067条为接受的释义,3792条为拒绝的非释义,同时包含原始文本。这些样本曾用于PAN 2010国际剽窃检测竞赛,但此前未单独发布。 文件详解 文件名称: Webis-CPC-11.zip 文件格式: ZIP压缩包 内部文件结构:...
    packageimg
  • 五月语_越语支_方言文本数据集

    2025年12月6日   

    数据集概述 本数据集包含十二篇五月语(越语支)方言文本,原始内容附有越南语和俄语注释及翻译,现提供俄语转英文的版本。该数据集旨在配合相关英文译著的出版,以电子形式补充纸质书中未收录的文本内容。 文件详解 文件名称: May_vernacular_texts_Babaev&Samarina_Dec2020.pdf 文件格式: PDF (.pdf)...
    packageimg
  • 佛教数字资源中心藏文电子文本合集2017

    2025年12月5日   

    数据集概述 该数据集是佛教数字资源中心截至2017年4月28日的藏文电子文本合集,包含12个压缩文件,覆盖《甘珠尔》、佛法资料、上师著作等多种藏文文献类型,为藏文佛教文献的数字化保存与研究提供基础资源。 文件详解 该数据集包含12个压缩文件,具体说明如下: - 文件类型:所有文件均为ZIP格式压缩包,占比百分之百 -...
    packageimg
  • 罗马尼亚法律领域命名实体识别数据集

    2025年12月5日   

    数据集概述 该数据集是罗马尼亚法律领域的人工标注语料库,包含法律文献中的组织、地点、人物、时间及法律资源实体标注,提供细粒度法律文献类型划分及部分地点的GEONAMES编码,支持多格式访问与语义网络数据应用。 文件详解 数据集以压缩包形式提供,包含多个子文件夹及文件,具体如下: - 压缩包文件: - legalnero.zip:...
    packageimg
  • IN02071_德奥帕坦碑铭翻译数据集

    2025年12月4日   

    数据集概述 本数据集包含IN02071德奥帕坦碑铭的翻译文档,以两种格式呈现,为研究该碑铭内容提供文本资料支持。 文件详解 文件名称:IN02071 CXVIII Deopatan Inscription.docx 文件格式:DOCX 内容说明:德奥帕坦碑铭的翻译文档,为可编辑的文字处理格式 文件名称:IN02071 CXVIII Deopatan...
    packageimg
  • 哥廷根印度语言电子文本注册_阿兰亚卡数据集

    2025年12月4日   

    数据集概述 本数据集是哥廷根印度语言电子文本注册(GRETIL)中关于阿兰亚卡(ĀRAṆYAKA)的电子文本资源,包含一个HTML格式的文本文件,为印度语言相关的文献研究提供原始文本数据支持。 文件详解 文件名称: sankharu.htm 文件格式: HTML (.htm) 内容说明:...
    packageimg
  • 无词干提取文本数据集DatasetTanpaStemming-skripsheet

    2025年4月26日   

    无词干提取文本数据集DatasetTanpaStemming-skripsheet 数据来源:互联网公开数据 标签:文本分析,数据集,自然语言处理,机器学习,文本处理,信息检索,语言技术,数据分析 数据概述: 该数据集包含未进行词干提取处理的文本数据,记录了原始文本的完整形态。主要特征如下: 时间跨度:...
    packageimg