数据集 - 海数据

一本书的DNA_解读努韦里的_终极野心_数据集

2025年12月16日

数据集概述该数据集基于KITAB项目生成的文本复用对齐数据，分析中世纪伊斯兰百科全书《终极野心》作者努韦里的文献来源使用模式，包含OpenITI语料库元数据、文本复用对齐文件及PowerBI可视化文件，支持研究作者对早期文献的复用路径与选择逻辑。文件详解元数据文件：...

ZIP

无来源_Based_Vohidov_Vosit_Vohidovich_生平学术活动完整数据_注_根据分析_用户提供的数据名称为俄文转写形式_VOHIDOV...

2025年12月15日

数据集概述本数据集包含一份关于Vohidov Vosit Vohidovich生平与学术活动的PDF文档，聚焦其个人经历及科研工作相关内容。文件详解文件名称: Abdumutalibova Mag’firat Mirodil qizi.pdf 文件格式: PDF (.pdf) 文件内容: 文档记录Vohidov Vosit...

ZIP

基于OPENNLP的模型学习数据集

2025年12月15日

数据集概述该数据集为基于OPENNLP模型学习的训练数据，核心内容来源于萨拉托夫国立技术大学（以尤里·加加林命名）的俄语新闻源，包含文档文件与PDF文件各一份，为模型训练提供基础数据支持。文件详解文件名称：Data for Model Learning on base OPENNLP.docx，文件格式：docx，占比百分之五十，为文档类文件...

ZIP

提格利尼亚语语言建模数据集TLMD_v1_0_0

2025年12月13日

数据集概述该数据集是为提格利尼亚语语言建模构建的单语种数据集，是同类数据中规模最大的提格利尼亚语数据集。数据经轻量清理，包含训练集（百分之九十八）和验证集（百分之二），支持自然语言处理研究。文件详解文件名称: tlmd_v1.0.0.zip 文件格式: ZIP压缩包数据结构:...

ZIP

加泰罗尼亚政府网页爬取语料库2020

2025年12月13日

数据集概述该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库，含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档，是加泰罗尼亚语文本语料库的子语料库。文件详解文件名称: catalan_government_crawling.zip 文件格式: ZIP...

ZIP

IN02095_昌古纳拉扬门湿婆林伽基座铭文_译文

2025年12月12日

数据集概述该数据集为IN02095昌古纳拉扬门湿婆林伽基座铭文的译文资料，包含两种格式的铭文翻译文档，为研究该历史铭文内容提供直接文本支持。文件详解文件名称：IN02095 CLX Cangu Gate Stone.docx 文件格式：docx 内容说明：昌古纳拉扬门湿婆林伽基座铭文的译文文档，以Word格式存储文件名称：IN02095 CLX...

ZIP

哥廷根印度语言电子文本注册库_印度尼西亚语文本

2025年12月12日

数据集概述本数据集是哥廷根印度语言电子文本注册库（GRETIL）中收录的印度尼西亚语文本集合，包含两篇HTML格式的文本摘录文件，为研究印度尼西亚语文献提供基础数据支持。文件详解文件名称: sktexcerptsjb_pu.htm：HTML格式文件，为印度尼西亚语文本摘录。文件名称:...

ZIP

哥廷根印度语言电子文本注册库_罗摩衍那数据集

2025年12月10日

数据集概述本数据集是哥廷根印度语言电子文本注册库（GRETIL）中关于《罗摩衍那》（Rāmāyaṇa）的电子文本集合，包含多个章节或版本的文本文件，为印度古典文学研究提供基础资料。文件详解该数据集由13个HTML格式文件组成，具体如下： -...

基于大语言模型重写故事的葡萄牙语叙事性别偏见研究数据集

2025年12月10日

数据集概述本数据集为葡萄牙语文学作品语料库，用于研究大语言模型生成叙事中的性别偏见。语料库含五百九十二部作品，经筛选后得两万八千三百一十七个句子、七十七万四千五百一十六个词，作品覆盖不同历史时期与文学风格，每部最多取一百句以平衡分布。文件详解...

ZIP

Webis_Based_Crowd_Paraphrase_Corpus_2011_释义语料库完整数据

2025年12月9日

数据集概述该数据集包含2011年通过Mechanical Turk众包获取的7859条候选释义文本，其中4067条为接受的释义，3792条为拒绝的非释义，同时包含原始文本。这些样本曾用于PAN 2010国际剽窃检测竞赛，但此前未单独发布。文件详解文件名称: Webis-CPC-11.zip 文件格式: ZIP压缩包内部文件结构:...

ZIP

五月语_越语支_方言文本数据集

2025年12月6日

数据集概述本数据集包含十二篇五月语（越语支）方言文本，原始内容附有越南语和俄语注释及翻译，现提供俄语转英文的版本。该数据集旨在配合相关英文译著的出版，以电子形式补充纸质书中未收录的文本内容。文件详解文件名称: May_vernacular_texts_Babaev&Samarina_Dec2020.pdf 文件格式: PDF (.pdf)...

ZIP

佛教数字资源中心藏文电子文本合集2017

2025年12月5日

数据集概述该数据集是佛教数字资源中心截至2017年4月28日的藏文电子文本合集，包含12个压缩文件，覆盖《甘珠尔》、佛法资料、上师著作等多种藏文文献类型，为藏文佛教文献的数字化保存与研究提供基础资源。文件详解该数据集包含12个压缩文件，具体说明如下： - 文件类型：所有文件均为ZIP格式压缩包，占比百分之百 -...

ZIP

罗马尼亚法律领域命名实体识别数据集

2025年12月5日

数据集概述该数据集是罗马尼亚法律领域的人工标注语料库，包含法律文献中的组织、地点、人物、时间及法律资源实体标注，提供细粒度法律文献类型划分及部分地点的GEONAMES编码，支持多格式访问与语义网络数据应用。文件详解数据集以压缩包形式提供，包含多个子文件夹及文件，具体如下： - 压缩包文件: - legalnero.zip:...

ZIP

IN02071_德奥帕坦碑铭翻译数据集

2025年12月4日

数据集概述本数据集包含IN02071德奥帕坦碑铭的翻译文档，以两种格式呈现，为研究该碑铭内容提供文本资料支持。文件详解文件名称：IN02071 CXVIII Deopatan Inscription.docx 文件格式：DOCX 内容说明：德奥帕坦碑铭的翻译文档，为可编辑的文字处理格式文件名称：IN02071 CXVIII Deopatan...

ZIP

哥廷根印度语言电子文本注册_阿兰亚卡数据集

2025年12月4日

数据集概述本数据集是哥廷根印度语言电子文本注册（GRETIL）中关于阿兰亚卡（ĀRAṆYAKA）的电子文本资源，包含一个HTML格式的文本文件，为印度语言相关的文献研究提供原始文本数据支持。文件详解文件名称: sankharu.htm 文件格式: HTML (.htm) 内容说明:...

ZIP

无词干提取文本数据集DatasetTanpaStemming-skripsheet

2025年4月26日

无词干提取文本数据集DatasetTanpaStemming-skripsheet 数据来源：互联网公开数据标签：文本分析，数据集，自然语言处理，机器学习，文本处理，信息检索，语言技术，数据分析数据概述：该数据集包含未进行词干提取处理的文本数据，记录了原始文本的完整形态。主要特征如下：时间跨度：...

ZIP

找到36个数据集

注册成功！