数据集 - 海数据

VeLeSpa_Spanish_西班牙语动词词库数据

2026年1月31日 30 172 32

数据集概述本数据集为VeLeSpa，是半岛西班牙语的动词词库，包含六百五十五三个动词的全部六十三个音系形式词形变化范式，以及对应的词目级和词形级频率数据。数据集共包含十个文件，涵盖数据表格、说明文档、代码文件等类型。文件详解数据文件（CSV格式）文件名称：VeLeSpa_cells.csv、VeLeSpa_features-...

ZIP

X_approach_Based本体填充方法评估数据集

2026年1月31日 30 56 2

数据集概述本数据集包含11个文件，用于评估X-approach本体填充方法。数据分为输入、黄金标准和输出三类：输入含法语房产领域知识图谱及78条房产广告语料库；黄金标准为语料库填充后的标准知识图谱；输出含基于两种词形还原工具（Aker、TreeTagger）和四种方法（X-approach等）生成的8个知识图谱文件，可用于本体填充方法的性能对比分析。...

ZIP

Parahungarian_Based_匈牙利名词范式词典数据集

2026年1月28日 30 62 13

数据集概述本数据集为匈牙利名词数据集，基于Unimorph数据清理而来，采用Paralex标准格式构建，包含10个文件，涵盖结构化CSV表格、说明文档、元数据等。数据以关系模型组织，提供匈牙利名词的词形、词素、特征值等信息，适用于语言学研究与自然语言处理任务。文件详解数据文件（CSV格式，共5个）...

ZIP

KOnPoTe_Based_法语房产领域文本知识图谱构建实验评估数据

2026年1月23日 30 79 68

数据集概述本数据集包含用于评估KOnPoTe（从文本中填充知识图谱/本体）方法的11个文件，覆盖法语房产销售领域。内容分为输入数据、黄金标准和输出结果三类，支持分析不同词形还原工具与方法对知识图谱构建的影响。文件详解输入文件（Inputs）文件名称：biens_immobiliers.owl 文件格式：OWL...

ZIP

nikopartanen_Based_古芬兰文学语料随机抽取手动词形还原数据集_V1_0

2026年1月13日 30 134 66

数据集概述本数据集包含从芬兰古文学语料库中随机抽取并手动完成词形还原的句子。数据覆盖部分历史年代，1690、1720、1740、1770年等年代尚未完成词形还原，且存在部分年代语料缺失。数据集目前含1个压缩文件，旨在为古芬兰文学语言研究提供标注资源，后续计划补充完善缺失内容。文件详解文件名称：nikopartanen/old-literary-...

ZIP

PUMA_GitHub_Based_出版物元数据增强分析完整数据

2025年12月23日 30 47 21

数据集概述本数据集是PUMA（出版物元数据增强）软件管道的输出结果，通过对期刊文章列表补充外部元数据，生成数据文件及可探索的HTML页面截图，包含作者、关键词等多维度统计数据与可视化内容。文件详解该数据集包含数据文件和截图文件两类，具体说明如下： - 截图文件（共7个，PNG格式）： -...

ZIP

BALT_巴比伦行政与法律文本数据集

2025年12月23日 30 143 136

数据集概述该数据集包含开放丰富注释楔形文字语料库（Oracc）上发布的“BALT: 巴比伦行政与法律文本”项目数据，收录新巴比伦、波斯及希腊化时期（约公元前626-93年）的2990份巴比伦行政与法律文本，涉及古代巴比伦宗教中心及私人家庭的行政与日常经济活动。文件详解文件名称: balt.zip 文件格式: ZIP（压缩包）内容说明:...

ZIP

丹麦公主莱奥诺拉_克里斯蒂娜1673年自我陈述数据集

2025年12月23日 30 196 139

数据集概述本数据集围绕丹麦公主莱奥诺拉·克里斯蒂娜于1673年撰写的法语自我陈述展开，包含相关研究论文及手稿信息。数据集以PDF文件形式呈现，涵盖研究分析、文本转录背景及手稿来源说明，为研究该历史人物的自我表达提供资料支持。文件详解文件名称: La princesse danoise Leonora Christina.pdf 文件格式: PDF...

ZIP

马丁_路德语域现象研究语料库0_1

2025年12月21日 30 62 7

数据集概述该数据集为马丁·路德语域现象研究语料库（RegiL v0.1），含7个子语料库、72篇文档及179,996个文本标记，基于人工归一化进行词性和词形标注，转换为ANNIS格式，旨在通过文本类型/体裁近似不同语域，支撑路德作品中语域模式的研究。文件详解文件名称: Documentation RegiL v01.pdf 文件格式: PDF...

ZIP

荷兰维基百科Palmetto位置存储Lucene索引数据集

2025年12月11日 30 198 106

数据集概述本数据集是基于2015年11月2日荷兰维基百科数据生成的位置存储Lucene索引，用于配合Palmetto工具计算主题连贯性。包含索引文件、说明文档及案例研究报告，支持荷兰语资源的主题分析研究。文件详解文件名称: README.md 文件格式: Markdown (.md) 内容说明:...

ZIP

印尼对伊朗外交政策_X社交媒体上的什叶派仇恨言论LSTM与SVM分析数据集

2025年12月11日 30 200 119

数据集概述该数据集围绕印尼对伊朗外交政策背景下，X社交媒体上什叶派仇恨言论展开研究，包含基于SVM和LSTM技术的情感分析结果表、公众评论相关图表及预处理代码文件，为探究印尼身份政治与什叶派仇恨言论的关联提供数据支持。文件详解 Data In Brief-...

ZIP

SemEval_2020任务1拉丁语词汇语义变化检测数据集

2025年12月8日 30 162 92

数据集概述本数据集包含SemEval 2020任务1（无监督词汇语义变化检测）的拉丁语测试数据，涵盖两个时期的拉丁语语料库对、40个标注目标词形及其语义变化评分，还提供语料库的原始词形版本，支持词汇语义变化研究。文件详解文件名称: semeval2020_ulscd_lat.zip 文件格式: ZIP压缩包压缩包内包含内容:...

ZIP

Heliand_Parsed_Based_古撒克逊语Heliand文本解析完整数据

2025年12月7日 30 163 135

数据集概述该数据集包含古撒克逊语福音书《Heliand》C手稿的五千九百六十八行内容，采用Sievers（一八七八年）版本，相比Behaghel标准版更适合语言学研究。数据集以UTF-8纯文本格式设计，遵循Penn历史英语语料库格式，支持CorpusSearch...

ZIP

宾夕法尼亚德语词表_词形还原与词性标注

2025年12月4日 30 145 39

数据集概述该数据集包含ENDE语料库中宾夕法尼亚德语部分的词表，涵盖1761个词元及其对应的2704个词形，已完成词形还原和词性标注，为宾夕法尼亚德语的语言分析提供基础数据。文件详解词表数据文件：文件名称：ENDE-corpus POS-annotated PDC lexicon.tsv 文件格式：TSV（.tsv）...

ZIP

商品标题文本预处理数据集ProductTitleTextPreprocessing-akshatgargbot

2025年5月30日 30 12 10

商品标题文本预处理数据集ProductTitleTextPreprocessing-akshatgargbot 数据来源：互联网公开数据标签：商品标题, 文本预处理, 词干提取, 词形还原, 自然语言处理, 文本挖掘, 数据清洗, 机器学习数据概述：...

ZIP

孟加拉电子产品评论文本情感分析数据集BanglaElectronicsReviewTextSentimentAnalysis-nirajmahi

2025年5月6日 30 72 4

孟加拉电子产品评论文本情感分析数据集BanglaElectronicsReviewTextSentimentAnalysis-nirajmahi 数据来源：互联网公开数据标签：情感分析, 文本挖掘, 孟加拉语, 电子产品, 评论数据, 自然语言处理, 情感分类, 词形还原数据概述：...

ZIP

孟加拉语词形还原数据集BengaliLemmaDataset-jakir57

2025年4月29日 30 83 41

孟加拉语词形还原数据集BengaliLemmaDataset-jakir57 数据来源：互联网公开数据标签：词形还原, 自然语言处理, 孟加拉语, 语言学, 文本分析, 词干提取, 词汇分析, 语料库数据概述：该数据集包含孟加拉语词汇的词形还原数据，记录了孟加拉语单词的词形与其对应的词元（lemma）之间的映射关系。主要特征如下：...

ZIP

孟加拉语词汇词形还原数据集BengaliWordLemmatizationDataset-jakir57

2025年4月29日 30 80 61

孟加拉语词汇词形还原数据集BengaliWordLemmatizationDataset-jakir57 数据来源：互联网公开数据标签：词形还原, 自然语言处理, 孟加拉语, 文本分析, 语言学, 词汇, 语料库, 机器翻译数据概述：该数据集包含孟加拉语词汇的词形还原数据，用于训练和评估孟加拉语词形还原模型。主要特征如下：...

ZIP

孟加拉语文本词形还原数据集BanglaTextLemmatizationDataset-jakir57

2025年4月29日 30 82 76

孟加拉语文本词形还原数据集BanglaTextLemmatizationDataset-jakir57 数据来源：互联网公开数据标签：词形还原, 孟加拉语, 自然语言处理, 文本分析, 语言学, 文本预处理, 机器翻译, 词干提取数据概述：该数据集包含孟加拉语文本的词形还原数据，旨在为孟加拉语文本处理任务提供支持。主要特征如下：...

ZIP

形态学分析数据集-faizankhan6356

2025年4月26日 30 40 4

形态学分析数据集-faizankhan6356 数据来源：互联网公开数据标签：形态学，语言学，自然语言处理，数据集，词性标注，词干提取，词形还原，文本分析数据概述：该数据集包含了用于形态学分析的文本数据，记录了不同语言的词汇及其形态变化信息。主要特征如下：时间跨度：数据记录的时间范围不固定，取决于具体数据集，可能涵盖多个历史时期和现代语言。...

ZIP

找到27个数据集

注册成功！