找到22个数据集

标签: 词形还原

过滤结果
  • PUMA_GitHub_Based_出版物元数据增强分析完整数据

    2025年12月23日 30 32 23

    数据集概述 本数据集是PUMA(出版物元数据增强)软件管道的输出结果,通过对期刊文章列表补充外部元数据,生成数据文件及可探索的HTML页面截图,包含作者、关键词等多维度统计数据与可视化内容。 文件详解 该数据集包含数据文件和截图文件两类,具体说明如下: - 截图文件(共7个,PNG格式): -...
    packageimg
  • BALT_巴比伦行政与法律文本数据集

    2025年12月23日 30 198 16

    数据集概述 该数据集包含开放丰富注释楔形文字语料库(Oracc)上发布的“BALT: 巴比伦行政与法律文本”项目数据,收录新巴比伦、波斯及希腊化时期(约公元前626-93年)的2990份巴比伦行政与法律文本,涉及古代巴比伦宗教中心及私人家庭的行政与日常经济活动。 文件详解 文件名称: balt.zip 文件格式: ZIP(压缩包) 内容说明:...
    packageimg
  • 丹麦公主莱奥诺拉_克里斯蒂娜1673年自我陈述数据集

    2025年12月23日 30 199 141

    数据集概述 本数据集围绕丹麦公主莱奥诺拉·克里斯蒂娜于1673年撰写的法语自我陈述展开,包含相关研究论文及手稿信息。数据集以PDF文件形式呈现,涵盖研究分析、文本转录背景及手稿来源说明,为研究该历史人物的自我表达提供资料支持。 文件详解 文件名称: La princesse danoise Leonora Christina.pdf 文件格式: PDF...
    packageimg
  • 马丁_路德语域现象研究语料库0_1

    2025年12月21日 30 27 1

    数据集概述 该数据集为马丁·路德语域现象研究语料库(RegiL v0.1),含7个子语料库、72篇文档及179,996个文本标记,基于人工归一化进行词性和词形标注,转换为ANNIS格式,旨在通过文本类型/体裁近似不同语域,支撑路德作品中语域模式的研究。 文件详解 文件名称: Documentation RegiL v01.pdf 文件格式: PDF...
    packageimg
  • 荷兰维基百科Palmetto位置存储Lucene索引数据集

    2025年12月11日 30 11 9

    数据集概述 本数据集是基于2015年11月2日荷兰维基百科数据生成的位置存储Lucene索引,用于配合Palmetto工具计算主题连贯性。包含索引文件、说明文档及案例研究报告,支持荷兰语资源的主题分析研究。 文件详解 文件名称: README.md 文件格式: Markdown (.md) 内容说明:...
    packageimg
  • 印尼对伊朗外交政策_X社交媒体上的什叶派仇恨言论LSTM与SVM分析数据集

    2025年12月11日 30 192 12

    数据集概述 该数据集围绕印尼对伊朗外交政策背景下,X社交媒体上什叶派仇恨言论展开研究,包含基于SVM和LSTM技术的情感分析结果表、公众评论相关图表及预处理代码文件,为探究印尼身份政治与什叶派仇恨言论的关联提供数据支持。 文件详解 Data In Brief-...
    packageimg
  • SemEval_2020任务1拉丁语词汇语义变化检测数据集

    2025年12月8日 30 196 180

    数据集概述 本数据集包含SemEval 2020任务1(无监督词汇语义变化检测)的拉丁语测试数据,涵盖两个时期的拉丁语语料库对、40个标注目标词形及其语义变化评分,还提供语料库的原始词形版本,支持词汇语义变化研究。 文件详解 文件名称: semeval2020_ulscd_lat.zip 文件格式: ZIP压缩包 压缩包内包含内容:...
    packageimg
  • Heliand_Parsed_Based_古撒克逊语Heliand文本解析完整数据

    2025年12月7日 30 172 67

    数据集概述 该数据集包含古撒克逊语福音书《Heliand》C手稿的五千九百六十八行内容,采用Sievers(一八七八年)版本,相比Behaghel标准版更适合语言学研究。数据集以UTF-8纯文本格式设计,遵循Penn历史英语语料库格式,支持CorpusSearch...
    packageimg
  • 宾夕法尼亚德语词表_词形还原与词性标注

    2025年12月4日 30 197 162

    数据集概述 该数据集包含ENDE语料库中宾夕法尼亚德语部分的词表,涵盖1761个词元及其对应的2704个词形,已完成词形还原和词性标注,为宾夕法尼亚德语的语言分析提供基础数据。 文件详解 词表数据文件: 文件名称:ENDE-corpus POS-annotated PDC lexicon.tsv 文件格式:TSV(.tsv)...
    packageimg
  • 商品标题文本预处理数据集ProductTitleTextPreprocessing-akshatgargbot

    2025年5月30日 30 114 4

    商品标题文本预处理数据集ProductTitleTextPreprocessing-akshatgargbot 数据来源:互联网公开数据 标签:商品标题, 文本预处理, 词干提取, 词形还原, 自然语言处理, 文本挖掘, 数据清洗, 机器学习 数据概述:...
    packageimg
  • 孟加拉电子产品评论文本情感分析数据集BanglaElectronicsReviewTextSentimentAnalysis-nirajmahi

    2025年5月6日 30 209 180

    孟加拉电子产品评论文本情感分析数据集BanglaElectronicsReviewTextSentimentAnalysis-nirajmahi 数据来源:互联网公开数据 标签:情感分析, 文本挖掘, 孟加拉语, 电子产品, 评论数据, 自然语言处理, 情感分类, 词形还原 数据概述:...
    packageimg
  • 孟加拉语词形还原数据集BengaliLemmaDataset-jakir57

    2025年4月29日 30 191 92

    孟加拉语词形还原数据集BengaliLemmaDataset-jakir57 数据来源:互联网公开数据 标签:词形还原, 自然语言处理, 孟加拉语, 语言学, 文本分析, 词干提取, 词汇分析, 语料库 数据概述: 该数据集包含孟加拉语词汇的词形还原数据,记录了孟加拉语单词的词形与其对应的词元(lemma)之间的映射关系。主要特征如下:...
    packageimg
  • 孟加拉语词汇词形还原数据集BengaliWordLemmatizationDataset-jakir57

    2025年4月29日 30 109 79

    孟加拉语词汇词形还原数据集BengaliWordLemmatizationDataset-jakir57 数据来源:互联网公开数据 标签:词形还原, 自然语言处理, 孟加拉语, 文本分析, 语言学, 词汇, 语料库, 机器翻译 数据概述: 该数据集包含孟加拉语词汇的词形还原数据,用于训练和评估孟加拉语词形还原模型。主要特征如下:...
    packageimg
  • 孟加拉语文本词形还原数据集BanglaTextLemmatizationDataset-jakir57

    2025年4月29日 30 76 59

    孟加拉语文本词形还原数据集BanglaTextLemmatizationDataset-jakir57 数据来源:互联网公开数据 标签:词形还原, 孟加拉语, 自然语言处理, 文本分析, 语言学, 文本预处理, 机器翻译, 词干提取 数据概述: 该数据集包含孟加拉语文本的词形还原数据,旨在为孟加拉语文本处理任务提供支持。主要特征如下:...
    packageimg
  • 形态学分析数据集-faizankhan6356

    2025年4月26日 30 105 23

    形态学分析数据集-faizankhan6356 数据来源:互联网公开数据 标签:形态学,语言学,自然语言处理,数据集,词性标注,词干提取,词形还原,文本分析 数据概述: 该数据集包含了用于形态学分析的文本数据,记录了不同语言的词汇及其形态变化信息。主要特征如下: 时间跨度:数据记录的时间范围不固定,取决于具体数据集,可能涵盖多个历史时期和现代语言。...
    packageimg
  • 孟加拉语书籍词形还原数据集BanglaBookLemmatizedCSV-nirajmahi

    2025年4月26日 30 23 11

    孟加拉语书籍词形还原数据集BanglaBookLemmatizedCSV-nirajmahi 数据来源:互联网公开数据 标签:孟加拉语,词形还原,数据集,自然语言处理,文本分析,机器学习,语言学,学术资源 数据概述:该数据集包含来自孟加拉语书籍的词形还原数据,记录了孟加拉语文本中单词的词形还原结果。主要特征如下:...
    packageimg
  • 预处理与词形还原测试数据数据集-marouanesidali

    2025年4月24日 30 131 74

    预处理与词形还原测试数据数据集-marouanesidali 数据来源:互联网公开数据 标签:文本预处理,词形还原,自然语言处理,数据集,文本分析,机器学习,NLP,测试数据 数据概述: 该数据集包含了经过预处理和词形还原处理的文本数据,主要用于测试和评估文本处理算法的性能。主要特征如下:...
    packageimg
  • 文本预处理与词形还原训练数据集-marouanesidali

    2025年4月23日 30 18 10

    文本预处理与词形还原训练数据集-marouanesidali 数据来源:互联网公开数据 标签:文本预处理,词形还原,自然语言处理,机器学习,文本分析,数据集,NLP,训练数据 数据概述: 该数据集包含了经过预处理和词形还原的文本数据,主要用于训练和评估自然语言处理模型。主要特征如下: 时间跨度:数据记录的时间范围不限,取决于原始文本数据集的构成。...
    packageimg
  • 多主题分类新闻文章数据集1963-2021

    2025年4月18日 30 82 43

    多主题分类新闻文章数据集1963-2021 数据来源:互联网公开数据 标签:主题分类,新闻,文章,评论,情感分析,健康,金融,体育,科学,政治,NLP处理,文本清理,POS标注,词形还原 数据概述:...
    packageimg
  • 乌尔都语与旁遮普语合并数据集

    2025年4月15日 30 119 91

    乌尔都语与旁遮普语合并数据集 数据来源:互联网公开数据 标签:乌尔都语,旁遮普语,双语数据集,词性标注,词形还原,语言处理 数据概述:...
    packageimg