-
藏文古典语料库词性标注数据集
2025年12月22日 30 10 4
数据集概述 该数据集是对藏文古典文本进行词性标注的语料库,包含9世纪藏文经典文献、13世纪佛教史文献及15世纪传记类文本,为藏文自然语言处理研究提供基础标注数据。 文件详解 文件名称: Texts.zip 文件格式: ZIP压缩包 文件内容: 包含Mdzaṅs blun(9世纪,经典文献)、Bu ston chos ḥbyuṅ(13世纪,佛教史)、Mi...
-
古典藏语标注语料库第二部分_词性标注版
2025年12月22日 30 199 77
数据集概述 本数据集是基于佛教数字资源中心(BDRC)数字化文本集构建的古典藏语词性标注语料库第二部分,使用TiMBL的基于记忆的标注器(Memory-Based Tagger)完成标注,未经过后处理或人工校正。 文件详解 压缩文件集(共12个,均为.zip格式):...
-
奥克语标注语料库
2025年12月21日 30 82 66
数据集概述 该数据集为奥克语标注语料库,包含经人工标注词性和词元的奥克语文本,共28篇文档、12425个词元,标注流程详见指定学术文章,为奥克语自然语言处理研究提供基础数据。 文件详解 文件名称: CorpusRestaureOccitan.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含采用TSV CoNLL-...
-
马丁_路德语域现象研究语料库0_1
2025年12月21日 30 118 31
数据集概述 该数据集为马丁·路德语域现象研究语料库(RegiL v0.1),含7个子语料库、72篇文档及179,996个文本标记,基于人工归一化进行词性和词形标注,转换为ANNIS格式,旨在通过文本类型/体裁近似不同语域,支撑路德作品中语域模式的研究。 文件详解 文件名称: Documentation RegiL v01.pdf 文件格式: PDF...
-
皮卡德语标注语料库
2025年12月20日 30 25 3
数据集概述 该数据集包含25篇皮卡德语文本,经人工标注词性、词元、法语翻译及地点实体,由法国ANR资助的RESTAURE项目产出,标注流程详见指定学术文章。 文件详解 文件名称: corpus_picard_restaure.zip(压缩包) 文件格式: ZIP 包含内容: "extraits_reference_bruts"文件夹(若有):...
-
古典藏文标注语料库第一部分_基于BDRC数字化文本的分词版本
2025年12月14日 30 28 9
数据集概述 本数据集是基于佛教数字资源中心(BDRC)数字化文本集的古典藏文分词版本语料库,采用TiMBL的基于记忆的标注器进行词性标注,未经过后处理或人工校正,包含12个压缩文件。 文件详解 该数据集包含12个压缩文件,具体说明如下: -...
-
西班牙手语RADIS语料库标注数据集
2025年12月13日 30 22 0
数据集概述 该数据集包含西班牙手语(LSE)RADIS语料库的标注资源,由30个ELAN .eaf文件组成,涵盖手语视频的主要(词汇)和次要(语法)标注,用于描述事件表达的语法模式。 文件详解 核心标注文件: 29个.eaf格式文件(如CV-01_z.eaf、PS-CBB_z.eaf等):ELAN标注文件,包含id-...
-
心理学词汇计算机化汇编100词表
2025年12月13日 30 11 8
数据集概述 该数据集为心理学领域的词汇汇编,包含一百个常用心理学术语,覆盖基础概念、理论及与日常生活相关的心理现象,提供术语的定义、词性及派生词信息,帮助使用者提升对心理学常用术语的理解。 文件详解 文件名称: 221301115 - Az Zahra Rakhim Ahmadi.pdf 文件格式: PDF 文件内容:...
-
斯洛文尼亚语形容词形态标注数据库2024
2025年12月13日 30 194 158
数据集概述 本数据集包含斯洛文尼亚语中六千个最常用形容词的形态标注,基于Gigafida 2.0语料库2024年3月的抽样数据提取。标注涵盖词缀、复合结构、非派生性等核心形态特征,为斯洛文尼亚语形态学研究提供结构化数据支持。 文件详解 文件名称: Annotated database of Slovenian adjectives.xlsx 文件格式:...
-
西班牙临床病例语料库词性标注数据集
2025年12月10日 30 112 40
数据集概述 该数据集是西班牙临床病例语料库(SPACCC)的首个词性标注版本,由基于FreeLing3.1的SPACCC_POS-TAGGER工具完成标注,为临床文本的词性分析提供结构化数据支持。 文件详解 文件名称: SPACCC_POS.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
-
SemEval_2020任务1拉丁语词汇语义变化检测数据集
2025年12月8日 30 116 101
数据集概述 本数据集包含SemEval 2020任务1(无监督词汇语义变化检测)的拉丁语测试数据,涵盖两个时期的拉丁语语料库对、40个标注目标词形及其语义变化评分,还提供语料库的原始词形版本,支持词汇语义变化研究。 文件详解 文件名称: semeval2020_ulscd_lat.zip 文件格式: ZIP压缩包 压缩包内包含内容:...
-
匈牙利经典诗歌押韵词典数据集
2025年12月8日 30 124 60
数据集概述 本数据集是基于ELTE诗歌语料库自动生成的匈牙利经典诗歌押韵词典,包含53位匈牙利经典诗人作品中的650,561组押韵对及其语法、语音和位置特征,为研究匈牙利诗歌押韵规律提供结构化数据支持。 文件详解 核心数据文件: rhyming_dictionary.xml:XML格式的押韵词典...
-
古典藏文标注语料库2020_Version2_带分词与词性标注
2025年12月7日 30 144 130
数据集概述 该数据集为古典藏文标注语料库(ACTib)第二版,包含超一亿八千五百万个词元,基于XML文件构建,提供分词与词性标注的压缩文件,采用自动后处理方法,未涉及人工校正。 文件详解 数据集包含11个压缩文件,具体说明如下: - 压缩文件组(共11个.zip格式文件): - SegPOS-...
-
藏语古典词性标注词汇表
2025年12月4日 30 61 32
数据集概述 该数据集是为自然语言处理(NLP)任务构建的藏语古典词性标注词汇表。数据来源于动词词干数字化版本及人工标注的训练数据,部分词汇通过手动添加以优化基于规则的词性标注,适用于藏语古典文本的词性分析与处理。 文件详解 文件名称: Lexicons.zip 文件格式: ZIP压缩包 内容说明:...
-
宾夕法尼亚德语词表_词形还原与词性标注
2025年12月4日 30 8 7
数据集概述 该数据集包含ENDE语料库中宾夕法尼亚德语部分的词表,涵盖1761个词元及其对应的2704个词形,已完成词形还原和词性标注,为宾夕法尼亚德语的语言分析提供基础数据。 文件详解 词表数据文件: 文件名称:ENDE-corpus POS-annotated PDC lexicon.tsv 文件格式:TSV(.tsv)...
-
孟加拉语新闻语料库数据集
2025年5月31日 30 162 63
孟加拉语新闻语料库数据集 数据来源:互联网公开数据 标签:新闻,孟加拉语,文本分类,语言模型,文本生成,关系抽取,命名实体识别,词性标注 数据概述:...
-
俄语文本情感分析与语义理解数据集RussianTextSentimentAnalysisandSemanticUnderstandingDataset-yaustal
2025年5月30日 30 149 62
俄语文本情感分析与语义理解数据集RussianTextSentimentAnalysisandSemanticUnderstandingDataset-yaustal 数据来源:互联网公开数据 标签:俄语, 文本情感分析, 语义分析, 自然语言处理, 文本语料库, 情感标注, 词性标注, 文本挖掘 数据概述:...
-
中文情感分析与命名实体识别数据集ChineseSentimentAnalysisandNamedEntityRecognitionDataset-wjdekn
2025年5月28日 30 28 22
中文情感分析与命名实体识别数据集ChineseSentimentAnalysisandNamedEntityRecognitionDataset-wjdekn 数据来源:互联网公开数据 标签:情感分析, 命名实体识别, 中文文本, 自然语言处理, 机器学习, 文本分类, 词性标注, 深度学习 数据概述:...
-
文本分类特征工程数据集TextClassificationFeatureEngineeringDataset-a0049228b
2025年5月28日 30 47 11
文本分类特征工程数据集TextClassificationFeatureEngineeringDataset-a0049228b 数据来源:互联网公开数据 标签:文本分类, 特征工程, 自然语言处理, 文本特征, 机器学习, 情感分析, 词性标注, 数据预处理 数据概述: 该数据集包含经过特征工程处理的文本数据,用于文本分类任务。主要特征如下:...
-
自然灾害事件命名实体识别数据集NaturalDisasterEventNamedEntityRecognitionDataset-raxan7
2025年5月19日 30 156 101
自然灾害事件命名实体识别数据集NaturalDisasterEventNamedEntityRecognitionDataset-raxan7 数据来源:互联网公开数据 标签:命名实体识别, 自然灾害, 文本标注, 灾害事件, 机器学习, 词性标注, 事件抽取, 语料库 数据概述:...



