找到71个数据集

标签: 词性标注

过滤结果
  • AnCora_西班牙语多层面标注语料库数据3_0_1

    2026年1月31日 30 177 88

    数据集概述 本数据集为AnCora 3.0.1西班牙语语料库,包含约50万字的新闻文本,覆盖词元、词性、句法成分、论元结构、动词语义类、名物化隐含论元等多层面标注,支持自然语言处理相关研究与应用。 文件详解 文件名称:AnCora 3.0.1 Spanish.zip 文件格式:ZIP...
    packageimg
  • LAGT_Based_多源整合古希腊文本语料库_v4_1

    2026年1月30日 30 79 45

    数据集概述 本数据集为LAGT(lemmatized ancient Greek texts)古希腊文本语料库,整合自Perseus数字图书馆、First 1000 Years of...
    packageimg
  • VeLeCa_Source_加泰罗尼亚语动词词形变化词库数据

    2026年1月29日 30 81 9

    数据集概述 本数据集为VeLeCa,即加泰罗尼亚语动词屈折变化词库,包含三千四百八十四个词位的十七万四千二百个词形的语音形式,以及对应的词汇、形态句法属性和频率数据。数据集总计十个文件,覆盖数据、文档、代码等类型,为加泰罗尼亚语动词的语言学研究提供结构化资源。 文件详解 数据文件(CSV格式,共5个)...
    packageimg
  • OWT_Tag_Based_奥克语传统书面民间故事词性标注语料库

    2026年1月28日 30 84 25

    数据集概述 本数据集包含5篇奥克语传统书面民间故事文本摘录,均按照Grace标准进行了词元与词性的人工标注。文本摘录自J.-F. Bladé、J.-V. Lalanne等作者的民间故事集,每篇约1500词,用于评估奥克语词性标注工具Talismane针对OcOr语料库的性能,由ExpressioNarration项目产出。 文件详解 文件名称:OWT-...
    packageimg
  • Parahungarian_Based_匈牙利名词范式词典数据集

    2026年1月28日 30 117 81

    数据集概述 本数据集为匈牙利名词数据集,基于Unimorph数据清理而来,采用Paralex标准格式构建,包含10个文件,涵盖结构化CSV表格、说明文档、元数据等。数据以关系模型组织,提供匈牙利名词的词形、词素、特征值等信息,适用于语言学研究与自然语言处理任务。 文件详解 数据文件(CSV格式,共5个)...
    packageimg
  • Nanotate_Based生物开放实验协议词性标注分布统计数据

    2026年1月28日 30 195 92

    数据集概述 本数据集包含通过Nanotate工具对生物学开放获取实验协议中的232个词性进行标注的结果,标注类别分为样本、设备、试剂、输入、输出、步骤六种。数据集以单一文件呈现,用于展示各类别标签的分布统计情况。 文件详解 文件名称:Tag distribution.xlsx 文件格式:XLSX...
    packageimg
  • Pedalion_Based_古希腊悲剧_美狄亚_依存句法树库数据

    2026年1月27日 30 7 3

    数据集概述 本数据集是基于欧里庇得斯悲剧《美狄亚》构建的古希腊语依存句法树库,由Toon Van Hal主导标注,KU Leuven 2018-2019学年三年级本科生参与标注工作,原始文本预处理由Alek Keersmaekers完成。数据集包含一个XML格式文件,用于记录文本的依存句法结构标注信息。 文件详解...
    packageimg
  • RoMEMES_Source_罗马尼亚社交媒体表情包多模态标注数据

    2026年1月27日 30 14 11

    数据集概述 本数据集为罗马尼亚语表情包数据集RoMEMES,采集自公共社交媒体平台,包含表情包的文本、图像及相关标注信息。数据经人工标注罗马尼亚语文本、图像复杂度、情感倾向、政治内容属性,文本部分通过RELATE平台自动标注词性、词元及依存句法,同时包含元数据。 文件详解 metadata.tsv 文件格式:TSV...
    packageimg
  • ReM_Based_中古高地德语参考语料库标注文本数据_2016版

    2026年1月27日 30 170 3

    数据集概述 本数据集为中古高地德语参考语料库(ReM),包含1050–1350年间的转录标注文本,规模约200万词形。文本经数字化处理,标注有词性、形态和词元等信息,支持历史语言学及相关研究。ISLRN编号332-536-136-099-5,含3个文件。 文件详解 归档文件组(archive_files) 文件名称:rem-...
    packageimg
  • Not_So_Weak_PICO_EBM_PICO修正标注及词典资源

    2026年1月25日 30 152 64

    数据集概述 本数据集包含修正后的EBM-PICO测试集标注及相关词典资源,用于系统综述自动化中的PICO(参与者、干预措施、结局)实体识别。EBM-PICO数据集原分为众包标注训练集和专家标注测试集,存在标注质量问题。本数据集提供经错误修正的测试集标注,以及从临床实验数据库和文献中生成的PICO相关词典文件。 文件详解 修正测试集标注文件...
    packageimg
  • Bangla_REX_Based_孟加拉语关系抽取数据集_完整标注版

    2026年1月23日 30 207 10

    数据集概述 本数据集是针对孟加拉语关系抽取任务构建的专用数据集,基于结构化知识库和标注语料的理论框架生成。包含63,256条条目组成的孟加拉语知识库(KB)、90,441条带命名实体识别(NER)和词性标注(POS)的文本语料,以及440个孟加拉语地点助记符,可直接用于关系抽取任务。 文件详解 location_mnemonics.xlsx...
    packageimg
  • PlanTL_Based_西班牙语临床病例语料库句子分割标注数据集_V1

    2026年1月22日 30 101 0

    数据集概述 本数据集为西班牙临床病例语料库(SPACCC)的句子分割标注第一版,由基于FreeLing3.1的SPACCC词性标注工具完成标注。数据集包含1个压缩文件,无目录层级,无训练/测试、数据/标签等分割,可用于西班牙语临床文本的句子分割任务研究与模型训练。 文件详解 文件名称:SPACCC_SPLIT.zip 文件格式:ZIP...
    packageimg
  • Paralatvian_Paralex_Based_拉脱维亚语名词屈折数据集

    2026年1月20日 30 11 1

    数据集概述 本数据集是遵循Paralex标准格式的拉脱维亚语名词屈折数据集,由Unimorph数据清理而来,包含9个文件,无目录层级。数据采用关系模型结构化存储,以CSV表格为主,辅以元数据和说明文档,覆盖名词的词形、屈折特征、音素等信息,适用于拉脱维亚语语法研究与自然语言处理任务。 文件详解 数据文件(.csv):共5个...
    packageimg
  • 帕拉普兰库尼亚特贾语_基于皮詹塔贾拉语和扬库尼亚特贾语的方言_动词词库数据集

    2026年1月20日 30 69 49

    数据集概述 本数据集为Pitjantjatjara/Yankunytjatjara语言的动词词库,包含动词形态、语音、词素等结构化信息,由墨尔本大学Sasha Wilmoth创建。数据涵盖动词形式表、语音表、词素表等11个文件,支持对该澳大利亚原住民语言动词系统的深入分析。 文件详解 数据文件(CSV格式,共7个)...
    packageimg
  • SPACCC_TOKEN_Based_西班牙语临床病例语料库分词标注第一版数据

    2026年1月19日 30 122 15

    数据集概述 本数据集为西班牙语临床病例语料库(SPACCC)的第一版分词标注数据,由基于FreeLing3.1的西班牙语临床病例语料库词性标注器(SPACCC_POS-TAGGER)生成,包含对临床文本的分词标注内容,适用于医学NLP领域的文本处理研究。 文件详解 文件名称:SPACCC_TOKEN.zip 文件格式:ZIP...
    packageimg
  • AnCora_Catalan_Based_加泰罗尼亚语多层面标注语料库_2_0_0版

    2026年1月18日 30 167 48

    数据集概述 本数据集为AnCora Catalan 2.0.0加泰罗尼亚语语料库,包含约五十万字,主要基于新闻文本构建。数据在词元与词性、句法成分与功能、论元结构与题元角色、动词语义类、名词WordNet同义词集关联、命名实体及共指关系等多层面进行标注,是自然语言处理研究的基础资源。 文件详解 文件名称:AnCora Catalan 2.0.0.zip...
    packageimg
  • 藏文古典语料库词性标注数据集

    2025年12月22日 30 75 55

    数据集概述 该数据集是对藏文古典文本进行词性标注的语料库,包含9世纪藏文经典文献、13世纪佛教史文献及15世纪传记类文本,为藏文自然语言处理研究提供基础标注数据。 文件详解 文件名称: Texts.zip 文件格式: ZIP压缩包 文件内容: 包含Mdzaṅs blun(9世纪,经典文献)、Bu ston chos ḥbyuṅ(13世纪,佛教史)、Mi...
    packageimg
  • 古典藏语标注语料库第二部分_词性标注版

    2025年12月22日 30 4 2

    数据集概述 本数据集是基于佛教数字资源中心(BDRC)数字化文本集构建的古典藏语词性标注语料库第二部分,使用TiMBL的基于记忆的标注器(Memory-Based Tagger)完成标注,未经过后处理或人工校正。 文件详解 压缩文件集(共12个,均为.zip格式):...
    packageimg
  • 奥克语标注语料库

    2025年12月21日 30 84 40

    数据集概述 该数据集为奥克语标注语料库,包含经人工标注词性和词元的奥克语文本,共28篇文档、12425个词元,标注流程详见指定学术文章,为奥克语自然语言处理研究提供基础数据。 文件详解 文件名称: CorpusRestaureOccitan.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含采用TSV CoNLL-...
    packageimg
  • 马丁_路德语域现象研究语料库0_1

    2025年12月21日 30 16 15

    数据集概述 该数据集为马丁·路德语域现象研究语料库(RegiL v0.1),含7个子语料库、72篇文档及179,996个文本标记,基于人工归一化进行词性和词形标注,转换为ANNIS格式,旨在通过文本类型/体裁近似不同语域,支撑路德作品中语域模式的研究。 文件详解 文件名称: Documentation RegiL v01.pdf 文件格式: PDF...
    packageimg