-
HTRD_Based_15世纪德语散文文本重用检测评估数据集
2026年1月29日 30 107 15
数据集概述 本数据集为15世纪德语散文文本重用检测(HTRD)的评估集,包含两篇采用TEI标准标注的文本:《科隆荆棘冠》和《科隆圣城编年史》。标注内容涵盖文本重用实例的分类与链接,文本为里普利安方言,存在拼写变体及手写文本识别(HTR)转录错误,适用于历史文本重用检测方法的评估。 文件详解...
-
用于文本解析的基于文本的解释方法_文本分析与文学文本标注标签集
2026年2月9日 30 89 48
数据集概述 本数据集为用于文学研究文本标注的标签集“Interpretationstexte analysieren”,提供分析文学解释文本结构特征和其他属性的分类体系,也可用于一般科学文本标注,支持按需扩展或调整。数据集包含一个XML格式文件。 文件详解...
-
DIALLS语料库的主要和次要分析报告_修订版
2026年2月1日 30 99 26
数据集概述 本数据集为DIALLS语料库的主次分析修订结果,包含一份处理后的Excel文件。数据涉及NLP文本语料库分析,可能关联医疗CT相关内容,无训练测试、数据标签或原始处理的拆分,专注于语料库的标准化分析呈现。 文件详解 文件名称:CORPUS LIGHT CODED_correct.xlsx 文件格式:XLSX...
-
黑客马拉松_TF_TG_关系_注释_黄金标准语料库
2026年1月31日 30 106 39
数据集概述 本数据集为TF-TG关系标注黄金标准语料库,包含130个PMID对应的生物医学文献标注数据,以ZIP压缩包形式存储。数据用于基因调控领域的文本标注研究,提供原始摘要文本与BRAT格式的术语及关系标注文件,支持生物医学文本挖掘相关分析。 文件详解 压缩包文件 文件名称:TFTG_V3.zip 文件格式:ZIP...
-
巴西总统演讲文本数据集_1985_2022年全量文本
2026年1月31日 30 113 38
数据集概述 本数据集包含1985年巴西重新民主化至2022年最后一个完整总统任期结束期间的全部总统演讲文本,以及预处理和后处理阶段使用的代码及相关文档,为研究巴西政治话语提供结构化资源。 文件详解 文件名称:base limpa e codigos.zip 文件格式:ZIP 内容说明:压缩包内包含两类核心内容:...
-
forTEXT_Based_叙事学语篇标注集_可下载资源
2026年1月30日 30 191 140
数据集概述 本数据集为叙事学语篇标注集,适用于标注文本中的叙事元素,包含分析语篇(即叙事呈现方式)的基础类别,主要基于结构主义导向的叙事学研究成果,提供一个XML格式文件供下载使用。 文件详解 文件名称:forTEXT_Tagset_Narratologie_discours.xml 文件格式:XML...
-
NAACL_Findings_NLP界面用户体验评估数据集
2026年1月30日 30 89 50
数据集概述 本数据集为NAACL 2025 Findings论文《Lessons from a User Experience Evaluation of NLP Interfaces》的配套数据,包含专家评估文档、分析代码及标注表格三类文件,共5份,用于支撑NLP界面用户体验评估的研究结论。 文件详解 文档文件(document_files)...
-
MONACO_Based_德语文学文本叙事与归因标注语料库
2026年1月29日 30 92 77
数据集概述 本数据集是由MONA项目组构建的MONACO语料库,包含标注了Generalising Interpretation(GI)、Comment、Non-fictional Speech(NfR)三种基础现象及归因信息的德语文学文本,属于DFG重点项目SPP 2207“计算文学研究”的子项目成果,为计算文学研究提供结构化标注资源。 文件详解...
-
NBC2_4_Based_历史新闻文章主题建模与分类标注数据
2026年1月29日 30 101 46
数据集概述 本数据集包含通过主题建模和朴素贝叶斯分类器(NBC2+4)对历史新闻文章进行的标注结果,按文章标题组织。内容涵盖瑞士新闻文章的主题标签及分布、第4轮NBC分类中欧洲反现代概念的前100个显著词,为新闻文本的主题分析提供结构化标注数据。 文件详解 文件1:Bunout-newspaper article-annotations-...
-
PetroGeoNER_Based_石油地质命名实体识别实验数据
2026年1月28日 30 32 24
数据集概述 本数据集为石油地质领域命名实体识别任务(PetroGeoNER)的实验数据,包含训练、开发、测试三种用途的文件,核心用于支持石油地质专业文本中命名实体的识别模型训练与评估,共3个JSON格式文件。 文件详解 文件名称:petrogeoner_train02.json 文件格式:JSON...
-
金标准平行圣经_德语_英语新约文本_附带斯特朗编号注释及评估数据
2026年1月27日 30 59 57
数据集概述 本数据集为平行圣经文本提供黄金标准,包含20段新约经文的Strong编号标注数据,涉及三种德文文本(Luther 2017、Schlachter、Hoffnung für alle)和两种英文文本(New Revised Standard Version、World English Bible),用于评估圣经文本的Strong编号标注工作。...
-
RoMEMES_Source_罗马尼亚社交媒体表情包多模态标注数据
2026年1月27日 30 171 146
数据集概述 本数据集为罗马尼亚语表情包数据集RoMEMES,采集自公共社交媒体平台,包含表情包的文本、图像及相关标注信息。数据经人工标注罗马尼亚语文本、图像复杂度、情感倾向、政治内容属性,文本部分通过RELATE平台自动标注词性、词元及依存句法,同时包含元数据。 文件详解 metadata.tsv 文件格式:TSV...
-
CT_EBM_SP_Based_西班牙循证医学临床试验标注语料数据
2026年1月27日 30 160 75
数据集概述 本数据集为西班牙循证医学临床试验语料库(CT-EBM-SP),包含一千二百篇西班牙语临床试验相关文本(共二十九万二千一百七十三个词元),涵盖五百篇期刊摘要及七百篇临床试验公告,标注有解剖学、药理化学物质等四类医学实体,适用于医学自然语言处理研究。 文件详解 文件名称:CT-EBM-SP.zip 文件格式:ZIP...
-
WoPoss_Source_拉丁语模态演变研究语料库标注样本_2022
2026年1月22日 30 184 11
数据集概述 本数据集是WoPoss团队标注的WoPoss语料库样本,包含五部拉丁语经典文本:M. Minucius Felix的《Octavius》、P. Ovidius Naso的《Metamorphoses》(第一卷)、G. Petronius Arbiter的《Satyricon》、Q. S. F. Tertullianus的《De...
-
SAM_Sentiment_Analysis_印尼语情感词与文本细粒度标注数据集
2026年1月15日 30 114 3
数据集概述 本数据集为基于Self-Assessment Manikin(SAM)效价量表的印尼语细粒度情感分析数据集,包含两类核心内容:经至少45人标注并取平均的印尼语情感词SAM效价得分(1-9分),以及含情感词的印尼语推文文本(至少3名语言专家标注并取平均的1-9分情感强度),用于支持细粒度情感分析模型开发。 文件详解 文件名称:labeled...
-
IN02093_Draft_Siddham档案帕斯帕提太阳盘环铭文梵语XML数据
2026年1月15日 30 123 4
数据集概述 本数据集为IN02093帕斯帕提太阳盘环铭文的梵语文本数据,以XML格式存储,采用Epidoc标准进行标注。数据为草稿版本,计划纳入Siddham档案,包含铭文的数字化文本内容,无额外元数据信息。 文件详解 文件名称:IN02093.xml 文件格式:XML...
-
Turkish_Makam_Based_专业歌手演唱的无伴奏合唱片段数据集_2_0
2026年1月15日 30 85 24
数据集概述 本数据集为土耳其木卡姆(Turkish makam)风格的无伴奏合唱(acapella)片段录音集合,由专业歌手演唱,曲目选自声乐形式“şarkı”,与http://compmusic.upf.edu/turkish-sarki第二版录音对应,旨在为复调录音提供无伴奏合唱对照数据,包含音频及文本标注。 文件详解 文件名称:turkish-...
-
NER_Tutorial_Maschinelles_Lernen_数字文学机器学习NER教程训练数据
2026年1月4日 30 93 55
数据集概述 本数据集是NER教程“数字文学中的机器学习”所需的全部数据,包含模型训练用的信件分析相关文件,支持NER模型的训练与测试。数据集共5个文件,覆盖文本、表格、文档等多种格式,为数字文学领域的机器学习任务提供基础数据支持。 文件详解 数据文件 文件名称:ner_kernkorpus.txt 文件格式:TXT...
-
媒体偏见标注专家数据集
2025年12月22日 30 28 2
数据集概述 本数据集聚焦媒体偏见检测,通过对比众包标注与专家标注的差异,验证专家标注对提升数据质量的作用。数据包含专家标注结果、众包原始数据及标注指南,旨在为偏见检测模型提供更可靠的基准数据,解决现有偏见语料库标注一致性低的问题。 文件详解 专家标注文件: annotations_expert1.xlsx:...
-
程序员幽默子版块提交内容研究复现数据包
2025年12月21日 30 2 0
数据集概述 本数据集是论文《What Makes Programmers Laugh? Exploring the Submissions of the Subreddit...



