-
Anirudh_Prabhu博士论文文本转规则转换完整结果数据集
2025年12月13日 30 18 15
数据集概述 本数据集为Anirudh Prabhu博士论文的组成部分,包含其论文第五章所述“文本转规则转换工作流”的运行结果。数据集预览及描述可参考论文附录E,为相关研究提供文本规则转换的实证数据支持。 文件详解 该数据集包含2个文件,具体说明如下: - 文件名称: MBR_SitCalcRules.pdf - 文件格式: PDF (.pdf) -...
-
生成式预训练Transformer支持可持续性影响识别数据集
2025年12月12日 30 46 33
数据集概述 本数据集围绕生成式预训练Transformer(如ChatGPT)在可持续性影响识别中的应用展开,包含4个Excel格式数据文件与2个PDF格式文档文件,为相关研究提供数据支持与方法参考。 文件详解 数据文件(.xlsx格式,共4个): ChatGPT-R1.xlsx:可能为第一轮ChatGPT相关实验或分析数据...
-
多语言历史报纸命名实体识别实体链接与立场检测数据集2021
2025年12月11日 30 129 62
数据集概述 该数据集为多语言历史报纸资源,包含1850-1950年法语、德语、芬兰语和瑞典语的历史报纸材料,涵盖命名实体识别、实体链接及实体立场检测标注,用于开发和评估历史文档的命名实体处理系统。 文件详解 文件名称: NewsEye-GT-NER_EL_StD-v1.zip 文件格式: ZIP压缩包 内容说明:...
-
异构数据结构化与集成的大语言模型数据集
2025年12月11日 30 31 13
数据集概述 本数据集为论文《Large Language Models for Structuring and Integration of Heterogeneous Data》的配套数据,包含匿名示例文档、开源大语言模型对比结果、案例研究材料及案例研究结果,支持相关研究的复现与验证。 文件详解 文件名称: Dataset...
-
西班牙临床病例语料库词性标注数据集
2025年12月10日 30 183 152
数据集概述 该数据集是西班牙临床病例语料库(SPACCC)的首个词性标注版本,由基于FreeLing3.1的SPACCC_POS-TAGGER工具完成标注,为临床文本的词性分析提供结构化数据支持。 文件详解 文件名称: SPACCC_POS.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
-
Reddit_Based_实体链接数据集_多标注文本语义分析完整数据
2025年12月10日 30 96 47
数据集概述 该数据集是基于社交媒体平台Reddit创建的实体链接数据集,包含六百一十九条帖子及一千二百四十三条对应评论,由三名人工标注者对文本分组进行标注,记录了提及-实体对及不同标注者间的一致性结果,含黄金、白银、青铜三种标注类型,总计一万一千一百零三条标注数据。 文件详解 文件名称: reddit_el.zip 文件格式: ZIP压缩包(.zip)...
-
PAN14文本对齐原创性测试语料库2014
2025年12月9日 30 91 17
数据集概述 本数据集为PAN14任务提供的测试语料库,包含文档对数据,其中部分文档可能存在经自动混淆处理的复用文本,用于研究文本原创性检测及对齐问题。 文件详解 文件名称: pan14-text-alignment-test-corpus3-2014-05-14.zip 文件格式: ZIP压缩包 内容说明:...
-
GLOVE_全球词向量表示数据集
2025年12月8日 30 130 28
数据集概述 本数据集围绕“GLOVE: GLOBAL VECTORS FOR WORD REPRESENTATION”主题,包含一份PDF文档,核心内容与全球词向量表示相关,为词向量技术研究提供基础资料支持。 文件详解 文件名称: Abdulatif Meyliev Rakhmatillayevich.pdf 文件格式: PDF 内容说明:...
-
Twitter仇恨言论检测与分析数据集
2025年12月8日 30 13 5
数据集概述 该数据集包含用于Twitter仇恨言论检测与分析研究的两个语料库:2017年2月至12月收集的200万条原始推文,以及6000条标注是否包含仇恨内容的推文,为相关研究提供数据支持。 文件详解 文件名称:labeled_corpus_6K.txt 文件格式:TXT(.txt)...
-
Stack_Overflow代码片段生成问题标题论文数据集
2025年12月7日 30 115 114
数据集概述 该数据集是论文《Generating Question Titles for Stack Overflow from Mined Code Snippets》的配套数据,内容为从Stack Overflow数据转储中提取的代码片段及相关信息,用于支持代码片段生成问题标题的研究。 文件详解 文件名称: Code2Que-data.zip...
-
基于LLM的编码助手澄清问题设计数据集及模型权重
2025年12月7日 30 112 38
数据集概述 本数据集包含用于研究“通过设计激发好奇心:基于LLM的编码助手询问澄清问题”的实验数据与模型权重,涵盖用户研究样本文档、分类器训练数据、测试管道数据、合成数据集及训练后的模型权重文件,为编码助手交互机制研究提供支持。 文件详解 文档文件: Sample of User Study RQ1_ name of...
-
ChatGPT自然语言需求不一致检测初步评估补充材料
2025年12月6日 30 72 59
数据集概述 本数据集为"ChatGPT自然语言需求不一致检测初步评估"的补充材料,包含数据与标注内容。主要呈现每份文档中ChatGPT回答的标注结果、人工分析的标注结果,以及需求和真实值对,其中原始需求与变体需求通过第三列标识区分。 文件详解 文件名称: Inconsistencies-chatGPT.pdf 文件格式: PDF (.pdf)...
-
冠状病毒科学文献动态主题模型标签数据集
2025年12月6日 30 62 5
数据集概述 本数据集包含基于论文提出的无监督标签技术生成的动态主题模型(DTM)标签,涵盖100个和200个主题模型,分别使用全语料库和仅COVID-19时期数据训练,为冠状病毒科学文献的主题分析提供标签支持。 文件详解 文件名称:REPORT_ALL_200.html,文件格式:HTML,内容为使用全语料库训练的200个主题模型的标签报告...
-
基于日志的自动Thing_Description生成实验结果数据集
2025年12月6日 30 90 30
数据集概述 本数据集包含利用大型语言模型生成基于日志的自动Thing Description的实验结果,通过单一压缩文件存储相关内容,为研究日志驱动的描述生成技术提供数据支持。 文件详解 文件名称:log-based-td-generator.zip 文件格式:ZIP(.zip) 文件内容:压缩归档文件,具体内部文件结构及内容未提供预览信息 适用场景...
-
CERME_Topic_Model_Based_学术研究用主题模型数据
2025年12月5日 30 205 53
数据集概述 该数据集是ESM论文的技术附录,包含CERME主题模型相关的文件,涵盖主题分布列表、模型可视化结果及生成模型的代码,旨在保证研究的透明度。 文件详解 文件名称:Topic_model_CERME.ipynb,文件格式:.ipynb 内容:生成主题模型的代码文件,用于保证研究的完全透明度 文件名称:List of topic...
-
白俄罗斯语GLUE开放权重模型性能分析数据集
2025年12月5日 30 105 82
数据集概述 该数据集是论文《BelarusianGLUE: Analyzing Performance of Open-weight...
-
句子间连接数据集
2025年4月21日 30 182 26
句子间连接数据集 数据来源:互联网公开数据 标签:跨语言连接,多语言资源,语言对齐,语料库,NLP研究 数据概述: 本数据集记录了不同语言之间的句子配对,主要来源于Tatoeba项目。数据集包含了多种语言的句子及其对应关系,为研究和开发多语言自然语言处理任务提供了宝贵的资源。 数据用途概述:...
-
孟加拉语抑郁检测文本数据集3
2025年4月15日 30 196 49
孟加拉语抑郁检测文本数据集3 数据来源:互联网公开数据 标签:抑郁检测,孟加拉语,情感分析,心理健康监测,NLP研究,文本数据集 数据概述:...



