-
健康信息理解文本特征数据集
2026年2月12日 30 150 32
数据集概述 本数据集为论文“Text Characteristics that Contribute to Health Information Understanding: Evaluating Data-Driven Metrics as Predictors of Processing Fluency and...
-
数据风格荷兰语读者文本样式形容词名词短语数据2023
2026年1月31日 30 14 5
数据集概述 本数据集记录了读者在评论中用于指代文本风格的形容词+名词短语分布情况,包含不同类别(如读者体验、定性评估、文本特征等)在多个维度(如Stijl、Taal、Toon等)的占比数据,以Excel文件呈现,共一个文件。 文件详解 文件名称:29.06.2023_DataStyleDutch_ETereshko.xlsx 文件格式:XLSX...
-
X_approach_Based本体填充方法评估数据集
2026年1月31日 30 190 31
数据集概述 本数据集包含11个文件,用于评估X-approach本体填充方法。数据分为输入、黄金标准和输出三类:输入含法语房产领域知识图谱及78条房产广告语料库;黄金标准为语料库填充后的标准知识图谱;输出含基于两种词形还原工具(Aker、TreeTagger)和四种方法(X-approach等)生成的8个知识图谱文件,可用于本体填充方法的性能对比分析。...
-
CEOML_Based_职业参与度机器学习分类器开发数据
2026年1月30日 30 47 8
数据集概述 本数据集包含CEOML(职业参与度机器学习分类器)开发过程中的原始数据、代码及模型文件,总计11个文件。核心内容为用于量化职业参与度上下文的文本数据、分类模型文件、训练配置及分析代码,支持对职业参与度分类模型的复现与研究。 文件详解 模型相关文件...
-
情感分析协作Github开源软件项目协作关系情感分析数据集
2026年1月30日 30 61 50
数据集概述 本数据集为开源软件项目协作关系情感分析研究提供配套数据及脚本,包含与开源项目协作关系情感分析相关的内容,可用于NLP领域中开源协作场景的情感分析研究,帮助理解开源社区协作中的情感倾向。 文件详解 压缩文件 文件名称:sentiment-analysis-collaboration-github.zip 文件格式:ZIP...
-
Appendix_Based_LLM漏洞修复辅助上下文识别研究附录数据
2026年1月22日 30 139 56
数据集概述 本数据集是论文《Identifying Helpful Context for LLM-based Vulnerability Repair: A Preliminary Study》的附录文件,以压缩包形式提供。数据为该研究的补充材料,未区分训练/测试、数据/标签或原始/处理数据,仅包含一个压缩文件,无额外说明文档。 文件详解...
-
AuCoPro_Semantics_Based_复合词语义自动分析数据集
2026年1月22日 30 116 70
数据集概述 本数据集用于复合词的自动语义分析,包含荷兰语和南非荷兰语的语义标注名词-名词复合词(NN),每种语言分两轮标注,标注指南基于Ó Séaghdha(2008)的标准;还包含荷兰语其他名词性复合词(XN),采用新开发的标注方案。数据集以压缩包形式提供,共1个文件。 文件详解 文件名称:AUCOPRO.Semantics.zip 文件格式:ZIP...
-
Webis_PRA_12_企业名称拼写错误对专利检索影响研究语料库_2012
2026年1月20日 30 63 42
数据集概述 本数据集为Webis专利检索语料库2012(Webis-PRA-12),核心内容是研究企业名称拼写错误对专利检索的影响。语料库基于2001-2010年美国专利商标局(USPTO)授权的2132825项专利提取,包含14189个不同企业名称,为专利检索领域的相关研究提供数据支持。 文件详解 文件名称:corpus-webis-...
-
Stack_Exchange_Based_机器学习从业者最佳实践问答数据集_2021
2026年1月18日 30 80 20
数据集概述 本数据集包含Stack Exchange平台上与“机器学习”标签及“最佳实践”相关的问答内容,基于2021年3月Stack Exchange数据 dump 筛选而来,用于研究从业者讨论的机器学习最佳实践。数据涵盖问题和答案两类内容,以TXT、CSV、XLSX三种格式呈现,共6个文件。 文件详解 问题类文件...
-
Multi_CAST_Nafsan_Based多语言口语文本标注语料库数据2311
2026年1月15日 30 4 1
数据集概述 本数据集为Multi-CAST多语言口语文本标注语料库的一部分,具体包含Nafsan语言的口语文本标注数据。该语料库由班贝格大学发布,属于Multi-CAST项目的2311版本,是多语言口语文本资源的重要组成部分。 文件详解 压缩文件 文件名称:mcnafsan-v2311.zip 文件格式:ZIP 字段映射介绍:压缩包内包含Multi-...
-
AI驱动的医疗知情同意书简明语言编辑评估数据集2025
2025年12月25日 30 69 39
数据集概述 本数据集是关于AI驱动医疗知情同意书简明语言编辑评估研究的补充材料,包含癌症相关知情同意书原始文本、两种AI编辑版本(Simple AI Edit和Complex AI Edit)、可读性评分数据及可复现分析的代码笔记本,支持医疗健康传播领域的研究。 文件详解 压缩文件: Corpus - Informed Consent...
-
MERMaid多模态反应挖掘提示与原始数据集
2025年12月24日 30 204 117
数据集概述 该数据集是MERMaid项目的配套数据,包含多模态反应挖掘任务中使用的提示词文件及Dataraider、KGWizard模块的原始响应文件,覆盖PDF处理相关的多模态数据挖掘内容。 文件详解 该数据集包含8个文件,具体说明如下: - prompts.zip:ZIP格式压缩文件,可能包含多模态反应挖掘任务中使用的提示词集合 -...
-
软件工程研究中LLM使用态度的两阶段调查补充材料
2025年12月23日 30 3 2
数据集概述 本数据集是《软件工程研究中LLM使用态度:两阶段调查研究结果》一文的补充材料,包含论文中描述的两阶段调查工具的详细说明,为理解调查设计与实施提供补充信息。 文件详解 文件名称:FSE2025 - Humanai4SE - Supplementary material.pdf 文件格式:PDF (.pdf)...
-
Stack_Overflow协作者回答数量代码质量违规与辍学者综合预测分析复现包
2025年12月22日 30 10 1
数据集概述 本数据集为Stack Overflow案例研究的复现包,围绕协作者回答数量、代码质量违规及辍学者状态三个任务,对21种算法进行评估,包含数据预处理方法(如归一化、标准化等)及CodeBERT模型微调等研究相关材料。 文件详解 文件名称: Replication Package.zip 文件格式: ZIP压缩包 内容说明:...
-
荷兰文化期刊_De_Gids_主题建模数据集
2025年12月22日 30 125 29
数据集概述 本数据集是论文《Topic Modelling “De Gids”:An Explorative Study into the Use of Topic Modelling on a Cultural Periodical》的配套数据,包含论文原文及实验相关文件,用于支持对荷兰文化期刊《De Gids》的主题建模研究。 文件详解...
-
从语音到交互界面_灯具文本指令数据集
2025年12月22日 30 21 10
数据集概述 该数据集包含一千二百七十二条针对应急灯具环境的指令样本,每条样本配有自然语言表达的提示文本。数据覆盖英语和西班牙语两个版本,英语版含训练、验证、测试集,西班牙语版仅含测试集。 文件详解 文件名称: data.zip 文件格式: ZIP (.zip) 文件内容:...
-
数据2021年墨西哥立法选举推文选举模型设计与分析数据集
2025年12月21日 30 115 48
数据集概述 本数据集为Vigna-Gómez等人关于“2021年墨西哥立法选举推文选举模型设计与分析”手稿分析所用的处理数据,包含2020年12月至2021年5月的月度推文数据集及相关查询文档,支持选举模型研究。 文件详解 月度推文数据压缩包(共6个):...
-
Lexibank透明复合词提取数据集
2025年12月21日 30 172 76
数据集概述 本数据集为研究《Extracting Transparent Compounds from Lexibank》的配套代码与数据,用于从Lexibank中提取透明复合词,支持计算机辅助语言比较领域的相关分析。 文件详解 文件名称: extracting-compounds.zip 文件格式: ZIP (.zip) 文件内容:...
-
QuRE_Based_需求质量缺陷标注完整数据集
2025年12月21日 30 50 18
数据集概述 该数据集包含2111条工业需求文本,通过多年实际质量审查流程标注缺陷和弱词等信息,用于需求质量相关实证研究。当前为1.0.1版本,修正了之前说明文档为空的问题。 文件详解...
-
开发者情感分析基准研究数据集
2025年12月20日 30 176 103
数据集概述 该数据集是一项关于软件提交信息情感与情绪分析的基准研究数据,包含实验代码、预处理脚本、模型实现文件、数据压缩包及标注指南文档,为分析开发者在代码提交过程中的情感倾向提供技术实现与数据支持。 文件详解 代码文件(.ipynb格式,共11个): sentiment_PLMs.ipynb:基于预训练语言模型(PLMs)的情感分析实验代码...



