-
Gitome_MSR2024_GitHub_README相关任务数据集
2026年1月23日 30 141 102
数据集概述 本数据集为Gitome,是一个用于GitHub README相关任务的精选数据集,包含数据模型、现有数据集、语言统计、主题统计、仓库列表等9个文件,支持MSR2024会议论文的实验结果复现,可用于GitHub README相关的数据分析与任务研究。 文件详解 emf_metamodel.zip 文件格式:ZIP...
-
HyperPhS_Based_文本嵌入数据与预训练模型_Processed
2026年1月21日 30 19 9
数据集概述 本数据集包含HyperPhS相关的处理后文本嵌入数据及预训练模型,核心为三类文本嵌入JSON文件与一个模型文件,总计4个文件,无目录层级,主要用于自然语言处理相关任务的模型应用与文本分析。 文件详解 文本嵌入数据文件(共3个)...
-
log_datasets_Based_日志记录自动解析论文数据集_2021
2026年1月21日 30 26 11
数据集概述 本数据集为论文《On Automatic Parsing of Log Records》(Section 3.3)配套数据,以压缩包形式提供。数据包含需解析的日志字符串及对应字符级字段名标注,每条记录为日志字符串与“翻译”结果的二元组,用于支持日志记录自动解析研究。 文件详解 文件名称:log_datasets.zip 文件格式:ZIP...
-
ArchiMob_Based_瑞士德语变体口语转录语料库_Release_1
2026年1月20日 30 73 26
数据集概述 本数据集为ArchiMob语料库Release 1,包含瑞士境内使用的德语变体口语转录文本,是首个瑞士德语长文本电子资源,总规模达528381个词元,可用于形态句法特征空间分布研究及自然语言处理任务。 文件详解 文件名称:ArchiMob_Release1_160812.zip 文件格式:ZIP(压缩包)...
-
DisinfoAppear_Based_在线虚假信息链接分类任务数据集_V1
2026年1月20日 30 54 15
数据集概述 本数据集针对在线虚假信息传播的新型链接分类任务构建,聚焦于事实核查文章中出现的链接,将其按文本语境分为虚假信息出现、支持证据、其他三类。包含训练集、测试集、说明文档及代码文件,可用于虚假信息传播相关的链接分类研究,共5个文件。 文件详解 数据文件 文件名称:GS_train.json、GS_test.json 文件格式:JSON...
-
Documentation_defects_Based_文档缺陷分类研究数据
2026年1月20日 30 17 2
数据集概述 本数据集包含101个根据分类体系进行分类的文档缺陷记录,用于研究文档缺陷的分类特征与分布情况。数据集仅包含一个文件,未进行训练/测试、数据/标签或原始/处理数据的拆分,无目录结构,文件类型单一。 文件详解 文件名称:silva_techdebt2023_documentationdebt.xlsx 文件格式:XLSX...
-
BhashaHMPV_Based印度区域语言HMPV多语言新闻与事实核查数据集
2026年1月20日 30 26 5
数据集概述 本数据集包含印度区域语言的HMPV相关多语言新闻和事实核查文章,覆盖孟加拉语、英语、古吉拉特语等11种语言。通过Splinter框架采集Google新闻文章,利用Google Fact-Check API获取事实核查文章,经预处理和词干提取后整理为结构化文件,可用于多语言医疗文本分析研究。 文件详解...
-
Webis_ArgRank_17_Based_英文论证相关性研究基准数据集_2017
2026年1月18日 30 35 23
数据集概述 本数据集是用于研究论证相关性的英文基准数据集,包含32个排名、超过3万个论证单元的真实论证图,以及可复现排名实验的源代码。数据集以压缩包形式提供,无目录层级划分,可支持论证相关性领域的模型训练与评估。 文件详解 文件名称:webis-argrank-17.zip 文件格式:ZIP...
-
MEDDOPROF_Test_Set_西班牙语临床病例职业信息检测共享任务测试数据
2026年1月15日 30 64 1
数据集概述 本数据集是MEDDOPROF共享任务的测试集,用于西班牙语临床病例中职业、就业状态的自动检测。该任务包含三个子任务:职业实体识别(MEDDOPROF-NER)、职业指代分类(MEDDOPROF-CLASS)和职业标准化(MEDDOPROF-NORM),可支撑医疗、社会服务、制药等多领域的文本处理需求,数据集包含一个压缩文件。 文件详解...
-
EvaCRC_Replication_Package_代码审查评论评估研究复现数据2023
2026年1月12日 30 107 62
数据集概述 本数据集是ESEC/FSE 2023论文《EvaCRC: Evaluating Code Review Comments》的复现包,包含6个文件,覆盖概念模型构建、实验评估等研究内容,支持论文三个研究问题的复现验证,为代码审查评论评估的相关研究提供可复现的原始数据与材料。 文件详解 文档文件 文件名称:README.md 文件格式:MD...
-
Luxembourgish_word_embedding_Based_RTL_lu用户评论训练模型数据
2026年1月2日 30 201 105
数据集概述 本数据集是基于卢森堡媒体平台RTL.lu的用户评论训练的卢森堡语词嵌入模型,包含2008年12月至2018年12月期间约54.4万条卢森堡语文本数据,为卢森堡语自然语言处理任务提供语义向量支持。 文件详解 文件名称:Luxembourgish word embedding_RTL user comments.zip 文件格式:ZIP...
-
日本虚假新闻数据集
2025年12月24日 30 115 103
数据集概述 该数据集为日本虚假新闻相关数据,包含一个压缩文件,未提供具体内容预览,可通过项目页面获取更多细节。 文件详解 文件名称: J-fakenews_v1.zip 文件格式: ZIP (.zip) 文件内容: 未提供具体内容预览,为压缩格式的数据集文件 适用场景 虚假新闻检测研究: 可用于训练和测试针对日语文本的虚假新闻识别模型...
-
政治辩论中的多模态谬误分类数据集
2025年12月18日 30 110 83
数据集概述 本数据集为政治辩论中的多模态谬误分类研究提供补充文件,核心内容围绕政治辩论场景下的谬误分类任务展开,以压缩包形式存储相关数据,为多模态分析领域的研究提供支持。 文件详解 文件名称: MMUSED-fallacy.zip 文件格式: ZIP压缩包(.zip) 文件内容:...
-
句法同义词的语言学特征认知方面数据集
2025年12月24日 30 149 136
数据集概述 该数据集聚焦于句法同义词的语言学特征,从认知视角展开研究,以单篇PDF文档形式呈现相关研究内容,为探索句法同义词的认知语言学属性提供资料支持。 文件详解 文件名称: Сайидирахимова Насиба Сайидмахамадовна.pdf 文件格式: PDF (.pdf) 文件内容:...
-
乌兹别克语停用词列表数据集
2025年12月23日 30 13 3
数据集概述 本数据集包含通过三种自动方法从乌兹别克语"学校语料库"生成的停用词列表,涵盖单字词、双字词及带搭配的双字词停用词,为乌兹别克语自然语言处理任务提供基础资源。 文件详解 压缩包文件: uzbek_stopwords.zip: ZIP格式压缩包,包含以下核心文件: stopwords_unigrams.txt:...
-
西班牙临床过敏笔记语料库
2025年12月23日 30 138 134
数据集概述 该数据集是首个西班牙语临床过敏笔记语料库,包含西班牙阿尔科尔孔基金会大学医院过敏科及急诊科197名患者的828篇临床文本,涉及病历模板多样,含拼写错误、缩写等非正式临床书写特征,为西班牙语过敏领域NLP研究提供数据支持。 文件详解 文件名称: HUFA corpus annotation guidelines.pdf 文件格式: PDF...
-
BiodivTab语义表格标注任务基准数据集
2025年12月22日 30 100 24
数据集概述 本数据集是针对语义表格标注任务的基准数据集BiodivTab,以表格形式组织生物多样性相关数据,为评估语义表格标注算法性能提供标准测试资源。 文件详解 文件名称: BiodivTab_DBpedia.zip:压缩文件格式,内容未提供预览,推测包含与DBpedia关联的生物多样性表格数据。 文件名称:...
-
KPAAMCAM_IDP_Lower_Fungom_Biya_Based_500名词词表完整数据
2025年12月21日 30 191 121
数据集概述 该数据集是一份包含500个名词的Biya Mungbam语言词表,Biya Mungbam是喀麦隆西北部Menchum区Lower Fungom地区使用的语言。词表基于两名男女发音人的数据,记录了声调、前缀、词根及名词短语等方面的个体差异。 文件详解 文件名称:KPAAMCAM-IDP_NTs_BIYA 500 NOUNS...
-
Twitter气候变化标签与关键词数据集
2025年12月20日 30 37 35
数据集概述 该数据集收集了Twitter平台上与气候变化相关的标签和关键词,分为支持与意识类、批判与怀疑类、两党气候类三大类别,覆盖带标签和无标签关键词,经清洗后确保数据准确性,为社交媒体话语分析提供结构化数据支持。 文件详解 文件名称:Climate Change Hashtags and Keywords on Twitter.pdf...
-
新冠演讲小型语料库2020
2025年12月19日 30 158 51
数据集概述 该数据集为新冠演讲小型语料库,包含伊曼纽尔·马克龙、佩德罗·桑切斯和安格拉·默克尔三位领导人的十五篇演讲,每位五篇。十四篇演讲时间为2020年3月至6月,每人均有一篇为同年10月或11月,内容和意图具有相似性。 文件详解 演讲文件(共15个): 文件格式:DOCX(.docx)...



