-
MR_Lit_Based_MR_Lit推文原始数据
2026年1月31日 30 62 51
数据集概述 本数据集包含MR Lit相关的推文原始数据,涵盖推文时间、内容、曝光量、转发量等信息。包含独立文件压缩包及合并文件,保留推文ID、链接、文本、时间、互动指标等核心字段,共61个文件,支持社交媒体数据的统计与分析。 文件详解 独立CSV文件...
-
数据风格荷兰语读者文本样式形容词名词短语数据2023
2026年1月31日 30 151 72
数据集概述 本数据集记录了读者在评论中用于指代文本风格的形容词+名词短语分布情况,包含不同类别(如读者体验、定性评估、文本特征等)在多个维度(如Stijl、Taal、Toon等)的占比数据,以Excel文件呈现,共一个文件。 文件详解 文件名称:29.06.2023_DataStyleDutch_ETereshko.xlsx 文件格式:XLSX...
-
数据521_Based_粤语室内版鲁滨逊漂流记文档
2026年1月31日 30 125 115
数据集概述 本数据集包含一份文档,内容为粤语版本的《鲁滨逊漂流记》室内场景相关内容。文档未提供详细描述,仅通过文件名反映核心主题,为粤语文学相关研究或阅读提供基础资料。 文件详解 文件名称:521_cantonese_interior_robinson_crusoe.docx 文件格式:DOCX...
-
SBL_2020_撒母耳记下拉丁旁注文本案例完整数据
2026年1月31日 30 65 27
数据集概述 本数据集是为2020年SBL会议论文《撒母耳记下的拉丁旁注(LaM)文本案例》收集的结构化数据,包含撒母耳记下卷中所有拉丁旁注文本案例的整理结果,为圣经文本批评与拉丁旁注研究提供标准化参考资料。数据集仅包含一个文件。 文件详解 文件名称:Marginal_Latin_cases_1.0.xlsx 文件格式:XLSX 字段映射介绍:作为SBL...
-
CEOML_Based_职业参与度机器学习分类器开发数据
2026年1月30日 30 172 84
数据集概述 本数据集包含CEOML(职业参与度机器学习分类器)开发过程中的原始数据、代码及模型文件,总计11个文件。核心内容为用于量化职业参与度上下文的文本数据、分类模型文件、训练配置及分析代码,支持对职业参与度分类模型的复现与研究。 文件详解 模型相关文件...
-
PAN16_Based_作者身份识别文档聚类测试训练数据
2026年1月30日 30 64 44
数据集概述 本数据集为PAN16作者身份识别聚类任务的文档集合,包含至多一百篇单作者文档,所有文档语言与体裁一致,但主题或文本长度可能不同。数据集未明确说明包含的不同作者数量,旨在用于识别文档间的作者身份关联及同一作者的文档分组。 文件详解 文件名称:pan16-author-clustering-test-and-training.zip...
-
PaGA_12_Based_26类体裁德语文本分类语料库
2026年1月30日 30 130 120
数据集概述 本数据集为2012年帕德博恩体裁分析语料库(PaGA-12),包含1639个HTML文档,覆盖26种文本体裁。所有文档采集于2009年10月18日至11月20日,每个文档手动标注唯一体裁,每种体裁至少包含50个文档。文档均为德语文本,已移除框架集,以MySQL数据库转储形式交付。 文件详解 文件名称:corpus-paga-12.zip...
-
UCS_Dataset_Based_乌尔都语犯罪新闻摘要语料库
2026年1月29日 30 148 84
数据集概述 本数据集包含1500篇乌尔都语犯罪新闻文章的摘要内容,主要用于训练抽象式文本摘要模型。数据集仅含一个文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理数据集,便于集中使用。 文件详解 文件名称:UCS-Dataset.xlsx 文件格式:XLSX...
-
NARRATIVAS_DE_ENTERRO_丧葬叙事文本转录数据
2026年1月28日 30 205 105
数据集概述 本数据集为丧葬叙事文本的转录数据,包含一份文档文件,记录了与丧葬相关的叙事内容,为研究丧葬叙事的文本特征、文化内涵等提供基础资料。 文件详解 文件名称:NARRATIVAS DE ENTERRO (1).docx 文件格式:DOCX 字段映射介绍:文档为丧葬叙事文本的转录内容,具体字段因无预览无法详细说明,推测包含叙事文本主体内容。...
-
DeepSeek_Based_印尼文本写作自我表达幸福感分析数据集
2026年1月27日 30 121 78
数据集概述 本数据集基于90篇印尼语文章,通过DeepSeek API进行幸福感分析,包含完整数据及清洗后数据两类文件。核心内容涵盖文章基本信息、DeepSeek API生成的幸福感评分、机器人响应及评价标准等,用于研究印尼文本自我表达与幸福感的关联。 文件详解 DeepSeekAnalysis_CompleteData.xlsx 文件格式:XLSX...
-
PAN24_CLEF2024_Based多作者写作风格变化检测数据集
2026年1月23日 30 44 34
数据集概述 本数据集为PAN@CLEF2024共享任务“多作者写作风格分析”的专用数据,包含三种难度(Easy、Medium、Hard)的英文文档,任务为段落级内在风格变化检测。数据集分为训练集、验证集和测试集,训练集和验证集含真实标签,测试集无标签,用于算法开发与评估。 文件详解 文件名称:pan24-multi-author-...
-
TwiSty_Based_多语言Twitter作者性别与人格分析语料库
2026年1月22日 30 13 1
数据集概述 本数据集为TwiSty多语言Twitter作者分析语料库,用于作者特征识别研究。包含六种语言共18,168位作者的人格(MBTI)和性别标注信息,以及作者的Twitter ID和其可用推文ID。推文已完成语言识别,分为“确认语言”和“其他语言”两类。 文件详解 文件名称:twisty.zip 文件格式:ZIP...
-
Stamatatos06_Based_作者识别C10文本数据集_2015
2026年1月22日 30 201 115
数据集概述 本数据集包含来自十位不同作者(C10)的五百篇文本,用于作者识别研究。数据以压缩包形式提供,内部包含一个JSON文件记录真实标签(ground truth),无训练/测试、数据/标签或原始/处理数据的划分。 文件详解 文件名称:stamatatos06-authorship-attribution-...
-
NextFood_Horizon2020_教育转型网络学习定性数据_待更新
2026年1月21日 30 209 52
数据集概述 本数据集为欧盟Horizon 2020项目“NextFood”的年度联盟会议研讨会成果数据,包含2018年5月起收集的教育转型相关成就、挑战及行动计划的定性内容,旨在支持农业食品领域可持续发展领导者的教育模式创新,数据集将在项目结束时更新。 文件详解 文件名称:SLU_V1.0_Consortium Workshop...
-
Kanuri_Interior_Robinson_Crusoe_语言研究文档
2026年1月20日 30 20 0
数据集概述 本数据集包含一份关于Kanuri语言的文档,核心内容涉及Kanuri语言与《鲁滨孙漂流记》相关的研究材料。文档以docx格式呈现,无其他关联文件或目录结构,可用于Kanuri语言相关的学术研究或资料参考。 文件详解 文件名称:521_kanuri_interior_robinson_crusoe.docx 文件格式:DOCX...
-
SeminalSurveyDBLP_Based_学术出版物分类数据集2019
2026年1月20日 30 51 12
数据集概述 本数据集包含来自dblp的1320篇学术出版物的引用网络数据,结合AMiner数据用于区分开创性(Seminal)和综述性(Survey)出版物。数据涵盖121,084篇相关论文的dblp标识、发表年份、标题与摘要的词干化及非词干化文本,开创性论文来自A*会议,综述来自专业综述期刊。 文件详解...
-
Global_Stocktake_Based全球气候行动进展多语言机器学习分析数据
2026年1月15日 30 165 3
数据集概述 本数据集为《Progress on Climate Action: a Multilingual Machine Learning Analysis of the Global Stocktake》一文的配套数据,包含全球盘点气候行动相关的文本嵌入、文档项、主题关键词及段落、降维嵌入和元数据概述,支持气候变化领域的多语言文本分析研究。...
-
HCD_Historical_Corpus_of_Dutch_词频统计数据_2023
2026年1月18日 30 62 3
数据集概述 本数据集为荷兰历史语料库(HCD)的词频统计数据,涵盖不同地区、世纪和体裁的词频分布情况。HCD是一个包含早期和晚期现代荷兰语的多体裁语料库,数据来源于2023年发表的相关学术论文,可用于荷兰历史语言学和文本分析研究。 文件详解 文件名称:wordcount_overview.xlsx 文件格式:XLSX...
-
Sensemaking_Online_Post_and_comments_意义构建研究数据
2026年1月17日 30 45 32
数据集概述 本数据集包含用于研究在线内容意义构建的帖子与评论数据,涉及算法治理引发的宏观危机下微观层面的隐喻意义构建,以及在线劳动中生活体验的细致纹理。数据集共6个文件,涵盖支持脚本、说明文档、隐喻分析文件、帖子评论数据及汇总表等内容。 文件详解 数据文件(.xls/.xlsx格式,共5个)...
-
DPDGPT_Supporting_Files_Dark_Pattern检测数据集与特征文件
2026年1月17日 30 118 70
数据集概述 本数据集为DPDGPT项目的支持文件,包含ContextRico-DP数据集及相关标注、特征文件。ContextRico-DP涵盖1609张UI截图,其中移动端UI1524个(含13类Dark Pattern、1871个实例)、网页端UI85个(含8类Dark Pattern、144个实例),可用于Dark Pattern检测研究。...



