-
Amazon_MT_Based手机多语言评论数据
2026年2月9日 30 104 98
数据集概述 本数据集包含亚马逊平台上的手机评论数据,涵盖英语、希腊语和意大利语三种语言,其中非英语评论为机器翻译版本。数据集以单一压缩文件形式呈现,未划分训练/测试集、数据/标签集或原始/处理集,可用于多语言文本分析及电商评论研究。 文件详解 文件名称:ACPMR.zip 文件格式:ZIP...
-
forTEXT_Based_文学文本情感分析标签集
2026年2月9日 30 23 8
数据集概述 本数据集为适用于文学文本情感元素分析的标签集,基于结构导向的情感研究方法,包含文学人物情感类型分析的基础类别,可作为情感分析的入门工具,帮助研究者识别和分类文学文本中的情感表达,数据集包含1个文件。 文件详解 文件名称:forTEXT_Tagset_Emotionsanalyse.xml 文件格式:XML...
-
用于文本解析的基于文本的解释方法_文本分析与文学文本标注标签集
2026年2月9日 30 17 2
数据集概述 本数据集为用于文学研究文本标注的标签集“Interpretationstexte analysieren”,提供分析文学解释文本结构特征和其他属性的分类体系,也可用于一般科学文本标注,支持按需扩展或调整。数据集包含一个XML格式文件。 文件详解...
-
TextGrid_CC_BY_3_0授权_XML格式语料库数据
2026年1月28日 30 4 3
数据集概述 本数据集为XML格式的文本语料库压缩包,所有文本源自TextGrid平台,由Katrin Dennerlein博士整理。语料库采用CC-BY 3.0协议授权,相关研究在《席勒-克莱斯特不确定性原理》中被提及,可用于计算机语言学或文本分析相关研究。 文件详解 文件名称:XML.zip 文件格式:ZIP(压缩包)...
-
Andromaque_Tragedie_戏剧作品XML元数据
2026年2月8日 30 103 13
数据集概述 本数据集包含戏剧作品《Andromaque Tragédie》的XML格式文件,无额外目录结构或数据拆分,核心为单份戏剧相关元数据文件,可用于戏剧文学的文本分析或元数据研究。 文件详解 核心文件:EMOTHE0719_AndromaqueTragedie.xml 文件格式:XML 内容说明:包含《Andromaque...
-
C_SSRS_Based_Reddit用户自杀风险标注数据集
2026年2月8日 30 63 20
数据集概述 本数据集包含Reddit平台r/SuicideWatch等心理健康相关子版块用户的自杀风险评估数据。通过哥伦比亚自杀严重程度评定量表(C-SSRS),由领域专家对448名用户标注为支持性、自杀意念、自杀行为、自杀尝试四类标签,标注者间一致性达0.76。数据集含7个文件,覆盖匿名用户帖子及标注信息,为社交媒体自杀风险分析提供支撑。 文件详解...
-
evoting_Sentiment_电子投票情感分析数据集
2026年2月7日 30 10 1
数据集概述 本数据集包含电子投票相关的情感数据,涵盖原始、清理后的电子投票数据文件及情感标签文件,共4个文件。数据用于电子投票场景下的文本情感分析,包含不同处理阶段的电子投票文本数据及对应的情感标签,可支持情感分析模型训练与验证。 文件详解 电子投票原始数据文件 文件名称:evotingall.xlsx 文件格式:XLSX...
-
Sammlung_GPT3_5_数据文档集合
2026年2月1日 30 85 0
数据集概述 本数据集为GPT3.5相关的数据文档集合,包含四十七份文档文件,涵盖化学、生物、地理、历史、艺术、体育等学科信息,以及短篇故事、问题讨论、语言学习等内容,所有文件均为DOCX格式。 文件详解 文档文件(Document files)...
-
GPT_4_Turbo_沙特法律文件翻译数据
2026年2月1日 30 36 10
数据集概述 本数据集包含由GPT-4 Turbo翻译的14份沙特阿拉伯法律文件,均为Excel格式。涵盖基础治理法、司法法、诉讼程序法、专利法等多个法律领域,无目录结构,文件直接存储,未提供训练/测试、数据/标签或原始/处理数据的划分。 文件详解 文件名称与格式:14个文件均为.xlsx格式,包括《Basic Law of...
-
蒂华纳青年生态问题访谈数据处理报告_2024年
2026年2月1日 30 201 103
数据集概述 本数据集包含2024年对墨西哥蒂华纳学生开展的50次访谈的处理数据,内容为学生对生态问题的看法及整体态度。数据已完成翻译、处理和匿名化,共50个文件,均为文档格式。 文件详解 访谈文档 文件名称:以P+数字命名(如P40.docx、P31.docx等) 文件格式:DOCX...
-
VnEmoLex_Based越南语情感词典数据
2026年2月1日 30 203 44
数据集概述 本数据集为越南语情感词典VnEmoLex,包含一万二千七百九十五个越南语词汇,标注了喜悦、悲伤、愤怒、恐惧、信任、厌恶、惊讶、期待八种基础情感。词典基于NRC情感词典和越南语词网构建,可用于越南语文本的情感强度分析,为越南语情感研究提供结构化词汇资源。 文件详解 文件名称:VnEmoLex.xlsx 文件格式:XLSX...
-
AntConc_Based_关键词索引文件数据
2026年2月1日 30 122 14
数据集概述 本数据集包含通过AntConc工具结合自定义停用词表生成的15个KWIC(关键词上下文)相关文件,覆盖德语、日语、非洲、女性等主题,包含文本文件、配置文件和表格文件三类,主要用于展示关键词在文本中的左右上下文信息。 文件详解 文档文件(.txt格式,13个)...
-
普通新闻基于赫恩胡特教派档案的宗教演讲转录数据集
2026年2月1日 30 191 66
数据集概述 本数据集为Herrnhut Unitätsarchiv提供的Gemein-Nachrichten数字资源的一部分,包含Layriz于圣诞夜在Hennersdorf发表的演讲转录内容。数据以XML-TEI格式和标准化文本呈现,含多版本转录文件及元数据,支持宗教文献研究与文本分析。 文件详解 原始转录XML文件...
-
基于民族主义保守主义变革语法的论文配套转录本数据
2026年2月1日 30 37 28
数据集概述 本数据集为论文"A nationalist-conservative grammar of change?"的配套转录本,包含MS Word格式(带行号)和RData格式文件,共18个文件。Word版本为行号参考基准,RData版本可用于配套可复现示例分析,涵盖民族保守主义相关文本内容,支持相关主题的文本研究。 文件详解 论文配套转录本文件...
-
赫恩胡特兄弟会通讯文献资料_1765_1941年
2026年2月1日 30 122 118
数据集概述 本数据集是赫恩胡特合一档案馆(Unitätsarchiv Herrnhut)提供的“Gemein-Nachrichten”数字文献,包含1765年至1941年间弟兄会的社区报告、传教与散居工作内容、演讲及生平记录。数据集采用XML-TEI转录和标准化文本格式,提供多版本文件,适用于宗教历史研究与文本分析。 文件详解...
-
IMDB_Based_50K电影评论情感分类数据集
2026年1月31日 30 14 1
数据集概述 本数据集为IMDB大型电影评论数据集,包含五万条用于自然语言处理或文本分析的电影评论,用于二元情感分类任务。其中训练集和测试集各两万五千条高极性评论,可通过分类或深度学习算法预测正负评论数量。 文件详解 文件名称:IMDB Dataset.csv 文件格式:CSV...
-
数据521_Based_粤语室内版鲁滨逊漂流记文档
2026年1月31日 30 63 48
数据集概述 本数据集包含一份文档,内容为粤语版本的《鲁滨逊漂流记》室内场景相关内容。文档未提供详细描述,仅通过文件名反映核心主题,为粤语文学相关研究或阅读提供基础资料。 文件详解 文件名称:521_cantonese_interior_robinson_crusoe.docx 文件格式:DOCX...
-
NASA_Based_系外行星出版物摘要预处理数据集
2026年1月31日 30 82 61
数据集概述 本数据集为NASA收集的系外行星相关出版物摘要预处理数据,包含5个文件,存储为可导入Pandas的JSON格式压缩文件及说明文档,便于研究者快速获取系外行星文献的结构化摘要信息。 文件详解 Readme.md 文件格式:MD 字段映射介绍:包含数据集标题、日期、作者及内容说明,列出各数据文件的核心内容...
-
OffensiveLang_Based攻击性语言数据集
2026年1月31日 30 187 16
数据集概述 本数据集为单文件归档的攻击性语言相关数据,文件类型为压缩包,未包含训练/测试、数据/标签或原始/处理等数据划分,无自述文件或内容预览可供参考。 文件详解 文件名称:OffensiveLang.zip 文件格式:ZIP(压缩包) 字段映射介绍:未提供压缩包内具体内容、字段及结构信息,仅可识别为归档文件类型。 适用场景...
-
Transcrição_访谈转录_半结构化访谈完整数据
2026年1月30日 30 184 13
数据集概述 本数据集包含半结构化访谈的转录内容,以文档形式呈现,未划分训练/测试集、数据/标签集或原始/处理数据,文件类型单一为文档格式,是获取访谈原始转录信息的基础资料。 文件详解 文件名称:TRANSCRIÇÃO DAS ENTREVISTAS COMPARTILHADA.docx 文件格式:DOCX...



