-
反馈中使用信息自动分类研究数据集
数据集概述 本数据集为论文《Exploring the Automatic Classification of Usage Information in Feedback》配套数据,包含标注的反馈数据文件、说明文档及相关论文,支持反馈文本中使用信息的自动分类研究。 文件详解 文档类文件:...
-
西班牙国家图书馆19世纪末文化杂志数据集_CORSMAXIX
数据集概述 本数据集收录西班牙国家图书馆藏1898-1899年间三种19世纪末西班牙文化杂志的48期内容,包含短篇故事、诗歌、评论及社会政治散文,覆盖西班牙政治文化转型关键时期,为人文社科领域的计算分析提供丰富语料支持。 文件详解 索引文件(CSV格式): CORSMAXIX_la_vida_literaria_index.csv:《La vida...
-
复杂网络特征提升疫苗立场分类研究数据集
数据集概述 本数据集为科学论文《Leveraging complex network features improves vaccine stance classification》的配套数据,包含用于疫苗立场分类研究的数据集与网络边列表文件,支持复杂网络特征在疫苗立场分类任务中的应用验证与分析。 文件详解 文件名称:...
-
十大畅销小说第一章数据集
数据集概述 本数据集包含十本畅销小说第一章的OCR扫描文件,可用于通过Voyant Tools进行数字文本分析,为文学文本挖掘与分析提供基础数据。 文件详解 文件名称: Data Bestseller novels.pdf 文件格式: PDF (.pdf) 文件内容: 包含十本畅销小说第一章的OCR扫描文本,可用于数字文本分析的原始文档 适用场景...
-
加泰罗尼亚政府网页爬取语料库2020
数据集概述 该数据集是2020年9月至10月从加泰罗尼亚政府.gencat域名及子域名爬取的加泰罗尼亚语网页语料库,含三千九百一十一万七千九百零九个词元、一百五十六万五千四百三十三个句子和七万一千零四十三篇文档,是加泰罗尼亚语文本语料库的子语料库。 文件详解 文件名称: catalan_government_crawling.zip 文件格式: ZIP...
-
二元斯坦福情感树库数据集2
数据集概述 该数据集是斯坦福情感树库(SST)的二元版本,移除了中性类别,仅保留积极和消极两类情感标签。包含电影评论文本及其对应的二元情感分类数据,支持自然语言处理领域的情感分析任务。 文件详解 文件名称: texts.txt 文件格式: TXT 内容: 文档集合,每行存储一条文本数据 文件名称: score.txt 文件格式: TXT 内容:...
-
社交媒体语言语域转化分析_博主与普通用户言语研究
数据集概述 本数据集为一篇PDF文档,聚焦社交媒体环境下语言语域的变化,核心分析博主与普通用户的言语特征差异,探讨语域转化的表现形式与潜在机制,为语言使用与社会交互研究提供定性分析素材。 文件详解 文件名称: Mardieva Habiba.pdf 文件格式: PDF 文件内容:...
-
Agnus_Data_候选类型描述及真实URI数据集
数据集概述 该数据集包含多个压缩文件,涉及候选类型、描述及真实URI等内容,共六个文件,均为ZIP格式,无目录结构,未提供训练/测试、数据/标签或原始/处理数据的划分,无自述文件或内容预览。 文件详解 压缩文件集合:包含六个ZIP格式的压缩文件,具体如下: data_ACE.zip:ZIP格式压缩文件 data_KORE50.zip:ZIP格式压缩文件...
-
电子烟内容警告标签检测数据集
数据集概述 该数据集包含用于检测社交媒体平台(TikTok和YouTube)电子烟内容中警告标签的脚本与工作流程文档。核心内容围绕数据收集、视频处理、OCR识别、语言检测及规则分类器构建展开,为电子烟内容合规性分析提供技术实现框架。 文件详解 文件名称: Detecting-Warning-Labels-on-E-Cigarette-Content-...
-
Eclipse与Mozilla缺陷跟踪数据集
数据集概述 该数据集包含从Eclipse和Mozilla项目提取的超过二十万条缺陷报告数据,其中Eclipse项目四万七千条、Mozilla项目十六万八千条。数据不仅提供缺陷报告的单一快照,还涵盖报告生命周期内的所有增量修改记录。 文件详解 文件名称:msr2013-bug_dataset-master.zip 文件格式:ZIP(压缩包)...
-
农业教育医学领域自动标引评估资源语料库与黄金标准索引数据集
数据集概述 该数据集包含农业、教育、医学三个领域的语料库及其对应的黄金标准索引,用于自动标引系统的评估。每个领域语料库含不同规模的文档集合,文档包含标题、摘要等元数据,黄金标准索引来自各领域专业数据库。 文件详解 文件名称:Corpora+Gold_Standard_Index.zip 文件格式:ZIP(.zip) 包含内容:...
-
无人机软件平台安全问题自动化识别与定性表征研究复现数据包
数据集概述 本数据集是研究“无人机软件平台安全问题自动化识别与定性表征”的复现数据包,包含分析项目的安全相关缺陷数据、原始数据、研究脚本及结果文件,支持复现研究中的安全问题识别与分析过程。 文件详解 该数据集由多个文件夹和文件组成,具体说明如下: - 1_Safety-Dataset 文件夹: - bugs 文件夹:包含分析项目的缺陷数据文件,如...
-
废弃库文本识别提示词数据集
数据集概述 本数据集为用于识别废弃库文本的提示词集合,包含基于项目描述和README文件设计的提示词,支持相关文本分类任务。 文件详解 prompt.zip: 压缩包格式,包含以下文件 description_classification.md: Markdown格式,含基于项目描述识别废弃库的提示词 README_classification.md:...
-
基于知识图谱的大语言模型谣言检测系统设计与算法优化数据集
数据集概述 本数据集围绕基于知识图谱的大语言模型谣言检测系统设计与算法优化展开,涵盖KG-RumorDetect框架的模型架构、知识图谱集成、优化技术等核心内容,为谣言检测研究提供技术方案参考。 文件详解 文件名称: archive.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含与KG-...
-
数据4chan在线仇恨言论深度学习测量数据集
数据集概述 本数据集包含从4chan的/pol/板块提取的50万条帖子原始内容,以CSV格式存储,仅含帖子内容列。数据无线程或回复结构,为扁平化单文件,适用于文本分析、自然语言处理及计算社会科学研究,需注意内容可能包含敏感或攻击性材料。 文件详解 文件名称: pol_500K4chan.csv 文件格式: CSV 字段映射:...
-
希腊议会会议记录数据集1989_2019
数据集概述 该数据集包含1989至2019年希腊议会5118次会议记录中的1194407条议员发言,总容量2.15GB。数据经收集会议记录、匹配议员官方姓名等步骤构建,以UTF-8编码CSV压缩文件存储,覆盖议员信息、会议属性及发言内容等核心字段。 文件详解...
-
Fedora与Debian软件包依赖网络及节点描述文本数据集
数据集概述 该数据集包含Fedora(28版)和Debian(9.5版)的软件包依赖网络数据,以及节点关联的描述文本,同时收录了基于PCTADW-*方法生成的学习向量,为软件依赖关系分析提供支持。 文件详解 文件名称:package-dependency-networks.zip 文件格式:ZIP压缩包 内容说明:压缩包内包含Fedora...
-
量子技术叙事跨领域分析数据集
数据集概述 本数据集为《量子技术叙事:媒体、商业与政策话语的跨领域分析》手稿的配套数据,包含分析所用的文本语料库和主题建模输出,覆盖媒体、商业、政策三个领域的文本数据及对应BERTopic分析结果。 文件详解 Media Articles.zip: ZIP格式压缩文件,包含拆分至单句的媒体文章CSV文件,附带标题、报纸等元数据。 Business...
-
路透社21578基准语料库
数据集概述 该数据集为路透社21578基准语料库,是一个用于文本分类等任务的经典基准数据集,以压缩文件形式存储,未提供训练/测试、数据/标签等拆分信息。 文件详解 文件名称: RCV1.zip 文件格式: ZIP压缩包(.zip) 内容说明: 该压缩包包含路透社21578基准语料库的相关数据,无可用内容预览,未检测到命名模式或拆分结构。 适用场景...
-
MOBO_电影与书籍评论数据集
数据集概述 该数据集包含电影和书籍评论及其相关情节内容,整合自多个公开数据源,并由标注者对超过一万八千条评论句子进行极性(正面/负面)和情节描述的标注,提供了标注句子的样本文件。 文件详解 文件名称: MOBO Dataset.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含电影与书籍评论数据集的标注样本文件,具体字段需解压后查看原始文件内容...



