基于主题的英文维基百科与推特用户数据集

数据集概述

本数据集收集自英文维基百科与推特平台,包含经预处理的维基百科文章文本及推特用户数据。预处理步骤包括词形还原、俚语转换为标准英语、去除停用词,以及维基百科标记语言处理,最终生成纯文本格式内容。

文件详解

  • 文件名称: Wiki_En.rar
  • 文件格式: RAR压缩包 (.rar)
  • 内容说明: 包含英文维基百科文章预处理后的纯文本数据,具体字段信息未提供

适用场景

  • 自然语言处理研究: 用于文本分类、主题建模等算法训练与测试
  • 社交媒体分析: 探究用户关注关系与推文内容的关联性
  • 跨平台文本特征对比: 分析维基百科正式文本与推特非正式文本的语言差异
  • 信息检索优化: 构建多源文本语料库以提升检索系统性能
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 192.43 MiB
最后更新 2025年11月27日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。