找到342个数据集

标签: 维基百科

过滤结果
  • Wikimedia_数学表达式去重列表数据

    2026年2月2日 30 20 16

    数据集概述 本数据集包含维基媒体所有项目(含维基百科)中使用的全部数学表达式的去重列表。数据以JSON格式存储,键为输入内容的MD5哈希值,值为从维基文本源中提取的数学表达式内容。数据集可用于数学表达式的标准化、知识图谱构建等场景,仅包含一个文件。 文件详解 文件名称:wmf_texvc_inputs.json 文件格式:JSON...
    packageimg
  • 维基百科网站流量日度时间序列数据集_含缺失值

    2026年2月1日 30 40 7

    数据集概述 本数据集包含145063条时间序列数据,记录2015年7月1日至2022年6月30日期间维基百科页面的日度访问量(含缺失值)。数据基于Kaggle维基百科流量预测竞赛使用的页面范围扩展而来,文章名称中的冒号已替换为短横线以适配.tsf文件加载器,可用于网页流量趋势分析与预测研究。 文件详解...
    packageimg
  • Pilot_3_Based实验叙事多媒体资源数据

    2026年1月31日 0 27 7

    数据集概述 本数据集为Pilot 3实验提供关联场馆的多媒体资源,用于构建面向参与者的叙事内容,包含文本、图像、音视频等多种格式素材,部分素材来自博物馆原始数据及维基百科等开放平台,遵循MPEG-7元数据标准,支持实验场景中的内容展示需求。 文件详解 文件名称:multimedia_content.xlsx 文件格式:XLSX...
    packageimg
  • 加泰罗尼亚语_中文平行句子机器翻译评估数据集_测试版

    2026年1月31日 30 162 95

    数据集概述 本数据集包含来自加泰罗尼亚语维基新闻、加泰罗尼亚语维基百科和西班牙语维基导游的平行句子,共一千零二十二条。数据涵盖加泰罗尼亚语、西班牙语及对应的GPT-4生成中文翻译和人工修订中文翻译,覆盖科学技术、文化、经济等十大主题,可用于机器翻译模型评估与强化学习人类偏好数据研究。 文件详解 文件名称:test.json 文件格式:JSON...
    packageimg
  • SIMPITIKI_GITHUB_意大利语文本简化语料库数据

    2026年1月29日 30 73 60

    数据集概述 本数据集为意大利语文本简化语料库SIMPITIKI,包含两组简化文本对:第一组通过半自动方式从意大利语维基百科获取,第二组从行政领域文档中逐句手动标注。数据集仅含一个XML格式文件,无训练测试、数据标签或原始处理数据的划分。 文件详解 文件名称:simpitiki-v2.xml 文件格式:XML...
    packageimg
  • Wikipedia_Based_英文论坛讨论关闭记录数据_2023

    2026年1月27日 30 105 8

    数据集概述 本数据集整理了2023年12月(部分低流量论坛扩展至同年9-11月)英文维基百科8个论坛的讨论关闭记录,排除未正式关闭及程序性质疑的讨论,共包含1个文件,用于分析维基百科社区讨论的处理情况。 文件详解 文件名称:Discussion coding WDC feb 25.xlsx 文件格式:XLSX...
    packageimg
  • GReduced_Based_维基百科地缘政治联系分析数据_2013

    2026年1月25日 30 70 5

    数据集概述 本数据集为论文“Capturing the influence of geopolitical ties from Wikipedia with reduced Google...
    packageimg
  • wiki_PP_Based_维基百科页面保护对文章质量影响研究_数据与代码

    2026年1月21日 30 77 28

    数据集概述 本数据集为论文《Protection from Evil and Good: The Differential Effects of Page Protection on Wikipedia Article...
    packageimg
  • UK_based_think_tanks_英国本土智库信息数据库_2020版

    2026年1月20日 30 67 38

    数据集概述 本数据集为英国本土智库数据库,包含163家英国智库的基础信息,涵盖成立年份、解散或合并年份、主要研究领域、教育相关重点、描述、政治立场等核心内容,由多来源信息交叉核验并于2020年更新,为研究英国智库生态提供结构化参考。 文件详解 文件名称:UK-based think-tanks database.xlsx 文件格式:XLSX...
    packageimg
  • Aircraft_Crashes_Based_在线注意力动态与偏差研究数据集

    2026年1月20日 30 94 56

    数据集概述 本数据集围绕空难事件的在线注意力动态与偏差展开研究,利用英文和西班牙文版维基百科的事务数据,分析编辑活动和文章浏览量。核心探讨死亡人数、航空公司区域、事件地点与日期等参数对注意力水平的影响,揭示不同语言版本维基百科中注意力的区域偏差及衰减规律。 文件详解 压缩文件 文件名称:dataset_journal.zip 文件格式:ZIP...
    packageimg
  • Nerwip_Corpus_Named_Entity_Recognition_传记文本实体标注语料库

    2026年1月5日 30 45 35

    数据集概述 本数据集为Nerwip语料库,包含408篇维基百科传记文章,人工标注了日期、地点、组织、人物四类实体,用于评估和比较NER工具在传记文本上的性能。还包含NER工具所需的模型、词典等文件,需按说明解压使用。 文件详解 文件名称:nerwip-4-data.zip 文件格式:ZIP 字段映射介绍:包含408篇标注传记文本及相关数据...
    packageimg
  • Wikipedia_editors_interviews_讨论关闭行为研究数据集

    2026年1月15日 30 43 2

    数据集概述 本数据集收集了2023-2024年参与英文维基百科讨论关闭的编辑的访谈响应。通过邮件或用户讨论页邀请2023年9月至2024年2月期间执行过讨论关闭的编辑参与调查,167名被联系者中有67人参与。数据集为版本2,已移除含潜在可识别信息的两列数据,共包含1个文件。 文件详解 文件名称:WDC - Closers_February 28,...
    packageimg
  • Wikimedia_Education_Program_Extension历史存档数据

    2026年1月14日 30 11 3

    数据集概述 本数据集是维基媒体基金会开发的MediaWiki软件“教育项目扩展计划”的归档数据,该扩展曾支持维基百科教育项目,用于跟踪管理学生、教师等编辑群体。数据涵盖维基百科、维基学院等多平台18种语言的教育项目,2011年启动后于2018年停用,现提供历史项目查询。 文件详解 文件名称:Versão bruta Extensão Programas...
    packageimg
  • 气候变化讨论页情感与毒性评分数据集_基于GraWiTas视角_VADER模型及维基百科数据

    2026年1月12日 30 24 21

    数据集概述 本数据集来自RWTH Aachen大学计算社会系统硕士项目,包含维基百科“气候变化”讨论页的原始数据及处理后的情感、毒性评分数据。原始数据通过GraWiTas工具解析为JSON格式,处理后数据使用VADER计算情感得分、Google Perspective API计算毒性得分,可用于研究气候变化讨论的文本特征与情感倾向。 文件详解...
    packageimg
  • Database_of_Citizen_Science_Projects_Based_公民科学项目汇总数据

    2025年12月30日 30 50 1

    数据集概述 本数据集为公民科学项目数据库,收录来自维基百科公民科学项目列表、SciStarter平台及ACTION联盟成员贡献的项目信息,包含医学相关关键词“ct”。数据集仅含一个Excel文件,无目录结构与数据拆分。 文件详解 文件名称:ProjectCollection.xlsx 文件格式:XLSX...
    packageimg
  • 冰岛霍夫迪楼数据集

    2025年12月24日 30 76 41

    数据集概述 本数据集围绕冰岛霍夫迪楼(Höfði)展开,该建筑因1986年美国与苏联雷克雅未克峰会在此举行而闻名。数据集包含该建筑的模型文件与图片文件,为了解霍夫迪楼的外观特征提供直观资料。 文件详解 三维模型文件: 961bb7970da24888a0e1868ff32e99cf.glb:GLB格式,可能为霍夫迪楼的三维模型文件 图片文件:...
    packageimg
  • 德国霍恩埃肯城堡三维模型与图片数据集

    2025年12月23日 30 63 25

    数据集概述 本数据集包含德国霍恩埃肯城堡的三维模型文件及配套图片,基于YouTube视频和维基百科资料建模,涵盖城堡外观的视觉呈现与三维结构数据,为城堡相关的数字化展示或研究提供基础素材。 文件详解...
    packageimg
  • 引力波观测结果整理数据集

    2025年12月18日 30 119 92

    数据集概述 该数据集是对维基百科中截至当前日期所有引力波观测结果的整理集合,通过Chat GPT辅助编译为易于访问的HTML文件,为引力波观测相关研究提供便捷的参考数据。 文件详解 文件名称: gravitational_wave_observations.html 文件格式: HTML (.html) 内容说明:...
    packageimg
  • Kaggle维基百科每日网络流量数据集_含缺失值

    2025年12月16日 30 27 16

    数据集概述 本数据集是Kaggle维基百科网络流量预测竞赛所用数据,包含十四万五千零六十三条每日时间序列,记录2015年7月1日至2017年9月10日期间一组维基百科页面的点击量或网络流量数据,存在缺失值。 文件详解 文件名称: kaggle_web_traffic_dataset_with_missing_values.zip 文件格式:...
    packageimg
  • 扩展版维基百科日度网络流量数据集_无缺失值

    2025年12月15日 30 45 25

    数据集概述 该数据集包含十四万五千零六十三条时间序列数据,记录了2015年7月1日至2022年6月30日期间一组维基百科页面的日访问量。此数据集为Kaggle维基百科流量预测竞赛所用数据集的扩展版本,保留了竞赛中的维基百科页面,且将文章名称中的冒号替换为短横线,以适配特定数据加载器。原始数据中的缺失值已被简单替换为零。 文件详解 文件名称:...
    packageimg