BhashaHMPV_Based印度区域语言HMPV多语言新闻与事实核查数据集

数据集概述

本数据集包含印度区域语言的HMPV相关多语言新闻和事实核查文章,覆盖孟加拉语、英语、古吉拉特语等11种语言。通过Splinter框架采集Google新闻文章,利用Google Fact-Check API获取事实核查文章,经预处理和词干提取后整理为结构化文件,可用于多语言医疗文本分析研究。

文件详解

  • GoogleNews_Dataset.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含语言、文章标题、来源(若有)、文章链接、内容、域名,以及各语言对应的词干提取结果列
  • GoogleFact-check_Datatset.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含声明文本、声明方、声明日期、核查发布方、核查标题、核查链接、核查日期、文本评级、提取内容,以及各语言对应的词干提取结果列

适用场景

  • 多语言医疗文本分析: 研究印度区域语言中HMPV相关新闻的内容特征与传播规律
  • 事实核查模型训练: 基于事实核查文章数据开发或优化多语言虚假信息检测模型
  • 公共卫生信息传播研究: 分析不同语言HMPV新闻的信息覆盖范围与公众认知影响
  • 自然语言处理应用: 用于印度区域语言的词干提取、文本分类等NLP任务的数据集支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.77 MiB
最后更新 2026年1月20日
创建于 2026年1月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。