数据集概述
本数据集包含印度区域语言的HMPV相关多语言新闻和事实核查文章,覆盖孟加拉语、英语、古吉拉特语等11种语言。通过Splinter框架采集Google新闻文章,利用Google Fact-Check API获取事实核查文章,经预处理和词干提取后整理为结构化文件,可用于多语言医疗文本分析研究。
文件详解
- GoogleNews_Dataset.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含语言、文章标题、来源(若有)、文章链接、内容、域名,以及各语言对应的词干提取结果列
- GoogleFact-check_Datatset.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含声明文本、声明方、声明日期、核查发布方、核查标题、核查链接、核查日期、文本评级、提取内容,以及各语言对应的词干提取结果列
适用场景
- 多语言医疗文本分析: 研究印度区域语言中HMPV相关新闻的内容特征与传播规律
- 事实核查模型训练: 基于事实核查文章数据开发或优化多语言虚假信息检测模型
- 公共卫生信息传播研究: 分析不同语言HMPV新闻的信息覆盖范围与公众认知影响
- 自然语言处理应用: 用于印度区域语言的词干提取、文本分类等NLP任务的数据集支持