数据集概述
本数据集记录瑞士国家科学基金会不同资助项目申请文本中积极词汇的出现频率,包含三类资助项目(职业资助、Spark资助、项目资助)的申请数据。数据涵盖积极词汇计数、申请人特征、申请结果等信息,用于复现Lerchenmueller et al. (2019)的研究方法与发现,支持科研资助申请文本的NLP分析。
文件详解
- 文件名称:positive_words_frequencies.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含3个工作表(对应三类资助项目),各表字段一致:
- 积极词汇列:amazing、assuring等25个积极词汇的出现次数(基于Vinkers et al. (2015)词汇表)
- sum_pos:积极词汇总数
- text_length、text_length100:文本总词数、总词数/100
- ResponsibleApplicantGender:申请人性别(m/f)
- ResponsibleApplicantAge:申请人提交时年龄(连续值)
- NationalityIsoCode:申请人国籍(CH/非CH)
- IsApproved、IsFundable:资助成功状态、无限资金下是否可资助(二元变量)
- Decision、CallYear:资助决策年份、申请截止年份
- ResearchInstitutionType:申请人所属机构类型(州立大学、ETH领域、其他)
- which_lang:申请文本语言(均为英语)
数据来源
瑞士国家科学基金会(SNSF)资助申请文本
适用场景
- 科研资助文本分析:研究积极词汇使用频率与资助成功率的相关性
- 申请人特征研究:分析申请人性别、年龄、国籍等因素对文本语言风格的影响
- NLP文本预处理应用:基于R语言tm和stringr包的文本清洗流程参考
- 资助政策评估:为科研资助机构的评审机制优化提供数据支持