宗派语言与普通语言对比数据集
数据来源:互联网公开数据
标签:宗派语言,普通语言,文本分类,自然语言处理,宗教文本,情感分析,社会研究
数据概述
本数据集包含两部分内容:宗派语言部分和普通语言部分。
-
宗派语言部分:收集了来自多个宗派领袖的演讲、会议记录和书面作品,包括但不限于《天命之书》(由Abdrushin撰写)、天堂之门(Heaven’s Gate)等相关文本,以及人民圣殿(People’s Temple)、统一教会(Unification Church,由孙明云领导)、FLDS教会(由沃伦·杰夫领导)、布兰哈姆邪教等组织的记录。经过整理,该部分共包含85,736个句子,并标注了宗派名称、发言者姓名以及“宗派”标签。
-
普通语言部分:包括多样化的非宗派文本,如演讲、故事、新闻文章、辩论、非虚构历史教科书和传记中的句子。这部分共包含128,414个句子,每条数据标注为“非宗派”标签。为了确保数据集的对比性,这部分文本在结构和语气上与宗派语言文本具有一定相似性,但内容避免涉及宗教主题,以减少混淆。
在数据预处理阶段,进行了停用词去除、无用字符和数字的清理、单词分词、空值删除以及数据随机打乱等操作。最终,合并后的数据集被分为训练集和测试集,比例为60:40。数据集中的句子总数从原始的214,150个减少到212,523个,其中“宗派”标签占比39.9%,“非宗派”标签占比60.1%。
数据用途概述
该数据集适用于多种场景,具体包括但不限于:
- 文本分类研究:可用于训练和评估分类模型,区分宗派语言与普通语言的文本特征,帮助识别特定语言风格。
- 自然语言处理(NLP)研究:可用于探索和分析语言表达中的隐含情感、修辞手法以及语言模式,为情感分析、文本生成等任务提供数据支撑。
- 社会学与心理学研究:帮助研究人员理解宗派语言的特征及其对个体和社会的影响,分析语言模式与社会行为之间的关联。
- 教育与培训:可用于教育场景,帮助学生和研究人员了解宗派语言的特征与普通语言的区别,提升对文本分析能力的训练。
- 风险识别与预警:在实践中,可用于识别潜在的极端主义或宗派组织的语言特征,为相关机构提供预警支持。
通过该数据集,研究者可以深入分析宗派语言的独特性及其与其他类型文本的差异,为相关领域的理论研究和实际应用提供数据支持。