数据集

语料库Brown语料库宗教文本标注数据集BrownCorpusReligiousTextLabelingDataset-shoucoco

数据来源：互联网公开数据

标签：语料库, 文本标注, 自然语言处理, 文本分类, 宗教文本, 词性标注, 情感分析, 语义分析

数据概述：该数据集包含来自Brown语料库的文本数据，重点关注宗教类文本，并附带了详细的标注信息。主要特征如下：时间跨度：数据未明确标注时间，可视为静态语料库。地理范围：数据来源于Brown语料库，涵盖多种英语文本，来源广泛。数据维度：包括以下关键字段： file：文本所属文件标识符。 para_id：段落编号。 sent_id：句子编号。 raw_text：原始文本内容。 tokenized_text：经过分词处理的文本。 tokenized_pos：词性标注结果。 label：文本对应的类别标签，例如“religion”（宗教）。数据格式：CSV格式，文件名为browncsv，易于处理和分析。数据来源：源于Brown语料库，经过了分词、词性标注和类别标注等处理。该数据集适合用于文本分类、情感分析、自然语言处理等领域的研究与应用。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、文本挖掘和情感分析等学术研究，例如宗教文本的语义分析、情感倾向分析。行业应用：可用于开发文本分类、信息检索等相关应用，例如新闻推荐、内容过滤等。决策支持：为内容审查、舆情分析等提供数据支持。教育和培训：作为自然语言处理、文本分析等课程的教学素材。此数据集特别适合用于探索宗教文本的语言特征，训练文本分类模型，以及研究不同文本类别之间的差异。

数据与资源

versions_20250413071612.zipZIP
5.98 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	5.98 MiB
最后更新	2025年5月1日
创建于	2025年5月1日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。