英语文本BERT基础模型未分词双字母组合数据集-2019
数据来源:互联网公开数据
标签:BERT,自然语言处理,NLP,双字母组合,英文文本,数据集,预训练模型,语言建模
数据概述:
本数据集是对用于训练英语文本BERT基础模型未分词(uncased)版本的训练数据的最佳重构。数据集来源于BookCorpus数据集和处理后的维基百科数据(2019年8月)。遵循BERT模型的分词原则,未移除标点符号和停用词。原始的Unicode文本经过NFKC规范化,并使用SpaCy英文模型(large)进行分词,记录了语料库中每个双字母组合的总出现次数。双字母组合不跨越句子边界,仅省略空格、换行符和不可打印字符。双字母组合按出现频率降序排列,CSV文件中的列值以制表符分隔。
数据集包含大量双字母组合,用户可能需要过滤掉一些低频组合以减少噪声。提供了多种过滤方法供用户选择,确保原始语料库的完整性,以便扩展和使用新数据发现语言变化和新兴趋势。
数据用途概述:
该数据集适用于多种自然语言处理任务,包括语言建模实验、计算点互信息以发现有趣的搭配词组、构建您领域的数据概率分布以评估BERT基础模型是否适合您的任务。用户还可以分析新BERT模型(如Bio-BERT、Legal-BERT)的训练数据,通过计算共享词汇的Kullback–Leibler散度来量化与BERT基础模型的相似性或差异性。此外,数据集可用于与较新的语言数据进行比较,以发现新兴关键词和趋势。