数据集

英语文本BERT基础模型未分词双字母组合数据集-2019

英语文本BERT基础模型未分词双字母组合数据集-2019 数据来源：互联网公开数据标签：BERT,自然语言处理,NLP,双字母组合,英文文本,数据集,预训练模型,语言建模

数据概述：本数据集是对用于训练英语文本BERT基础模型未分词（uncased）版本的训练数据的最佳重构。数据集来源于BookCorpus数据集和处理后的维基百科数据（2019年8月）。遵循BERT模型的分词原则，未移除标点符号和停用词。原始的Unicode文本经过NFKC规范化，并使用SpaCy英文模型（large）进行分词，记录了语料库中每个双字母组合的总出现次数。双字母组合不跨越句子边界，仅省略空格、换行符和不可打印字符。双字母组合按出现频率降序排列，CSV文件中的列值以制表符分隔。

数据集包含大量双字母组合，用户可能需要过滤掉一些低频组合以减少噪声。提供了多种过滤方法供用户选择，确保原始语料库的完整性，以便扩展和使用新数据发现语言变化和新兴趋势。

数据用途概述：该数据集适用于多种自然语言处理任务，包括语言建模实验、计算点互信息以发现有趣的搭配词组、构建您领域的数据概率分布以评估BERT基础模型是否适合您的任务。用户还可以分析新BERT模型（如Bio-BERT、Legal-BERT）的训练数据，通过计算共享词汇的Kullback–Leibler散度来量化与BERT基础模型的相似性或差异性。此外，数据集可用于与较新的语言数据进行比较，以发现新兴关键词和趋势。

数据与资源

英语文本BERT基础模型未分词双字母组合数据集-2019.zipZIP
818.87 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	818.87 MiB
最后更新	2025年6月4日
创建于	2025年6月4日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

英语文本BERT基础模型未分词双字母组合数据集-2019

数据与资源

附加信息

注册成功！