数据集

英文无大小写BERT模型单字词数据集

英文无大小写BERT模型单字词数据集数据来源：互联网公开数据标签：BERT,自然语言处理,英文,词频分析,预训练模型,词汇分布,子词分割数据概述：本数据集是对用于训练英文无大小写BERT基础模型的原始训练数据的复现尝试。数据来源于BookCorpus数据集以及Wikipedia（2019年8月）的处理转储。遵循BERT的分词方案原则，未移除标点符号和停用词。原始的unicode文本使用NFKC进行了标准化，使用Spacy的英文大模型进行了分词，并记录了在语料库中每个单字词的总出现次数。单字词按照出现频率降序排列，CSV文件中的列值以制表符分隔。数据用途概述：该数据集适用于分析BERT基础模型的训练数据，帮助用户确定是否需要针对特定任务重新训练模型。通过对领域内数据的概率分布进行构造，可以判断BERT基础模型是否适用于特定任务。还可以利用此数据集分析其他BERT模型（如Bio-BERT、Legal-BERT）的训练数据与其的相似性或差异性。此外，该数据集可用于评估和定位其姐妹数据集BERT bigrams中的重要双字词，并确定数据中有多少词是BERT基础模型词表之外的词（OOV），这可能是需要重新训练的强信号。举例：假设用户正在开发一个法律领域的自然语言处理任务，可以通过分析该数据集与特定领域BERT模型（如Legal-BERT）的训练数据词频分布的差异，判断是否需要重新训练BERT基础模型以适应法律领域特定的词汇和用法。

数据与资源

英文无大小写BERT模型单字词数据集.zipZIP
36.91 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	36.91 MiB
最后更新	2025年4月19日
创建于	2025年4月19日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

英文无大小写BERT模型单字词数据集

数据与资源

附加信息

注册成功！