英文无大小写BERT模型单字词数据集

英文无大小写BERT模型单字词数据集 数据来源:互联网公开数据 标签:BERT,自然语言处理,英文,词频分析,预训练模型,词汇分布,子词分割 数据概述: 本数据集是对用于训练英文无大小写BERT基础模型的原始训练数据的复现尝试。数据来源于BookCorpus数据集以及Wikipedia(2019年8月)的处理转储。遵循BERT的分词方案原则,未移除标点符号和停用词。原始的unicode文本使用NFKC进行了标准化,使用Spacy的英文大模型进行了分词,并记录了在语料库中每个单字词的总出现次数。单字词按照出现频率降序排列,CSV文件中的列值以制表符分隔。 数据用途概述: 该数据集适用于分析BERT基础模型的训练数据,帮助用户确定是否需要针对特定任务重新训练模型。通过对领域内数据的概率分布进行构造,可以判断BERT基础模型是否适用于特定任务。还可以利用此数据集分析其他BERT模型(如Bio-BERT、Legal-BERT)的训练数据与其的相似性或差异性。此外,该数据集可用于评估和定位其姐妹数据集BERT bigrams中的重要双字词,并确定数据中有多少词是BERT基础模型词表之外的词(OOV),这可能是需要重新训练的强信号。 举例: 假设用户正在开发一个法律领域的自然语言处理任务,可以通过分析该数据集与特定领域BERT模型(如Legal-BERT)的训练数据词频分布的差异,判断是否需要重新训练BERT基础模型以适应法律领域特定的词汇和用法。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 36.91 MiB
最后更新 2025年4月19日
创建于 2025年4月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。