STEM领域维基百科语料库数据集

STEM领域维基百科语料库数据集 数据来源:互联网公开数据
标签:STEM,维基百科,语料库,文本处理,自然语言处理,科学教育,知识图谱,数据分析

数据概述:
本数据集通过过滤维基百科文章创建,专注于科学、技术、工程和数学(STEM)领域。数据集的构建过程中,我们基于维基百科的文章分类元数据进行筛选,并解决了现有维基数据中常见的渲染问题,如数字、方程和符号的处理。我们首先定义了一系列与STEM主题相关的种子维基百科类别,例如“物理概念”和“物理量”等,随后递归收集这些类别的成员页面和子类别,最终提取了40多万篇相关页面的内容。为了便于后续处理和应用,我们将每篇文章的完整文本按不同章节划分,并将较长的部分进一步拆分为包含约300个token的小块(使用deberta-v3分词器)。

数据用途概述:
该数据集适用于多种应用场景,包括但不限于:
1. RAG(检索增强生成)技术在STEM领域的应用,支持更精准的知识检索和生成。
2. STEM教育和研究领域的文本挖掘,帮助提取和分析专业知识点。
3. 知识图谱构建,支持科学和技术领域的语义理解和关系抽取。
4. 自然语言处理模型的训练和测试,特别是在处理包含专业术语和复杂符号的文本方面。
5. 科学和技术内容的自动化摘要和信息提取,助力快速获取关键知识点。

通过这一数据集,研究人员和开发者能够更高效地进行STEM领域的文本处理和分析,推动相关技术的发展和应用。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 842.61 MiB
最后更新 2025年6月4日
创建于 2025年6月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。