维基百科页面数据集

维基百科页面数据集 数据来源:互联网公开数据
标签:维基百科,文本内容,自然语言处理,嵌入模型,信息检索,知识图谱,数据挖掘
数据概述:
本数据集基于Wikipedia页面内容构建,包含从原始竞赛数据集中提取的问答数据。数据集主要字段包括问题ID、维基百科页面建议、页面内容等。此外,数据集中还包含了通过Sentence-Transformer模型对页面内容进行嵌入处理后生成的Chromadb文件,适用于文本检索任务。数据集为自然语言处理和信息检索提供了丰富的文本资源和嵌入表示。
数据用途概述:
该数据集适用于多种场景,包括但不限于问答系统优化、文本检索任务评估、知识图谱构建等。研究人员可以利用此数据集进行文本嵌入模型的训练与评估;企业可以将其应用于智能搜索和语义理解系统中;教育机构则可以将其用于教学和科研,帮助学生理解自然语言处理技术的实际应用。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 49.46 MiB
最后更新 2025年4月17日
创建于 2025年4月17日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。