越南维基百科条目分类数据集-khoahongg

越南维基百科条目分类数据集-khoahongg

数据来源:互联网公开数据

标签:维基百科,越南语,分类,自然科学,社会科学,工程技术,文化,其他

数据概述: 本数据集包含了从越南语维基百科中提取的条目信息,并按照预定义的分类进行标注。每个条目都包含标题(title)和内容(content)两部分,并被赋予一个代表其所属领域的标签(label)。标签的定义如下: 0 = 自然科学(地质学-地理学、化学、计算机科学、逻辑学、生物学、天文学、数学、物理学、医学)。 1 = 社会科学(政治学、教育学、经济学、历史学、法律、语言学、人类学、心理学、神学、哲学、社会学、行政地理学)。 2 = 工程技术(工业、机械学、电子学、交通运输、建筑学、能源、机器人学、农业、军事、医疗)。 3 = 文化(音乐、政治、旅游、电影、娱乐、舞蹈、艺术、风俗习惯、神话、体育、时尚、宗教、文学)。 4 = 其他(不属于以上任何领域的条目)。

数据用途概述: 该数据集可用于多种研究和应用场景,例如:文本分类模型的训练和评估、越南语自然语言处理研究、维基百科内容分析、多领域知识图谱构建等。研究人员可以使用该数据集探索不同领域文本的特征,开发更准确的文本分类算法。同时,该数据集也为越南语文本处理相关研究提供了基础数据。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 21, 2025, 18:06 (UTC)
创建于 四月 21, 2025, 18:06 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。