维基数据员工标签化数据集-2020年2月-toddcook
数据来源:互联网公开数据
标签:维基数据,员工标签,职业分析,数据清理,机器学习,文本处理,自然语言处理,开源数据
数据概述:
本数据集包含从2020年2月维基数据导出的相关人员条目中的雇主信息,经过标签化处理。维基数据是一个丰富的免费数据资源,但要有效利用这些数据,通常需要进行数据清理。数据集中的雇主信息分为有效雇主和无效雇主两类,以帮助用户判断哪些雇主信息符合预期并具有实际意义。
数据集字段包括:
item_id - 维基数据条目ID(Q码前缀去除)
employer_count - 维基数据项目计数
employer - 英文标签(来自Kensho数据集)
description - 英文描述(来自Kensho数据集)
in_google_news - 是否存在于GoogleNews嵌入中(0为否,1为是)
language_detected - 使用FastText语言检测的三位语言代码
source - 数据来源(维基数据、维基百科、人工标注)
label - 标签(0为无效雇主,1为有效雇主)
labeled_by - 标注来源(人工、classifier_gnew、classifier_bert、cleanlab)
label_error_reason - 标签错误原因(领域错误、复数形式)
数据用途概述:
该数据集适用于多种应用场景,包括职业趋势分析、雇主名称标准化、自动错误纠正、自然语言处理模型训练、问答系统构建、语言模型评估等。研究人员可以利用此数据集进行趋势分析和数据清理方法研究;企业可以应用数据集优化人力资源管理和招聘流程;教育机构则可以利用数据集进行自然语言处理课程的教学和研究。此外,数据集还为评估和改进语言检测模型提供了有价值的参考数据。