维基数据员工标签化数据集-2020年2月-toddcook

维基数据员工标签化数据集-2020年2月-toddcook 数据来源:互联网公开数据 标签:维基数据,员工标签,职业分析,数据清理,机器学习,文本处理,自然语言处理,开源数据

数据概述: 本数据集包含从2020年2月维基数据导出的相关人员条目中的雇主信息,经过标签化处理。维基数据是一个丰富的免费数据资源,但要有效利用这些数据,通常需要进行数据清理。数据集中的雇主信息分为有效雇主和无效雇主两类,以帮助用户判断哪些雇主信息符合预期并具有实际意义。

数据集字段包括: item_id - 维基数据条目ID(Q码前缀去除) employer_count - 维基数据项目计数 employer - 英文标签(来自Kensho数据集) description - 英文描述(来自Kensho数据集) in_google_news - 是否存在于GoogleNews嵌入中(0为否,1为是) language_detected - 使用FastText语言检测的三位语言代码 source - 数据来源(维基数据、维基百科、人工标注) label - 标签(0为无效雇主,1为有效雇主) labeled_by - 标注来源(人工、classifier_gnew、classifier_bert、cleanlab) label_error_reason - 标签错误原因(领域错误、复数形式)

数据用途概述: 该数据集适用于多种应用场景,包括职业趋势分析、雇主名称标准化、自动错误纠正、自然语言处理模型训练、问答系统构建、语言模型评估等。研究人员可以利用此数据集进行趋势分析和数据清理方法研究;企业可以应用数据集优化人力资源管理和招聘流程;教育机构则可以利用数据集进行自然语言处理课程的教学和研究。此外,数据集还为评估和改进语言检测模型提供了有价值的参考数据。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.77 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。