数据集

维基数据员工标签化数据集-2020年2月-toddcook

维基数据员工标签化数据集-2020年2月-toddcook 数据来源：互联网公开数据标签：维基数据,员工标签,职业分析,数据清理,机器学习,文本处理,自然语言处理,开源数据

数据概述：本数据集包含从2020年2月维基数据导出的相关人员条目中的雇主信息，经过标签化处理。维基数据是一个丰富的免费数据资源，但要有效利用这些数据，通常需要进行数据清理。数据集中的雇主信息分为有效雇主和无效雇主两类，以帮助用户判断哪些雇主信息符合预期并具有实际意义。

数据集字段包括： item_id - 维基数据条目ID（Q码前缀去除） employer_count - 维基数据项目计数 employer - 英文标签（来自Kensho数据集） description - 英文描述（来自Kensho数据集） in_google_news - 是否存在于GoogleNews嵌入中（0为否，1为是） language_detected - 使用FastText语言检测的三位语言代码 source - 数据来源（维基数据、维基百科、人工标注） label - 标签（0为无效雇主，1为有效雇主） labeled_by - 标注来源（人工、classifier_gnew、classifier_bert、cleanlab） label_error_reason - 标签错误原因（领域错误、复数形式）

数据用途概述：该数据集适用于多种应用场景，包括职业趋势分析、雇主名称标准化、自动错误纠正、自然语言处理模型训练、问答系统构建、语言模型评估等。研究人员可以利用此数据集进行趋势分析和数据清理方法研究；企业可以应用数据集优化人力资源管理和招聘流程；教育机构则可以利用数据集进行自然语言处理课程的教学和研究。此外，数据集还为评估和改进语言检测模型提供了有价值的参考数据。

数据与资源

versions_20250402185255.zipZIP
1.77 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	1.77 MiB
最后更新	2025年4月22日
创建于	2025年4月22日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。