数据集

文本信息实体识别标注数据集

文本信息实体识别标注数据集_Text_Information_Entity_Recognition_Annotation_Dataset

数据来源：互联网公开数据

标签：实体识别, 命名实体识别, 信息抽取, 文本标注, 机器学习, 自然语言处理, 数据集, 序列标注

数据概述：该数据集包含用于文本信息实体识别任务的标注数据，记录了文本中各种实体类型的实例。主要特征如下：时间跨度：数据未明确标注时间，可视为静态语料数据集。地理范围：数据未限定地理范围，适用于通用文本信息实体识别场景。数据维度：数据集主要包含以下字段： document：文档ID token：词语在文档中的序号 pair：由文档ID和词语序号组成的元组 token_str：词语本身 trailing_whitespace：指示词语后是否有空格 label：标注的实体标签 pair_count：词对计数其他字段：B-EMAIL, B-ID_NUM, B-NAME_STUDENT, B-PHONE_NUM, B-STREET_ADDRESS, B-URL_PERSONAL, B-USERNAME, I-ID_NUM, I-NAME_STUDENT, I-STREET_ADDRESS, O，分别表示实体类型的起始、中间部分和非实体。数据格式：CSV格式，包含pred_train_fold0.csv、pred_train_fold1.csv、pred_train_fold2.csv、pred_train_fold3.csv四个文件，每个文件包含四折交叉验证的数据，以及train.json和ex_train_2355.json，url_count_dict.pkl文件。该数据集适合用于实体识别模型的训练和评估，以及相关自然语言处理任务的研究。

数据用途概述：该数据集具有广泛的应用潜力，特别适用于以下场景：研究与分析：适用于自然语言处理、信息抽取、命名实体识别等领域的学术研究，例如实体识别模型的开发、评估和改进。行业应用：可为信息技术、金融、医疗、法律等行业提供数据支持，例如在客户信息管理、风险控制、病例分析、法律文书处理等场景中应用。决策支持：支持企业在市场分析、竞争情报、舆情监控等方面的决策制定。教育和培训：作为自然语言处理、机器学习等相关课程的教学素材，帮助学生和研究人员理解和实践实体识别技术。此数据集特别适合用于探索文本中各种实体类型的识别方法，帮助用户构建和优化实体识别模型，实现信息抽取、知识图谱构建等目标。

数据与资源

文本信息实体识别标注数据集_Text_Information_Entity_Recogniti...ZIP
729.96 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	729.96 MiB
最后更新	2025年9月17日
创建于	2025年9月17日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

文本信息实体识别标注数据集

数据与资源

附加信息

注册成功！