印度区域语言命名实体识别标注数据集

印度区域语言命名实体识别标注数据集 数据来源:互联网公开数据 标签:命名实体识别,印度语言,数据标注,自然语言处理,Tamil,NER,区域语言

数据概述: 本数据集旨在对印度的多种区域语言进行命名实体识别(NER)标注。数据集目前包含了泰米尔语的标注信息,并计划在未来扩展到更多语言,如泰卢固语、卡纳达语、马拉雅拉姆语和印地语等。每条记录包含了文本及其标注的实体信息,适用于自然语言处理领域的研究和应用。

数据用途概述: 该数据集适用于区域语言的命名实体识别研究、信息抽取、文本分析等场景。研究人员可以利用此数据集训练和评估NER模型,提高模型对印度区域语言的理解能力;同时,数据集也适用于教育培训,帮助学习者掌握区域语言文本处理技术。

举例: 数据集中的每条记录格式如下: 文本: ராமாவட்டம் சென்னையில் உள்ள ஒரு பேயரியாளப்பட்ட வியாழக் பூட்கையாக அறிவுறுத்தப்பட்டது. 标注: ராமாவட்டம்-பெயர், சென்னை-இடம்

通过这些标注数据,研究人员可以训练机器学习模型来识别和分类印度不同区域语言中的实体,如人名、地名、组织名等。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 6.18 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。