斯里兰卡僧伽罗语语境抄袭检测数据集-tharukac

斯里兰卡僧伽罗语语境抄袭检测数据集-tharukac 数据来源:互联网公开数据 标签:抄袭检测,僧伽罗语,学术研究,数据集,文本分析,语料库

数据概述: 本数据集是为测试在斯里兰卡僧伽罗语语境下抄袭检测模型性能而创建的。数据集中的标注实体来源于UCSC僧伽罗语新闻语料库,通过随机选择部分实体并由一组学生进行抄袭来生成。抄袭方式包括改变词序和用相似词替换原文中的词。为减少错误概率,抄袭文本已由僧伽罗语专家重新校对,专家根据实体的语义含义手动标注实体是否相似。

数据用途概述: 该数据集适用于抄袭检测算法的验证和优化、僧伽罗语文本分析、学术研究以及教育用途。研究者可以利用此数据集评估抄袭检测模型在僧伽罗语环境下的准确性和可靠性;教师可以使用此数据集进行教学演示和学生练习;学术界可以据此进行进一步的文本分析和研究。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.06 MiB
最后更新 2025年4月21日
创建于 2025年4月21日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。