-
印度僧伽罗语歌曲与比喻数据集
印度僧伽罗语歌曲与比喻数据集 数据来源:互联网公开数据 标签:僧伽罗语,歌曲,比喻,歌词分析,文化研究,语言学,文学 数据概述: 本数据集包含与僧伽罗语歌曲及其所用比喻相关的信息。数据涵盖了各类僧伽罗语歌曲的歌词、歌曲主题、使用的比喻及其含义等关键要素,为研究僧伽罗语文化和文学提供了丰富的语言材料。 数据用途概述:... -
波斯语文本蕴含推理数据集FarsTail
波斯语文本蕴含推理数据集FarsTail 数据来源:互联网公开数据 标签:自然语言处理,文本蕴含,NLI,波斯语,波斯文,Farsi,数据集,机器翻译,语言学 数据概述:... -
英语到阿萨姆语平行语料库数据集
英语到阿萨姆语平行语料库数据集 数据来源:互联网公开数据 标签:英语,阿萨姆语,平行语料库,自然语言处理,翻译,语言学 数据概述: 本数据集包含大量经过清理的英语到阿萨姆语平行语料库数据,适用于自然语言处理和机器翻译研究。数据集分为两部分:1_eng.txt 包含大量的英语句子,1_assamese.txt... -
讽刺文本情感分析语料库数据集V2-讽刺文本分类数据集
讽刺文本情感分析语料库数据集V2-讽刺文本分类数据集 数据来源:互联网公开数据 标签:讽刺,情感分析,文本分类,自然语言处理,语料库,机器学习,社交媒体,语言学 数据概述:... -
保加利亚诗歌数据集1963-2021
保加利亚诗歌数据集1963-2021 数据来源:互联网公开数据 标签:保加利亚诗歌,文本生成,作者分类,文学研究,语言学 数据概述: 本数据集收录了从Chitanka.info网站爬取的保加利亚诗歌,涵盖了多个时期的作品。数据以CSV文件格式存储在chitanka-... -
波斯语拼写纠错数据集-FASpell数据集
波斯语拼写纠错数据集-FASpell数据集 数据来源:互联网公开数据 标签:波斯语,Farsi,拼写纠错,自然语言处理,NLP,语言学,文本校对,教育,机器学习 数据概述:... -
-
社交媒体仇恨言论识别数据集-文本内容-2017
社交媒体仇恨言论识别数据集-文本内容-2017 数据来源:互联网公开数据 标签:仇恨言论,社交媒体,文本分析,情感分析,自然语言处理,语言学,数据标注,分类,攻击性语言 数据概述: 本数据集包含近1.5万条短文本,每条文本均由多位贡献者进行标注,以识别其是否包含仇恨言论。标注结果分为三类:a) 包含仇恨言论;b) 具有攻击性,但不属于仇恨言论;c)... -
韩国谚语与格言数据集
韩国谚语与格言数据集 数据来源:互联网公开数据 标签:韩国谚语,韩国格言,文化遗产,文化研究,语言学,社会学 数据概述: 本数据集包含了丰富的韩国谚语与格言,涵盖了从古代到现代的广泛时期。数据集中的每一条谚语或格言都提供了其意义、来源以及类型(如俗语、成语等)的详细说明,为研究韩国语言文化和社会习俗提供了宝贵资源。 数据用途概述:... -
阿拉伯语仇恨言论检测数据集-42k
阿拉伯语仇恨言论检测数据集-42k 数据来源:互联网公开数据 标签:阿拉伯语,仇恨言论,社交媒体,文本分析,自然语言处理,情感分析,语言学,机器学习 数据概述: 本数据集包含超过42,000条阿拉伯语文本数据,主要来源于社交媒体平台。 数据集旨在为研究和开发阿拉伯语仇恨言论检测模型提供支持。... -
德语词汇列表数据集
德语词汇列表数据集 数据来源:互联网公开数据 标签:德语词汇,语言学,语料库,书籍,文本分析,教育,研究 数据概述: 本数据集收录了11本德语书籍的文本内容,总计超过3000页。数据集中只包含一个字段,为德语词汇列表。这些书籍来源于互联网资源,包括DOABooks和USP E-Disciplinas平台上的相关文档。 数据用途概述:... -
-
-
贝叶斯网络自然语言解释文本数据集
贝叶斯网络自然语言解释文本数据集 数据来源:互联网公开数据 标签:贝叶斯网络,自然语言解释,可解释AI,文本分析,机器学习,语料库,语言学,解释生成 数据概述: 本数据集,即ExBAN语料库(Explanations for BAyesian... -
孟加拉语文本噪声标注数据集-情感分析应用-2024
孟加拉语文本噪声标注数据集-情感分析应用-2024 数据来源:互联网公开数据 标签:孟加拉语,文本,噪声,标注,情感分析,自然语言处理,W-NUT,机器学习,语言学 数据概述: 本数据集为多标签数据集,旨在用于孟加拉语文本中的噪声识别。该数据集由四位母语为孟加拉语的专家标注,标注可信度达到90%。Fleiss'... -
词语难度评估数据集
词语难度评估数据集 数据来源:互联网公开数据 标签:词语难度,语言学,文本简化,深度学习,特征工程,自然语言处理,词频分析,二分类问题 数据概述 本数据集包含40,481条数据记录,主要用于评估词语的难度。数据集的每个实例包含多个特征,包括词语本身、词长、词频、词频的对数变换、平均反应时间(Mean... -
印度及其他国家姓氏国籍分类数据集
印度及其他国家姓氏国籍分类数据集 数据来源:互联网公开数据 标签:姓氏,国籍分类,数据集,文化研究,人口统计,语言学,机器学习 数据概述:... -
巴西亚克语新约圣经文本数据集
巴西亚克语新约圣经文本数据集 数据来源:互联网公开数据 标签:巴西亚克语,新约圣经,文本数据,宗教研究,语言学 数据概述: 本数据集收录了27本巴西亚克语新约圣经的文本数据,以CSV格式呈现。这些文本涵盖了新约圣经的所有章节,为宗教研究、语言学分析以及文化研究提供了丰富的资源。 数据用途概述:... -
尼泊尔事实性问题意图分类数据集
尼泊尔事实性问题意图分类数据集 数据来源:互联网公开数据 标签:尼泊尔,自然语言处理,问题分类,问答系统,知识库,教育,语言学 数据概述: 本数据集收录了从尼泊尔一般知识书籍中收集的事实性问题,并根据开发的分类体系进行了标注。数据集包括了不同类别和意图的问题,旨在为尼泊尔自然语言处理领域的问答系统提供基础数据支持。 数据用途概述:... -
世界语言结构数据库语言特征与分布数据集
世界语言结构数据库语言特征与分布数据集 数据来源:互联网公开数据 标签:语言学,语言结构,语言特征,全球语言,WALS,语言分布,语言多样性,数据分析,地图可视化 数据概述: 本数据集基于《世界语言结构数据库》(WALS, World Atlas of Language...