-
保加利亚诗歌数据集1963-2021
保加利亚诗歌数据集1963-2021 数据来源:互联网公开数据 标签:保加利亚诗歌,文本生成,作者分类,文学研究,语言学 数据概述: 本数据集收录了从Chitanka.info网站爬取的保加利亚诗歌,涵盖了多个时期的作品。数据以CSV文件格式存储在chitanka-... -
波斯语拼写纠错数据集-FASpell数据集
波斯语拼写纠错数据集-FASpell数据集 数据来源:互联网公开数据 标签:波斯语,Farsi,拼写纠错,自然语言处理,NLP,语言学,文本校对,教育,机器学习 数据概述:... -
-
社交媒体仇恨言论识别数据集-文本内容-2017
社交媒体仇恨言论识别数据集-文本内容-2017 数据来源:互联网公开数据 标签:仇恨言论,社交媒体,文本分析,情感分析,自然语言处理,语言学,数据标注,分类,攻击性语言 数据概述: 本数据集包含近1.5万条短文本,每条文本均由多位贡献者进行标注,以识别其是否包含仇恨言论。标注结果分为三类:a) 包含仇恨言论;b) 具有攻击性,但不属于仇恨言论;c)... -
韩国谚语与格言数据集
韩国谚语与格言数据集 数据来源:互联网公开数据 标签:韩国谚语,韩国格言,文化遗产,文化研究,语言学,社会学 数据概述: 本数据集包含了丰富的韩国谚语与格言,涵盖了从古代到现代的广泛时期。数据集中的每一条谚语或格言都提供了其意义、来源以及类型(如俗语、成语等)的详细说明,为研究韩国语言文化和社会习俗提供了宝贵资源。 数据用途概述:... -
阿拉伯语仇恨言论检测数据集-42k
阿拉伯语仇恨言论检测数据集-42k 数据来源:互联网公开数据 标签:阿拉伯语,仇恨言论,社交媒体,文本分析,自然语言处理,情感分析,语言学,机器学习 数据概述: 本数据集包含超过42,000条阿拉伯语文本数据,主要来源于社交媒体平台。 数据集旨在为研究和开发阿拉伯语仇恨言论检测模型提供支持。... -
德语词汇列表数据集
德语词汇列表数据集 数据来源:互联网公开数据 标签:德语词汇,语言学,语料库,书籍,文本分析,教育,研究 数据概述: 本数据集收录了11本德语书籍的文本内容,总计超过3000页。数据集中只包含一个字段,为德语词汇列表。这些书籍来源于互联网资源,包括DOABooks和USP E-Disciplinas平台上的相关文档。 数据用途概述:... -
-
-
贝叶斯网络自然语言解释文本数据集
贝叶斯网络自然语言解释文本数据集 数据来源:互联网公开数据 标签:贝叶斯网络,自然语言解释,可解释AI,文本分析,机器学习,语料库,语言学,解释生成 数据概述: 本数据集,即ExBAN语料库(Explanations for BAyesian... -
孟加拉语文本噪声标注数据集-情感分析应用-2024
孟加拉语文本噪声标注数据集-情感分析应用-2024 数据来源:互联网公开数据 标签:孟加拉语,文本,噪声,标注,情感分析,自然语言处理,W-NUT,机器学习,语言学 数据概述: 本数据集为多标签数据集,旨在用于孟加拉语文本中的噪声识别。该数据集由四位母语为孟加拉语的专家标注,标注可信度达到90%。Fleiss'... -
词语难度评估数据集
词语难度评估数据集 数据来源:互联网公开数据 标签:词语难度,语言学,文本简化,深度学习,特征工程,自然语言处理,词频分析,二分类问题 数据概述 本数据集包含40,481条数据记录,主要用于评估词语的难度。数据集的每个实例包含多个特征,包括词语本身、词长、词频、词频的对数变换、平均反应时间(Mean... -
印度及其他国家姓氏国籍分类数据集
印度及其他国家姓氏国籍分类数据集 数据来源:互联网公开数据 标签:姓氏,国籍分类,数据集,文化研究,人口统计,语言学,机器学习 数据概述:... -
巴西亚克语新约圣经文本数据集
巴西亚克语新约圣经文本数据集 数据来源:互联网公开数据 标签:巴西亚克语,新约圣经,文本数据,宗教研究,语言学 数据概述: 本数据集收录了27本巴西亚克语新约圣经的文本数据,以CSV格式呈现。这些文本涵盖了新约圣经的所有章节,为宗教研究、语言学分析以及文化研究提供了丰富的资源。 数据用途概述:... -
尼泊尔事实性问题意图分类数据集
尼泊尔事实性问题意图分类数据集 数据来源:互联网公开数据 标签:尼泊尔,自然语言处理,问题分类,问答系统,知识库,教育,语言学 数据概述: 本数据集收录了从尼泊尔一般知识书籍中收集的事实性问题,并根据开发的分类体系进行了标注。数据集包括了不同类别和意图的问题,旨在为尼泊尔自然语言处理领域的问答系统提供基础数据支持。 数据用途概述:... -
世界语言结构数据库语言特征与分布数据集
世界语言结构数据库语言特征与分布数据集 数据来源:互联网公开数据 标签:语言学,语言结构,语言特征,全球语言,WALS,语言分布,语言多样性,数据分析,地图可视化 数据概述: 本数据集基于《世界语言结构数据库》(WALS, World Atlas of Language... -
阿拉伯语日常对话数据集-涵盖5000个对话-多主题-AI生成
阿拉伯语日常对话数据集-涵盖5000个对话-多主题-AI生成 数据来源:互联网公开数据 标签:阿拉伯语,对话,语言学,自然语言处理,AI生成,文本数据,文化交流,语言学习 数据概述:... -
孟加拉语词形还原数据集
孟加拉语词形还原数据集 数据来源:互联网公开数据 标签:孟加拉语,词形还原,自然语言处理,文本分析,语言学,数据集 数据概述: “孟加拉语词形还原数据集”收录了来自不同文本来源的词形还原词,特别 focus 在泰戈尔短篇小说和涵盖多个领域的新闻文章。该数据集为孟加拉语自然语言处理任务提供了宝贵的资源。 数据用途概述:... -
Hinglish印地语-英语混合语机器翻译数据集
Hinglish印地语-英语混合语机器翻译数据集 数据来源:互联网公开数据 标签:机器翻译,文本生成,代码混合语言,Hinglish,印地语,英语,自然语言处理,语言学,数据集 数据概述: 本数据集(HinGE)旨在促进代码混合语言,特别是 Hinglish(印地语和英语的混合)的自然语言生成研究。数据集包含由人类生成的 Hinglish... -
英德阿拉伯文本翻译数据集
英德阿拉伯文本翻译数据集 数据来源:互联网公开数据 标签:文本翻译,语言学,英语,德语,阿拉伯语,多语言数据集,语言对比 数据概述: 本数据集包含从英语翻译到德语和阿拉伯语的多语言文本内容。数据集涵盖了广泛的文本类型,适用于语言学研究、机器翻译模型训练以及跨语言信息处理等领域。其中,阿拉伯语翻译部分来源于特定的数据集。 数据用途概述:...