找到672个数据集

标签: 语言学

过滤结果
  • 保加利亚诗歌数据集1963-2021

    2025年4月15日   

    保加利亚诗歌数据集1963-2021 数据来源:互联网公开数据 标签:保加利亚诗歌,文本生成,作者分类,文学研究,语言学 数据概述: 本数据集收录了从Chitanka.info网站爬取的保加利亚诗歌,涵盖了多个时期的作品。数据以CSV文件格式存储在chitanka-...
    packageimg
  • 波斯语拼写纠错数据集-FASpell数据集

    2025年4月15日   

    波斯语拼写纠错数据集-FASpell数据集 数据来源:互联网公开数据 标签:波斯语,Farsi,拼写纠错,自然语言处理,NLP,语言学,文本校对,教育,机器学习 数据概述:...
    packageimg
  • 波兰手语数据集

    2025年4月14日   

    波兰手语数据集 数据来源:互联网公开数据 标签:波兰手语,手势识别,机器学习,计算机视觉,语言学,模式识别,数据科学,波兰文化,手语研究 数据概述:...
    packageimg
  • 社交媒体仇恨言论识别数据集-文本内容-2017

    2025年4月14日   

    社交媒体仇恨言论识别数据集-文本内容-2017 数据来源:互联网公开数据 标签:仇恨言论,社交媒体,文本分析,情感分析,自然语言处理,语言学,数据标注,分类,攻击性语言 数据概述: 本数据集包含近1.5万条短文本,每条文本均由多位贡献者进行标注,以识别其是否包含仇恨言论。标注结果分为三类:a) 包含仇恨言论;b) 具有攻击性,但不属于仇恨言论;c)...
    packageimg
  • 韩国谚语与格言数据集

    2025年4月14日   

    韩国谚语与格言数据集 数据来源:互联网公开数据 标签:韩国谚语,韩国格言,文化遗产,文化研究,语言学,社会学 数据概述: 本数据集包含了丰富的韩国谚语与格言,涵盖了从古代到现代的广泛时期。数据集中的每一条谚语或格言都提供了其意义、来源以及类型(如俗语、成语等)的详细说明,为研究韩国语言文化和社会习俗提供了宝贵资源。 数据用途概述:...
    packageimg
  • 阿拉伯语仇恨言论检测数据集-42k

    2025年4月14日   

    阿拉伯语仇恨言论检测数据集-42k 数据来源:互联网公开数据 标签:阿拉伯语,仇恨言论,社交媒体,文本分析,自然语言处理,情感分析,语言学,机器学习 数据概述: 本数据集包含超过42,000条阿拉伯语文本数据,主要来源于社交媒体平台。 数据集旨在为研究和开发阿拉伯语仇恨言论检测模型提供支持。...
    packageimg
  • 德语词汇列表数据集

    2025年4月14日   

    德语词汇列表数据集 数据来源:互联网公开数据 标签:德语词汇,语言学,语料库,书籍,文本分析,教育,研究 数据概述: 本数据集收录了11本德语书籍的文本内容,总计超过3000页。数据集中只包含一个字段,为德语词汇列表。这些书籍来源于互联网资源,包括DOABooks和USP E-Disciplinas平台上的相关文档。 数据用途概述:...
    packageimg
  • 葡萄牙语单复数数据库

    2025年4月14日   

    葡萄牙语单复数数据库 数据来源:互联网公开数据 标签:葡萄牙语,单复数,语言学,词汇,数据分析,教育,词典 数据概述:...
    packageimg
  • 瓦尔米基罗摩衍那梵文数据集

    2025年4月14日   

    瓦尔米基罗摩衍那梵文数据集 数据来源:互联网公开数据 标签:梵文,印度史诗,瓦尔米基,罗摩衍那,神话,文学,印度文化,语言学,历史 数据概述:...
    packageimg
  • 贝叶斯网络自然语言解释文本数据集

    2025年4月14日   

    贝叶斯网络自然语言解释文本数据集 数据来源:互联网公开数据 标签:贝叶斯网络,自然语言解释,可解释AI,文本分析,机器学习,语料库,语言学,解释生成 数据概述: 本数据集,即ExBAN语料库(Explanations for BAyesian...
    packageimg
  • 孟加拉语文本噪声标注数据集-情感分析应用-2024

    2025年4月14日   

    孟加拉语文本噪声标注数据集-情感分析应用-2024 数据来源:互联网公开数据 标签:孟加拉语,文本,噪声,标注,情感分析,自然语言处理,W-NUT,机器学习,语言学 数据概述: 本数据集为多标签数据集,旨在用于孟加拉语文本中的噪声识别。该数据集由四位母语为孟加拉语的专家标注,标注可信度达到90%。Fleiss'...
    packageimg
  • 词语难度评估数据集

    2025年4月14日   

    词语难度评估数据集 数据来源:互联网公开数据 标签:词语难度,语言学,文本简化,深度学习,特征工程,自然语言处理,词频分析,二分类问题 数据概述 本数据集包含40,481条数据记录,主要用于评估词语的难度。数据集的每个实例包含多个特征,包括词语本身、词长、词频、词频的对数变换、平均反应时间(Mean...
    packageimg
  • 印度及其他国家姓氏国籍分类数据集

    2025年4月14日   

    印度及其他国家姓氏国籍分类数据集 数据来源:互联网公开数据 标签:姓氏,国籍分类,数据集,文化研究,人口统计,语言学,机器学习 数据概述:...
    packageimg
  • 巴西亚克语新约圣经文本数据集

    2025年4月14日   

    巴西亚克语新约圣经文本数据集 数据来源:互联网公开数据 标签:巴西亚克语,新约圣经,文本数据,宗教研究,语言学 数据概述: 本数据集收录了27本巴西亚克语新约圣经的文本数据,以CSV格式呈现。这些文本涵盖了新约圣经的所有章节,为宗教研究、语言学分析以及文化研究提供了丰富的资源。 数据用途概述:...
    packageimg
  • 尼泊尔事实性问题意图分类数据集

    2025年4月14日   

    尼泊尔事实性问题意图分类数据集 数据来源:互联网公开数据 标签:尼泊尔,自然语言处理,问题分类,问答系统,知识库,教育,语言学 数据概述: 本数据集收录了从尼泊尔一般知识书籍中收集的事实性问题,并根据开发的分类体系进行了标注。数据集包括了不同类别和意图的问题,旨在为尼泊尔自然语言处理领域的问答系统提供基础数据支持。 数据用途概述:...
    packageimg
  • 世界语言结构数据库语言特征与分布数据集

    2025年4月14日   

    世界语言结构数据库语言特征与分布数据集 数据来源:互联网公开数据 标签:语言学,语言结构,语言特征,全球语言,WALS,语言分布,语言多样性,数据分析,地图可视化 数据概述: 本数据集基于《世界语言结构数据库》(WALS, World Atlas of Language...
    packageimg
  • 阿拉伯语日常对话数据集-涵盖5000个对话-多主题-AI生成

    2025年4月14日   

    阿拉伯语日常对话数据集-涵盖5000个对话-多主题-AI生成 数据来源:互联网公开数据 标签:阿拉伯语,对话,语言学,自然语言处理,AI生成,文本数据,文化交流,语言学习 数据概述:...
    packageimg
  • 孟加拉语词形还原数据集

    2025年4月14日   

    孟加拉语词形还原数据集 数据来源:互联网公开数据 标签:孟加拉语,词形还原,自然语言处理,文本分析,语言学,数据集 数据概述: “孟加拉语词形还原数据集”收录了来自不同文本来源的词形还原词,特别 focus 在泰戈尔短篇小说和涵盖多个领域的新闻文章。该数据集为孟加拉语自然语言处理任务提供了宝贵的资源。 数据用途概述:...
    packageimg
  • Hinglish印地语-英语混合语机器翻译数据集

    2025年4月14日   

    Hinglish印地语-英语混合语机器翻译数据集 数据来源:互联网公开数据 标签:机器翻译,文本生成,代码混合语言,Hinglish,印地语,英语,自然语言处理,语言学,数据集 数据概述: 本数据集(HinGE)旨在促进代码混合语言,特别是 Hinglish(印地语和英语的混合)的自然语言生成研究。数据集包含由人类生成的 Hinglish...
    packageimg
  • 英德阿拉伯文本翻译数据集

    2025年4月14日   

    英德阿拉伯文本翻译数据集 数据来源:互联网公开数据 标签:文本翻译,语言学,英语,德语,阿拉伯语,多语言数据集,语言对比 数据概述: 本数据集包含从英语翻译到德语和阿拉伯语的多语言文本内容。数据集涵盖了广泛的文本类型,适用于语言学研究、机器翻译模型训练以及跨语言信息处理等领域。其中,阿拉伯语翻译部分来源于特定的数据集。 数据用途概述:...
    packageimg