找到110个数据集

标签: 印地语

过滤结果
  • 印地语混合语YouTube评论仇恨言论NLP使用数据集

    2025年4月14日   

    印地语混合语YouTube评论仇恨言论NLP使用数据集 数据来源:互联网公开数据 数据集说明: 本数据集旨在支持对社交媒体中针对宗教的仇恨言论进行自动识别与分析,特别聚焦于 Hindi-English code-mixed(印地语-英语混合)语言 的 YouTube...
    packageimg
  • 印地语-英语音译数据集

    2025年4月14日   

    印地语-英语音译数据集 数据来源:互联网公开数据 标签:印地语,英语,音译,自然语言处理,文本分类,情感分析,机器翻译,跨语言分析 数据概述: 本数据集包含印地语与英语语言对的音译文本数据,旨在促进自然语言处理任务,如文本分类、情感分析和机器翻译。数据集涵盖了不同领域和主题的各种文本样本,从短语到长句不等。数据集中的每个条目由一对印地语-...
    packageimg
  • 改良后的印地语-孟加拉语仇恨言论数据集

    2025年4月14日   

    改良后的印地语-孟加拉语仇恨言论数据集 数据来源:互联网公开数据 标签:仇恨言论,印地语,孟加拉语,多标签分类,文本分析,语言处理,社会研究 数据概述:...
    packageimg
  • 印地语等多种语言Quora问答对数据集

    2025年4月14日   

    印地语等多种语言Quora问答对数据集 数据来源:互联网公开数据 标签:问答对, Quora, 多语言, 印地语, 奥里亚语, 孟加拉语, 古吉拉特语, 马拉地语, 泰米尔语, 旁遮普语, 自然语言处理, 文本分析 数据概述: 本数据集包含3300对来自原始Quora问答对数据集的问答对。...
    packageimg
  • 印度歌曲歌词数据集1963-2023

    2025年4月14日   

    印度歌曲歌词数据集1963-2023 数据来源:互联网公开数据 标签:印度歌曲,歌词,印地语,印地英语,音乐分析,文化研究,语言学习 数据概述: 本数据集收录了超过3500首印度语和印地英语歌曲的歌词,时间跨度从1963年至2023年。数据集涵盖了不同年代、不同流派和不同艺术家的歌曲,为研究印度音乐文化、语言和歌词内容提供了丰富的资源。 数据用途概述:...
    packageimg
  • 印地语情感分析数据集

    2025年4月14日   

    印地语情感分析数据集 数据来源:互联网公开数据 标签:印地语,情感分析,NLP,自然语言处理,机器学习,情感分类,情绪识别 数据概述: 本数据集包含约8000条用印地语编写的句子,这些句子被分类为七个标签:中性、惊讶、恐惧、悲伤、快乐、厌恶和愤怒。该数据集为印地语句子的情感分析提供了基础,适用于自然语言处理或序列学习模型的应用。 数据用途概述:...
    packageimg
  • 常用印地语词汇与语言学习数据集

    2025年4月14日   

    常用印地语词汇与语言学习数据集 数据来源:互联网公开数据 标签:印地语,词汇,语言学习,自然语言处理,翻译,教育,文化研究 数据概述: 本数据集基于IIT...
    packageimg
  • Hinglish印地语-英语混合语机器翻译数据集

    2025年4月14日   

    Hinglish印地语-英语混合语机器翻译数据集 数据来源:互联网公开数据 标签:机器翻译,文本生成,代码混合语言,Hinglish,印地语,英语,自然语言处理,语言学,数据集 数据概述: 本数据集(HinGE)旨在促进代码混合语言,特别是 Hinglish(印地语和英语的混合)的自然语言生成研究。数据集包含由人类生成的 Hinglish...
    packageimg
  • 印地语-英语混合数据集

    2025年4月14日   

    印地语-英语混合数据集 数据来源:互联网公开数据 标签:印地语,英语,混合语言,评论数据,网络欺凌,文本分类,社会媒体分析 数据概述: 本数据集包含超过9000条标注的印地语-英语混合语言(Hinglish)评论。每条评论都被标注为0或1,分别表示非欺凌评论和欺凌评论。数据集提供了丰富的多语言文本样本,适用于分析和研究网络环境中的欺凌行为。...
    packageimg
  • 用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集

    2025年2月13日   

    该数据集经过精心设计,旨在微调 Gemma 2 语言模型,以生成印地语教育内容,专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建,由三个结构化组件组成,可实现有效的语言模型训练。 数据集组件 1. 图书数据 包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...
    packageimg