数据集 - 海数据

印地语仇恨言论数据集

2025年4月15日

印地语仇恨言论数据集数据来源：互联网公开数据标签：印地语,仇恨言论,多标签分类,诽谤,虚假信息,仇恨,非敌对,冒犯数据概述：...

ZIP

孟加拉语-英语-印地语混合语言侮辱性语言识别数据集

2025年4月15日

孟加拉语-英语-印地语混合语言侮辱性语言识别数据集数据来源：互联网公开数据标签：侮辱性语言,代码混合,孟加拉语,英语,印地语,自然语言处理,文本分类,情感分析数据概述：...

ZIP

Spotify平台热门印地语歌曲数据集-印度-歌曲-时间未知

2025年4月15日

Spotify平台热门印地语歌曲数据集-印度-歌曲-时间未知数据来源：互联网公开数据标签：Spotify, 歌曲, 印地语, 印度, 音乐, 流行歌曲, 数据分析, 音乐流媒体数据概述：...

ZIP

英语-印地语句子数据集

2025年4月14日

英语-印地语句子数据集数据来源：互联网公开数据标签：英语,印地语,句子翻译,语言学习,文本分析,机器翻译,双语数据集数据概述：本数据集包含2718条英语句子及其对应的印地语翻译，旨在为语言学习、文本分析和机器翻译研究提供高质量的双语数据。数据集中的每对句子均经过仔细校对，确保翻译的准确性和一致性。数据用途概述：...

ZIP

印地语-英语音译数据集

2025年4月14日

印地语-英语音译数据集数据来源：互联网公开数据标签：印地语,英语,音译,自然语言处理,文本分类,情感分析,机器翻译,跨语言分析数据概述：本数据集包含印地语与英语语言对的音译文本数据，旨在促进自然语言处理任务，如文本分类、情感分析和机器翻译。数据集涵盖了不同领域和主题的各种文本样本，从短语到长句不等。数据集中的每个条目由一对印地语-...

ZIP

改良后的印地语-孟加拉语仇恨言论数据集

2025年4月14日

改良后的印地语-孟加拉语仇恨言论数据集数据来源：互联网公开数据标签：仇恨言论,印地语,孟加拉语,多标签分类,文本分析,语言处理,社会研究数据概述：...

ZIP

印地语等多种语言Quora问答对数据集

2025年4月14日

印地语等多种语言Quora问答对数据集数据来源：互联网公开数据标签：问答对, Quora, 多语言, 印地语, 奥里亚语, 孟加拉语, 古吉拉特语, 马拉地语, 泰米尔语, 旁遮普语, 自然语言处理, 文本分析数据概述：本数据集包含3300对来自原始Quora问答对数据集的问答对。...

ZIP

印度歌曲歌词数据集1963-2023

2025年4月14日

印度歌曲歌词数据集1963-2023 数据来源：互联网公开数据标签：印度歌曲,歌词,印地语,印地英语,音乐分析,文化研究,语言学习数据概述：本数据集收录了超过3500首印度语和印地英语歌曲的歌词，时间跨度从1963年至2023年。数据集涵盖了不同年代、不同流派和不同艺术家的歌曲，为研究印度音乐文化、语言和歌词内容提供了丰富的资源。数据用途概述：...

ZIP

印地语情感分析数据集

2025年4月14日

印地语情感分析数据集数据来源：互联网公开数据标签：印地语,情感分析,NLP,自然语言处理,机器学习,情感分类,情绪识别数据概述：本数据集包含约8000条用印地语编写的句子，这些句子被分类为七个标签：中性、惊讶、恐惧、悲伤、快乐、厌恶和愤怒。该数据集为印地语句子的情感分析提供了基础，适用于自然语言处理或序列学习模型的应用。数据用途概述：...

ZIP

常用印地语词汇与语言学习数据集

2025年4月14日

常用印地语词汇与语言学习数据集数据来源：互联网公开数据标签：印地语,词汇,语言学习,自然语言处理,翻译,教育,文化研究数据概述：本数据集基于IIT...

ZIP

Hinglish印地语-英语混合语机器翻译数据集

2025年4月14日

Hinglish印地语-英语混合语机器翻译数据集数据来源：互联网公开数据标签：机器翻译,文本生成,代码混合语言,Hinglish,印地语,英语,自然语言处理,语言学,数据集数据概述：本数据集（HinGE）旨在促进代码混合语言，特别是 Hinglish（印地语和英语的混合）的自然语言生成研究。数据集包含由人类生成的 Hinglish...

ZIP

印地语-英语混合数据集

2025年4月14日

印地语-英语混合数据集数据来源：互联网公开数据标签：印地语,英语,混合语言,评论数据,网络欺凌,文本分类,社会媒体分析数据概述：本数据集包含超过9000条标注的印地语-英语混合语言（Hinglish）评论。每条评论都被标注为0或1，分别表示非欺凌评论和欺凌评论。数据集提供了丰富的多语言文本样本，适用于分析和研究网络环境中的欺凌行为。...

ZIP

用于对印地语 NCERT 科学教科书上的 Gemma 2 进行微调的结构化数据集

2025年2月13日

该数据集经过精心设计，旨在微调 Gemma 2 语言模型，以生成印地语教育内容，专门针对 3 年级至 10 年级的科学主题。该数据集使用印地语 NCERT 教科书构建，由三个结构化组件组成，可实现有效的语言模型训练。数据集组件 1. 图书数据包含 3 年级至 10 年级印地语 NCERT 科学教科书的 PDF 文件。...

zip

找到113个数据集

注册成功！