找到11,745个数据集

标签: 自然语言处理

过滤结果
  • 吉吉瓦斯有毒评论分类数据集-2019

    2025年6月4日   

    吉吉瓦斯有毒评论分类数据集-2019 数据来源:互联网公开数据 标签:吉吉瓦斯,有毒评论,自然语言处理,机器学习,偏见检测,评论分类,文本分析,社交媒体 数据概述:...
    packageimg
  • 模因讽刺检测-人类标注与AI标注对比数据集-2024-sirojiddinboboqulov

    2025年6月4日   

    模因讽刺检测-人类标注与AI标注对比数据集-2024-sirojiddinboboqulov 数据来源:互联网公开数据 标签:模因,讽刺,AI,人类标注,多模态,情感分析,自然语言处理,图像识别,对比分析,解释性AI 数据概述: 本数据集扩展了Memotion...
    packageimg
  • 欧洲议会议事录说话者性别与年龄注释数据集

    2025年6月4日   

    欧洲议会议事录说话者性别与年龄注释数据集 数据来源:互联网公开数据 标签:欧洲议会,说话者属性,性别,年龄,机器翻译,个性化翻译,平行语料库,自然语言处理 数据概述: 本数据集是对欧洲议会议事录的注释版本,标注了说话者的性别和年龄信息,注释粒度为句子级别。数据集包含英语-法语和英语-德语两个平行语料库,为研究个性化机器翻译提供了高质量的数据基础。...
    packageimg
  • 俄语社交媒体短文本情感分析与毒性检测数据集-RuTweetCorp-2012-maximsuvorov

    2025年6月4日   

    俄语社交媒体短文本情感分析与毒性检测数据集-RuTweetCorp-2012-maximsuvorov 数据来源:互联网公开数据 标签:俄语,社交媒体,短文本,情感分析,毒性检测,文本分类,自然语言处理,机器学习,RuTweetCorp 数据概述: 本数据集源自论文《Рубцова Ю. Автоматическое построение и...
    packageimg
  • 巴西葡萄牙语情感分析数据集-2016至2018年-fredericods

    2025年6月4日   

    巴西葡萄牙语情感分析数据集-2016至2018年-fredericods 数据来源:互联网公开数据 标签:巴西葡萄牙语,情感分析,机器学习,自然语言处理,数据集,电商评论,电影评论,应用评论,预处理,教育,研究 数据概述:...
    packageimg
  • 青空文庫日文文学语料库数据集

    2025年6月4日   

    青空文庫日文文学语料库数据集 数据来源:互联网公开数据 标签:日文文学,语料库,文本分析,自然语言处理,教育,文化研究 数据概述: 本数据集是将青空文庫(Aozora Bunko)中收录的日本文学文本编译成更易于使用的CSV格式。包含的经典文学作品涵盖了多个历史时期,为研究日文文本提供了丰富的资源。数据集旨在为研究日文写作和语言学项目提供基础数据支持。...
    packageimg
  • 基于阅读理解的对话关系抽取数据集-QaZre-thedevastator

    2025年6月4日   

    基于阅读理解的对话关系抽取数据集-QaZre-thedevastator 数据来源:互联网公开数据 标签:自然语言处理,关系抽取,阅读理解,知识图谱,对话,机器学习,文本分析 数据概述:...
    packageimg
  • 亚马逊印度商品长度预测机器学习挑战赛数据集-2023年

    2025年6月4日   

    亚马逊印度商品长度预测机器学习挑战赛数据集-2023年 数据来源:互联网公开数据 标签:机器学习,商品长度预测,亚马逊,印度,产品目录,自然语言处理,数据竞赛 数据概述:...
    packageimg
  • 德国政客党派归属预测数据集

    2025年6月4日   

    德国政客党派归属预测数据集 数据来源:互联网公开数据 标签:德国政客,社交媒体分析,自然语言处理,政治倾向,机器学习,文本分类 数据概述: 本数据集基于对德国政客的Twitter数据进行收集和整理,包含了几乎全部德国政客的公开社交媒体信息。数据涵盖政客的文本内容、用户信息、互动记录等关键要素,为研究德国政客的党派归属及其相关特征提供了可靠的数据支持。...
    packageimg
  • 新闻广告标签数据集

    2025年6月4日   

    新闻广告标签数据集 数据来源:互联网公开数据 标签:新闻分类,文本挖掘,广告标签,自然语言处理,机器学习,数据标注 数据概述: 本数据集包含了一批新闻文章及其对应的IAB(互动广告局)分类标签。数据集的来源为Fibe - Hack the Vibe! 2.0 -...
    packageimg
  • 句子转换器离线安装包数据集

    2025年6月4日   

    句子转换器离线安装包数据集 数据来源:互联网公开数据 标签:句子转换器,自然语言处理,机器学习,深度学习,离线安装,Python,模型文件 数据概述:...
    packageimg
  • 达观数据文本处理挑战赛数据集

    2025年6月4日   

    达观数据文本处理挑战赛数据集 数据来源:互联网公开数据 标签:竞赛,文本处理,NLP,分类,长文本解析,自然语言处理,机器学习 数据概述: 本数据集由达观数据提供,用于文本处理竞赛。数据集包含两个CSV文件:train_set.csv和test_set.csv。 -...
    packageimg
  • 亚马逊机器学习挑战赛2022-23数据集

    2025年6月4日   

    亚马逊机器学习挑战赛2022-23数据集 数据来源:互联网公开数据 标签:自然语言处理,产品数据分析,长度预测,机器学习竞赛,亚马逊平台,文本特征提取,包装优化 数据概述:...
    packageimg
  • 千万级Reddit问答数据集

    2025年6月4日   

    千万级Reddit问答数据集 数据来源:互联网公开数据 标签:Reddit,问答数据,自然语言处理,机器学习,数据集,社区问答,情感分析,评分标签 数据概述:...
    packageimg
  • 英语文本BERT基础模型未分词双字母组合数据集-2019

    2025年6月4日   

    英语文本BERT基础模型未分词双字母组合数据集-2019 数据来源:互联网公开数据 标签:BERT,自然语言处理,NLP,双字母组合,英文文本,数据集,预训练模型,语言建模 数据概述:...
    packageimg
  • STEM领域维基百科语料库数据集

    2025年6月4日   

    STEM领域维基百科语料库数据集 数据来源:互联网公开数据 标签:STEM,维基百科,语料库,文本处理,自然语言处理,科学教育,知识图谱,数据分析 数据概述:...
    packageimg
  • TIMIT语音识别和发音学研究语料库数据集

    2025年6月4日   

    TIMIT语音识别和发音学研究语料库数据集 数据来源:互联网公开数据 标签:语料库,语音识别,发音标注,语音处理,自然语言处理,美国英语,发音学研究 数据概述:...
    packageimg
  • 越南语图表问答数据集-ChartQA与Viet-ShareGPT-4o-Text-VQA-nhanvi

    2025年6月4日   

    越南语图表问答数据集-ChartQA与Viet-ShareGPT-4o-Text-VQA-nhanvi 数据来源:互联网公开数据 标签:图表问答,越南语,图像理解,自然语言处理,机器翻译,数据集,多模态,人工智能,ChartQA,Viet-ShareGPT-4o-Text-VQA 数据概述:...
    packageimg
  • Sciphi中小学至研究生教材样本数据集-thedevastator

    2025年6月4日   

    Sciphi中小学至研究生教材样本数据集-thedevastator 数据来源:互联网公开数据 标签:教材样本,教育研究,机器学习,数据集,开放源代码,文本分类,自然语言处理 数据概述:...
    packageimg
  • 马来语大规模文本数据集

    2025年6月1日   

    马来语大规模文本数据集 数据来源:互联网公开数据 标签:马来语,自然语言处理,语言模型训练,文本数据,机器学习,深度学习,文本清洗 数据概述: 本数据集包含超过600万行独特的马来语文本,数据来源于多个公开数据集并经过清洗处理,确保数据的高质量和可用性。该数据集为研究人员和开发者提供了一个丰富且多样化的文本资源,适用于多种自然语言处理任务。...
    packageimg