找到11,938个数据集

标签: 自然语言处理

过滤结果
  • 自然语言处理多领域对话数据集UltraChat-200K-thedevastator

    2025年6月4日   

    自然语言处理多领域对话数据集UltraChat-200K-thedevastator 数据来源:互联网公开数据 标签:自然语言处理,对话,生成,训练,文本,语言模型,NLG,语料库 数据概述:...
    packageimg
  • 黑客新闻文本嵌入数据集-2023-julien040

    2025年6月4日   

    黑客新闻文本嵌入数据集-2023-julien040 数据来源:互联网公开数据 标签:黑客新闻,OpenAI,文本嵌入,自然语言处理,计算机科学,创业,数据集,API 数据概述: 本数据集包含超过100,000篇来自黑客新闻(Hacker News)的帖子,黑客新闻是一个专注于计算机科学和创业的社交新闻网站。每篇帖子包含以下字段:...
    packageimg
  • 俄罗斯语音识别数据集

    2025年6月4日   

    俄罗斯语音识别数据集 数据来源:互联网公开数据 标签:语音识别,俄罗斯,ASR,STT,语音特征,自然语言处理,机器学习 数据概述:...
    packageimg
  • Jigsaw毒性评论分类无意偏见检测数据集

    2025年6月4日   

    Jigsaw毒性评论分类无意偏见检测数据集 数据来源:互联网公开数据 标签:Jigsaw,毒性评论,分类,机器学习,自然语言处理,偏见检测,数据集 数据概述: 本数据集来自Jigsaw Unintended Bias in Toxicity...
    packageimg
  • 吉吉瓦斯有毒评论分类数据集-2019

    2025年6月4日   

    吉吉瓦斯有毒评论分类数据集-2019 数据来源:互联网公开数据 标签:吉吉瓦斯,有毒评论,自然语言处理,机器学习,偏见检测,评论分类,文本分析,社交媒体 数据概述:...
    packageimg
  • 模因讽刺检测-人类标注与AI标注对比数据集-2024-sirojiddinboboqulov

    2025年6月4日   

    模因讽刺检测-人类标注与AI标注对比数据集-2024-sirojiddinboboqulov 数据来源:互联网公开数据 标签:模因,讽刺,AI,人类标注,多模态,情感分析,自然语言处理,图像识别,对比分析,解释性AI 数据概述: 本数据集扩展了Memotion...
    packageimg
  • 欧洲议会议事录说话者性别与年龄注释数据集

    2025年6月4日   

    欧洲议会议事录说话者性别与年龄注释数据集 数据来源:互联网公开数据 标签:欧洲议会,说话者属性,性别,年龄,机器翻译,个性化翻译,平行语料库,自然语言处理 数据概述: 本数据集是对欧洲议会议事录的注释版本,标注了说话者的性别和年龄信息,注释粒度为句子级别。数据集包含英语-法语和英语-德语两个平行语料库,为研究个性化机器翻译提供了高质量的数据基础。...
    packageimg
  • 俄语社交媒体短文本情感分析与毒性检测数据集-RuTweetCorp-2012-maximsuvorov

    2025年6月4日   

    俄语社交媒体短文本情感分析与毒性检测数据集-RuTweetCorp-2012-maximsuvorov 数据来源:互联网公开数据 标签:俄语,社交媒体,短文本,情感分析,毒性检测,文本分类,自然语言处理,机器学习,RuTweetCorp 数据概述: 本数据集源自论文《Рубцова Ю. Автоматическое построение и...
    packageimg
  • 巴西葡萄牙语情感分析数据集-2016至2018年-fredericods

    2025年6月4日   

    巴西葡萄牙语情感分析数据集-2016至2018年-fredericods 数据来源:互联网公开数据 标签:巴西葡萄牙语,情感分析,机器学习,自然语言处理,数据集,电商评论,电影评论,应用评论,预处理,教育,研究 数据概述:...
    packageimg
  • 青空文庫日文文学语料库数据集

    2025年6月4日   

    青空文庫日文文学语料库数据集 数据来源:互联网公开数据 标签:日文文学,语料库,文本分析,自然语言处理,教育,文化研究 数据概述: 本数据集是将青空文庫(Aozora Bunko)中收录的日本文学文本编译成更易于使用的CSV格式。包含的经典文学作品涵盖了多个历史时期,为研究日文文本提供了丰富的资源。数据集旨在为研究日文写作和语言学项目提供基础数据支持。...
    packageimg
  • 基于阅读理解的对话关系抽取数据集-QaZre-thedevastator

    2025年6月4日   

    基于阅读理解的对话关系抽取数据集-QaZre-thedevastator 数据来源:互联网公开数据 标签:自然语言处理,关系抽取,阅读理解,知识图谱,对话,机器学习,文本分析 数据概述:...
    packageimg
  • 亚马逊印度商品长度预测机器学习挑战赛数据集-2023年

    2025年6月4日   

    亚马逊印度商品长度预测机器学习挑战赛数据集-2023年 数据来源:互联网公开数据 标签:机器学习,商品长度预测,亚马逊,印度,产品目录,自然语言处理,数据竞赛 数据概述:...
    packageimg
  • 德国政客党派归属预测数据集

    2025年6月4日   

    德国政客党派归属预测数据集 数据来源:互联网公开数据 标签:德国政客,社交媒体分析,自然语言处理,政治倾向,机器学习,文本分类 数据概述: 本数据集基于对德国政客的Twitter数据进行收集和整理,包含了几乎全部德国政客的公开社交媒体信息。数据涵盖政客的文本内容、用户信息、互动记录等关键要素,为研究德国政客的党派归属及其相关特征提供了可靠的数据支持。...
    packageimg
  • 新闻广告标签数据集

    2025年6月4日   

    新闻广告标签数据集 数据来源:互联网公开数据 标签:新闻分类,文本挖掘,广告标签,自然语言处理,机器学习,数据标注 数据概述: 本数据集包含了一批新闻文章及其对应的IAB(互动广告局)分类标签。数据集的来源为Fibe - Hack the Vibe! 2.0 -...
    packageimg
  • 句子转换器离线安装包数据集

    2025年6月4日   

    句子转换器离线安装包数据集 数据来源:互联网公开数据 标签:句子转换器,自然语言处理,机器学习,深度学习,离线安装,Python,模型文件 数据概述:...
    packageimg
  • 达观数据文本处理挑战赛数据集

    2025年6月4日   

    达观数据文本处理挑战赛数据集 数据来源:互联网公开数据 标签:竞赛,文本处理,NLP,分类,长文本解析,自然语言处理,机器学习 数据概述: 本数据集由达观数据提供,用于文本处理竞赛。数据集包含两个CSV文件:train_set.csv和test_set.csv。 -...
    packageimg
  • 亚马逊机器学习挑战赛2022-23数据集

    2025年6月4日   

    亚马逊机器学习挑战赛2022-23数据集 数据来源:互联网公开数据 标签:自然语言处理,产品数据分析,长度预测,机器学习竞赛,亚马逊平台,文本特征提取,包装优化 数据概述:...
    packageimg
  • 千万级Reddit问答数据集

    2025年6月4日   

    千万级Reddit问答数据集 数据来源:互联网公开数据 标签:Reddit,问答数据,自然语言处理,机器学习,数据集,社区问答,情感分析,评分标签 数据概述:...
    packageimg
  • 英语文本BERT基础模型未分词双字母组合数据集-2019

    2025年6月4日   

    英语文本BERT基础模型未分词双字母组合数据集-2019 数据来源:互联网公开数据 标签:BERT,自然语言处理,NLP,双字母组合,英文文本,数据集,预训练模型,语言建模 数据概述:...
    packageimg
  • STEM领域维基百科语料库数据集

    2025年6月4日   

    STEM领域维基百科语料库数据集 数据来源:互联网公开数据 标签:STEM,维基百科,语料库,文本处理,自然语言处理,科学教育,知识图谱,数据分析 数据概述:...
    packageimg