-
自然语言处理多领域对话数据集UltraChat-200K-thedevastator
自然语言处理多领域对话数据集UltraChat-200K-thedevastator 数据来源:互联网公开数据 标签:自然语言处理,对话,生成,训练,文本,语言模型,NLG,语料库 数据概述:... -
黑客新闻文本嵌入数据集-2023-julien040
黑客新闻文本嵌入数据集-2023-julien040 数据来源:互联网公开数据 标签:黑客新闻,OpenAI,文本嵌入,自然语言处理,计算机科学,创业,数据集,API 数据概述: 本数据集包含超过100,000篇来自黑客新闻(Hacker News)的帖子,黑客新闻是一个专注于计算机科学和创业的社交新闻网站。每篇帖子包含以下字段:... -
-
Jigsaw毒性评论分类无意偏见检测数据集
Jigsaw毒性评论分类无意偏见检测数据集 数据来源:互联网公开数据 标签:Jigsaw,毒性评论,分类,机器学习,自然语言处理,偏见检测,数据集 数据概述: 本数据集来自Jigsaw Unintended Bias in Toxicity... -
吉吉瓦斯有毒评论分类数据集-2019
吉吉瓦斯有毒评论分类数据集-2019 数据来源:互联网公开数据 标签:吉吉瓦斯,有毒评论,自然语言处理,机器学习,偏见检测,评论分类,文本分析,社交媒体 数据概述:... -
模因讽刺检测-人类标注与AI标注对比数据集-2024-sirojiddinboboqulov
模因讽刺检测-人类标注与AI标注对比数据集-2024-sirojiddinboboqulov 数据来源:互联网公开数据 标签:模因,讽刺,AI,人类标注,多模态,情感分析,自然语言处理,图像识别,对比分析,解释性AI 数据概述: 本数据集扩展了Memotion... -
欧洲议会议事录说话者性别与年龄注释数据集
欧洲议会议事录说话者性别与年龄注释数据集 数据来源:互联网公开数据 标签:欧洲议会,说话者属性,性别,年龄,机器翻译,个性化翻译,平行语料库,自然语言处理 数据概述: 本数据集是对欧洲议会议事录的注释版本,标注了说话者的性别和年龄信息,注释粒度为句子级别。数据集包含英语-法语和英语-德语两个平行语料库,为研究个性化机器翻译提供了高质量的数据基础。... -
俄语社交媒体短文本情感分析与毒性检测数据集-RuTweetCorp-2012-maximsuvorov
俄语社交媒体短文本情感分析与毒性检测数据集-RuTweetCorp-2012-maximsuvorov 数据来源:互联网公开数据 标签:俄语,社交媒体,短文本,情感分析,毒性检测,文本分类,自然语言处理,机器学习,RuTweetCorp 数据概述: 本数据集源自论文《Рубцова Ю. Автоматическое построение и... -
巴西葡萄牙语情感分析数据集-2016至2018年-fredericods
巴西葡萄牙语情感分析数据集-2016至2018年-fredericods 数据来源:互联网公开数据 标签:巴西葡萄牙语,情感分析,机器学习,自然语言处理,数据集,电商评论,电影评论,应用评论,预处理,教育,研究 数据概述:... -
青空文庫日文文学语料库数据集
青空文庫日文文学语料库数据集 数据来源:互联网公开数据 标签:日文文学,语料库,文本分析,自然语言处理,教育,文化研究 数据概述: 本数据集是将青空文庫(Aozora Bunko)中收录的日本文学文本编译成更易于使用的CSV格式。包含的经典文学作品涵盖了多个历史时期,为研究日文文本提供了丰富的资源。数据集旨在为研究日文写作和语言学项目提供基础数据支持。... -
基于阅读理解的对话关系抽取数据集-QaZre-thedevastator
基于阅读理解的对话关系抽取数据集-QaZre-thedevastator 数据来源:互联网公开数据 标签:自然语言处理,关系抽取,阅读理解,知识图谱,对话,机器学习,文本分析 数据概述:... -
亚马逊印度商品长度预测机器学习挑战赛数据集-2023年
亚马逊印度商品长度预测机器学习挑战赛数据集-2023年 数据来源:互联网公开数据 标签:机器学习,商品长度预测,亚马逊,印度,产品目录,自然语言处理,数据竞赛 数据概述:... -
德国政客党派归属预测数据集
德国政客党派归属预测数据集 数据来源:互联网公开数据 标签:德国政客,社交媒体分析,自然语言处理,政治倾向,机器学习,文本分类 数据概述: 本数据集基于对德国政客的Twitter数据进行收集和整理,包含了几乎全部德国政客的公开社交媒体信息。数据涵盖政客的文本内容、用户信息、互动记录等关键要素,为研究德国政客的党派归属及其相关特征提供了可靠的数据支持。... -
句子转换器离线安装包数据集
句子转换器离线安装包数据集 数据来源:互联网公开数据 标签:句子转换器,自然语言处理,机器学习,深度学习,离线安装,Python,模型文件 数据概述:... -
达观数据文本处理挑战赛数据集
达观数据文本处理挑战赛数据集 数据来源:互联网公开数据 标签:竞赛,文本处理,NLP,分类,长文本解析,自然语言处理,机器学习 数据概述: 本数据集由达观数据提供,用于文本处理竞赛。数据集包含两个CSV文件:train_set.csv和test_set.csv。 -... -
亚马逊机器学习挑战赛2022-23数据集
亚马逊机器学习挑战赛2022-23数据集 数据来源:互联网公开数据 标签:自然语言处理,产品数据分析,长度预测,机器学习竞赛,亚马逊平台,文本特征提取,包装优化 数据概述:... -
千万级Reddit问答数据集
千万级Reddit问答数据集 数据来源:互联网公开数据 标签:Reddit,问答数据,自然语言处理,机器学习,数据集,社区问答,情感分析,评分标签 数据概述:... -
英语文本BERT基础模型未分词双字母组合数据集-2019
英语文本BERT基础模型未分词双字母组合数据集-2019 数据来源:互联网公开数据 标签:BERT,自然语言处理,NLP,双字母组合,英文文本,数据集,预训练模型,语言建模 数据概述:... -
STEM领域维基百科语料库数据集
STEM领域维基百科语料库数据集 数据来源:互联网公开数据 标签:STEM,维基百科,语料库,文本处理,自然语言处理,科学教育,知识图谱,数据分析 数据概述:...