-
数据2020至2023年俄罗斯新闻分类竞赛数据集-vorvit
2020至2023年俄罗斯新闻分类竞赛数据集-vorvit 数据来源:互联网公开数据 标签:新闻,分类,机器学习,自然语言处理,NLP,竞赛,ВШЭ,ВШЭ Магистратура,First Step in NLP 数据概述:... -
亚马逊商品评论情感二元分类数据集-商品评论-2019
亚马逊商品评论情感二元分类数据集-商品评论-2019 数据来源:互联网公开数据 标签:亚马逊,商品评论,情感分析,文本分类,自然语言处理,机器学习,情感极性,负面评价,正面评价 数据概述:... -
通用大型语言模型预训练文本与元数据数据集-ThePileSmall-thedevastator
通用大型语言模型预训练文本与元数据数据集-ThePileSmall-thedevastator 数据来源:互联网公开数据 标签:文本数据,元数据,自然语言处理,预训练,机器学习,情感分析,文本摘要,数据集,NLP 数据概述: 本数据集“The Pile... -
IMDB电影评论与海报多模态数据集
IMDB电影评论与海报多模态数据集 数据来源:互联网公开数据 标签:IMDB,电影评论,电影海报,多模态数据,自然语言处理,计算机视觉,深度学习,数据融合 数据概述:... -
网络流行语词典数据集-2021年
网络流行语词典数据集-2021年 数据来源:互联网公开数据 标签:流行语,网络语言,词典,文本分析,自然语言处理,数据挖掘,社会学研究 数据概述: 本数据集包含截至2021年6月1日Urban... -
-
多样饮食分类与标注烹饪食谱数据集-2023-nazmussakibrupol
多样饮食分类与标注烹饪食谱数据集-2023-nazmussakibrupol 数据来源:互联网公开数据 标签:烹饪食谱,食品分类,自然语言处理,营养分析,食谱生成,机器学习,数据标注 数据概述: 本数据集收录了由“Assorted, Archetypal, and Annotated Two Million... -
说服力分析数据集-2-0版本-deepaksingh47
说服力分析数据集-2-0版本-deepaksingh47 数据来源:互联网公开数据 标签:说服力,数据集,自然语言处理,NLP,教育,自动化评分,写作分析 数据概述: 本数据集包含两个主要部分:persuade_corpus_2.0 和 persuade_corpus_1.0。这两个数据集均来源于指定的公开数据源。此外,我们还新增了一个文件... -
-
雅虎问答综合问答数据集-2000至2010年
雅虎问答综合问答数据集-2000至2010年 数据来源:互联网公开数据 标签:雅虎问答,综合问答,数据集,机器学习,分类,文本分析,自然语言处理,大型数据集 数据概述:... -
亚马逊商品评论情感分析数据集-用户评价-大规模数据集
亚马逊商品评论情感分析数据集-用户评价-大规模数据集 数据来源:互联网公开数据 标签:亚马逊,商品评论,情感分析,用户评价,文本分类,机器学习,自然语言处理,情感极性 数据概述:... -
维基百科推广文章数据集
维基百科推广文章数据集 数据来源:互联网公开数据 标签:推广文章,维基百科,文本分类,内容分析,数据挖掘,信息质量,自然语言处理 数据概述: 本数据集包含两类文章:一类是被用户标记为“具有推广性语气”的文章(promotional.csv),另一类是被评估为“优质文章”的文章(good.csv)。 - 每篇推广性文章可能带有多个标签,包括但不限于: -... -
Tashkeela清理阿拉伯语带音符语料库
Tashkeela清理阿拉伯语带音符语料库 数据来源:互联网公开数据 标签:阿拉伯语,自然语言处理,文本清洗,语音标注,语言模型,机器学习,数据标注 数据概述:... -
Coursera数据科学专项课程数据集-文本内容分析-英语语料库
Coursera数据科学专项课程数据集-文本内容分析-英语语料库 数据来源:互联网公开数据 标签:自然语言处理,文本分析,机器学习,语料库,Coursera,博客,新闻,推特,英语,数据科学 数据概述: 本数据集是Coursera数据科学专项课程的Capstone项目所使用的数据集,其语料库来源于HC... -
人工智能与人类文本区分数据集
人工智能与人类文本区分数据集 数据来源:互联网公开数据 标签:人工智能,文本分类,文本转换,自然语言处理,NLP,数据分类,文本生成,文本质量评估 数据概述:... -
-
ELI5评分训练数据集
ELI5评分训练数据集 数据来源:互联网公开数据 标签:问答系统,评分模型,ELI5,问答对,评分训练,自然语言处理,Transformer模型,机器学习 数据概述: 本数据集旨在为训练问答系统的评分模型提供数据支持。数据集包含问答对及其对应的评分,每个问答对以 Roberta 格式存储,并附带一个非负整数的评分值。数据集分为两类:一类是来自原始... -
TensorFlow2-0问答数据集简化版-问答数据
TensorFlow2-0问答数据集简化版-问答数据 数据来源:互联网公开数据 标签:TensorFlow,问答,自然语言处理,机器学习,数据集,文本分析,简化版 数据概述: 本数据集基于TensorFlow... -
COVID-19实体识别数据集
COVID-19实体识别数据集 数据来源:互联网公开数据 标签:COVID-19,实体识别,自然语言处理,公共卫生,文本挖掘,知识图谱,信息提取 数据概述:...