-
多语言句子嵌入模型DistilUSE-base-multilingual-cased-v2数据集
多语言句子嵌入模型DistilUSE-base-multilingual-cased-v2数据集 数据来源:互联网公开数据 标签:句子嵌入,多语言,自然语言处理,NLP,机器学习,文本相似度,语义分析,UKPLab 数据概述: 本数据集包含多语言句子嵌入模型DistilUSE-base-multilingual-... -
维基百科句子拆分数据集-2023-thedevastator
维基百科句子拆分数据集-2023-thedevastator 数据来源:互联网公开数据 标签:维基百科,句子拆分,NLP,自然语言处理,文本分析,数据集,机器学习 数据概述:... -
凤凰城YELP餐饮评价数据集-2021-tanjaadzic
凤凰城YELP餐饮评价数据集-2021-tanjaadzic 数据来源:互联网公开数据 标签:YELP,餐饮评价,消费者反馈,数据分析,NLP,教育,Phoenix,AZ,大数据 数据概述:... -
巴西新闻文章文本数据集-新闻内容分析-2024
巴西新闻文章文本数据集-新闻内容分析-2024 数据来源:互联网公开数据 标签:巴西,新闻,文本,自然语言处理,NLP,金融,信息提取,时事,政治,经济,社会 数据概述: 本数据集包含来自巴西联邦数字图书馆的新闻文章文本,旨在为自然语言处理(NLP)模型构建提供可靠且一致的数据源。数据集涵盖了各种主题的新闻报道,为研究人员提供了丰富的文本数据。... -
越南劳动报新闻文章数据集-2022年5月19日
越南劳动报新闻文章数据集-2022年5月19日 数据来源:互联网公开数据 标签:新闻,越南,劳动报,NLP,文本分析,文章,爬取数据,自然语言处理 数据概述: 本数据集抓取自越南劳动报2022年5月19日的新闻文章,未经任何数据处理。数据集包含文章的多种属性,旨在为自然语言处理(NLP)任务提供数据支持。 数据包含以下字段: URL:文章链接。... -
斯里兰卡AdaDerana新闻网站僧伽罗语新闻文章数据集2008-2024-tharindumadhusanka9
斯里兰卡AdaDerana新闻网站僧伽罗语新闻文章数据集2008-2024-tharindumadhusanka9 数据来源:互联网公开数据 标签:新闻文章,僧伽罗语,Ada Derana,斯里兰卡,NLP,自然语言处理,时间序列,文本分析,社会研究,媒体,2008-2024 数据概述: 本数据集是一个全面的新闻文章集合,来源于斯里兰卡Ada... -
-
IMDB电影评论情感分析数据集-2021-mirnasherif
IMDB电影评论情感分析数据集-2021-mirnasherif 数据来源:互联网公开数据 标签:IMDB,电影评论,情感分析,NLP,文本分析,机器学习,深度学习,自然语言处理 数据概述: 本数据集来源于IMDB,包含332,220条电影评论,以及对应的电影标题和IMDB的唯一标识符(tconst),旨在支持情感分析任务。数据集包含以下字段:... -
机器学习领域ArXiv论文数据集-2021年5月11日至2023年5月11日-practiceportfolio
机器学习领域ArXiv论文数据集-2021年5月11日至2023年5月11日-practiceportfolio 数据来源:互联网公开数据 标签:机器学习,NLP,ArXiv,论文数据集,Kaggle,人工智能挑战,科学研究,学术论文 数据概述:... -
OpenHermes模型训练数据集通用指令与角色扮演数据集合集-volodymyrpivoshenko
OpenHermes模型训练数据集通用指令与角色扮演数据集合集-volodymyrpivoshenko 数据来源:互联网公开数据 标签:OpenHermes,GPT-4,指令数据集,角色扮演,代码指令,AI,机器学习,NLP,Teknium,WizardLM,Airoboros GPT-4,Camel-... -
孟加拉国日报BD-Pratidin新闻数据集-2017年12月13日至2020年9月9日-shakirulhasan
孟加拉国日报BD-Pratidin新闻数据集-2017年12月13日至2020年9月9日-shakirulhasan 数据来源:互联网公开数据 标签:孟加拉语,新闻,文本,自然语言处理,NLP,文本分析,孟加拉国,BD-Pratidin,语料库 数据概述: 本数据集包含了从2017年12月13日至2020年9月9日期间,孟加拉国日报(BD-... -
Steam游戏数据集-2023-deepann
Steam游戏数据集-2023-deepann 数据来源:互联网公开数据 标签:Steam,游戏,数据集,游戏信息,数据清洗,数据分析,NLP,教育,研究 数据概述:... -
土耳其新闻摘要句子数据集-serdarcaglar
土耳其新闻摘要句子数据集-serdarcaglar 数据来源:互联网公开数据 标签:土耳其,新闻摘要,自然语言处理,NLP,文本挖掘,语言模型,文本分类,文本聚类,词嵌入,文本提取 数据概述:... -
土耳其语维基百科页面链接与内容数据集-2020年4月-korsavasci
土耳其语维基百科页面链接与内容数据集-2020年4月-korsavasci 数据来源:互联网公开数据 标签:维基百科,土耳其语,NLP,自然语言处理,页面链接,文本数据,知识图谱,推荐系统,语料库 数据概述: 本数据集基于2020年4月1日的土耳其语维基百科数据转储生成,旨在为土耳其语自然语言处理(NLP)任务提供支持。数据集包含两类主要文件:... -
IMDB电影评论情感分析数据集-2019年
IMDB电影评论情感分析数据集-2019年 数据来源:互联网公开数据 标签:电影评论,情感分析,自然语言处理,文本数据,IMDB,评论数据,电影,情感,NLP 数据概述:... -
-
最终清洗数据集-自然语言处理与情感分类场景
最终清洗数据集-自然语言处理与情感分类场景 数据来源:互联网公开数据 标签:NLP,情感分类,数据清洗,文本分析,机器学习,数据集 数据概述: 本数据集经过最终清洗处理,适用于建模和各种自然语言处理(NLP)任务。数据包含经过预处理的文本信息,适用于情感分类等应用场景。数据集已经完成了必要的清理步骤,确保数据质量和一致性。 数据用途概述:... -
-
数据2020年美国大选推文数据集
数据2020年美国大选推文数据集 数据来源:互联网公开数据 标签:推文,社交媒体,情感分析,选举,政治,NLP,文本挖掘,舆论分析,数据科学 数据概述: 本数据集包含了2020年美国大选前两周(10月18日至11月1日)收集的439,999条推文,数据通过Twitter API和Tweepy... -
MLQA多语言问答数据集2021-thedevastator
MLQA多语言问答数据集2021-thedevastator 数据来源:互联网公开数据 标签:多语言,问答系统,NLP,机器学习,数据集,公开数据,模型评估,跨语言学习 数据概述:...