-
问答对拆分训练数据集SplittedTrainQ-ADataset-thimkth
问答对拆分训练数据集SplittedTrainQ-ADataset-thimkth 数据来源:互联网公开数据 标签:问答对,数据集,自然语言处理,文本分析,机器学习,知识图谱,文本挖掘,信息检索 数据概述: 该数据集包含拆分后的问答对数据,主要用于训练和评估自然语言处理模型。主要特征如下: 时间跨度:数据记录时间不限。... -
Linux系统英文单词数据集LinuxWordsDataset-durrivedfunktor
Linux系统英文单词数据集LinuxWordsDataset-durrivedfunktor 数据来源:互联网公开数据 标签:计算机科学,数据集,文本分析,英文单词,操作系统,软件工程,自然语言处理,信息检索 数据概述: 该数据集包含来自 Linux 系统的英文单词列表,记录了 Linux 操作系统中所包含的常用英文单词。主要特征如下:... -
阿拉伯语维基百科问答数据集Wiki-ARA-QADataset-ayaaakhaled
阿拉伯语维基百科问答数据集Wiki-ARA-QADataset-ayaaakhaled 数据来源:互联网公开数据 标签:问答系统,自然语言处理,阿拉伯语,数据集,文本分析,信息检索,机器学习,语言学 数据概述: 该数据集收录了阿拉伯语维基百科中的问答对,旨在促进阿拉伯语问答系统的研究和开发。主要特征如下:... -
自然语言处理词袋模型提交数据集NLPBagofWordsSubmissionDataset-yashasgarg
自然语言处理词袋模型提交数据集NLPBagofWordsSubmissionDataset-yashasgarg 数据来源:互联网公开数据 标签:自然语言处理,词袋模型,数据集,文本分类,机器学习,文本分析,数据挖掘,信息检索 数据概述: 该数据集包含自然语言处理中词袋模型的提交数据,记录了文本分类,关键词提取等任务的样本和标签。主要特征如下:... -
新闻文本分类数据集NewsLabelSortedDataset-rwindia
新闻文本分类数据集NewsLabelSortedDataset-rwindia 数据来源:互联网公开数据 标签:新闻分类,文本挖掘,数据集,自然语言处理,机器学习,信息检索,数据科学,分类算法 数据概述: 该数据集包含来自多个新闻平台的文本数据,记录了不同类别的新闻文章及其对应的标签。主要特征如下:... -
维基百科数据集DCWikiDataCSV-jungwoonseok
维基百科数据集DCWikiDataCSV-jungwoonseok 数据来源:互联网公开数据 标签:维基百科,数据集,文本分析,自然语言处理,机器学习,信息检索,学术资源,知识图谱 数据概述:该数据集包含来自维基百科的数据,记录了大量维基百科页面的内容和属性。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。... -
数学文献标题数据集2000年数学文献标题数据集-felipealbiere
数学文献标题数据集2000年数学文献标题数据集-felipealbiere 数据来源:互联网公开数据 标签:数学文献,数据集,学术研究,标题分析,机器学习,自然语言处理,信息检索,学术资源 数据概述: 该数据集包含来自互联网公开资源的2000年数学文献标题数据,记录了该年度发表的数学论文标题。主要特征如下: 时间跨度:数据记录的时间范围为2000年。... -
中国人民大学文本聚类数据集RUCTextClusteringDataset-spiritwalk
中国人民大学文本聚类数据集RUCTextClusteringDataset-spiritwalk 数据来源:互联网公开数据 标签:文本分析,数据集,聚类算法,自然语言处理,机器学习,文本分类,信息检索,数据挖掘 数据概述: 该数据集由中国人民大学提供,专注于文本数据的聚类分析。主要特征如下: 时间跨度:数据记录的时间范围未明确说明,推测为近年数据。... -
问答对数据集Question-AnswerDataset-shadesh
问答对数据集Question-AnswerDataset-shadesh 数据来源:互联网公开数据 标签:问答,自然语言处理,数据集,文本生成,信息检索,人工智能,机器学习,知识图谱 数据概述: 该数据集包含大量的问答对,记录了问题和相应的答案。主要特征如下: 时间跨度:数据记录的时间跨度不固定,取决于数据来源,涵盖不同时间段。... -
维基百科字母顺序分类数据集WikiAZDataset-fidanmusazade
维基百科字母顺序分类数据集WikiAZDataset-fidanmusazade 数据来源:互联网公开数据 标签:维基百科,数据集,字母分类,文本挖掘,信息检索,自然语言处理,机器学习,知识图谱 数据概述: 该数据集包含来自维基百科的数据,记录了维基百科条目按照字母顺序分类的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从维基百科的创建至今。... -
中文文本摘要评估数据集AACLSumEvalCombinedData-shantanupatankar
中文文本摘要评估数据集AACLSumEvalCombinedData-shantanupatankar 数据来源:互联网公开数据 标签:文本摘要评估,自然语言处理,数据集,机器学习,信息检索,学术研究,语言学,文本分析... -
Quora问答配对训练数据集QuoraQuestionPairTrainingDataset-ankitnarang
Quora问答配对训练数据集QuoraQuestionPairTrainingDataset-ankitnarang 数据来源:互联网公开数据 标签:问答配对,数据集,自然语言处理,文本相似度,机器学习,数据挖掘,信息检索,知识图谱 数据概述: 该数据集包含来自Quora问答平台的配对问题数据,记录了成对的问题及其相似性标签。主要特征如下:... -
垃圾邮件过滤数据集PudhusuSpamHamDataset-gopikavs
垃圾邮件过滤数据集PudhusuSpamHamDataset-gopikavs 数据来源:互联网公开数据 标签:垃圾邮件,邮件过滤,数据集,自然语言处理,文本分类,机器学习,信息检索,垃圾邮件检测 数据概述: 该数据集包含了大量标记为垃圾邮件(spam)和正常邮件(ham)的邮件数据,主要用于垃圾邮件过滤模型的训练和评估。主要特征如下:... -
美国政府数据集标题数据集Data-govDatasetTitlesDataset-travistyler
美国政府数据集标题数据集Data-govDatasetTitlesDataset-travistyler 数据来源:互联网公开数据 标签:政府数据,数据集,开放数据,数据分析,公共服务,数据挖掘,信息检索,文本分析 数据概述: 该数据集包含了来自美国政府开放数据平台Data.gov的各种数据集标题。主要特征如下:... -
电子邮件垃圾邮件过滤数据集Spambase数据集-otaviomserra
电子邮件垃圾邮件过滤数据集Spambase数据集-otaviomserra 数据来源:互联网公开数据 标签:垃圾邮件,电子邮件,文本分类,机器学习,数据集,自然语言处理,信息检索,数据挖掘 数据概述: 该数据集包含来自 UCI 机器学习数据库的电子邮件数据,用于垃圾邮件过滤研究。主要特征如下: 时间跨度:数据记录时间不明确,但可推断为收集于互联网早期。... -
Seneweb网站新闻文章数据集-barabaradiop
Seneweb网站新闻文章数据集-barabaradiop 数据来源:互联网公开数据 标签:新闻文章,数据集,文本分析,自然语言处理,情感分析,舆情分析,新闻媒体,信息检索 数据概述:该数据集包含来自Seneweb网站的新闻文章数据,记录了Seneweb网站发布的各类新闻文章信息。主要特征如下:... -
科研论文数据分析集ArXiv论文数据集2023-hhgttg
科研论文数据分析集ArXiv论文数据集2023-hhgttg 数据来源:互联网公开数据 标签:科研论文,数据集,机器学习,自然语言处理,学术研究,文本分析,知识图谱,信息检索 数据概述: 该数据集包含来自ArXiv的10000篇科研论文数据,记录了论文的主要信息,包括标题,作者,摘要,主题分类,引用次数等。主要特征如下:... -
计算机科学领域论文研究方向数据集DBLP-jakboss
计算机科学领域论文研究方向数据集DBLP-jakboss 数据来源:互联网公开数据 标签:学术研究,计算机科学,论文,数据集,关键词分析,文本挖掘,自然语言处理,信息检索 数据概述:该数据集包含来自DBLP(Digital Bibliography & Library... -
自然语言处理新闻文章数据集NLPNewsArticleDataset-saumyamishrads
自然语言处理新闻文章数据集NLPNewsArticleDataset-saumyamishrads 数据来源:互联网公开数据 标签:自然语言处理,新闻文章,数据集,文本分析,机器学习,信息检索,文本挖掘,新闻学 数据概述:该数据集包含来自多个新闻网站的文章数据,记录了大量的新闻报道信息。主要特征如下:... -
垃圾邮件分类数据集SpamMailsClassificationDataset-pg1007
垃圾邮件分类数据集SpamMailsClassificationDataset-pg1007 数据来源:互联网公开数据 标签:垃圾邮件,邮件分类,数据集,文本分析,自然语言处理,机器学习,信息检索,文本挖掘 数据概述: 该数据集包含大量的电子邮件数据,用于垃圾邮件的识别和分类。主要特征如下: 时间跨度:数据记录的时间范围未知,但包含不同时期的电子邮件。...