-
路透社新闻文章分类数据集Reuters-21578ArticleClassificationDataset-mateuszkrasinski9
路透社新闻文章分类数据集Reuters-21578ArticleClassificationDataset-mateuszkrasinski9 数据来源:互联网公开数据 标签:新闻文本,文本分类,机器学习,自然语言处理,数据集,信息检索,语料库,路透社 数据概述: 该数据集包含来自路透社的新闻文章,主要用于文本分类任务。主要特征如下:... -
数据库上下文分析数据集DBContextoDataset-nicolaspuente
数据库上下文分析数据集DBContextoDataset-nicolaspuente 数据来源:互联网公开数据 标签:数据库,上下文分析,数据集,数据分析,机器学习,信息检索,数据库管理,数据挖掘 数据概述: 该数据集包含来自多个数据库的上下文信息,记录了数据库操作和查询的相关数据。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2020年。... -
Twitter与谷歌样本搜索数据集TwitterandGoogleSampleSearchesDataset-mnumberej
Twitter与谷歌样本搜索数据集TwitterandGoogleSampleSearchesDataset-mnumberej 数据来源:互联网公开数据 标签:社交媒体,搜索引擎,数据集,用户行为,数据分析,机器学习,信息检索,网络分析 数据概述:... -
维基百科页面信息数据集WikipediaPageInformationDataset-mugentk
维基百科页面信息数据集WikipediaPageInformationDataset-mugentk 数据来源:互联网公开数据 标签:维基百科,数据集,文本分析,自然语言处理,知识图谱,信息检索,数据挖掘,语义分析 数据概述: 该数据集包含来自维基百科的页面信息,记录了维基百科中各个页面的详细信息。主要特征如下:... -
乔什-麦肯尼提交数据集1JoshMckenneySubmission1Dataset-jmckenney1
乔什-麦肯尼提交数据集1JoshMckenneySubmission1Dataset-jmckenney1 数据来源:互联网公开数据 标签:数据集,提交记录,文本分析,机器学习,数据挖掘,自然语言处理,学术研究,信息检索 数据概述: 该数据集包含来自乔什·麦肯尼提交的记录数据,记录了特定提交内容的相关信息。主要特征如下:... -
搜索关键词分类数据集-jahangirraina
搜索关键词分类数据集-jahangirraina 数据来源:互联网公开数据 标签:文本分类,关键词分析,自然语言处理,数据集,机器学习,信息检索,数据挖掘,语义分析 数据概述: 该数据集包含大量搜索关键词及其对应的分类标签,用于训练和评估文本分类模型。主要特征如下: 时间跨度:数据无明确的时间范围,通常为近期收集的关键词。... -
垃圾邮件过滤数据集SpamData1-dafniskrasniqi
垃圾邮件过滤数据集SpamData1-dafniskrasniqi 数据来源:互联网公开数据 标签:垃圾邮件,文本分类,自然语言处理,机器学习,数据集,邮件分析,信息检索,恶意内容检测 数据概述: 该数据集包含了大量电子邮件数据,用于垃圾邮件的检测与过滤。主要特征如下: 时间跨度:数据记录的时间跨度不明确,但涵盖了电子邮件发展早期至今的时期。... -
新闻头条摘要数据集MinorNewsHeadlinesDataset-adya07
新闻头条摘要数据集MinorNewsHeadlinesDataset-adya07 数据来源:互联网公开数据 标签:新闻,头条,文本分析,自然语言处理,数据集,摘要,情感分析,信息检索 数据概述: 该数据集包含了来自新闻网站的头条新闻摘要,记录了新闻标题和对应的简短摘要。主要特征如下: 时间跨度:数据记录的时间范围未知,但涵盖了较长的时间段。... -
计算机科学文献数据集DBLP数据集2022-jakboss
计算机科学文献数据集DBLP数据集2022-jakboss 数据来源:互联网公开数据 标签:计算机科学,文献数据,数据集,学术研究,机器学习,文本分析,知识图谱,信息检索 数据概述: 该数据集包含来自DBLP(Digital Bibliography & Library... -
维基百科数据集DCWikiDataDataset-hpand1
维基百科数据集DCWikiDataDataset-hpand1 数据来源:互联网公开数据 标签:维基百科,数据集,文本挖掘,自然语言处理,机器学习,信息检索,知识图谱,文化研究 数据概述:该数据集包含来自维基百科的数据,记录了多个领域的百科全书条目和相关信息。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2021年。... -
大学建议与分类数据集UniversitySuggestionsandCategorizationDataset-pteacher
大学建议与分类数据集UniversitySuggestionsandCategorizationDataset-pteacher 数据来源:互联网公开数据 标签:教育,大学,建议,分类,数据集,机器学习,文本分析,信息检索 数据概述: 该数据集包含来自公开渠道的大学建议与分类数据,记录了针对不同大学的建议和分类信息。主要特征如下:... -
新闻文本分类测试数据集AG-sNewsTestDataset-datasontran
新闻文本分类测试数据集AG-sNewsTestDataset-datasontran 数据来源:互联网公开数据 标签:文本分类,新闻,数据集,自然语言处理,机器学习,情感分析,信息检索,深度学习 数据概述: 该数据集是AG's News数据集的测试子集,包含了来自4个不同新闻类别的新闻文章文本。主要特征如下:... -
伊朗波斯语文本数据集PersianDatasetIR-amirali10281
伊朗波斯语文本数据集PersianDatasetIR-amirali10281 数据来源:互联网公开数据 标签:波斯语,文本分析,自然语言处理,数据集,信息检索,情感分析,语言模型,机器学习 数据概述: 该数据集包含来自伊朗的波斯语文本数据,涵盖了多种来源和主题。主要特征如下:... -
评论余弦相似度结果数据集YorumCosineSimilaritySonuclariDataset-hasankuluk1
评论余弦相似度结果数据集YorumCosineSimilaritySonuclariDataset-hasankuluk1 数据来源:互联网公开数据 标签:文本分析,自然语言处理,数据集,相似度计算,机器学习,情感分析,文本挖掘,信息检索 数据概述: 该数据集包含来自网络评论的余弦相似度计算结果,记录了不同评论之间的相似度分数。主要特征如下:... -
局部敏感哈希LSH文档数据集-massivedatamining
局部敏感哈希LSH文档数据集-massivedatamining 数据来源:互联网公开数据 标签:文本分析,局部敏感哈希,数据集,文档检索,信息检索,机器学习,自然语言处理,相似性搜索 数据概述:该数据集包含了用于研究和评估局部敏感哈希(LSH)算法的文档集合。主要特征如下: 时间跨度:数据记录的时间范围不限,取决于文档的创建时间。... -
加州律师黄页数据集CaliforniaLawyersYellowPagesDataset-kanchana1990
加州律师黄页数据集CaliforniaLawyersYellowPagesDataset-kanchana1990 数据来源:互联网公开数据 标签:法律行业,律师数据,黄页信息,数据集,信息检索,职业查询,法律服务,商业资源 数据概述: 该数据集包含来自加州黄页的数据,记录了加州地区律师的详细信息。主要特征如下:... -
假新闻检测数据集FakeNewsDetectionDataset-ayush0510
假新闻检测数据集FakeNewsDetectionDataset-ayush0510 数据来源:互联网公开数据 标签:假新闻,数据集,文本分析,机器学习,自然语言处理,信息检索,社会研究,媒体分析 数据概述:该数据集包含来自Kaggle的假新闻数据,记录了真实和虚假新闻文章的关键信息。主要特征如下:... -
IEEE会议-期刊与新闻文档数据集IEEEConference-JournalandNewsDocumentDataset-towhidultonmoy
IEEE会议-期刊与新闻文档数据集IEEEConference-JournalandNewsDocumentDataset-towhidultonmoy 数据来源:互联网公开数据 标签:学术论文,会议论文,期刊文章,新闻文档,数据集,文献分析,信息检索,机器学习,自然语言处理,学术研究 数据概述:... -
检索系统性能评估数据集RetrieveTop3Dataset-phngnguyndiu
检索系统性能评估数据集RetrieveTop3Dataset-phngnguyndiu 数据来源:互联网公开数据 标签:检索系统,性能评估,数据集,搜索算法,信息检索,机器学习,自然语言处理,搜索引擎优化 数据概述:该数据集包含用于评估搜索系统性能的数据,主要记录了用户检索查询及其对应的前3个检索结果的相关性评分。主要特征如下:... -
Quora重复问题数据集QuoraDuplicateQuestionsDataset-gyanbardhan
Quora重复问题数据集QuoraDuplicateQuestionsDataset-gyanbardhan 数据来源:互联网公开数据 标签:自然语言处理,文本分类,数据集,机器学习,问答系统,信息检索,数据挖掘,人工智能 数据概述: 该数据集源自Quora平台,记录了平台上用户提出的重复问题及其相关信息。主要特征如下:...