-
新闻组文档数据集分析报告
标题:新闻组文档数据集分析报告 数据内容:本数据集包含来自互联网公开数据的新闻组文档信息,其中包括新闻组名称和文档标识符两个数据元素。具体而言,数据集中的每个记录都包含“newsgroup”(新闻组名称)和“document_id”(文档标识符)两个字段,分别用于标识文档所属的新闻组和文档的唯一标识。 数据来源:互联网公开数据... -
BBC新闻内容数据集BBCNewsContentDataset-malwyshihab
BBC新闻内容数据集BBCNewsContentDataset-malwyshihab 数据来源:互联网公开数据 标签:新闻,媒体内容,数据集,文本分析,自然语言处理,机器学习,新闻分类,信息挖掘 数据概述: 该数据集包含来自BBC新闻网站的文章数据,记录了BBC发布的各类新闻文章的文本内容和相关信息。主要特征如下:... -
矛盾侦探沃森训练集上采样版ContradictoryMyDearWatsonTrainUpsampled数据集-hatemalamir
矛盾侦探沃森训练集上采样版ContradictoryMyDearWatsonTrainUpsampled数据集-hatemalamir 数据来源:互联网公开数据 标签:自然语言处理,矛盾检测,数据集,人工智能,机器学习,文本分析,情感分析,多语言支持 数据概述: 该数据集为Contradictory My Dear... -
词典数据集LexiconDataDataset-cakrulgaming
词典数据集LexiconDataDataset-cakrulgaming 数据来源:互联网公开数据 标签:词典,数据集,自然语言处理,语言学,词汇研究,文本分析,教育,机器学习 数据概述: 该数据集包含来自多个来源的词典数据,记录了大量词汇的详细信息。主要特征如下: 时间跨度:数据记录的时间范围从20世纪初到现代。... -
新闻标题数据集
新闻标题数据集 数据来源:互联网公开数据 标签:新闻,媒体,时间序列,新闻分析,行业趋势,数据挖掘,文本分析 数据概述: 本数据集包含了约140万条新闻标题,数据来源为《华尔街日报》和《华盛顿邮报》,时间范围覆盖2011年至2022年。数据集中的每条记录包含新闻标题、相关标签、发布时间和新闻链接,为研究新闻内容及其传播趋势提供了丰富的基础数据支持。... -
Reddit帖子互动预测评论数据集-2005至2019年-kashyapgohil
Reddit帖子互动预测评论数据集-2005至2019年-kashyapgohil 数据来源:互联网公开数据 标签:Reddit,社交媒体,帖子,评论,互动,预测,文本分析,时间序列,机器学习 数据概述: 本数据集包含来自Reddit平台的帖子评论数据,用于预测帖子受欢迎程度。... -
英文标点符号识别与光学字符识别数据集Punctuation-EN-OCRDataset-thnhhunhtn
英文标点符号识别与光学字符识别数据集Punctuation-EN-OCRDataset-thnhhunhtn 数据来源:互联网公开数据 标签:自然语言处理,光学字符识别,数据集,文本分析,机器学习,计算机视觉,语言技术,符号识别 数据概述:... -
智能问答聊天机器人训练与评估数据集QAChatbotDataset-arhamyousufzai
智能问答聊天机器人训练与评估数据集QAChatbotDataset-arhamyousufzai 数据来源:互联网公开数据 标签:自然语言处理,智能客服,数据集,机器学习,对话系统,文本分析,人工智能,对话训练 数据概述: 该数据集包含用于训练和评估智能问答聊天机器人的对话数据,记录了用户与机器人之间的问答交互内容。主要特征如下:... -
开放域问答三语数据集ODQATrilingualDataDataset-aninditabhattacharya
开放域问答三语数据集ODQATrilingualDataDataset-aninditabhattacharya 数据来源:互联网公开数据 标签:开放域问答,数据集,三语翻译,自然语言处理,机器学习,信息检索,多语言处理,文本分析... -
消费者评论数据集CustomersReviewsDataset-akritiipaudel
消费者评论数据集CustomersReviewsDataset-akritiipaudel 数据来源:互联网公开数据 标签:消费者评论,数据集,文本分析,情感分析,机器学习,自然语言处理,市场研究,用户体验 数据概述: 该数据集包含来自电商平台,社交媒体等渠道的消费者评论数据,记录了用户对产品或服务的评价。主要特征如下:... -
阿拉伯语假新闻与真新闻文章数据集-shyakanobledavid
阿拉伯语假新闻与真新闻文章数据集-shyakanobledavid 数据来源:互联网公开数据 标签:阿拉伯语,假新闻,真新闻,新闻,文本分析,机器学习,数据预处理 数据概述: 本数据集由多个流行的阿拉伯语新闻网站抓取,包括Misbar(https://misbar.com/)、No... -
土耳其餐厅评论情感分析数据集-2024-mertsengil
土耳其餐厅评论情感分析数据集-2024-mertsengil 数据来源:互联网公开数据 标签:土耳其语,情感分析,方面级情感分析,餐厅评论,NLP,文本分析,机器学习,自然语言处理 数据概述:... -
人类对话文本数据集HumanChatDataset-josepjuli
人类对话文本数据集HumanChatDataset-josepjuli 数据来源:互联网公开数据 标签:人类对话,文本数据,自然语言处理,聊天记录,语言模型,机器学习,对话系统,文本分析 数据概述:该数据集包含来自互联网的大量人类对话文本,记录了不同场景下的对话记录。主要特征如下: 时间跨度:数据记录的时间范围从2010年到2023年。... -
文本预处理与词形还原训练数据集-marouanesidali
文本预处理与词形还原训练数据集-marouanesidali 数据来源:互联网公开数据 标签:文本预处理,词形还原,自然语言处理,机器学习,文本分析,数据集,NLP,训练数据 数据概述: 该数据集包含了经过预处理和词形还原的文本数据,主要用于训练和评估自然语言处理模型。主要特征如下: 时间跨度:数据记录的时间范围不限,取决于原始文本数据集的构成。... -
垃圾邮件与正常邮件分类数据集SpamHamMessagesDataset-zenomarhoum
垃圾邮件与正常邮件分类数据集SpamHamMessagesDataset-zenomarhoum 数据来源:互联网公开数据 标签:垃圾邮件,邮件分类,数据集,自然语言处理,机器学习,文本分析,数据挖掘,信息安全 数据概述: 该数据集包含来自公开邮件来源的邮件数据,记录了垃圾邮件和正常邮件的文本内容。主要特征如下:... -
情感分析通用数据集-shankhad
情感分析通用数据集-shankhad 数据来源:互联网公开数据 标签:情感分析,文本分析,自然语言处理,数据集,机器学习,情感分类,情绪识别,文本挖掘,中文 数据概述: 该数据集包含来自多个来源的文本数据,用于情感分析任务,旨在识别文本中表达的情感倾向。主要特征如下: 时间跨度:数据记录的时间跨度不固定,涵盖了不同时期和语境下的文本数据。... -
大规模语言模型增强数据集LLMAugmentedData-zhenghao97
大规模语言模型增强数据集LLMAugmentedData-zhenghao97 数据来源:互联网公开数据 标签:语言模型,数据集,数据增强,自然语言处理,文本生成,机器学习,文本分析,人工智能 数据概述: 该数据集包含由大规模语言模型(LLM)生成和增强的文本数据,旨在用于训练和评估各种自然语言处理(NLP)模型。主要特征如下:... -
垃圾邮件检测测试数据集SpamTestDataset-maureenekwems
垃圾邮件检测测试数据集SpamTestDataset-maureenekwems 数据来源:互联网公开数据 标签:垃圾邮件,数据集,邮件分类,机器学习,文本分析,分类算法,自然语言处理,网络安全 数据概述: 该数据集包含来自电子邮件服务的邮件数据,记录了不同邮件的分类标签(垃圾邮件或非垃圾邮件)。主要特征如下: 时间跨度:... -
自然语言处理入门数据集NLPStartedDataset-liangyou
自然语言处理入门数据集NLPStartedDataset-liangyou 数据来源:互联网公开数据 标签:自然语言处理,NLP,文本分析,机器学习,数据集,文本分类,情感分析,语言模型,入门 数据概述: 该数据集包含多个文本数据集,旨在帮助初学者入门自然语言处理领域。主要特征如下:... -
数据10000条样本语言识别数据集-amitverma2030
10000条样本语言识别数据集-amitverma2030 数据来源:互联网公开数据 标签:语言识别,数据集,自然语言处理,文本分类,机器学习,文本分析,语言学,人工智能 数据概述: 该数据集包含10000条文本样本,用于语言识别任务。主要特征如下: 时间跨度:数据无明确的时间范围,为静态数据集。 地理范围:数据涵盖多种语言,文本来源多样。...