-
垃圾邮件分类邮件数据集
垃圾邮件分类邮件数据集 数据来源:互联网公开数据 标签:垃圾邮件,邮件分类,文本分析,机器学习,数据挖掘,自然语言处理, Spam Detection 数据概述:... -
斯瓦希里语自然语言处理数据集
斯瓦希里语自然语言处理数据集 数据来源:互联网公开数据 标签:斯瓦希里语,自然语言处理,网络内容检测,机器学习,深度学习,人工智能,文本分类,数据安全 数据概述:... -
葡萄牙语文本到SQL查询生成数据集2023
葡萄牙语文本到SQL查询生成数据集2023 数据来源:互联网公开数据 标签:葡萄牙语,文本到SQL,自然语言处理,机器学习,数据库 数据概述: 本数据集是b-mc2/sql-create-context数据集的葡萄牙语翻译版本,基于WikiSQL和Spider数据集构建。数据集包含了葡萄牙语问题、SQL CREATE... -
阿拉伯语推特情感分析数据集
阿拉伯语推特情感分析数据集 数据来源:互联网公开数据 标签:阿拉伯语,推特,情感分析,社交媒体,文本分析,自然语言处理,情感趋势 数据概述: 本数据集来源于推特,包含用阿拉伯语书写的推文,并根据内容被标注为正面或负面。数据集涵盖了广泛的主题和情感表达,适用于分析阿拉伯语社交媒体上的公众情绪和观点。 数据用途概述:... -
希腊语COVID-19疫苗接种推文数据集
希腊语COVID-19疫苗接种推文数据集 数据来源:互联网公开数据 标签:希腊语,COVID-19,疫苗接种,社交媒体分析,自然语言处理,文本分类,公共卫生,数据标注 数据概述: 本数据集包含2021年7月至8月期间收集的希腊语推文,内容聚焦于COVID-19疫苗接种相关话题。数据集中的推文经过人工标注,为研究希腊语社交媒体内容提供了高质量的文本资源。... -
写作者数据集
写作者数据集 数据来源:互联网公开数据 标签:写作者,自然语言处理,文本分类,审计,多语言训练 数据概述: 本数据集包含从1963年至2021年间关于写作者的文本记录,文本主要以俄语撰写。数据集涵盖了各种类型的文档,包括但不限于文章、报告等,为自然语言处理和文本分类提供了丰富的训练素材。 数据用途概述:... -
-
印度尼西亚至土耳其患者医生问答数据集1963-2021
印度尼西亚至土耳其患者医生问答数据集1963-2021 数据来源:互联网公开数据 标签:患者,医生,问答,翻译,医学,自然语言处理,教育 数据概述:... -
OpenAIHumanEval代码生成评估数据集
OpenAIHumanEval代码生成评估数据集 数据来源:互联网公开数据 标签:代码生成,自然语言处理,编程,Python,模型评估,机器学习,Hugging Face,OpenAI,编程问题,单元测试 数据概述:... -
WhatsApp聊天记录分析数据集
WhatsApp聊天记录分析数据集 数据来源:互联网公开数据 标签:WhatsApp,聊天记录,社交媒体,数据分析,项目实践,初学者,数据挖掘,自然语言处理 数据概述:... -
分诊评论数据集-附带优先级和标签层次结构
分诊评论数据集-附带优先级和标签层次结构 数据来源:互联网公开数据 标签:自然语言处理,机器学习,情感分析,评论分诊,主题建模,协作 数据概述: 本数据集包含4,992行结构化信息,来源于一个用于管理和优先处理协作环境中评论的分诊系统。通过使用高级机器学习技术,如GEMMA-2B进行意图分类,Hugging... -
俄罗斯矿业行业文本数据集2009-2023
俄罗斯矿业行业文本数据集2009-2023 数据来源:互联网公开数据 标签:矿业,俄罗斯,新闻,行业报告,文本分析,自然语言处理,数据挖掘 数据概述: 本数据集收录了2009年至2023年间约9万条新闻文章、新闻稿和矿业公司公共报告的俄语文本数据。数据通过自动抓取网站内容生成,经过句法切分处理,每行包含一个句子,适用于矿业行业文本分析。 数据用途概述:... -
英语月经健康与卫生聊天机器人数据集
英语月经健康与卫生聊天机器人数据集 数据来源:互联网公开数据 标签:月经健康,卫生,聊天机器人,自然语言处理,对话系统,健康咨询,英语 数据概述: 本数据集由哈比大学团队Mai作为毕业设计项目的一部分整理而成,旨在通过构建一个基于变换器的英文聊天机器人来解决月经健康和卫生相关问题。数据集来源于多个渠道,包括Hello... -
格鲁吉亚语情感分析数据集
格鲁吉亚语情感分析数据集 数据来源:互联网公开数据 标签:情感分析,格鲁吉亚语,自然语言处理,文本分类,社会研究 数据概述: 本数据集包含标注了情感标签的格鲁吉亚语句子,涵盖正面、负面和中性三种情感类型。数据集为研究格鲁吉亚语的情感表达和文本分析提供了丰富的语料资源。 数据用途概述:... -
尼泊尔语句子相似度基准数据集1963-2021
尼泊尔语句子相似度基准数据集1963-2021 数据来源:互联网公开数据 标签:尼泊尔语,句子相似度,自然语言处理,机器翻译,同义句检测,语义搜索 数据概述: 本数据集是尼泊尔语版的句子文本相似性基准(STS-B),源自STS-... -
WebMD健康问答平台问题与解答数据集
WebMD健康问答平台问题与解答数据集 数据来源:互联网公开数据 标签:健康,医疗,问答,WebMD,医学,文本数据,自然语言处理,信息检索 数据概述:... -
谷歌新闻原始数据集
谷歌新闻原始数据集 数据来源:互联网公开数据 标签:谷歌新闻,原始数据,自然语言处理,文本分析,数据科学,新闻内容 数据概述: 本数据集包含从谷歌新闻收集的新闻文章集合,数据通过网络抓取获得,涵盖多个新闻来源的原始、未加工文本。该数据集提供了广泛的新聞内容,适用于自然语言处理项目、文本分析和其他需要原始文本数据的数据科学应用。 数据用途概述:... -
ACL会议接受论文数据集2016-2018
ACL会议接受论文数据集2016-2018 数据来源:互联网公开数据 标签:ACL会议,接受论文,自然语言处理,研究趋势,学术出版,论文分析,开源数据 数据概述:... -
AskReddit热门评论数据集-NLP文本分析
AskReddit热门评论数据集-NLP文本分析 数据来源:互联网公开数据 标签:AskReddit,评论,Reddit,文本分析,NLP,自然语言处理,情感分析,热门评论,数据分析,EDA 数据概述: 本数据集包含了过去一个月内AskReddit版块中,最热门的评论数据。... -
PDF数据分析数据集
PDF数据分析数据集 数据来源:互联网公开数据 标签:PDF分析,文本提取,数据处理,自然语言处理,机器学习,文档分析,信息提取 数据概述: 本数据集包含了一系列PDF文档,以及对这些文档进行分析后提取的数据。数据集涵盖了文档的基本信息、文本内容、关键词、结构化数据等关键要素,为研究PDF文档的内容和结构提供了基础。 数据用途概述:...