找到11,745个数据集

标签: 自然语言处理

过滤结果
  • 分诊评论数据集-附带优先级和标签层次结构

    2025年4月14日   

    分诊评论数据集-附带优先级和标签层次结构 数据来源:互联网公开数据 标签:自然语言处理,机器学习,情感分析,评论分诊,主题建模,协作 数据概述: 本数据集包含4,992行结构化信息,来源于一个用于管理和优先处理协作环境中评论的分诊系统。通过使用高级机器学习技术,如GEMMA-2B进行意图分类,Hugging...
    packageimg
  • 俄罗斯矿业行业文本数据集2009-2023

    2025年4月14日   

    俄罗斯矿业行业文本数据集2009-2023 数据来源:互联网公开数据 标签:矿业,俄罗斯,新闻,行业报告,文本分析,自然语言处理,数据挖掘 数据概述: 本数据集收录了2009年至2023年间约9万条新闻文章、新闻稿和矿业公司公共报告的俄语文本数据。数据通过自动抓取网站内容生成,经过句法切分处理,每行包含一个句子,适用于矿业行业文本分析。 数据用途概述:...
    packageimg
  • 英语月经健康与卫生聊天机器人数据集

    2025年4月14日   

    英语月经健康与卫生聊天机器人数据集 数据来源:互联网公开数据 标签:月经健康,卫生,聊天机器人,自然语言处理,对话系统,健康咨询,英语 数据概述: 本数据集由哈比大学团队Mai作为毕业设计项目的一部分整理而成,旨在通过构建一个基于变换器的英文聊天机器人来解决月经健康和卫生相关问题。数据集来源于多个渠道,包括Hello...
    packageimg
  • 格鲁吉亚语情感分析数据集

    2025年4月14日   

    格鲁吉亚语情感分析数据集 数据来源:互联网公开数据 标签:情感分析,格鲁吉亚语,自然语言处理,文本分类,社会研究 数据概述: 本数据集包含标注了情感标签的格鲁吉亚语句子,涵盖正面、负面和中性三种情感类型。数据集为研究格鲁吉亚语的情感表达和文本分析提供了丰富的语料资源。 数据用途概述:...
    packageimg
  • 尼泊尔语句子相似度基准数据集1963-2021

    2025年4月14日   

    尼泊尔语句子相似度基准数据集1963-2021 数据来源:互联网公开数据 标签:尼泊尔语,句子相似度,自然语言处理,机器翻译,同义句检测,语义搜索 数据概述: 本数据集是尼泊尔语版的句子文本相似性基准(STS-B),源自STS-...
    packageimg
  • WebMD健康问答平台问题与解答数据集

    2025年4月14日   

    WebMD健康问答平台问题与解答数据集 数据来源:互联网公开数据 标签:健康,医疗,问答,WebMD,医学,文本数据,自然语言处理,信息检索 数据概述:...
    packageimg
  • 谷歌新闻原始数据集

    2025年4月14日   

    谷歌新闻原始数据集 数据来源:互联网公开数据 标签:谷歌新闻,原始数据,自然语言处理,文本分析,数据科学,新闻内容 数据概述: 本数据集包含从谷歌新闻收集的新闻文章集合,数据通过网络抓取获得,涵盖多个新闻来源的原始、未加工文本。该数据集提供了广泛的新聞内容,适用于自然语言处理项目、文本分析和其他需要原始文本数据的数据科学应用。 数据用途概述:...
    packageimg
  • ACL会议接受论文数据集2016-2018

    2025年4月14日   

    ACL会议接受论文数据集2016-2018 数据来源:互联网公开数据 标签:ACL会议,接受论文,自然语言处理,研究趋势,学术出版,论文分析,开源数据 数据概述:...
    packageimg
  • AskReddit热门评论数据集-NLP文本分析

    2025年4月14日   

    AskReddit热门评论数据集-NLP文本分析 数据来源:互联网公开数据 标签:AskReddit,评论,Reddit,文本分析,NLP,自然语言处理,情感分析,热门评论,数据分析,EDA 数据概述: 本数据集包含了过去一个月内AskReddit版块中,最热门的评论数据。...
    packageimg
  • PDF数据分析数据集

    2025年4月14日   

    PDF数据分析数据集 数据来源:互联网公开数据 标签:PDF分析,文本提取,数据处理,自然语言处理,机器学习,文档分析,信息提取 数据概述: 本数据集包含了一系列PDF文档,以及对这些文档进行分析后提取的数据。数据集涵盖了文档的基本信息、文本内容、关键词、结构化数据等关键要素,为研究PDF文档的内容和结构提供了基础。 数据用途概述:...
    packageimg
  • LLM提示恢复合成数据集

    2025年4月14日   

    LLM提示恢复合成数据集 数据来源:互联网公开数据 标签:LLM,提示恢复,合成数据,自然语言处理,人工智能,机器学习,数据竞赛 数据概述: 本数据集使用Gemma 7B-IT生成了1000个示例,用于LLM提示恢复竞赛。数据集基于@thedrcat的原始数据集进行扩展,包含两个额外的列:一是Gemma 7B-IT生成的原始输出,二是去除“Sure…...
    packageimg
  • 带水印与不带水印文本生成数据集

    2025年4月14日   

    带水印与不带水印文本生成数据集 数据来源:互联网公开数据 标签:文本生成,水印嵌入,语言模型,OPT-350M,数据集,机器学习,自然语言处理 数据概述:...
    packageimg
  • 英语单词频率数据集

    2025年4月14日   

    英语单词频率数据集 数据来源:互联网公开数据 标签:单词频率,英语,语料库分析,自然语言处理,文本挖掘,数据可视化,机器学习 数据概述: 本数据集基于Google...
    packageimg
  • 推特用户情感分析主题聚类数据集

    2025年4月14日   

    推特用户情感分析主题聚类数据集 数据来源:互联网公开数据 标签:推特,社交媒体,情感分析,主题聚类,自然语言处理,文本挖掘,舆情分析 数据概述: 本数据集包含经过聚类的推特(Twitter)用户推文数据,并结合了情感分析结果。原始数据经过预处理,包括清洗和自然语言处理(NLP)等步骤。数据集的核心是推文聚类,每个聚类代表一个特定的主题或话题。...
    packageimg
  • 古兰经文本数据集1963-2021

    2025年4月14日   

    古兰经文本数据集1963-2021 数据来源:互联网公开数据 标签:古兰经,伊斯兰教,自然语言处理,情感分析,文本分类,主题建模,语言生成,宗教文本,文化研究 数据概述:...
    packageimg
  • 航空客户评论数据集

    2025年4月14日   

    航空客户评论数据集 数据来源:互联网公开数据 标签:航空,客户评论,自然语言处理,文本清理,词元化,情感分析,预测建模 数据概述: 本数据集包含关于航空公司的客户文本评论,涵盖了乘客对航空公司服务的多方面反馈。数据集为学习、实践或测试初学者到中级的自然语言处理任务提供了丰富的资源,包括文本清理、词元化、情感分析以及基于分析结果的预测建模。...
    packageimg
  • QuAIL阅读理解多选题数据集-新闻-用户故事-小说和博客-多领域-15000题

    2025年4月14日   

    QuAIL阅读理解多选题数据集-新闻-用户故事-小说和博客-多领域-15000题 数据来源:互联网公开数据 标签:阅读理解,多选题,自然语言处理,机器学习,文本理解,问题解答,新闻,用户故事,小说,博客 数据概述:...
    packageimg
  • 孟加拉每日英语新闻文章数据集

    2025年4月14日   

    孟加拉每日英语新闻文章数据集 数据来源:互联网公开数据 标签:孟加拉,新闻,自然语言处理,文本分析,时间序列,媒体研究,信息提取 数据概述: 本数据集收录了孟加拉每日英语新闻文章,数据来源包括五个主要的孟加拉英语新闻门户:The Daily Star、The Financial Express、New Age bd、Dhaka Tribune 和...
    packageimg
  • 烹饪平台用户评论与互动信息食谱评论与评分反馈数据集

    2025年4月13日   

    数据来源 互联网公开数据 数据字段 Recipe_Name(食谱名称):用户评价所对应的食谱标题。 Recipe_Rank(食谱排名):食谱在平台前100名榜单中的排名情况。 Recipe_ID(食谱代码):每个食谱的唯一标识符。 User_ID(用户ID):用户的唯一身份标识。 User_Name(用户名):注册用户的显示名称。...
    packageimg
  • 互联网公开文本数据集统计分析报告

    2025年4月8日   

    标题:互联网公开文本数据集统计分析报告 数据内容: 该数据集包含两个主要字段: 1. full_text:包含1263种不同的文本内容,每条记录代表一个完整的文本段落或短文本。 2. labels:包含2种不同的标签值,可能是二分类标签,用于对文本进行分类。 数据来源: 互联网公开数据 数据用途: 该数据集可用于多个行业的文本分析任务,例如: -...
    packageimg