找到11,752个数据集

标签: 自然语言处理

过滤结果
  • 基于GPT-3的改写文章数据集

    2025年4月14日   

    基于GPT-3的改写文章数据集 数据来源:互联网公开数据 标签:GPT-3,文本改写,自然语言处理,摘要,引言,数据增强,机器翻译 数据概述: 本数据集包含由GPT-3语言模型改写的文章标题、摘要和引言部分。原始文章选自Assoc. Prof. Mehmet Erkut Erdem的Google Scholar页面,并通过GPT-3...
    packageimg
  • 马拉雅拉姆推特数据集

    2025年4月14日   

    马拉雅拉姆推特数据集 数据来源:互联网公开数据 标签:推特,马拉雅拉姆,情感分析,社交媒体,文本数据,用户行为,自然语言处理 数据概述:...
    packageimg
  • 垃圾邮件过滤研究-SpamAssassin邮件数据集

    2025年4月14日   

    垃圾邮件过滤研究-SpamAssassin邮件数据集 数据来源:互联网公开数据 标签:垃圾邮件,SpamAssassin,邮件,文本分类,自然语言处理,机器学习,贝叶斯,语料库 数据概述:...
    packageimg
  • 西班牙语评论文本向量化分析数据集

    2025年4月14日   

    西班牙语评论文本向量化分析数据集 数据来源:互联网公开数据 标签:西班牙语,文本分析,自然语言处理,情感分析,机器学习,词袋模型,TF-IDF,停用词,分类 数据概述: 本数据集包含722条西班牙语评论文本,用于二元分类问题。数据集经过文本向量化处理,基于词袋模型(BoW)和TF-...
    packageimg
  • 仇恨言论和冒犯性推文数据集

    2025年4月14日   

    仇恨言论和冒犯性推文数据集 数据来源:互联网公开数据 标签:仇恨言论,冒犯性语言,社交媒体,推特,文本分析,自然语言处理,社会伦理 数据概述:...
    packageimg
  • 准确医疗翻译数据集

    2025年4月14日   

    准确医疗翻译数据集 数据来源:互联网公开数据 标签:医疗翻译,准确翻译,自然语言处理,机器学习,跨文化比较,医疗信息交流,全球医疗协作 数据概述: 本数据集是一个全面且可靠的医疗翻译数据集,由yanis...
    packageimg
  • 佐科维推特数据集

    2025年4月14日   

    佐科维推特数据集 数据来源:互联网公开数据 标签:佐科维,推特,印尼总统,情感分析,自然语言处理,社交媒体数据,机器学习 数据概述: 本数据集包含印度尼西亚第七任总统佐科维在2022年在其官方推特账号上发布的1,000条推文。每条推文都根据其情感被标注为正面、负面或中性。...
    packageimg
  • 福尔德家族故事集情感分析数据集

    2025年4月14日   

    福尔德家族故事集情感分析数据集 数据来源:互联网公开数据 标签:情感分析,文本分析,自然语言处理,福尔德家族,故事集,词频分析,情感词典,主题建模,实体识别 数据概述:...
    packageimg
  • 虚假新闻类型分类研究数据集

    2025年4月14日   

    虚假新闻类型分类研究数据集 数据来源:互联网公开数据 标签:虚假新闻,经济,政治,社会,科学,分类模型,数据集,机器学习,自然语言处理 数据概述:...
    packageimg
  • 多模态情感数据集

    2025年4月14日   

    多模态情感数据集 数据来源:互联网公开数据 标签:多模态,情感分析,图像识别,自然语言处理,计算机视觉,图像分类,文本分析 数据概述: 本数据集包含100个不同类别动物和物体的图像及其对应的文本描述和情感标签,适用于多模态情感分析研究。图像类别包括鲨鱼、鸟类、蜥蜴、蜘蛛等。该数据集为计算机视觉和自然语言处理任务提供了丰富的数据资源。 数据用途概述:...
    packageimg
  • 印尼苏丹语推特情绪分类数据集2021

    2025年4月14日   

    印尼苏丹语推特情绪分类数据集2021 数据来源:互联网公开数据 标签:苏丹语,推特,情绪分类,自然语言处理,计算机科学,数据集 数据概述: 本数据集包含2510条推特,这些推特使用印尼的第二大本地语言——苏丹语。数据集用于情绪分类研究,旨在帮助理解苏丹语推特中的情绪表达。数据集经过预处理,包括小写转换、停用词去除和词干提取。 数据用途概述:...
    packageimg
  • HuggingFace模型库模型下载量及特征分析数据集-2023年9月

    2025年4月14日   

    HuggingFace模型库模型下载量及特征分析数据集-2023年9月 数据来源:互联网公开数据 标签:Hugging Face, 模型库, 下载量, 模型, 机器学习, 自然语言处理, 计算机视觉, 模型分析 数据概述: 本数据集收录了截至2023年9月20日Hugging...
    packageimg
  • TikTok视频字幕与误导信息分类数据集

    2025年4月14日   

    TikTok视频字幕与误导信息分类数据集 数据来源:互联网公开数据 标签:短视频, 社交媒体, 误导信息, 内容审核, 自然语言处理, 数据标注, 机器学习, 用户互动 数据概述 本数据集包含了来自 TikTok...
    packageimg
  • 领英企业页面帖子数据分析数据集-2021年2月

    2025年4月14日   

    领英企业页面帖子数据分析数据集-2021年2月 数据来源:互联网公开数据 标签:领英,企业页面,帖子,社交媒体分析,内容分析,自然语言处理,数据抓取 数据概述:...
    packageimg
  • 印度尼西亚垃圾短信文本分析数据集1963-2021

    2025年4月14日   

    印度尼西亚垃圾短信文本分析数据集1963-2021 数据来源:互联网公开数据 标签:垃圾短信,文本分析,商业用途,欺诈检测,客户支持,趋势分析,教育,网络安全,短信分类,机器学习,自然语言处理 数据概述:...
    packageimg
  • 问答驱动阅读理解研究数据集2011-2013

    2025年4月14日   

    问答驱动阅读理解研究数据集2011-2013 数据来源:互联网公开数据 标签:问答系统,阅读理解,自然语言处理,研究数据集,阿尔茨海默病,入学考试 数据概述: 问答驱动阅读理解(QA4MRE)数据集是由Huggingface Hub提供的一个庞大问答数据集,包含多个主题的文档及对应的问答对。该数据集作为CLEF...
    packageimg
  • 写作质量挑战构造性文章数据集

    2025年4月14日   

    写作质量挑战构造性文章数据集 数据来源:互联网公开数据 标签:写作质量,过程建模,机器学习竞赛,自然语言处理,特征工程,教育评估 数据概述: 本数据集基于“将写作过程与写作质量联系起来”竞赛的训练日志构建,包含通过代码生成的构造性文章数据。构造性文章的生成基于两个版本的代码实现:Version 02 和 Version...
    packageimg
  • 疾病百科数据集

    2025年4月14日   

    疾病百科数据集 数据来源:互联网公开数据 标签:疾病,医学,诊断,治疗,西班牙语,自然语言处理,机器学习,训练数据,健康信息 数据概述: 本数据集包含了来自西班牙语维基百科(Wikipedia...
    packageimg
  • 阿拉伯语方言数据集

    2025年4月14日   

    阿拉伯语方言数据集 数据来源:互联网公开数据 标签:阿拉伯语方言,社交媒体文本,文本分类,语言分析,自然语言处理,区域语言差异 数据概述: 本数据集来源于Twitter平台,包含38,394条记录,主要分为四类阿拉伯语方言,分别为埃及方言、海湾方言、约旦方言和也门方言。各类别数据分布不均衡,为研究人员提供了多样化的数据资源。 数据用途概述:...
    packageimg
  • 苹果发布会演讲记录数据集

    2025年4月14日   

    苹果发布会演讲记录数据集 数据来源:互联网公开数据 标签:苹果公司,发布会,演讲记录,自然语言处理,内容分析,文本挖掘,行业趋势 数据概述:...
    packageimg