-
基于GPT-3的改写文章数据集
基于GPT-3的改写文章数据集 数据来源:互联网公开数据 标签:GPT-3,文本改写,自然语言处理,摘要,引言,数据增强,机器翻译 数据概述: 本数据集包含由GPT-3语言模型改写的文章标题、摘要和引言部分。原始文章选自Assoc. Prof. Mehmet Erkut Erdem的Google Scholar页面,并通过GPT-3... -
-
垃圾邮件过滤研究-SpamAssassin邮件数据集
垃圾邮件过滤研究-SpamAssassin邮件数据集 数据来源:互联网公开数据 标签:垃圾邮件,SpamAssassin,邮件,文本分类,自然语言处理,机器学习,贝叶斯,语料库 数据概述:... -
西班牙语评论文本向量化分析数据集
西班牙语评论文本向量化分析数据集 数据来源:互联网公开数据 标签:西班牙语,文本分析,自然语言处理,情感分析,机器学习,词袋模型,TF-IDF,停用词,分类 数据概述: 本数据集包含722条西班牙语评论文本,用于二元分类问题。数据集经过文本向量化处理,基于词袋模型(BoW)和TF-... -
-
准确医疗翻译数据集
准确医疗翻译数据集 数据来源:互联网公开数据 标签:医疗翻译,准确翻译,自然语言处理,机器学习,跨文化比较,医疗信息交流,全球医疗协作 数据概述: 本数据集是一个全面且可靠的医疗翻译数据集,由yanis... -
佐科维推特数据集
佐科维推特数据集 数据来源:互联网公开数据 标签:佐科维,推特,印尼总统,情感分析,自然语言处理,社交媒体数据,机器学习 数据概述: 本数据集包含印度尼西亚第七任总统佐科维在2022年在其官方推特账号上发布的1,000条推文。每条推文都根据其情感被标注为正面、负面或中性。... -
福尔德家族故事集情感分析数据集
福尔德家族故事集情感分析数据集 数据来源:互联网公开数据 标签:情感分析,文本分析,自然语言处理,福尔德家族,故事集,词频分析,情感词典,主题建模,实体识别 数据概述:... -
虚假新闻类型分类研究数据集
虚假新闻类型分类研究数据集 数据来源:互联网公开数据 标签:虚假新闻,经济,政治,社会,科学,分类模型,数据集,机器学习,自然语言处理 数据概述:... -
多模态情感数据集
多模态情感数据集 数据来源:互联网公开数据 标签:多模态,情感分析,图像识别,自然语言处理,计算机视觉,图像分类,文本分析 数据概述: 本数据集包含100个不同类别动物和物体的图像及其对应的文本描述和情感标签,适用于多模态情感分析研究。图像类别包括鲨鱼、鸟类、蜥蜴、蜘蛛等。该数据集为计算机视觉和自然语言处理任务提供了丰富的数据资源。 数据用途概述:... -
印尼苏丹语推特情绪分类数据集2021
印尼苏丹语推特情绪分类数据集2021 数据来源:互联网公开数据 标签:苏丹语,推特,情绪分类,自然语言处理,计算机科学,数据集 数据概述: 本数据集包含2510条推特,这些推特使用印尼的第二大本地语言——苏丹语。数据集用于情绪分类研究,旨在帮助理解苏丹语推特中的情绪表达。数据集经过预处理,包括小写转换、停用词去除和词干提取。 数据用途概述:... -
HuggingFace模型库模型下载量及特征分析数据集-2023年9月
HuggingFace模型库模型下载量及特征分析数据集-2023年9月 数据来源:互联网公开数据 标签:Hugging Face, 模型库, 下载量, 模型, 机器学习, 自然语言处理, 计算机视觉, 模型分析 数据概述: 本数据集收录了截至2023年9月20日Hugging... -
TikTok视频字幕与误导信息分类数据集
TikTok视频字幕与误导信息分类数据集 数据来源:互联网公开数据 标签:短视频, 社交媒体, 误导信息, 内容审核, 自然语言处理, 数据标注, 机器学习, 用户互动 数据概述 本数据集包含了来自 TikTok... -
领英企业页面帖子数据分析数据集-2021年2月
领英企业页面帖子数据分析数据集-2021年2月 数据来源:互联网公开数据 标签:领英,企业页面,帖子,社交媒体分析,内容分析,自然语言处理,数据抓取 数据概述:... -
印度尼西亚垃圾短信文本分析数据集1963-2021
印度尼西亚垃圾短信文本分析数据集1963-2021 数据来源:互联网公开数据 标签:垃圾短信,文本分析,商业用途,欺诈检测,客户支持,趋势分析,教育,网络安全,短信分类,机器学习,自然语言处理 数据概述:... -
问答驱动阅读理解研究数据集2011-2013
问答驱动阅读理解研究数据集2011-2013 数据来源:互联网公开数据 标签:问答系统,阅读理解,自然语言处理,研究数据集,阿尔茨海默病,入学考试 数据概述: 问答驱动阅读理解(QA4MRE)数据集是由Huggingface Hub提供的一个庞大问答数据集,包含多个主题的文档及对应的问答对。该数据集作为CLEF... -
写作质量挑战构造性文章数据集
写作质量挑战构造性文章数据集 数据来源:互联网公开数据 标签:写作质量,过程建模,机器学习竞赛,自然语言处理,特征工程,教育评估 数据概述: 本数据集基于“将写作过程与写作质量联系起来”竞赛的训练日志构建,包含通过代码生成的构造性文章数据。构造性文章的生成基于两个版本的代码实现:Version 02 和 Version... -
疾病百科数据集
疾病百科数据集 数据来源:互联网公开数据 标签:疾病,医学,诊断,治疗,西班牙语,自然语言处理,机器学习,训练数据,健康信息 数据概述: 本数据集包含了来自西班牙语维基百科(Wikipedia... -
阿拉伯语方言数据集
阿拉伯语方言数据集 数据来源:互联网公开数据 标签:阿拉伯语方言,社交媒体文本,文本分类,语言分析,自然语言处理,区域语言差异 数据概述: 本数据集来源于Twitter平台,包含38,394条记录,主要分为四类阿拉伯语方言,分别为埃及方言、海湾方言、约旦方言和也门方言。各类别数据分布不均衡,为研究人员提供了多样化的数据资源。 数据用途概述:... -