找到11,938个数据集

标签: 自然语言处理

过滤结果
  • 土耳其医生患者问答数据集-2023-kaayra2000

    2025年6月1日   

    土耳其医生患者问答数据集-2023-kaayra2000 数据来源:互联网公开数据 标签:医生患者问答,医学,自然语言处理,教育,土耳其,数据分析,健康沟通 数据概述:...
    packageimg
  • Reddit恋爱关系社区帖子内容数据集

    2025年6月1日   

    Reddit恋爱关系社区帖子内容数据集 数据来源:互联网公开数据 标签:Reddit,恋爱关系,文本生成,社区数据,自然语言处理,社交媒体分析 数据概述: 本数据集源自Reddit网站,包含“relationships”(恋爱关系)社区中帖子的ID和内容,仅保留长度超过50个字符的帖子。该数据集旨在用于文本生成模型的微调训练。 数据用途概述:...
    packageimg
  • 亚马逊电子产品用户评价情感分析数据集-2018年

    2025年6月1日   

    亚马逊电子产品用户评价情感分析数据集-2018年 数据来源:互联网公开数据 标签:亚马逊,电子产品,用户评价,情感分析,文本挖掘,评分,评论,NLP,自然语言处理 数据概述:...
    packageimg
  • 英印电影字幕数据集

    2025年6月1日   

    英印电影字幕数据集 数据来源:互联网公开数据 标签:电影字幕,印尼语翻译,英文原字幕,翻译研究,语言学习,自然语言处理,跨语言分析 数据概述: 本数据集来源于公开字幕资源,包含英文原字幕及其对应的印尼语翻译。数据集中的每条记录包含两个关键字段:英文原字幕和印尼语翻译。这些数据为研究跨语言翻译、语言对比以及机器翻译提供了丰富的语料支持。 数据用途概述:...
    packageimg
  • 多语言句子嵌入模型DistilUSE-base-multilingual-cased-v2数据集

    2025年6月1日   

    多语言句子嵌入模型DistilUSE-base-multilingual-cased-v2数据集 数据来源:互联网公开数据 标签:句子嵌入,多语言,自然语言处理,NLP,机器学习,文本相似度,语义分析,UKPLab 数据概述: 本数据集包含多语言句子嵌入模型DistilUSE-base-multilingual-...
    packageimg
  • 维基百科-事物-主题相关页面数据分析数据集

    2025年6月1日   

    维基百科-事物-主题相关页面数据分析数据集 数据来源:互联网公开数据 标签:维基百科,事物,知识图谱,文本分析,自然语言处理,主题分类,信息检索 数据概述:...
    packageimg
  • 青空文库文本语料库

    2025年6月1日   

    青空文库文本语料库 数据来源:互联网公开数据 标签:文学作品,日本文学,语料库,文本分析,自然语言处理,文学研究 数据概述: 本数据集来源于日本著名的数字图书馆“青空文库”(Aozora...
    packageimg
  • 手写地址数据集

    2025年6月1日   

    手写地址数据集 数据来源:互联网公开数据 标签:手写识别,地址信息,图像分类,OCR,邮政编码,城市信息,自然语言处理 数据概述:...
    packageimg
  • Allegro文章摘要生成数据集-2023-thedevastator

    2025年6月1日   

    Allegro文章摘要生成数据集-2023-thedevastator 数据来源:互联网公开数据 标签:文本摘要,自然语言处理,机器学习,算法开发,新闻摘要,数据集,训练集,测试集,验证集,Allegro 数据概述: 本数据集是专门为训练和评估高级文本摘要模型而设计的Allegro文章摘要源-...
    packageimg
  • 预处理版虚假新闻识别数据集-ceasor6

    2025年5月31日   

    预处理版虚假新闻识别数据集-ceasor6 数据来源:互联网公开数据 标签:虚假新闻,文本分析,自然语言处理,机器学习,文本预处理,情感分析,数据增强 数据概述:...
    packageimg
  • 维基百科句子拆分数据集-2023-thedevastator

    2025年5月31日   

    维基百科句子拆分数据集-2023-thedevastator 数据来源:互联网公开数据 标签:维基百科,句子拆分,NLP,自然语言处理,文本分析,数据集,机器学习 数据概述:...
    packageimg
  • 网络爬取图像及描述数据集

    2025年5月31日   

    网络爬取图像及描述数据集 数据来源:互联网公开数据 标签:图像描述,网络爬取,计算机视觉,自然语言处理,多模态学习,图像理解,视觉分析,文本生成,数据清洗,数据增强 数据概述: 本数据集是一个从互联网公开数据中收集的大型图像-...
    packageimg
  • 简历技能预测数据集-基于NLTK处理的技能及相关信息提取-dhruval97

    2025年5月31日   

    简历技能预测数据集-基于NLTK处理的技能及相关信息提取-dhruval97 数据来源:互联网公开数据 标签:简历,技能,预测,NLTK,自然语言处理,文本分析,机器学习,教育,就业 数据概述:...
    packageimg
  • 中央银行讲话预测金融市场数据集2021-2022-keerthan27

    2025年5月31日   

    中央银行讲话预测金融市场数据集2021-2022-keerthan27 数据来源:互联网公开数据 标签:金融市场预测,中央银行,讲话分析,自然语言处理,机器学习,数据集,预测模型 数据概述:...
    packageimg
  • 英语初学者情感分析数据集-多情感文本-生成文本-dangerousai

    2025年5月31日   

    英语初学者情感分析数据集-多情感文本-生成文本-dangerousai 数据来源:互联网公开数据 标签:情感分析,文本生成,英语学习,自然语言处理,机器学习,情感分类,LLM,GPT-3.5,ChatGLM-4 数据概述:...
    packageimg
  • 超细粒度二元偏好学习数据集-2021-thedevastator

    2025年5月31日   

    超细粒度二元偏好学习数据集-2021-thedevastator 数据来源:互联网公开数据 标签:超细粒度偏好,机器学习,自然语言处理,推荐系统,客户满意度,用户偏好预测 数据概述: 本数据集用于超细粒度二元偏好学习任务,包含三个不同的数据集:SFT、PPO 和...
    packageimg
  • 巴西新闻文章文本数据集-新闻内容分析-2024

    2025年5月31日   

    巴西新闻文章文本数据集-新闻内容分析-2024 数据来源:互联网公开数据 标签:巴西,新闻,文本,自然语言处理,NLP,金融,信息提取,时事,政治,经济,社会 数据概述: 本数据集包含来自巴西联邦数字图书馆的新闻文章文本,旨在为自然语言处理(NLP)模型构建提供可靠且一致的数据源。数据集涵盖了各种主题的新闻报道,为研究人员提供了丰富的文本数据。...
    packageimg
  • COVID-19开放研究数据集-2021-sshikamaru

    2025年5月31日   

    COVID-19开放研究数据集-2021-sshikamaru 数据来源:互联网公开数据 标签:COVID-19,开放研究,自然语言处理,医学研究,数据科学,科研数据,科学数据,疫情研究 数据概述:...
    packageimg
  • 亚马逊商品评论情感分析数据集-用户评论-2018

    2025年5月31日   

    亚马逊商品评论情感分析数据集-用户评论-2018 数据来源:互联网公开数据 标签:亚马逊,商品评论,情感分析,文本分类,用户反馈,机器学习,自然语言处理,评论数据 数据概述:...
    packageimg
  • Kaggle平台用户支持文档与LLM应用数据集-20231217

    2025年5月31日   

    Kaggle平台用户支持文档与LLM应用数据集-20231217 数据来源:互联网公开数据 标签:Kaggle, LLM, RAG, 用户支持, 问答系统, 自然语言处理, 机器学习, 数据集 数据概述: 本数据集旨在用于测试基于LLM(大型语言模型)和RAG(检索增强生成)技术的简单应用构建。 数据用途概述:...
    packageimg