找到66个数据集

标签: 文本

过滤结果
  • Unicode字符集区块编码及名称数据集-12-1-0-adamboulad

    2025年4月22日   

    Unicode字符集区块编码及名称数据集-12-1-0-adamboulad 数据来源:互联网公开数据 标签:Unicode,字符集,编码,区块,字符,文本,数据 数据概述: 本数据集收录了Unicode...
    packageimg
  • 新闻真伪辨别文本分类数据集-neupane9sujal

    2025年4月22日   

    新闻真伪辨别文本分类数据集-neupane9sujal 数据来源:互联网公开数据 标签:新闻,真伪,假新闻,文本分类,自然语言处理,机器学习,标题,文本,标签 数据概述: 本数据集包含新闻文章的标题、正文以及真伪标签,可用于进行假新闻检测任务。数据集旨在帮助初学者学习文本分类技术,了解如何利用机器学习模型识别新闻的真伪。 数据包含以下字段:...
    packageimg
  • 短视频平台用户互动数据集1963-2021-programmer3

    2025年4月21日   

    短视频平台用户互动数据集1963-2021-programmer3 数据来源:互联网公开数据 标签:短视频,用户互动,YouTube Shorts,TikTok,Instagram Reels,数据集,多媒体特征,文本,图像,音频,用户行为 数据概述: 本数据集通过网络爬虫技术从流行的短视频平台(如YouTube...
    packageimg
  • 新闻真伪辨别数据集-标题文本与标签-2024-amirmotefaker

    2025年4月21日   

    新闻真伪辨别数据集-标题文本与标签-2024-amirmotefaker 数据来源:互联网公开数据 标签:新闻,真伪,假新闻,文本分析,自然语言处理,机器学习,文本分类,标题,文本 数据概述: 本数据集旨在用于新闻真伪辨别研究与实践,包含了大量新闻标题、正文文本及对应的真伪标签。 数据集共包含7796条新闻样本,每条样本由四个字段构成:...
    packageimg
  • 数据2020年美国总统大选演讲文本数据集-imuhammad

    2025年4月21日   

    2020年美国总统大选演讲文本数据集-imuhammad 数据来源:互联网公开数据 标签:美国总统选举,演讲,政治,2020,文本,选战,竞选,辩论,采访 数据概述:...
    packageimg
  • OpenMoji表情符号图像与描述数据集

    2025年4月21日   

    OpenMoji表情符号图像与描述数据集 数据来源:互联网公开数据 标签:OpenMoji,表情符号,图像,文本,Unicode,描述,视觉,文化,交流 数据概述: 本数据集基于OpenMoji项目,收录了丰富的表情符号图像及相关描述信息。数据源自Kaggle平台,并遵循知识共享署名-...
    packageimg
  • TED演讲文本主题分析与文本分割数据集-2020年5月1日

    2025年4月18日   

    TED演讲文本主题分析与文本分割数据集-2020年5月1日 数据来源:互联网公开数据 标签:TED演讲,文本,演讲,文本分割,自然语言处理,机器学习,主题分析,演讲稿,NLP 数据概述: 本数据集包含了从TED.com网站抓取的TED演讲稿文本,每个演讲稿被分割成段落。演讲视频列表来源于“TED Talks Transcripts for...
    packageimg
  • 泰卢固语新闻文本数据集-语言模型训练-合并数据集

    2025年4月17日   

    泰卢固语新闻文本数据集-语言模型训练-合并数据集 数据来源:互联网公开数据 标签:泰卢固语,新闻,文本,语言模型,自然语言处理,NLP,机器学习,语料库,文本数据 数据概述: 本数据集由原始泰卢固语新闻数据合并的训练集和测试集构成,整合了来自不同来源的泰卢固语新闻文章。数据集包含丰富的新闻文本内容,涵盖了各种主题和风格。 数据用途概述:...
    packageimg
  • TED演讲文本数据集-演讲内容与结构分析-2024年9月12日

    2025年4月16日   

    TED演讲文本数据集-演讲内容与结构分析-2024年9月12日 数据来源:互联网公开数据 标签:TED演讲,文本,转录,演讲稿,自然语言处理,文本分析,主题分割,内容分析 数据概述:...
    packageimg
  • 假名500人数据集

    2025年4月15日   

    假名500人数据集 数据来源:互联网公开数据 标签:假名数据,随机生成,个人信息,电话,电子邮件,地址,国家,区域,邮政编码,文本,数字范围,货币,字母数字 数据概述:...
    packageimg
  • Catch-the-AI人工智能生成内容检测数据集

    2025年4月15日   

    Catch-the-AI人工智能生成内容检测数据集 数据来源:互联网公开数据 (Kaggle 竞赛及其他数据集) 标签:人工智能, AI 生成内容, 检测, LLM, 文本, 图像, 音频, 机器学习, 数据集, 自然语言处理, 幻觉检测, DAIGT, Kaggle, Hugging Face 数据概述: 本数据集是 Catch the AI...
    packageimg
  • 梵语史诗摩诃婆罗多和罗摩衍那诗句英译数据集

    2025年4月15日   

    梵语史诗摩诃婆罗多和罗摩衍那诗句英译数据集 数据来源:互联网公开数据 标签:梵语, 史诗, 翻译, 语言学, 文本, 诗歌, 语料库, 机器学习, 文本生成 数据概述: 本数据集是一个梵语-英语翻译语料库,包含了从M. N....
    packageimg
  • 古兰经经文文本数据集阿拉伯语

    2025年4月15日   

    古兰经经文文本数据集阿拉伯语 数据来源:互联网公开数据 标签:古兰经,伊斯兰教,宗教,经文,阿拉伯语,文本,Unicode 数据概述: 本数据集包含古兰经的阿拉伯语文本,以Unicode编码存储。数据结构简洁,主要包含三个字段:Surah ID(章编号)、Verse ID(节编号)和Ayat...
    packageimg
  • 永恒之塔经典版游戏论坛讨论帖文本数据集-2023年6月9日至7月15日部分

    2025年4月15日   

    永恒之塔经典版游戏论坛讨论帖文本数据集-2023年6月9日至7月15日部分 数据来源:互联网公开数据 标签:永恒之塔,游戏,论坛,讨论,文本,社区,社交,情感分析,主题建模 数据概述: 本数据集包含了2023年6月9日至7月15日(部分)期间,"永恒之塔经典版"游戏General...
    packageimg
  • 音乐流派分类预测数据集

    2025年4月15日   

    音乐流派分类预测数据集 数据来源:互联网公开数据 标签:音乐,流派,分类,机器学习,音频,文本,歌曲,预测 数据概述: 本数据集旨在为音乐流派分类任务提供数据支持。数据集包含了大量歌曲的音频特征和相应的流派标签。数据主要来自Kaggle,是一个用于训练和评估音乐流派分类模型的常用数据集。数据集的更新版本已在Kaggle上发布,提供了更准确和全面的数据。...
    packageimg
  • 美国Reddit政治讨论文本数据集-2024

    2025年4月15日   

    美国Reddit政治讨论文本数据集-2024 数据来源:互联网公开数据 标签:Reddit,政治,评论,文本,情感分析,美国,社交媒体,舆情,话题,数据挖掘 数据概述: 本数据集包含来自Reddit平台上r/Politics子版块的帖子和评论文本数据,涵盖了关于美国政治的讨论。数据通过Reddit...
    packageimg
  • 编程语言HelloWorld程序代码数据集

    2025年4月15日   

    编程语言HelloWorld程序代码数据集 数据来源:互联网公开数据 标签:编程,代码,Hello World,语言,程序,文本,入门,学习,示例 数据概述: 本数据集包含了多种编程语言的"Hello...
    packageimg
  • 皮埃罗格数据集-英语短文本主题相关性评估数据集

    2025年4月14日   

    皮埃罗格数据集-英语短文本主题相关性评估数据集 数据来源:互联网公开数据 标签:文本,主题,相关性,评测,机器学习,教育,英语,自然语言处理,ChatGPT,GPT-4 数据概述: 皮埃罗格数据集是一个小型、开放许可的、机器生成的数据集,包含十五篇短篇英语文本,涵盖五个主题,并附带相关性判断(qrels),专为教育目的设计。...
    packageimg
  • 情景喜剧神烦警探剧本对话数据集-第一季前四集

    2025年4月14日   

    情景喜剧神烦警探剧本对话数据集-第一季前四集 数据来源:互联网公开数据 标签:神烦警探,brooklyn99,剧本,对话,喜剧,角色,文本,Discord机器人,机器学习,自然语言处理 数据概述: 本数据集包含了情景喜剧《神烦警探》(Brooklyn Nine-Nine)第一季前四集的剧本对话内容。数据源自Brooklyn 99...
    packageimg
  • 孟加拉语文本噪声标注数据集-情感分析应用-2024

    2025年4月14日   

    孟加拉语文本噪声标注数据集-情感分析应用-2024 数据来源:互联网公开数据 标签:孟加拉语,文本,噪声,标注,情感分析,自然语言处理,W-NUT,机器学习,语言学 数据概述: 本数据集为多标签数据集,旨在用于孟加拉语文本中的噪声识别。该数据集由四位母语为孟加拉语的专家标注,标注可信度达到90%。Fleiss'...
    packageimg