找到5,827个数据集

标签: 文本分析

过滤结果
  • 截断512令牌数据集Truncation512TokensDataset-satoshissss

    2025年4月25日   

    截断512令牌数据集Truncation512TokensDataset-satoshissss 数据来源:互联网公开数据 标签:数据集,自然语言处理,文本截断,机器学习,深度学习,文本分析,语言模型,文本挖掘 数据概述:...
    packageimg
  • 句子生成脚本数据集SentenceScriptDataset-indunil19

    2025年4月25日   

    句子生成脚本数据集SentenceScriptDataset-indunil19 数据来源:互联网公开数据 标签:自然语言处理,文本生成,数据集,深度学习,语言模型,文本分析,人工智能,写作辅助 数据概述: 该数据集包含用于句子生成的脚本数据,记录了各种主题和风格的句子及相关信息。主要特征如下: 时间跨度:数据记录的时间范围不定,取决于脚本的创作时间。...
    packageimg
  • CommonLit阅读理解难度评估辅助数据集CommonLitReadabilityPrizeAuxiliaryDataDataset-chamecall

    2025年4月25日   

    CommonLit阅读理解难度评估辅助数据集CommonLitReadabilityPrizeAuxiliaryDataDataset-chamecall 数据来源:互联网公开数据 标签:自然语言处理,阅读理解,文本分析,数据集,可读性评估,教育,机器学习,语言学 数据概述:...
    packageimg
  • Gemma模型个人身份信息PII数据集-minhsienweng

    2025年4月25日   

    Gemma模型个人身份信息PII数据集-minhsienweng 数据来源:互联网公开数据 标签:PII,数据集,Gemma,隐私保护,自然语言处理,机器学习,文本分析,数据安全 数据概述: 该数据集包含了与Gemma模型相关的个人身份信息(PII)数据,旨在用于隐私保护和安全研究。主要特征如下:...
    packageimg
  • 板球比赛解说数据集CricketCommentaryDataset-shineucc

    2025年4月25日   

    板球比赛解说数据集CricketCommentaryDataset-shineucc 数据来源:互联网公开数据 标签:板球,体育赛事,数据集,解说文本,自然语言处理,机器学习,文本分析,体育研究 数据概述: 该数据集包含来自板球比赛解说的文本数据,记录了比赛过程中的实时解说内容。主要特征如下: 时间跨度:数据记录的时间范围从近年到现代。...
    packageimg
  • 假新闻检测数据集FakeNewsDetectionDataset-ayush0510

    2025年4月25日   

    假新闻检测数据集FakeNewsDetectionDataset-ayush0510 数据来源:互联网公开数据 标签:假新闻,数据集,文本分析,机器学习,自然语言处理,信息检索,社会研究,媒体分析 数据概述:该数据集包含来自Kaggle的假新闻数据,记录了真实和虚假新闻文章的关键信息。主要特征如下:...
    packageimg
  • TensorFlow句子自动补全数据集-subho117

    2025年4月25日   

    TensorFlow句子自动补全数据集-subho117 数据来源:互联网公开数据 标签:自然语言处理,文本生成,数据集,深度学习,TensorFlow,自动补全,语言模型,文本分析 数据概述: 该数据集包含用于训练TensorFlow句子自动补全模型的文本数据,旨在实现对用户输入的句子进行智能补全。主要特征如下: 时间跨度:...
    packageimg
  • 英语-印地语混合语情感分析数据集HinglishSentimentAnalysisDataset-ankitlakra24

    2025年4月25日   

    英语-印地语混合语情感分析数据集HinglishSentimentAnalysisDataset-ankitlakra24 数据来源:互联网公开数据 标签:情感分析,Hinglish,社交媒体,自然语言处理,文本分析,机器学习,印度文化,语言学 数据概述: 该数据集包含了来自社交媒体平台的英语-...
    packageimg
  • 新冠疫情相关Reddit帖子数据集2020年2月至7月Posts-to-Coronavirus-Sub-reddit-Febrero-July-2020D...

    2025年4月25日   

    新冠疫情相关Reddit帖子数据集2020年2月至7月Posts-to-Coronavirus-Sub-reddit-Febrero-July-2020Dataset-longroad4 数据来源:互联网公开数据 标签:社交媒体,新冠疫情,数据集,文本分析,情感分析,机器学习,公共卫生,网络信息传播 数据概述:...
    packageimg
  • 虚假与真实信息识别数据集Fake-or-RealInformationIdentificationDataset-spencerholley

    2025年4月25日   

    虚假与真实信息识别数据集Fake-or-RealInformationIdentificationDataset-spencerholley 数据来源:互联网公开数据 标签:信息识别,数据集,虚假信息,真实信息,机器学习,文本分析,新闻鉴定,社会研究 数据概述:...
    packageimg
  • 文本屏蔽基准数据集RedactionBenchmarkDataset-edithram23

    2025年4月25日   

    文本屏蔽基准数据集RedactionBenchmarkDataset-edithram23 数据来源:互联网公开数据 标签:文本处理,数据集,自然语言处理,机器学习,信息提取,文本分析,隐私保护,合规性 数据概述:该数据集包含来自多个来源的文本数据,记录了文本中敏感信息的屏蔽和分类任务。主要特征如下:...
    packageimg
  • 拼字检查与验证数据集NP-65k-Spell-ExamplesDataset-amardura

    2025年4月25日   

    拼字检查与验证数据集NP-65k-Spell-ExamplesDataset-amardura 数据来源:互联网公开数据 标签:拼字检查,数据集,自然语言处理,文本分析,机器学习,语言技术,教育辅助,拼写验证 数据概述: 该数据集包含来自公开资源的大量拼字检查示例,主要用于验证和训练拼字检查模型。主要特征如下:...
    packageimg
  • 微调数据集Fine-tuningDataset-inductiveanks

    2025年4月25日   

    微调数据集Fine-tuningDataset-inductiveanks 数据来源:互联网公开数据 标签:微调,机器学习,数据集,自然语言处理,深度学习,文本分析,人工智能 数据概述:该数据集包含来自多个来源的文本数据,主要用于机器学习模型的微调任务。主要特征如下: 时间跨度:数据记录的时间范围从2018年到2022年。...
    packageimg
  • 巴以冲突社交媒体情绪分析数据集SentimentFreePalestinein-appXSVMDataset-isranurrahayu

    2025年4月25日   

    巴以冲突社交媒体情绪分析数据集SentimentFreePalestinein-appXSVMDataset-isranurrahayu 数据来源:互联网公开数据 标签:社交媒体,情绪分析,数据集,机器学习,巴以冲突,文本分析,自然语言处理,社会研究...
    packageimg
  • 微博社交媒体内容分析数据集WeiboPostsDataset-adelaideliu1999

    2025年4月25日   

    微博社交媒体内容分析数据集WeiboPostsDataset-adelaideliu1999 数据来源:互联网公开数据 标签:社交媒体,微博,文本分析,情感分析,舆情监测,机器学习,自然语言处理,数据挖掘 数据概述: 该数据集包含来自微博平台的大量用户发布的内容,记录了微博用户发布的文本,图片,视频等多媒体信息。主要特征如下:...
    packageimg
  • Tiki电商平台评论数据集TikiCommentDataset-lhhhhl

    2025年4月25日   

    Tiki电商平台评论数据集TikiCommentDataset-lhhhhl 数据来源:互联网公开数据 标签:电商,评论数据,文本分析,情感分析,自然语言处理,用户行为,产品评价,机器学习 数据概述: 该数据集包含来自越南电商平台Tiki的商品评论数据,记录了用户对商品的使用评价。主要特征如下: 时间跨度: 数据记录的时间范围为2017年至2022年。...
    packageimg
  • 新冠疫情推特文本数据集COVID-19TwitterTextDataset-kinggeogt

    2025年4月25日   

    新冠疫情推特文本数据集COVID-19TwitterTextDataset-kinggeogt 数据来源:互联网公开数据 标签:新冠疫情,推特,社交媒体,文本分析,自然语言处理,情感分析,公共卫生,数据集 数据概述: 该数据集包含来自推特(Twitter)的公开推文数据,记录了与新冠疫情相关的大量文本信息。主要特征如下:...
    packageimg
  • 可口可乐产品问答数据集Coca-ColaProductQuestionAnsweringDataset-vedantpalit

    2025年4月25日   

    可口可乐产品问答数据集Coca-ColaProductQuestionAnsweringDataset-vedantpalit 数据来源:互联网公开数据 标签:可口可乐,问答,自然语言处理,数据集,文本分析,情感分析,机器学习,产品信息 数据概述: 该数据集包含可口可乐产品的相关问答数据,旨在为自然语言处理任务提供训练和测试资源。主要特征如下:...
    packageimg
  • 新冠疫情虚假新闻数据集COVID-19FakeNewsDataset-invalizare

    2025年4月25日   

    新冠疫情虚假新闻数据集COVID-19FakeNewsDataset-invalizare 数据来源:互联网公开数据 标签:新冠疫情,虚假新闻,数据集,文本分析,自然语言处理,谣言检测,舆情分析,社交媒体 数据概述: 该数据集收录了关于新冠疫情的虚假新闻和真实新闻,旨在用于虚假信息检测和分析。主要特征如下:...
    packageimg
  • 词汇意义消歧WordSenseDisambiguation数据集Word-Sense-Disambiguation-WSD-Dataset-with-Se...

    2025年4月25日   

    词汇意义消歧WordSenseDisambiguation数据集Word-Sense-Disambiguation-WSD-Dataset-with-Senses-shreyswan 数据来源:互联网公开数据 标签:自然语言处理,词汇意义消歧,数据集,语言建模,文本分析,语义理解,机器学习,语言学 数据概述:...
    packageimg