找到5,805个数据集

标签: 文本分析

过滤结果
  • 医疗问答自然语言处理数据集MedQuadNLPDataset-dibyasankhapal

    2025年4月22日   

    医疗问答自然语言处理数据集MedQuadNLPDataset-dibyasankhapal 数据来源:互联网公开数据 标签:医疗问答,自然语言处理,数据集,机器学习,医学信息,健康咨询,文本分析,人工智能 数据概述: 该数据集包含来自医疗问答平台的数据,记录了用户与医疗专家之间的交互问答,适用于自然语言处理,医疗信息提取等任务。主要特征如下:...
    packageimg
  • 印度央行RBI推特内容数据集-2021年4月18日-abhikol

    2025年4月22日   

    印度央行RBI推特内容数据集-2021年4月18日-abhikol 数据来源:互联网公开数据 标签:RBI,推特,印度央行,货币政策,经济,金融,数据分析,文本分析,学术研究,金融政策 数据概述: 本数据集包含了2021年4月18日通过官方Twitter...
    packageimg
  • 十大说唱歌手作品文本分析数据集-2023-ngxdtv

    2025年4月22日   

    十大说唱歌手作品文本分析数据集-2023-ngxdtv 数据来源:互联网公开数据 标签:说唱音乐,文本分析,自然语言处理,机器学习,文本分类,情感分析,主题建模,文本生成,语言模型,语音识别 数据概述: 本数据集包含超过2600首由十个不同说唱歌手创作的作品文本,其中包括Ali As、Alligatoah、Kollegah和Kool...
    packageimg
  • 电子邮件垃圾邮件分类数据集EmailHamSpamDataset-hamedetezadi

    2025年4月22日   

    电子邮件垃圾邮件分类数据集EmailHamSpamDataset-hamedetezadi 数据来源:互联网公开数据 标签:垃圾邮件,电子邮件,数据集,分类算法,机器学习,文本分析,自然语言处理,数据挖掘 数据概述: 该数据集包含来自电子邮件系统的邮件数据,记录了邮件内容及其分类标签(垃圾邮件或正常邮件)。主要特征如下:...
    packageimg
  • Reddit平台板球讨论内容数据集-r-Cricket-2024年-gpreda

    2025年4月22日   

    Reddit平台板球讨论内容数据集-r-Cricket-2024年-gpreda 数据来源:互联网公开数据 标签:板球,Reddit,社交媒体,讨论,评论,帖子,体育,文本分析,情感分析,话题 数据概述:...
    packageimg
  • 钓鱼邮件识别数据集FishingMailDataset-somumourya

    2025年4月22日   

    钓鱼邮件识别数据集FishingMailDataset-somumourya 数据来源:互联网公开数据 标签:钓鱼邮件,电子邮件,数据集,网络安全,机器学习,文本分析,垃圾邮件,人工智能 数据概述: 该数据集包含来自互联网的钓鱼邮件样本,记录了不同类型的钓鱼邮件内容,适用于钓鱼邮件识别和反钓鱼技术的研究。主要特征如下:...
    packageimg
  • VK群组内容与评论数据集

    2025年4月22日   

    VK群组内容与评论数据集 数据来源:互联网公开数据 标签:VK,社交媒体,NLP,数据预处理,机器学习,文本分析,情感分析,用户行为,内容分类 数据概述: 本数据集通过VK...
    packageimg
  • 阿拉伯语句子数据集ArabicSentencesDataset-ahmedtaha8889

    2025年4月22日   

    阿拉伯语句子数据集ArabicSentencesDataset-ahmedtaha8889 数据来源:互联网公开数据 标签:阿拉伯语,自然语言处理,数据集,文本分析,机器翻译,语言模型,文本语料库,语言学 数据概述: 该数据集包含超过70万条阿拉伯语句子,旨在为自然语言处理(NLP)任务提供丰富的文本语料库。主要特征如下:...
    packageimg
  • 美国专利短语数据扩充与翻译数据集USPatentPhraseDataAugmentationandTranslationDataset-tauilabdelilah

    2025年4月22日   

    美国专利短语数据扩充与翻译数据集USPatentPhraseDataAugmentationandTranslationDataset-tauilabdelilah 数据来源:互联网公开数据 标签:专利数据,数据扩充,机器翻译,自然语言处理,数据集,文本分析,创新研究,知识产权...
    packageimg
  • CommonLit英语文章摘要数据集-artisusxiren

    2025年4月22日   

    CommonLit英语文章摘要数据集-artisusxiren 数据来源:互联网公开数据 标签:文本摘要,自然语言处理,数据集,英语学习,机器翻译,文本分析,语言模型,教育 数据概述: 该数据集包含来自CommonLit平台提供的英语文章摘要数据,旨在用于文本摘要,自然语言处理和英语学习相关的研究。主要特征如下:...
    packageimg
  • 巴基斯坦推特推文数据集PakistanTweetsDataset-umarfarooq45

    2025年4月22日   

    巴基斯坦推特推文数据集PakistanTweetsDataset-umarfarooq45 数据来源:互联网公开数据 标签:社交媒体,推特,文本分析,巴基斯坦,自然语言处理,情感分析,社会学,舆情分析 数据概述: 该数据集包含了来自巴基斯坦地区的推特推文数据,记录了用户在推特平台上的公开言论。主要特征如下:...
    packageimg
  • 检索公共测试数据集-nhutchung

    2025年4月22日   

    检索公共测试数据集-nhutchung 数据来源:互联网公开数据 标签:信息检索,数据集,文本分析,机器学习,自然语言处理,搜索,评估,测试 数据概述: 该数据集包含用于信息检索任务的公开测试数据,记录了检索系统性能的评估指标。主要特征如下: 时间跨度:数据记录的时间范围不固定,取决于具体数据集的发布时间。...
    packageimg
  • 命名实体识别原始数据集NamedEntityRecognitionRawDataDataset-kiruthigaa

    2025年4月22日   

    命名实体识别原始数据集NamedEntityRecognitionRawDataDataset-kiruthigaa 数据来源:互联网公开数据 标签:命名实体识别,数据集,自然语言处理,文本分析,机器学习,人工智能,语言学,文本挖掘 数据概述:该数据集包含来自多个来源的原始文本数据,记录了用于命名实体识别的任务。主要特征如下:...
    packageimg
  • 文本编码与TF-IDF权重计算数据集Encode-TFIDFDataset-damvantai

    2025年4月22日   

    文本编码与TF-IDF权重计算数据集Encode-TFIDFDataset-damvantai 数据来源:互联网公开数据 标签:文本处理,TF-IDF,数据集,自然语言处理,特征提取,机器学习,信息检索,文本分析 数据概述: 该数据集专注于文本编码与TF-IDF(词频-逆文档频率)权重计算,记录了文本数据经过处理后的特征向量。主要特征如下:...
    packageimg
  • 数据2021年5月Job-A-Thon竞赛数据集-makrovh

    2025年4月22日   

    2021年5月Job-A-Thon竞赛数据集-makrovh 数据来源:互联网公开数据 标签:招聘,求职,数据集,机器学习,自然语言处理,文本分析,预测模型,人才市场 数据概述: 该数据集包含了2021年5月Job-A-Thon竞赛的相关数据,主要记录了招聘和求职信息,旨在用于构建预测模型。主要特征如下:...
    packageimg
  • Flipkart电商平台用户商品评价数据集-farhakouser

    2025年4月22日   

    Flipkart电商平台用户商品评价数据集-farhakouser 数据来源:互联网公开数据 标签:电商,用户评价,产品反馈,情感分析,市场调研,推荐系统,文本分析 数据概述: 本数据集收录了来自Flipkart电商平台的客户商品评价数据,涵盖了用户对商品的详细反馈。数据集中包含了多个关键字段,旨在全面反映用户的使用体验和评价。具体字段包括:...
    packageimg
  • 意大利讽刺检测数据集ItalianSarcasmDetectionDataset-gioelefanelli

    2025年4月22日   

    意大利讽刺检测数据集ItalianSarcasmDetectionDataset-gioelefanelli 数据来源:互联网公开数据 标签:讽刺检测,自然语言处理,数据集,机器学习,文本分析,社交媒体,人工智能 数据概述:该数据集包含来自意大利社交媒体平台的数据,记录了用户发布的评论及其是否为讽刺的判断结果。主要特征如下:...
    packageimg
  • 互联网新闻摘要数据集HSXLNETSummaryDataset-gayatriilan

    2025年4月22日   

    互联网新闻摘要数据集HSXLNETSummaryDataset-gayatriilan 数据来源:互联网公开数据 标签:新闻摘要,数据集,自然语言处理,文本分析,机器学习,信息检索,媒体研究,互联网新闻 数据概述: 该数据集包含来自互联网新闻网站的新闻文章及其对应的摘要,适用于新闻摘要生成,文本摘要技术研究等任务。主要特征如下:...
    packageimg
  • 放射科报告数据集RadiologyReportDataset-lucario73

    2025年4月22日   

    放射科报告数据集RadiologyReportDataset-lucario73 数据来源:互联网公开数据 标签:医学影像,放射学,数据集,自然语言处理,文本分析,疾病诊断,深度学习,医疗健康 数据概述:该数据集包含来自公开医疗机构的放射科报告,记录了患者的影像学检查结果和医生的诊断意见。主要特征如下:...
    packageimg
  • 法律数据预处理数据集PreprocessingLegalDataDataset-philanpersonal

    2025年4月22日   

    法律数据预处理数据集PreprocessingLegalDataDataset-philanpersonal 数据来源:互联网公开数据 标签:法律数据,预处理,数据集,文本分析,自然语言处理,法律研究,数据清洗,法律文本 数据概述: 该数据集包含经过预处理的法律文本数据,适用于法律研究,文本分析和自然语言处理等任务。主要特征如下:...
    packageimg