-
癌症治疗文本数据集CancerTreatment1500TextsDataset-luchsmann
癌症治疗文本数据集CancerTreatment1500TextsDataset-luchsmann 数据来源:互联网公开数据 标签:癌症治疗,医学文献,数据集,文本分析,自然语言处理,生物医学研究,临床数据,学术资源 数据概述:该数据集包含来自Pubmed的1500篇癌症治疗相关文献的文本数据,记录了各种癌症治疗的研究成果和临床应用。主要特征如下:... -
垃圾邮件过滤数据集SpamFilterDataset-jordanhillnmtafe
垃圾邮件过滤数据集SpamFilterDataset-jordanhillnmtafe 数据来源:互联网公开数据 标签:垃圾邮件,文本分类,数据集,机器学习,自然语言处理,邮件过滤,信息安全,朴素贝叶斯 数据概述: 该数据集包含大量的电子邮件数据,用于训练和测试垃圾邮件过滤模型。主要特征如下:... -
自然语言处理与安全对话系统实验室NLP-SDS-Lab-V数据集-vikash1a2b3c
自然语言处理与安全对话系统实验室NLP-SDS-Lab-V数据集-vikash1a2b3c 数据来源:互联网公开数据 标签:自然语言处理,安全对话系统,数据集,人工智能,机器学习,文本分析,对话系统,语言技术 数据概述: 该数据集由NLP-SDS-Lab项目提供,记录了用于安全对话系统开发的自然语言处理数据。主要特征如下:... -
有毒评论检测数据集ToxicCommentDetectionDataset-maksiamiogan
有毒评论检测数据集ToxicCommentDetectionDataset-maksiamiogan 数据来源:互联网公开数据 标签:有毒评论,自然语言处理,数据集,机器学习,文本分类,社交媒体,文本分析,人工智能 数据概述:该数据集来自Kaggle社区,主要记录了社交媒体平台上的评论数据,适用于有毒评论检测,文本分类等任务。主要特征如下:... -
自然语言处理低序列数据清洗数据集NLPLowSequenceDataCleaningDataset-chadudupubharath
自然语言处理低序列数据清洗数据集NLPLowSequenceDataCleaningDataset-chadudupubharath 数据来源:互联网公开数据 标签:自然语言处理,文本清洗,数据集,序列数据,机器学习,文本挖掘,数据预处理,低资源 数据概述:... -
隐私测试法律案例数据集-minhnguyendichnhat
隐私测试法律案例数据集-minhnguyendichnhat 数据来源:互联网公开数据 标签:法律案例,隐私保护,数据集,法律研究,隐私法,机器学习,自然语言处理,文本分析 数据概述: 该数据集包含来自不同来源的法律案例,主要涉及隐私保护相关的法律问题。主要特征如下: 时间跨度: 数据记录的时间范围为近年来,涵盖了最新的法律案例。 地理范围:... -
社交媒体仇恨言论检测数据集HateSpeechTrawlforTrollDataset-sanghviharshil
社交媒体仇恨言论检测数据集HateSpeechTrawlforTrollDataset-sanghviharshil 数据来源:互联网公开数据 标签:仇恨言论,社交媒体,数据集,自然语言处理,文本分析,机器学习,情感分析,舆情监测 数据概述: 该数据集收录了来自社交媒体平台的文本数据,旨在用于仇恨言论的检测与分析。主要特征如下:... -
Yektanet波斯语网页文本主题分类数据集
Yektanet波斯语网页文本主题分类数据集 数据来源:互联网公开数据 标签:波斯语,NLP,文本分类,机器学习,网页数据,主题识别,自然语言处理 数据概述:... -
姓名发音性别预测数据集-amritvirsinghx
姓名发音性别预测数据集-amritvirsinghx 数据来源:互联网公开数据 标签:姓名,发音,性别预测,自然语言处理,机器学习,语音识别,数据挖掘,语言学 数据概述: 本数据集包含超过1000个姓名及其对应的性别信息,旨在为基于发音的性别预测研究提供数据支持。数据内容涵盖了不同文化背景下的姓名,为模型训练提供了多样化的样本。 数据用途概述:... -
大型语言模型银行测试数据集LLMBanking77TestDataset-datasontran
大型语言模型银行测试数据集LLMBanking77TestDataset-datasontran 数据来源:互联网公开数据 标签:大型语言模型,银行业务,数据集,自然语言处理,机器学习,测试数据,金融分析,人工智能 数据概述:该数据集包含来自多个银行机构的业务数据,主要用于大型语言模型在银行业务场景中的测试和评估。主要特征如下:... -
IMDb电影评论情感分析数据集IMDbMovieSentimentsDataset-guraseessingh07
IMDb电影评论情感分析数据集IMDbMovieSentimentsDataset-guraseessingh07 数据来源:互联网公开数据 标签:情感分析,电影评论,数据集,自然语言处理,机器学习,文本分类,数据挖掘,人工智能 数据概述:... -
Medium数据科学文章统计分析数据集-2020-2021-evgenyparenchenkov
Medium数据科学文章统计分析数据集-2020-2021-evgenyparenchenkov 数据来源:互联网公开数据 标签:Medium,数据科学,文章分析,自然语言处理,文本挖掘,统计分析,时间序列,Kaggle 数据概述: 本数据集整合了2020年和2021年期间Medium平台上关于数据科学领域的文章数据。原始数据由Vinicius... -
多语言词汇数据集WordswithLanguagesDataset-mansigarg18
多语言词汇数据集WordswithLanguagesDataset-mansigarg18 数据来源:互联网公开数据 标签:语言学习,词汇数据,数据集,自然语言处理,教育技术,多语言,语言学,数据挖掘 数据概述: 该数据集包含来自多种语言词汇的数据,记录了不同语言中的常见词汇及其相关信息。主要特征如下:... -
聊天消息记录数据集ChatMessagesDataset-somya2115
聊天消息记录数据集ChatMessagesDataset-somya2115 数据来源:互联网公开数据 标签:社交互动,数据集,文本分析,机器学习,自然语言处理,情感分析,聊天记录,行为研究 数据概述: 该数据集包含来自公开聊天平台的消息记录,记录了用户之间的聊天内容和互动行为。主要特征如下: 时间跨度:数据记录的时间范围从2020年到2023年。... -
全球GPT-1N外部模型评估数据集-sasrdw
全球GPT-1N外部模型评估数据集-sasrdw 数据来源:互联网公开数据 标签:自然语言处理,模型评估,GPT-1N,语言模型,数据集,文本生成,文本分析,人工智能,机器学习 数据概述: 该数据集包含了用于评估GPT-1N外部模型性能的各种测试数据,旨在全面衡量模型在不同任务上的表现。主要特征如下: 时间跨度:数据收集时间跨度不固定,持续更新。... -
儿童教育学习数据集ChildEducationLearningDataset-jerry111001
儿童教育学习数据集ChildEducationLearningDataset-jerry111001 数据来源:互联网公开数据 标签:儿童,教育,学习,数据集,机器学习,文本分析,自然语言处理,行为分析 数据概述: 该数据集包含儿童教育学习相关的数据,记录了儿童在学习过程中的行为和表现。主要特征如下:... -
古兰经阿拉伯语词根数据集-mazharkarimi
古兰经阿拉伯语词根数据集-mazharkarimi 数据来源:互联网公开数据 标签:古兰经,阿拉伯语,词根,语言学,文本分析,自然语言处理,宗教研究,语义分析 数据概述: 该数据集包含了古兰经中出现的阿拉伯语词根信息。主要特征如下: 时间跨度: 数据记录的时间范围为古兰经的创作时期。 地理范围: 数据涵盖了古兰经文本中使用的所有阿拉伯语词根。... -
对话摘要数据集SAMSUM-jainikkhil
对话摘要数据集SAMSUM-jainikkhil 数据来源:互联网公开数据 标签:对话摘要,文本摘要,自然语言处理,数据集,机器学习,语言模型,文本分析,信息检索 数据概述:该数据集包含来自社交媒体平台的对话摘要数据,记录了用户之间的对话及其对应的摘要。主要特征如下: 时间跨度:数据记录的时间范围未知。... -
TensorFlow官方文本数据集概览-imoore
TensorFlow官方文本数据集概览-imoore 数据来源:互联网公开数据 标签:TensorFlow, TFDS, 文本数据集, 机器学习, 数据集, 深度学习, 自然语言处理, 预处理 数据概述: 本数据集描述了TensorFlow官方提供的文本数据集集合,这些数据集通过TensorFlow Datasets (TFDS) 接口提供。... -
维基百科条目提取数据集Wiki-ExtractsDataset-davandenakker
维基百科条目提取数据集Wiki-ExtractsDataset-davandenakker 数据来源:互联网公开数据 标签:维基百科,文本数据,数据集,自然语言处理,机器学习,信息检索,知识图谱,数据挖掘 数据概述: 该数据集包含从维基百科提取的条目数据,记录了维基百科中各类主题的文本信息。主要特征如下:...