数据集 - 海数据

无事实依据的笑话数据集-j0hann

2025年4月24日

无事实依据的笑话数据集-j0hann 数据来源：互联网公开数据标签：笑话，数据集，文本分析，自然语言处理，情感分析，娱乐，语言学，机器学习数据概述：该数据集包含了大量无事实依据的笑话，旨在用于文本分析，自然语言处理和机器学习模型训练。主要特征如下：时间跨度：数据记录的时间范围不限，涵盖了不同时期和来源的笑话。...

ZIP

语言检测数据集2010-2020年文本语言识别数据集-mogazeyalmogazey

2025年4月24日

语言检测数据集2010-2020年文本语言识别数据集-mogazeyalmogazey 数据来源：互联网公开数据标签：语言检测，文本分析，数据集，自然语言处理，机器学习，多语言识别，文本分类，人工智能数据概述：该数据集包含来自不同来源的文本数据，记录了多种语言的文本样本，适用于语言检测和识别任务。主要特征如下：...

ZIP

主题模型反馈数据集-hirohigashi

2025年4月24日

主题模型反馈数据集-hirohigashi 数据来源：互联网公开数据标签：主题模型，文本分析，数据集，自然语言处理，情感分析，用户反馈，机器学习，数据挖掘数据概述：该数据集包含了用户对产品的反馈信息，旨在用于主题模型的研究和应用。主要特征如下：时间跨度：数据记录的时间范围不限，取决于具体的数据来源。...

ZIP

客户评论分析数据集-saivigneshmn

2025年4月24日

客户评论分析数据集-saivigneshmn 数据来源：互联网公开数据标签：客户评论，文本分析，情感分析，自然语言处理，市场调研，用户反馈，产品评价，社交媒体数据概述：该数据集包含了客户对产品或服务的评论数据。主要特征如下：时间跨度：数据记录的时间范围不明确。地理范围：数据来源于多个地区，具体来源不明确。...

ZIP

健康新闻在Twitter上的传播数据集HealthNewsinTwitterUCIDataset-hunhthanhphong

2025年4月24日

健康新闻在Twitter上的传播数据集HealthNewsinTwitterUCIDataset-hunhthanhphong 数据来源：互联网公开数据标签：社交媒体，健康新闻，数据集，文本分析，情感分析，机器学习，公共卫生，信息传播数据概述：该数据集包含来自Twitter平台的数据，记录了健康新闻在社交媒体上的传播情况。主要特征如下：...

ZIP

命名实体识别自定义数据集NamedEntityRecognitionCustomDataset-pranjan02

2025年4月24日

命名实体识别自定义数据集NamedEntityRecognitionCustomDataset-pranjan02 数据来源：互联网公开数据标签：命名实体识别，数据集，自然语言处理，文本分析，机器学习，深度学习，文本挖掘，人工智能数据概述：该数据集包含来自多个来源的自定义文本数据，用于训练和评估命名实体识别（NER）模型。主要特征如下：...

ZIP

奥斯曼土耳其语通用依存关系数据集OttomanTurkishUniversalDependenciesDataset-emirkaanozdemr

2025年4月24日

奥斯曼土耳其语通用依存关系数据集OttomanTurkishUniversalDependenciesDataset-emirkaanozdemr 数据来源：互联网公开数据标签：自然语言处理，土耳其语，依存分析，数据集，语言学，NLP，文本分析，历史语言数据概述：该数据集包含奥斯曼土耳其语的文本数据，并标注了通用依存关系。主要特征如下：...

ZIP

代码混合情感分析数据集CodeMixedSentimentAnalysisDataset-aswin037

2025年4月24日

代码混合情感分析数据集CodeMixedSentimentAnalysisDataset-aswin037 数据来源：互联网公开数据标签：情感分析，代码混合，自然语言处理，社交媒体，数据集，机器学习，文本分析，跨语言研究数据概述：该数据集包含来自社交媒体平台的代码混合文本数据，记录了不同语言和代码混合的文本及其对应的情感标签。主要特征如下：...

ZIP

电影类型分类数据集MovieGenreClassificationDataset-lamiasaiyara

2025年4月24日

电影类型分类数据集MovieGenreClassificationDataset-lamiasaiyara 数据来源：互联网公开数据标签：电影，类型分类，自然语言处理，文本分析，机器学习，情感分析，电影推荐，数据集数据概述：该数据集包含电影的相关信息，用于电影类型的自动分类任务。主要特征如下：时间跨度：数据记录的时间范围覆盖了不同年代的电影。...

ZIP

电话通话记录全文本数据集TranscriptsAllCallsDataset-prathamagarwal1302

2025年4月24日

电话通话记录全文本数据集TranscriptsAllCallsDataset-prathamagarwal1302 数据来源：互联网公开数据标签：通信记录，数据集，文本分析，自然语言处理，机器学习，语音识别，客服分析，数据挖掘数据概述：该数据集包含来自多个电话通信记录的文本转录内容，记录了电话通话的详细对话信息。主要特征如下：...

ZIP

推特用户性别预测数据集GenderPredictionDatasetBasedonTweets-siddheshshelke

2025年4月24日

推特用户性别预测数据集GenderPredictionDatasetBasedonTweets-siddheshshelke 数据来源：互联网公开数据标签：社交媒体，推特，性别预测，自然语言处理，文本分析，机器学习，用户画像，数据挖掘数据概述：该数据集包含了来自推特的用户数据，主要用于预测用户的性别。主要特征如下：时间跨度：...

ZIP

Python自然语言处理实践数据集-ndrianahani

2025年4月24日

Python自然语言处理实践数据集-ndrianahani 数据来源：互联网公开数据标签：自然语言处理，NLP，文本分析，数据集，Python，机器学习，语言模型，文本挖掘数据概述：该数据集包含用于Python自然语言处理实践的文本数据，涵盖了多种NLP任务和应用场景。主要特征如下：时间跨度：数据记录的时间范围不限，数据集内容持续更新。...

ZIP

越南语字幕数据集DataCaptiontoVietnameseDataset-tndtnguyn

2025年4月24日

越南语字幕数据集DataCaptiontoVietnameseDataset-tndtnguyn 数据来源：互联网公开数据标签：字幕翻译，越南语，数据集，机器翻译，自然语言处理，文本分析，语言学，跨语言数据概述：该数据集包含从英语到越南语的字幕翻译数据，用于字幕翻译任务。主要特征如下：时间跨度：数据记录的时间范围不明确，取决于数据来源。...

ZIP

仇恨言论检测平衡数据集-nirmalgaud

2025年4月24日

仇恨言论检测平衡数据集-nirmalgaud 数据来源：互联网公开数据标签：仇恨言论，文本分析，自然语言处理，情感分析，数据集，机器学习，社交媒体，语言学数据概述：该数据集收录了来自社交媒体平台的文本数据，旨在用于仇恨言论的检测与识别。主要特征如下：时间跨度：数据记录的时间范围不明确，但涵盖了社交媒体上常见的文本内容发布时间。...

ZIP

泰卢固语英语翻译数据集TeluguEnglishTranslationDataset-gautamashastry

2025年4月24日

泰卢固语英语翻译数据集TeluguEnglishTranslationDataset-gautamashastry 数据来源：互联网公开数据标签：泰卢固语，英语，翻译，数据集，语言学，自然语言处理，机器学习，文本分析数据概述：该数据集包含来自多个来源的泰卢固语和英语的翻译数据，用于研究和开发语言翻译模型。主要特征如下：...

ZIP

星球大战剧本台词数据集StarWarsScriptsAllLinesDataset-dvidspais123

2025年4月24日

星球大战剧本台词数据集StarWarsScriptsAllLinesDataset-dvidspais123 数据来源：互联网公开数据标签：星球大战，剧本，台词，数据集，文本分析，电影研究，自然语言处理，影视作品数据概述：该数据集包含了星球大战系列电影的所有台词数据，记录了电影中的对话内容和角色信息。主要特征如下：...

ZIP

网络平台仇恨言论数据集GNHateSpeechDataset-zohaibhasansiddiqui

2025年4月24日

网络平台仇恨言论数据集GNHateSpeechDataset-zohaibhasansiddiqui 数据来源：互联网公开数据标签：仇恨言论，数据集，文本分析，社交媒体，自然语言处理，机器学习，数据分析，人工智能数据概述：该数据集包含来自网络平台的仇恨言论数据，记录了各类社交媒体平台上发布的内容。主要特征如下：...

ZIP

网络欺凌检测数据集CyberbullyingDetectionDataset-sanzidasiddike3633

2025年4月24日

网络欺凌检测数据集CyberbullyingDetectionDataset-sanzidasiddike3633 数据来源：互联网公开数据标签：网络欺凌，数据集，文本分析，自然语言处理，机器学习，情感分析，社交媒体，欺凌检测数据概述：该数据集包含来自社交媒体平台的文本数据，主要用于识别和分析网络欺凌行为。主要特征如下：...

ZIP

越南假新闻检测数据集PhảnhồiBìnhLuận2017-goumanguyen

2025年4月24日

越南假新闻检测数据集PhảnhồiBìnhLuận2017-goumanguyen 数据来源：互联网公开数据标签：假新闻，数据集，文本分析，自然语言处理，机器学习，信息诈骗，舆论监控，社会研究数据概述：该数据集包含来自越南“Phản hồi Bình Luận”平台的评论数据，记录了关于假新闻的文章及其评论。主要特征如下：...