数据集 - 海数据

表格转文本生成数据集GoogleTottoDataset-aishikai

2025年5月29日

表格转文本生成数据集GoogleTottoDataset-aishikai 数据来源：互联网公开数据标签：自然语言处理，表格数据，文本生成，机器学习，数据集，信息抽取，深度学习，语义理解数据概述：该数据集由Google Totto项目提供，专注于表格数据向自然语言文本的转换。主要特征如下：...

ZIP

印尼新闻文本数据集IndonesianNewsTextDataset-rizkia14

2025年5月29日

印尼新闻文本数据集IndonesianNewsTextDataset-rizkia14 数据来源：互联网公开数据标签：新闻文本，数据集，自然语言处理，印尼语，机器学习，文本分析，数据挖掘，信息处理数据概述：该数据集包含来自印尼新闻网站和媒体平台的新闻文本数据，记录了印尼各领域的新闻报道。主要特征如下：...

ZIP

比特币及相关论坛帖子数据集Bitcoin和Reddit-rBitcoin帖子数据集-underdog7890

2025年5月29日

比特币及相关论坛帖子数据集Bitcoin和Reddit-rBitcoin帖子数据集-underdog7890 数据来源：互联网公开数据标签：比特币，数据集，社交媒体，论坛分析，市场趋势，自然语言处理，区块链，金融分析...

ZIP

书籍作者作品信息数据集BookAuthorWorkInformation-nico404

2025年5月29日

书籍作者作品信息数据集BookAuthorWorkInformation-nico404 数据来源：互联网公开数据标签：书籍, 作者, 作品, 文学, 文本分析, 自然语言处理, 数据挖掘, 古腾堡项目数据概述：该数据集包含来自古腾堡项目的数据，记录了书籍的作者及其作品信息。主要特征如下：时间跨度：数据未明确时间范围，可视为静态书籍信息。...

ZIP

语音转录文本数据分析数据集SpeechTranscriptionTextDataAnalysis-liumail511

2025年5月29日

语音转录文本数据分析数据集SpeechTranscriptionTextDataAnalysis-liumail511 数据来源：互联网公开数据标签：语音识别, 文本转录, Whisper模型, 语音分析, 文本校对, 数据清洗, 声学模型, 自然语言处理数据概述：...

ZIP

文本毒性分类嵌入数据集TextToxicityClassificationEmbeddingDataset-shikha130vv

2025年5月29日

文本毒性分类嵌入数据集TextToxicityClassificationEmbeddingDataset-shikha130vv 数据来源：互联网公开数据标签：文本分类, 毒性检测, 嵌入向量, 深度学习, 自然语言处理, 模型训练, 情感分析, 机器学习数据概述：该数据集包含用于训练和评估文本毒性分类模型的嵌入向量数据。主要特征如下：...

ZIP

电影剧本数据分析集MovieScriptDataset-saurabh502

2025年5月29日

电影剧本数据分析集MovieScriptDataset-saurabh502 数据来源：互联网公开数据标签：电影剧本，数据分析，文本挖掘，自然语言处理，电影研究，剧本写作，文学分析，文化产业数据概述：该数据集包含来自多个来源的电影剧本数据，记录了多部电影的剧本内容。主要特征如下：时间跨度：数据记录的时间范围从20世纪初到现代。...

ZIP

英语写作水平评估与文本特征数据集EnglishWritingSkillAssessmentandTextFeatureDataset-hoangtranba

2025年5月29日

英语写作水平评估与文本特征数据集EnglishWritingSkillAssessmentandTextFeatureDataset-hoangtranba 数据来源：互联网公开数据标签：英语写作, 文本分析, 可读性评估, 写作质量, 自然语言处理, 机器学习, 文本特征, 语言模型数据概述：...

ZIP

Quora问题恶意内容检测数据集Jigsaw2020QuoraXEncodedYPseudoDataset-ratthachat

2025年5月29日

Quora问题恶意内容检测数据集Jigsaw2020QuoraXEncodedYPseudoDataset-ratthachat 数据来源：互联网公开数据标签：自然语言处理，文本分类，恶意内容检测，数据集，Quora，深度学习，情感分析，NLP 数据概述：该数据集来自Jigsaw...

ZIP

数据2024年互联网文本语料库1024-corpus-2024年互联网文本语料库-dinhnhattruong

2025年5月29日

2024年互联网文本语料库1024-corpus-2024年互联网文本语料库-dinhnhattruong 数据来源：互联网公开数据标签：互联网文本，自然语言处理，语料库，大数据，机器学习，文本分析，人工智能，语言学数据概述：该数据集为2024年互联网公开的文本数据，涵盖了广泛的互联网文本资源，适用于自然语言处理、文本分析等任务。主要特征如下：...

ZIP

越南语文本摘要生成数据集VietnameseTextSummarizationDataset-nguyenvuthanhtung

2025年5月29日

越南语文本摘要生成数据集VietnameseTextSummarizationDataset-nguyenvuthanhtung 数据来源：互联网公开数据标签：文本摘要, 自然语言处理, 越南语, 深度学习, 文本生成, 数据集构建, 机器翻译, 语料库数据概述：该数据集包含越南语文本及其对应的摘要，旨在用于文本摘要生成任务。主要特征如下：...

ZIP

亚马逊商品评论文本情感分析数据集AmazonProductReviewTextSentimentAnalysisDataset-harshalkarangale

2025年5月29日

亚马逊商品评论文本情感分析数据集AmazonProductReviewTextSentimentAnalysisDataset-harshalkarangale 数据来源：互联网公开数据标签：情感分析, 文本挖掘, 评论数据, 自然语言处理, 机器学习, 商品评价, 用户反馈, 消费者行为数据概述：...

ZIP

电影评论情感分析数据集MovieReviewsSentimentAnalysis-mdtanviruddinalif

2025年5月29日

电影评论情感分析数据集MovieReviewsSentimentAnalysis-mdtanviruddinalif 数据来源：互联网公开数据标签：情感分析, 文本分类, 电影评论, 自然语言处理, 情感极性, 机器学习, 数据标注, 语料库数据概述：该数据集包含来自互联网的电影评论文本，记录了每条评论对应的情感极性标签。主要特征如下：...

ZIP

巢式临床试验相似性数据集-aditishere

2025年5月29日

巢式临床试验相似性数据集-aditishere 数据来源：互联网公开数据标签：临床试验，数据集，相似性分析，医学研究，文本挖掘，自然语言处理，医学文献，药物研发数据概述：该数据集包含来自Nest平台的临床试验相关数据，记录了临床试验的详细信息，旨在用于评估临床试验之间的相似性。主要特征如下：...

ZIP

写作过程行为数据与得分预测数据集WritingProcessBehaviorDataandScorePredictionDataset-amanrajbose

2025年5月29日

写作过程行为数据与得分预测数据集WritingProcessBehaviorDataandScorePredictionDataset-amanrajbose 数据来源：互联网公开数据标签：写作行为, 文本分析, 时间序列分析, 行为建模, 机器学习, 自然语言处理, 写作评估, 预测模型数据概述：...

ZIP

新冠疫情期间微博情感分析数据集COVID-19WeiboSentimentAnalysisDataset-raymondcl

2025年5月29日

新冠疫情期间微博情感分析数据集COVID-19WeiboSentimentAnalysisDataset-raymondcl 数据来源：互联网公开数据标签：疫情, 微博, 情感分析, 自然语言处理, 文本分类, 社交媒体, 情感倾向, 中文文本数据概述：...

ZIP

Reddit华尔街赌注帖子数据集RedditWallStreetBetsPostDataset-lactrodectus

2025年5月29日

Reddit华尔街赌注帖子数据集RedditWallStreetBetsPostDataset-lactrodectus 数据来源：互联网公开数据标签：社交媒体，股票市场，投资，数据集，文本分析，情绪分析，自然语言处理，金融数据概述：...

ZIP

文本分类数据集SISTextClassificationDataset-senylar

2025年5月29日

文本分类数据集SISTextClassificationDataset-senylar 数据来源：互联网公开数据标签：文本分类，数据集，自然语言处理，机器学习，文本分析，数据挖掘，信息检索，人工智能数据概述：该数据集为SIS项目的一部分，主要包含用于文本分类任务的文本数据。主要特征如下：...

ZIP

图像问答与视觉推理数据集ImageQuestionAnsweringandVisualReasoningDataset-dotran0101

2025年5月29日

图像问答与视觉推理数据集ImageQuestionAnsweringandVisualReasoningDataset-dotran0101 数据来源：互联网公开数据标签：图像问答, 视觉推理, 多模态, 自然语言处理, 计算机视觉, 图像识别, 问答系统, 数据集数据概述：...

ZIP

科学考试因果关系语言模型奖励建模数据集-kashiwaba

2025年5月29日

科学考试因果关系语言模型奖励建模数据集-kashiwaba 数据来源：互联网公开数据标签：语言模型，因果关系，考试，奖励建模，自然语言处理，数据集，人工智能，教育数据概述：该数据集是用于训练和评估科学考试中因果关系理解的语言模型，并进行奖励建模的数据集。主要特征如下：时间跨度：数据涵盖了不同年份和版本的科学考试题目。...

ZIP

找到11,767个数据集

注册成功！