数据集 - 海数据

语音识别训练数据集SpeechRecognitionTrainingDataset-ashmitsatpute

2025年5月28日

语音识别训练数据集SpeechRecognitionTrainingDataset-ashmitsatpute 数据来源：互联网公开数据标签：语音识别, 语音数据, 自然语言处理, 声学模型, 文本转录, 数据清洗, 多语言, 情感分析数据概述：该数据集包含来自 Mozilla Common Voice...

ZIP

问答文本相似度分析嵌入数据集QuestionSimilarityAnalysisEmbeddingDataset-parthmshah1302

2025年5月28日

问答文本相似度分析嵌入数据集QuestionSimilarityAnalysisEmbeddingDataset-parthmshah1302 数据来源：互联网公开数据标签：文本相似度, 问答匹配, 自然语言处理, 嵌入向量, 文本特征, 机器学习, 数据挖掘, 文本分类数据概述：...

ZIP

越南语问答数据集VietnameseQuestionAnsweringDataset-anhnguyenkagglethree

2025年5月28日

越南语问答数据集VietnameseQuestionAnsweringDataset-anhnguyenkagglethree 数据来源：互联网公开数据标签：问答系统, 自然语言处理, 文本理解, 越南语, 语料库, 信息检索, 语言模型, 数据集数据概述：该数据集包含来自越南语问答系统的数据，记录了越南语问题及其对应的标识符。主要特征如下：...

ZIP

新闻文本多主题分类数据集NewsTextMulti-topicClassification-biekongxiang

2025年5月28日

新闻文本多主题分类数据集NewsTextMulti-topicClassification-biekongxiang 数据来源：互联网公开数据标签：新闻文本, 文本分类, 多分类, 自然语言处理, 机器学习, 情感分析, 深度学习, 语料库数据概述：该数据集包含来自互联网的新闻文章文本，记录了不同主题的新闻内容，用于文本分类任务。主要特征如下：...

ZIP

科技论文摘要生成数据集ScientificPaperAbstractGeneration-mridul3301

2025年5月28日

科技论文摘要生成数据集ScientificPaperAbstractGeneration-mridul3301 数据来源：互联网公开数据标签：文本生成, 摘要, 自然语言处理, 机器翻译, 论文写作, 深度学习, 语料库, 学术研究数据概述：该数据集包含来自学术论文的数据，记录了论文原文与对应的摘要。主要特征如下：...

ZIP

计算机视觉与语言处理集成模型CLIP数据集CLIPDataset-junchonghuang

2025年5月28日

计算机视觉与语言处理集成模型CLIP数据集CLIPDataset-junchonghuang 数据来源：互联网公开数据标签：计算机视觉，自然语言处理，数据集，深度学习，图像文本匹配，多模态学习，人工智能，数据挖掘数据概述：该数据集由OpenAI的CLIP（Computer Vision and Language Processing...

ZIP

文本可读性评估训练数据集TextReadabilityAssessmentTrainingDataset-siminrao

2025年5月28日

文本可读性评估训练数据集TextReadabilityAssessmentTrainingDataset-siminrao 数据来源：互联网公开数据标签：文本可读性, 自然语言处理, 文本分析, 机器学习, 文本难度, 语言模型, 数据集, 训练数据数据概述：...

ZIP

越南语问答匹配数据集VietnameseQuestionAnsweringMatchingDataset-ictworld

2025年5月28日

越南语问答匹配数据集VietnameseQuestionAnsweringMatchingDataset-ictworld 数据来源：互联网公开数据标签：问答匹配, 自然语言处理, 文本相似度, 文本分类, 越南语, 语义理解, 知识检索, 机器阅读理解数据概述：...

ZIP

开放印度理工学院学术数据集OpenIITAcademicData-shaunakmajumdar

2025年5月28日

开放印度理工学院学术数据集OpenIITAcademicData-shaunakmajumdar 数据来源：互联网公开数据标签：学术研究，数据集，教育技术，机器学习，自然语言处理，印度理工学院，开放数据，计算机科学数据概述：该数据集包含来自印度理工学院的开放学术数据，记录了学术领域的文本和对话信息。主要特征如下：...

ZIP

AI文本检测模型训练数据集AIDetectDistilBERT-lonnieqin

2025年5月28日

AI文本检测模型训练数据集AIDetectDistilBERT-lonnieqin 数据来源：互联网公开数据标签：文本检测，数据集，自然语言处理，机器学习，DistilBERT，AI检测，文本分析，内容识别数据概述：该数据集包含用于训练和评估AI文本检测模型的数据，旨在识别文本是否由人工智能生成。主要特征如下：...

ZIP

文本摘要评估语句数据集TextSummarizationEvaluationSentences-terrychanorg

2025年5月28日

文本摘要评估语句数据集TextSummarizationEvaluationSentences-terrychanorg 数据来源：互联网公开数据标签：文本摘要, 自然语言处理, 语句评估, 文本分析, 语篇理解, 机器翻译, 情感分析, 语料库数据概述：...

ZIP

印尼商业新闻分类数据集CategorizedIndonesianBusinessNewsDataset-cakrulgaming

2025年5月28日

印尼商业新闻分类数据集CategorizedIndonesianBusinessNewsDataset-cakrulgaming 数据来源：互联网公开数据标签：商业新闻，印尼，文本分类，自然语言处理，数据集，新闻分析，机器学习，经济数据概述：该数据集包含了来自印尼新闻媒体的商业新闻文章，旨在用于文本分类和分析。主要特征如下：...

ZIP

新闻事件情感分析数据集NewsEventSentimentAnalysis-tikadisplay

2025年5月28日

新闻事件情感分析数据集NewsEventSentimentAnalysis-tikadisplay 数据来源：互联网公开数据标签：情感分析, 自然语言处理, 新闻文本, 文本分类, 情感标注, 机器学习, 数据集, 媒体分析数据概述：该数据集包含来自新闻媒体的文章摘要，记录了不同新闻事件的文本内容，旨在用于情感分析任务。主要特征如下：...

ZIP

文本摘要生成俄语新闻数据集TextSummarizationRussianNewsDataset-nmaria

2025年5月28日

文本摘要生成俄语新闻数据集TextSummarizationRussianNewsDataset-nmaria 数据来源：互联网公开数据标签：文本摘要, 俄语, 新闻, 自然语言处理, 机器翻译, 深度学习, 数据集, 文本生成数据概述：该数据集包含来自新闻媒体的俄语新闻文本及其对应的摘要，旨在用于训练和评估文本摘要模型。主要特征如下：...

ZIP

越南语自然语言处理NLP数据集-minhhieuhuynh

2025年5月28日

越南语自然语言处理NLP数据集-minhhieuhuynh 数据来源：互联网公开数据标签：自然语言处理，越南语，文本分析，机器翻译，情感分析，数据集，语言模型，文本挖掘数据概述：该数据集包含来自越南语文本的数据，用于自然语言处理任务。主要特征如下：时间跨度：数据记录的时间跨度不定，取决于具体子数据集，可能涵盖多年。...

ZIP

捐赠者选择基金会捐款项目数据集DonorsChoose-orgDonationProjectsDataset-atifimam

2025年5月28日

捐赠者选择基金会捐款项目数据集DonorsChoose-orgDonationProjectsDataset-atifimam 数据来源：互联网公开数据标签：捐款，教育，数据集，自然语言处理，机器学习，文本分析，慈善事业，项目资助数据概述：该数据集包含来自捐赠者选择基金会 (DonorsChoose.org)...

ZIP

维基百科表格问题数据集WikiTableQuestionsDataset-kegiazabal001

2025年5月28日

维基百科表格问题数据集WikiTableQuestionsDataset-kegiazabal001 数据来源：互联网公开数据标签：自然语言处理，问答系统，数据集，表格理解，语义分析，知识图谱，机器学习，文本挖掘数据概述：该数据集包含来自维基百科的表格和基于这些表格提出的问题，旨在用于训练和评估问答系统在结构化数据上的表现。主要特征如下：...

ZIP

电影评论情感分析数据集MovieReviewSentimentAnalysis-shahedhamed

2025年5月28日

电影评论情感分析数据集MovieReviewSentimentAnalysis-shahedhamed 数据来源：互联网公开数据标签：情感分析, 文本分类, 自然语言处理, 机器学习, 电影评论, 情感极性, 数据集, 深度学习数据概述：该数据集包含来自电影评论网站的文本数据，记录了用户对电影的评论及其对应的情感极性标签。主要特征如下：...

ZIP

印度英语阅读理解数据集Chaii-ImplDataset-ktgiahieu

2025年5月28日

印度英语阅读理解数据集Chaii-ImplDataset-ktgiahieu 数据来源：互联网公开数据标签：阅读理解，自然语言处理，数据集，英语学习，机器学习，文本分析，印度文化，问答系统数据概述：该数据集包含来自Chaii项目的印度英语阅读理解数据，旨在评估和促进对印度英语文本的理解能力。主要特征如下：...

ZIP

GitHub问题追踪数据集MH-GitHubBugDataset-saurabh502

2025年5月28日

GitHub问题追踪数据集MH-GitHubBugDataset-saurabh502 数据来源：互联网公开数据标签：软件工程，缺陷检测，数据集，自然语言处理，文本分析，机器学习，代码分析，开源项目数据概述：该数据集包含来自GitHub的软件缺陷报告数据，记录了软件开发过程中遇到的问题和错误。主要特征如下：...

ZIP

找到11,803个数据集

注册成功！