-
泰米尔语_英语语音翻译数据集
2025年9月26日 30 47 27
泰米尔语_英语语音翻译数据集_Tamil_English_Speech_Translation_Dataset 数据来源:互联网公开数据 标签:语音识别, 语音翻译, 泰米尔语, 英语, 多语言, 语音, 文本, 机器学习 数据概述: 该数据集包含泰米尔语和英语的语音数据及对应的文本转录和翻译,旨在促进泰米尔语与英语之间的语音翻译研究。主要特征如下:... -
堤坝巡查文本数据集
2025年9月20日 30 200 31
堤坝巡查文本数据集_Levee_Patrol_Text_Dataset 数据来源:互联网公开数据 标签:堤坝, 巡查, 文本, 越南语, 自然语言处理, 灾害管理, 水利工程, 文本分析 数据概述: 该数据集包含来自越南相关法律法规及管理文件的文本数据,记录了关于堤坝巡查、维护和防洪的相关内容。主要特征如下:... -
自然语言处理多领域对话数据集UltraChat-200K-thedevastator
2025年6月4日 30 26 23
自然语言处理多领域对话数据集UltraChat-200K-thedevastator 数据来源:互联网公开数据 标签:自然语言处理,对话,生成,训练,文本,语言模型,NLG,语料库 数据概述:... -
Jigsaw竞赛英语翻译文本数据集
2025年6月1日 30 131 8
Jigsaw竞赛英语翻译文本数据集 数据来源:互联网公开数据 标签:Jigsaw, 翻译, 文本, 英语, 自然语言处理, 文本分析, 机器学习, 竞赛, 负面评论, 错误标识 数据概述:... -
古腾堡诗歌项目诗歌文本数据集-terminate9298
2025年6月1日 30 92 13
古腾堡诗歌项目诗歌文本数据集-terminate9298 数据来源:互联网公开数据 标签:诗歌,文学,文本,古腾堡项目,语料库,自然语言处理,文本分析,诗歌创作,情感分析 数据概述: 本数据集收录了来自古腾堡项目(Gutenberg Project)的诗歌文本,包含2703086行句子。数据集由Allison... -
乌尔都语印刷文本图像识别扩展数据集-MMU-Extension-22-tayyabnasir22
2025年6月1日 30 55 41
乌尔都语印刷文本图像识别扩展数据集-MMU-Extension-22-tayyabnasir22 数据来源:互联网公开数据 标签:乌尔都语,OCR,文本识别,印刷文本,深度学习,机器学习,图像,文本,语言学,计算机视觉 数据概述: 本数据集是MMU-OCR-21数据集的扩展,旨在为印刷乌尔都语光学字符识别(OCR)任务提供一个公开可用的数据集。MMU-... -
巴西新闻文章文本数据集-新闻内容分析-2024
2025年5月31日 30 32 7
巴西新闻文章文本数据集-新闻内容分析-2024 数据来源:互联网公开数据 标签:巴西,新闻,文本,自然语言处理,NLP,金融,信息提取,时事,政治,经济,社会 数据概述: 本数据集包含来自巴西联邦数字图书馆的新闻文章文本,旨在为自然语言处理(NLP)模型构建提供可靠且一致的数据源。数据集涵盖了各种主题的新闻报道,为研究人员提供了丰富的文本数据。... -
孟加拉国日报BD-Pratidin新闻数据集-2017年12月13日至2020年9月9日-shakirulhasan
2025年5月31日 30 66 64
孟加拉国日报BD-Pratidin新闻数据集-2017年12月13日至2020年9月9日-shakirulhasan 数据来源:互联网公开数据 标签:孟加拉语,新闻,文本,自然语言处理,NLP,文本分析,孟加拉国,BD-Pratidin,语料库 数据概述: 本数据集包含了从2017年12月13日至2020年9月9日期间,孟加拉国日报(BD-... -
老挝语-越南语机器翻译语料库越南语文本数据集-zuydang
2025年5月31日 30 176 166
老挝语-越南语机器翻译语料库越南语文本数据集-zuydang 数据来源:互联网公开数据 标签:机器翻译,语料库,老挝语,越南语,文本,语言学,自然语言处理,ALT 数据概述: 本数据集是从ALT(亚洲语言技术)项目中提取的老挝语-... -
多模态文本图像生成数据集-2023-alenic
2025年5月31日 30 24 18
多模态文本图像生成数据集-2023-alenic 数据来源:互联网公开数据 标签:多模态,文本,图像,生成,数据集,分类,预测,模态分析,目标识别 数据概述:... -
视觉问答图像理解数据集-图像与自然语言结合-通用
2025年5月30日 30 23 9
视觉问答图像理解数据集-图像与自然语言结合-通用 数据来源:互联网公开数据 标签:视觉问答,图像理解,自然语言处理,计算机视觉,人工智能,图像,文本,问答,多模态,场景理解 数据概述: 本数据集是用于视觉问答(VQA,Visual Question Answering)任务的通用数据集。VQA... -
多模态情感分析数据集MultimodalSentimentAnalysisDataset-dmitryml
2025年5月29日 30 4 1
多模态情感分析数据集MultimodalSentimentAnalysisDataset-dmitryml 数据来源:互联网公开数据 标签:情感分析, 多模态, 文本, 图像, 语音, 情感识别, 机器学习, 数据集 数据概述: 该数据集包含来自多个来源的多模态情感数据,记录了与情感相关的文本、图像和语音信息,用于情感分析和多模态研究。主要特征如下:... -
增强型多模态情感识别数据集EnhancedMulti-modalEmotionRecognitionDataset-alexandreazouri
2025年5月28日 30 60 41
增强型多模态情感识别数据集EnhancedMulti-modalEmotionRecognitionDataset-alexandreazouri 数据来源:互联网公开数据 标签:情感识别,多模态,数据集,语音,文本,视频,机器学习,人工智能 数据概述: 该数据集包含增强的多模态情感识别数据,旨在提升情感分析的准确性和鲁棒性。主要特征如下: 时间跨度:... -
堤坝巡逻文本数据集DamPatrolTextCorpus-tunphmnguynanh
2025年5月28日 30 76 25
堤坝巡逻文本数据集DamPatrolTextCorpus-tunphmnguynanh 数据来源:互联网公开数据 标签:堤坝, 巡逻, 防洪, 文本, 法律法规, 自然语言处理, 文本分析, 越南语 数据概述: 该数据集包含来自越南官方文件的文本数据,记录了关于堤坝巡逻和防洪的相关规定和说明。主要特征如下:... -
医学文本嵌入数据集-kwyrob
2025年5月22日 30 146 15
医学文本嵌入数据集-kwyrob 数据来源:互联网公开数据 标签:医学,文本,嵌入,自然语言处理,深度学习,医学信息学,生物医学,语义分析 数据概述: 该数据集包含用于医学文本嵌入的数据,旨在为医学领域的自然语言处理任务提供支持。主要特征如下: 时间跨度:数据记录的时间范围不限,涵盖了医学文献、病例报告、临床试验摘要等多种来源。... -
数学问题解答文本数据集MathProblemSolvingTextDataset-ibtida01
2025年5月19日 30 72 13
数学问题解答文本数据集MathProblemSolvingTextDataset-ibtida01 数据来源:互联网公开数据 标签:数学,问题解答,文本,自然语言处理,竞赛,推理,计算,数据集 数据概述: 该数据集包含来自数学竞赛的问题文本及解答。主要特征如下: 时间跨度:数据未标明具体时间,视作静态数据集使用。... -
大规模多模态社交媒体推文数据集MMHS150KTweetImageTextDataset-raghav0210
2025年5月19日 30 8 1
大规模多模态社交媒体推文数据集MMHS150KTweetImageTextDataset-raghav0210 数据来源:互联网公开数据 标签:社交媒体,推文,图像,文本,多模态,自然语言处理,计算机视觉,机器学习,情感分析 数据概述:该数据集包含来自Twitter的推文数据,记录了推文的文本内容和对应的图像。主要特征如下:... -
宝可梦游戏文本描述数据集PokemonGameTextDescriptionDataset-academic8rb
2025年5月17日 30 155 8
宝可梦游戏文本描述数据集PokemonGameTextDescriptionDataset-academic8rb 数据来源:互联网公开数据 标签:宝可梦, 游戏, 文本, 描述, 自然语言处理, 语料库, 文本挖掘, 数据分析 数据概述: 该数据集包含来自宝可梦游戏系列的文本描述数据,记录了不同宝可梦的详细介绍性文本。主要特征如下:... -
虚假新闻文本分类数据集FakeNewsTextClassificationDataset-eiosus
2025年5月13日 30 59 10
虚假新闻文本分类数据集FakeNewsTextClassificationDataset-eiosus 数据来源:互联网公开数据 标签:虚假新闻, 文本分类, 新闻分析, 舆情监测, 机器学习, 自然语言处理, 标题, 文本 数据概述: 该数据集包含来自互联网的新闻文章,记录了标题和正文内容,并标注了文章的真实性。主要特征如下:... -
安然公司邮件语料库EnronEmailCorpus数据集-minalray
2025年5月12日 30 153 43
安然公司邮件语料库EnronEmailCorpus数据集-minalray 数据来源:互联网公开数据 标签:邮件, 文本, 语料库, 自然语言处理, 金融, 能源, 文本挖掘, 商业 数据概述: 该数据集包含来自安然公司(Enron Corporation)内部员工的电子邮件数据,记录了公司运营期间的通信内容。主要特征如下:...