-
is24_Interspeech2024_欧洲议会录音多语言测试集
2026年1月27日 30 148 111
数据集概述 本数据集是从欧洲议会会议录音中提取的多语言测试集,用于语言识别和语音识别任务。包含15个多语言音频文件,总时长约2小时56分34秒,覆盖19种语言,经人工核对语言标签时间戳并补充官方文本转录,可支持多语言语音技术的模型测试与评估。 文件详解 文件名称:tst_is24.zip 文件格式:ZIP...
-
TwiSty_Based_多语言Twitter作者性别与人格分析语料库
2026年1月22日 30 22 21
数据集概述 本数据集为TwiSty多语言Twitter作者分析语料库,用于作者特征识别研究。包含六种语言共18,168位作者的人格(MBTI)和性别标注信息,以及作者的Twitter ID和其可用推文ID。推文已完成语言识别,分为“确认语言”和“其他语言”两类。 文件详解 文件名称:twisty.zip 文件格式:ZIP...
-
CLDF_Dogon_Comparative_Wordlist_语言比较研究数据集2016
2026年1月13日 30 42 12
数据集概述 本数据集是基于Heath等人2016年的《Dogon Comparative Wordlist》衍生的CLDF格式数据集,由Moran、Forkel和Heath编辑,记录Dogon语言的比较词表信息,为语言学研究提供结构化数据支持。 文件详解 文件名称:heathdogon-v0.3.zip 文件格式:ZIP...
-
WiLI_2018_Wikipedia_Based_多语言文本识别基准数据集
2025年12月12日 30 167 121
数据集概述 该数据集是Wikipedia语言识别基准数据集,包含235种语言的235000个段落,数据分布均衡,并提供训练集和测试集的划分。 文件详解 文件名称: wili-2018.zip 文件格式: ZIP压缩包(.zip) 内容说明: 压缩包内包含数据集的完整内容,具体字段及结构需解压后查看原始文件 适用场景 自然语言处理研究:...
-
文章提及语言及其ISO代码列表_延续循环
2025年12月4日 30 13 9
数据集概述 本数据集为单一PDF文件,内容是文章《延续循环》中提及的语言及其对应的ISO代码列表,为语言相关研究或应用提供标准化编码参考。 文件详解 文件名称:The_languages_mentioned_in_the_article_Continuative Cycle_with_thei_ ISO_codes.pdf 文件格式:PDF...
-
WoLLaI_Mal_Eng_单词级语言识别数据集
2025年11月29日 30 208 148
数据集概述 本数据集是针对马拉雅拉姆语-英语混合文本的单词级语言识别标注数据,包含一万二千四百零二个句子,标注类别分为马拉雅拉姆语(Mal)、英语(Eng)、混合词(Mix)和其他(Othr)四类,支持自然语言处理领域的语言识别任务研究。 文件详解 该数据集包含三个格式的文件,具体说明如下: - 文件名称:...
-
多语言文本语义相似度分析数据集MultilingualTextSemanticSimilarityAnalysisDataset-mehtaronit
2025年5月30日 30 53 4
多语言文本语义相似度分析数据集MultilingualTextSemanticSimilarityAnalysisDataset-mehtaronit 数据来源:互联网公开数据 标签:文本相似度, 多语言, 语义分析, 文本匹配, 机器翻译, 自然语言处理, 数据集, 语言识别 数据概述:...
-
阿拉伯语手语数据集阿拉伯语手语数据集-sumayahalwadei
2025年5月30日 30 27 23
阿拉伯语手语数据集阿拉伯语手语数据集-sumayahalwadei 数据来源:互联网公开数据 标签:手语,阿拉伯语,数据集,语言识别,机器学习,自然语言处理,教育,文化交流 数据概述: 该数据集包含经过修改的阿拉伯语手语视频数据,记录了阿拉伯语手语的多种表达方式。主要特征如下: 时间跨度: 数据记录的时间范围从2015年到2020年。 地理范围:...
-
哈萨克斯坦电子政务服务问答数据集Kazakhstane-GovServiceQuestionAnsweringDataset-skyz0z0
2025年5月29日 30 7 2
哈萨克斯坦电子政务服务问答数据集Kazakhstane-GovServiceQuestionAnsweringDataset-skyz0z0 数据来源:互联网公开数据 标签:电子政务, 问答系统, 自然语言处理, 信息检索, 文本分析, 机器学习, 语言识别, 哈萨克斯坦 数据概述:...
-
多语言情感分析电影评论数据集MultilingualSentimentAnalysisMovieReviews-smitzaveri
2025年5月29日 30 88 51
多语言情感分析电影评论数据集MultilingualSentimentAnalysisMovieReviews-smitzaveri 数据来源:互联网公开数据 标签:情感分析, 文本分类, 多语言, 电影评论, 机器学习, 自然语言处理, 语言识别, 数据标注 数据概述:...
-
代码笔记语言识别与排名数据集CodeNotebookLanguageIdentificationandRanking-kirderf
2025年5月29日 30 53 6
代码笔记语言识别与排名数据集CodeNotebookLanguageIdentificationandRanking-kirderf 数据来源:互联网公开数据 标签:代码笔记, 语言识别, 文本分析, 机器学习, 排名预测, 自然语言处理, 数据标注, 代码分析 数据概述:...
-
俄罗斯社交媒体内容分析数据集RussiaSocialMediaContentAnalysis-dawndarasms
2025年5月28日 30 47 17
俄罗斯社交媒体内容分析数据集RussiaSocialMediaContentAnalysis-dawndarasms 数据来源:互联网公开数据 标签:社交媒体, 文本分析, 俄罗斯, 内容分析, 舆情监测, 政治传播, 语言识别, 数据挖掘 数据概述: 该数据集包含来自社交媒体平台的数据,记录了与俄罗斯相关的社交媒体内容。主要特征如下:...
-
多语言问答查询数据集MultilingualQuestionAnsweringQueryDataset-christinakopidaki
2025年5月26日 30 164 88
多语言问答查询数据集MultilingualQuestionAnsweringQueryDataset-christinakopidaki 数据来源:互联网公开数据 标签:问答系统, 自然语言处理, 机器阅读理解, 文本检索, 多语言, 问句分析, 语料库, 语言识别 数据概述:...
-
新冠疫情社交媒体文本分析数据集COVID-19SocialMediaTextAnalysisDataset-senkoushik95
2025年5月26日 30 208 64
新冠疫情社交媒体文本分析数据集COVID-19SocialMediaTextAnalysisDataset-senkoushik95 数据来源:互联网公开数据 标签:新冠疫情, 社交媒体, 文本分析, 舆情分析, 语言识别, 机器学习, 情感分析, 文本挖掘 数据概述:...
-
多语种文本语言识别数据集MultilingualTextLanguageIdentificationDataset-pranavagrawal09
2025年5月19日 30 97 43
多语种文本语言识别数据集MultilingualTextLanguageIdentificationDataset-pranavagrawal09 数据来源:互联网公开数据 标签:文本分析, 语言识别, 自然语言处理, 多语言, 语种标注, 机器学习, 文本分类, 语料库 数据概述:...
-
多语种文本语言识别数据集MultilingualTextLanguageDetectionDataset-adarshtambe
2025年5月18日 30 56 44
多语种文本语言识别数据集MultilingualTextLanguageDetectionDataset-adarshtambe 数据来源:互联网公开数据 标签:文本分类, 语言识别, 自然语言处理, 机器学习, 多语言, 文本分析, 数据标注, 语料库 数据概述:...
-
多语言文本情感分析数据集MultilingualTextSentimentAnalysis-iitm21f3001013
2025年5月18日 30 137 43
多语言文本情感分析数据集MultilingualTextSentimentAnalysis-iitm21f3001013 数据来源:互联网公开数据 标签:情感分析, 文本分类, 多语言, 机器学习, 自然语言处理, 语言识别, 情感标注, 文本语料 数据概述: 该数据集包含来自多种语言的文本,记录了用于情感分析的句子及其对应的情感标签。主要特征如下:...
-
讽刺检测标注数据集LabeledDatasetforSarcasmDetection-muhammadfaisalali
2025年5月14日 30 182 113
讽刺检测标注数据集LabeledDatasetforSarcasmDetection-muhammadfaisalali 数据来源:互联网公开数据 标签:自然语言处理,情感分析,数据集,机器学习,文本分类,社会媒体,心理学,语言识别 数据概述: 该数据集包含来自社交媒体和网络论坛的文本数据,记录了带有标签的讽刺和非讽刺语句。主要特征如下:...
-
多语言文本分类训练数据集MultilingualTextClassificationTrainingDataset-jvkchaitanya410
2025年5月12日 30 75 73
多语言文本分类训练数据集MultilingualTextClassificationTrainingDataset-jvkchaitanya410 数据来源:互联网公开数据 标签:文本分类, 多语言, 机器翻译, 语言识别, 自然语言处理, 语料库, 文本挖掘, 数据标注 数据概述:...
-
多语言文本检测数据集MultilingualTextDetectionDataset-sakaramtrupthi
2025年5月11日 30 88 70
多语言文本检测数据集MultilingualTextDetectionDataset-sakaramtrupthi 数据来源:互联网公开数据 标签:文本分类, 语言识别, 自然语言处理, 多语言, 机器学习, 数据集, 文本分析, 语种 数据概述: 该数据集包含来自互联网的文本数据,记录了不同语言的文本内容及其对应的语言标签。主要特征如下:...



