找到475个数据集

标签: 语音处理

过滤结果
  • DREANSS鼓事件分离标注数据集

    2025年12月22日 30 61 30

    数据集概述 该数据集包含22段多轨音乐片段的鼓事件标注,片段选自公开多轨音频数据集,涵盖摇滚、雷鬼等多种音乐类型,平均时长10秒。标注按原始音频分离数据集分为四个文件夹,旨在支持鼓源分离方法的研究。 文件详解 文件名称:dreanss_v1.zip 文件格式:ZIP(.zip)...
    packageimg
  • 语音转换挑战赛2020听力测试数据集

    2025年12月22日 30 201 30

    数据集概述 本数据集包含2020年语音转换挑战赛(VCC 2020)中,用于跨语言语音转换任务的众包感知评估音频文件及原始听力测试评分,支持语音转换系统性能的主观评价研究。 文件详解 文件名称: nii-yamagishilab/VCC2020-listeningtest-v1.0.1.zip 文件格式: ZIP压缩包(.zip) 内容说明:...
    packageimg
  • AUGUSTA语音转文本语言模型训练数据集

    2025年12月22日 30 139 81

    数据集概述 该数据集包含用于微调AUGUSTA语音转文本模型的元数据和精选数据集,AUGUSTA是基于OpenAI Whisper定制的模型,可将南蒂罗尔方言语音转录为标准德语。 文件详解 文件名称: augusta_data-main.zip 文件格式: ZIP压缩包 文件内容:...
    packageimg
  • Speech_To_Docker_Based_语音转Docker指令音频完整数据

    2025年12月21日 30 170 59

    数据集概述 该数据集包含12名受试者(4名女性和8名男性)朗读“text-to-docker”数据集测试样本提示词的英文语音录音,共3192个音频文件,时长约3.92小时。数据采集遵循伦理规范,已获得受试者知情同意。 文件详解 数据压缩包: data.zip: ZIP格式压缩包,包含所有加密的音频文件,需通过decrypt.py脚本解密获取原始音频...
    packageimg
  • 语音身份重建研究数据集

    2025年12月21日 30 173 45

    数据集概述 本数据集为研究论文《Reconstructing Voice Identity from Noninvasive Auditory Cortex Recordings》的配套数据与代码。研究通过深度神经网络构建“语音潜在空间”,分析其与大脑活动的关联,探究听觉皮层对说话人身份信息的表征机制,并实现基于脑活动的语音身份重建。 文件详解...
    packageimg
  • RealVAD真实世界语音活动检测数据集

    2025年12月21日 0 89 83

    数据集概述 该数据集是用于语音活动检测(VAD)的真实世界数据,基于约八十三分钟的YouTube小组讨论视频构建,包含单通道音频与静态摄像头拍摄的画面,标注了九位多国籍、性别均衡的嘉宾的上半身检测框及语音活动状态,还提供了声学特征。 文件详解 文件名称: RealVADDataset.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 英乌语言元音音素发音特征数据集

    2025年12月21日 30 103 52

    数据集概述 本数据集聚焦于英语和乌兹别克语两种语言的元音音素发音特征研究,包含一份以PDF格式呈现的相关文档,为语言语音学领域的发音特征分析提供资料支持。 文件详解 文件名称: Умаров Хамидилла Лутфуллаевич.pdf 文件格式: PDF (.pdf) 内容说明:...
    packageimg
  • Emozionalmente意大利语情感语音众包语料库

    2025年12月21日 30 141 27

    数据集概述 该数据集是意大利语模拟情感语音众包语料库,包含431名业余演员录制的6902条带标签样本,覆盖愤怒、厌恶等六种基础情绪及中性状态,每条样本对应18个固定句子,标签反映演员的情感表达意图,为意大利语情感语音研究提供数据支持。 文件详解 文件名称: emozionalmente.zip 文件格式: ZIP压缩包 包含内容: 音频文件:...
    packageimg
  • Sharvard_Spanish_Balanced_音素平衡西班牙语语音数据完整集合

    2025年12月21日 0 206 130

    数据集概述 该数据集包含音素平衡的西班牙语句子列表及男女说话人的完整句子录音,适用于语音清晰度测试,基于V. Aubanel等2014年发表的相关论文构建。 文件详解 文件名称:lists-ortho.pdf;文件格式:PDF;内容:音素平衡句子列表,关键词为粗体 文件名称:lists-phonemic-...
    packageimg
  • Open_Unmix_Pytorch_UMX_L音乐分离模型权重

    2025年12月21日 30 205 132

    数据集概述 该数据集包含Open-Unmix-Pytorch项目中UMX-L音乐分离模型的PyTorch权重文件,用于实现音乐音频的多源分离任务,支持从混合音频中提取不同乐器轨道。 文件详解 文件名称:bass-2ca1ce51.pth 文件格式:.pth 内容说明:贝斯轨道分离模型的权重文件 文件名称:drums-69e0ebd4.pth...
    packageimg
  • 意大利自然语言语音识别数据集

    2025年12月21日 30 191 119

    数据集概述 该数据集收集意大利自然语言说话者的音频记录,用于训练和测试智能家居场景下AXIOM开发板的VIMAR算法,目标是开发高效语音识别系统。数据由锡耶纳大学UX研究团队收集五个月,参与者覆盖不同性别、年龄、地区及背景。 文件详解 音频压缩包: AXIOM audio.zip:ZIP格式,包含意大利自然语言说话者的音频记录样本 Axiom...
    packageimg
  • 土耳其Şarkı声乐数据集2_0

    2025年12月21日 30 116 59

    数据集概述 该数据集为土耳其传统声乐形式Şarkı的录音集合,包含11首作品的12段表演(8段女声、4段男声),并提供歌词短语与音频片段的对齐标注,支持音频与歌词的匹配研究。 文件详解 文件名称:turkish_sarki_vocal_v2.0.zip 文件格式:ZIP压缩包...
    packageimg
  • 听觉与运动皮层中语音跟踪的感知相关性数据集2018

    2025年12月20日 30 28 1

    数据集概述 本数据集包含语音跟踪研究的相关文件,聚焦听觉与运动皮层中不同语言特征(短语、词、音节、音素)对应的语音跟踪现象,分析其感知相关性及跨频率耦合机制,为语音处理神经机制研究提供数据支持。 文件详解...
    packageimg
  • 业余人声打击乐数据集

    2025年12月20日 30 127 107

    数据集概述 该数据集包含业余人员对打击乐声音的人声模仿数据,共9780段发声,280个音频文件,由28名无或少量beatbox经验的参与者录制。数据集标注了底鼓、军鼓、闭合踩镲、开放踩镲的起始点及标签,还包含起始音素和结尾音素标签及噪声样本音频文件。 文件详解 压缩包文件: AVP_Dataset.zip: ZIP格式压缩包,包含所有音频文件和标注文件...
    packageimg
  • Zenodo_Komnzo_Text_Corpus_Based_202406语言语料库完整数据

    2025年12月20日 30 121 28

    数据集概述 本数据集包含最新版本的Komnzo文本语料库压缩文件,由Christian Döhler为其博士语言记录项目录制,记录了新几内亚南部的Komnzo语言相关材料。 文件详解 文件名称: Komnzo-2024-06.zip 文件格式: ZIP(压缩文件) 内容说明:...
    packageimg
  • 可变强度情感与情绪发声语料库VIVAE

    2025年12月20日 30 29 25

    数据集概述 该数据集包含人类非言语情感发声录音,分为全量集(一千零八十五个音频文件)和核心集(四百八十个音频文件)。全量集涵盖十一位说话者表达的六种情感(三种积极、三种消极),每种情感包含从低到峰值的强度变化;核心集为基于真实性判断筛选的交叉子样本,为情感发声研究提供标准化数据支持。 文件详解 压缩包文件: VIVAE.zip:...
    packageimg
  • 语音增强的Open_Unmix权重数据集

    2025年12月20日 30 154 110

    数据集概述 本数据集包含基于Voicebank+Demand(二十八说话人版本)训练的Open-Unmix语音增强模型权重,采样率为一万六千赫兹。数据文件类型多样,可适配open-unmix-nnabla与open-unmix-pytorch框架使用。 文件详解 模型权重文件(.pth格式): noise_04a6fc2d.pth:噪声分离模型权重文件...
    packageimg
  • 奥斯曼_土耳其调式音乐作品识别结果数据集

    2025年12月20日 30 60 52

    数据集概述 本数据集包含奥斯曼-土耳其调式音乐作品识别与主音识别结果,以及相关统计显著性数值,对应Şentürk与Serra 2016年发表的研究论文成果,为该领域的研究提供实证数据支持。 文件详解 文件名称:LICENSE.txt 文件格式:TXT(.txt) 内容说明:Creative Commons Attribution-...
    packageimg
  • ESMA_3D沉浸式声景录音数据集

    2025年12月20日 0 203 64

    数据集概述 该数据集包含基于ESMA-3D麦克风阵列技术录制的沉浸式声景音频。ESMA-3D技术采用8麦克风分层设计,可实现360°空间音频捕捉,具有良好的空间感和稳定的水平/垂直定位效果,适用于沉浸式音频研究与应用。 文件详解 文件名称:ESMA-3D Immersive Soundscape_Manhattan NYC.zip...
    packageimg
  • 简单鞋盒形房间脉冲响应生成方法比较数据集

    2025年12月19日 30 75 64

    数据集概述 本数据集包含为论文《Comparison of Impulse Response Generation Methods for a Simple Shoe-box Shaped Room》生成的记录与合成脉冲响应数据,可用于研究不同方法在简单鞋盒形房间场景下的脉冲响应生成效果。 文件详解 文件名称:Impulse Responses.zip...
    packageimg