找到475个数据集

标签: 语音处理

过滤结果
  • 瓦努阿图之声数据集2024

    2025年12月19日   

    数据集概述 该数据集为“瓦努阿图之声”项目数据,核心包含与瓦努阿图相关的语音音频内容,以压缩包形式存储,未提供具体内容预览,整体结构简洁,无训练测试或原始处理数据的拆分。 文件详解 文件名称: lexibank/vanuatuvoices-v1.3.zip 文件格式: ZIP (.zip) 文件说明:...
    packageimg
  • 交响音乐录音旋律提取数据集ORCHSET

    2025年12月19日   

    数据集概述 该数据集是用于旋律提取算法开发与评估的专业数据集,包含64段交响音乐音频片段及其对应的旋律标注。旋律定义为听众在复调音乐中会哼唱或吹奏的单音高序列,为相关算法研究提供标准化测试数据。 文件详解 文件名称: Orchset_dataset_0.zip 文件格式: ZIP压缩包 (.zip) 文件内容:...
    packageimg
  • 自动音频转录工具概述及转录文本数据集2022

    2025年12月19日   

    数据集概述 本数据集包含2022年3月对多款自动音频转录工具的综合评估,涉及工具功能、成本、安全性等信息,同时提供荷兰语测试音频片段及各工具生成的原始转录文本与人工清理文本,为研究自动转录工具性能提供实证数据。 文件详解 工具概述文件...
    packageimg
  • 昂库语族初步调查数据集

    2025年12月18日   

    数据集概述 本数据集围绕昂库语族(属于南亚语系孟高棉语支)展开初步调查,包含未记录语言的词汇、语音数据及地理分布信息,为研究该语族分类、语言特征及演化提供基础资料。 文件详解 文件名称:AngkuicComparative.xlsx 文件格式:Excel(.xlsx) 内容说明:可能包含昂库语族不同语言的词汇比较数据表 文件名称:Angkuic2...
    packageimg
  • 儿童英语语音录音数据集_自发语音_预设句子

    2025年12月16日   

    数据集概述 该数据集包含11名幼儿(平均年龄4.9岁,5名女性、6名男性)的英语语音录音,涵盖自发讲述绘本、重复预设句子、数数三类任务,录音来源包括专业麦克风、便携麦克风及机器人麦克风,部分组合因技术问题缺失,含自发语音的人工分割标注。 文件详解 文件名称: english_children.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 德语短语结构与元音松紧度交互作用声学与发音研究数据集

    2025年12月18日   

    数据集概述 该数据集是研究“德语短语结构与元音松紧度交互作用”的声学与发音学研究配套数据,包含实验数据文件和分析脚本,支持对德语语音结构与元音特征关系的定量分析。 文件详解 文本数据文件(.txt格式,共5个): di.txt、mono.txt:包含语音标注数据,字段示例有labels、start、end、utts、subject等时间与对象信息...
    packageimg
  • Seeing_Sound_Dataset_Based_合成音景与音频标注完整数据

    2025年12月18日   

    数据集概述 本数据集包含合成音景及众包音频标注数据,支撑研究音景复杂度与声音可视化对声音事件标注质量及速度的影响。数据涵盖不同复杂度维度(最大复调、基尼复调)的合成音景及对应标注结果。 文件详解 文件名称: seeing-sound-dataset-v1.0.1.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 维京人头相关传输函数数据集第二版

    2025年12月13日   

    数据集概述 该数据集是冰岛大学测量的头相关传输函数(HRTF)集合,包含在密集空间网格(一千五百一十三个位置)上测量的全球面HRTF数据,使用佩戴不同人工耳廓对的KEMAR人体模型,人工耳廓由雷克雅未克萨迦博物馆提供的真人头部模型定制而成。 文件详解 压缩文件: 3D_scans.zip:...
    packageimg
  • LJ语音_国际音标对齐转录数据集

    2025年12月11日   

    数据集概述 该数据集为LJ语音数据提供国际音标(IPA)对齐转录内容,包含文本网格文件、词汇表、音素时长分析图表、发音词典及结果复现脚本,支持语音处理相关研究与应用。 文件详解 grids.zip:压缩文件,包含所有音频对应的TextGrid文件,每个文件含三个层级: words层级:对齐的标准化英文单词...
    packageimg
  • TimeSide_API音频处理网络服务演示文档

    2025年12月7日   

    数据集概述 本数据集为一份演示文档,介绍如何使用TimeSide REST API作为远程服务处理音频描述符,以将分析结果嵌入网页应用。文档还展示了新版TimeSide播放器作为使用JavaScript SDK开发可视化与协作标注应用的示例。 文件详解 文件名称:WAC_2022_paper_47 (1).pdf 文件格式:PDF...
    packageimg
  • 俄语语音重音感知研究与语音识别技术应用

    2025年12月16日   

    数据集概述 本数据集聚焦俄语语音重音感知问题,结合语音识别技术,分析俄语作为外语学习者的语音特点,通过神经网络算法识别其语音偏差,评估重音对沟通质量的影响,为俄语教学提供实践建议。 文件详解 文件名称: Turg’unboyev Abdullajon Abdubanno o’g’li.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • LibriCount10_0dB_说话人数量估计数据集

    2025年12月16日   

    数据集概述 该数据集为说话人数量估计任务提供合成数据,基于LibriSpeech CleanTest数据集构建,包含0至10个说话人同时发声的5秒音频,混合信噪比为0分贝,每个录音文件名含真实说话人数,配套JSON标注文件记录说话人性别、ID及语音活动信息。 文件详解 文件名称:LibriCount10-0dB.zip 文件格式:ZIP压缩包...
    packageimg
  • 帕皮阿门托语医疗环境关键词识别语音转文本数据集

    2025年12月16日   

    数据集概述 本数据集为帕皮阿门托语医疗环境下的关键词识别语音转文本研究开发,包含七个类别(六个关键词和一个未知类别)的语音样本,经过滤后共16766个样本,每个样本为一秒钟录音生成的频谱图,用于推动帕皮阿门托语关键词识别研究。 文件详解 文件名称:papiamento_keyword_spotting_dataset.zip...
    packageimg
  • 自动医疗转录数据集

    2025年12月16日   

    数据集概述 该数据集用于训练机器学习模型,从医患对话中自动生成精神科病例记录。通过学生模拟录制对话音频,经AI语音识别生成转录文本,并由学生基于转录文本撰写病例记录,为医疗转录自动化研究提供数据支持。 文件详解 文件名称: nazmulkazi/dataset_automated_medical_transcription-v1.0.zip 文件格式:...
    packageimg
  • 辅音挑战语料库

    2025年12月16日   

    数据集概述 该语料库提供用于支持人机辅音识别对比(安静与噪声环境)的数据集。包含二十四名英语母语者(十二女、十二男)的语音数据,覆盖二十四个英语辅音在九种元音环境、两种重音类型下的发音,共一万零三百六十八个语音样本,适用于自动语音识别实验的训练、开发和测试。 文件详解 技术说明文件: readme.pdf:...
    packageimg
  • 阿拉伯语语音命令数据集

    2025年12月16日   

    数据集概述 该数据集包含12000条阿拉伯语语音命令数据对(语音信号与对应关键词),覆盖40个关键词,每个关键词300条音频(30位参与者×10次录制)。音频为1秒时长、16kHz采样率的WAV格式,另有独立背景噪声文件,适用于语音识别领域的关键词检测任务。 文件详解 主数据压缩包: 文件名称: abdulkaderghandoura/arabic-...
    packageimg
  • Saraga_Audiovisual_Mini_Based_阿南达纳塔那普拉卡沙姆表演多模态数据完整样本

    2025年12月15日   

    数据集概述 该数据集是Saraga Audiovisual数据集的子集样本,结构与原始数据集一致。包含音频、姿态估计、元数据及视频四类压缩文件,仅涵盖Adithi Prahlad表演的《Ananda Natana Prakasham》单一曲目内容。 文件详解 saraga audio.zip:压缩文件,包含所有多轨音频文件及其对应的混合文件...
    packageimg
  • 双耳脉冲响应数据集

    2025年12月15日   

    数据集概述 该数据集包含在消声室中录制的双耳脉冲响应数据,使用无耳道的B&K人头模拟器(HATS)通过单段十二秒扫频信号采集。消声室配备六十四只全球形排列的扬声器,扬声器距人头中心距离为二点四米,且已预先进行均衡处理。数据集提供长短两种时长的脉冲响应文件及扬声器位置信息,采样频率为四万八千赫兹。 文件详解 核心数据文件:...
    packageimg
  • 人类语音指向性测量数据集对比补充材料

    2025年12月15日   

    数据集概述 本数据集为19项人类语音指向性研究的对比数据库,含不同研究的测量数据(如全句平均、音素依赖数据)、采样网格(水平平面/球面)及频率处理方式(频带平均/传递函数),还包含13名受试者德语平衡句语音指向性数据及相关文件。 文件详解...
    packageimg
  • MUSDB18_Lyrics_Based_多语言歌词扩展文本分析完整数据

    2025年12月15日   

    数据集概述 本数据集是MUSDB18数据集的歌词标注扩展,包含九十八首训练集歌曲与四十五首测试集歌曲的英文歌词人工转录文本。歌词按三至十二秒自然停顿分段,部分有一秒重叠,提供词音素分解及辅助脚本,适用于文本辅助歌声分离等研究。 文件详解 README.txt: TXT格式,包含数据集说明、使用条款、引用要求、数据结构及文件说明等核心信息...
    packageimg