UQ阿瓦兹阿米里语音数据集-2011-kawichi
数据来源:互联网公开数据
标签:语音数据集,文本转语音,深度学习,Uyghur语,音频处理,科学研究,教育,数据集
数据概述:
本数据集是由昆士兰大学(UQ)开发的UQ阿瓦兹阿米里(UQ Awaz Ambiri),旨在通过深度学习技术推进Uyghur语文本转语音(Text To Speech, TTS)研究。该语音合成器在实际应用中没有限制,使用者可以在文章或产品中注明“使用了UQ阿瓦兹阿米里”。
该语音合成器基于Exmed Pida’iy翻译、默罕默德·萨利·达莫拉先生翻译的Uyghur语《古兰经》音频和文本。感谢Exmed Pida’iy对默罕默德·萨利·达莫拉先生的慷慨捐助,如果没有他的翻译,这个项目无法完成,也无法启动。
数据集包含16187个音频样本,每个样本的时长最长为10秒,总时长为28小时。每个样本的元数据信息存储在metadata.csv文件中,采用UTF-8编码,每行对应一个音频样本,包含4个字段:文件名(wav文件名)、Uyghur阿拉伯字母文本、Uyghur拉丁字母文本、Uyghur斯拉夫字母文本。音频文件格式为单声道、16位PCM WAV,采样率为22050 Hz。
数据集的构建过程包括将Uyghur语《古兰经》的114个音频样本通过程序分割成不超过10秒的片段,然后使用作者开发的AwazAmbiriQorali(音频和文本对齐工具)处理《古兰经》的Uyghur语文本,将音频和文本一一对应,生成最终数据集。整个过程得到了Dilshat Abla、Osman Tursun、Rustem Mexet三位同学的帮助。
文本信息已被全部转换为标准数字形式(如“12”表示“十二”),为了方便研究人员使用,文本信息以Uyghur语的阿拉伯字母、拉丁字母、斯拉夫字母三种形式提供。此外,还参考了类似Inglizche的LJ Speech数据集的构建方式。
数据集可通过Google Drive下载,文件格式为7z压缩包,大小为2.9 GB,也可以通过Kenjisoft下载,同为7z压缩包,大小为2.9 GB。
数据用途概述:
该数据集适用于语音合成技术研究、文本转语音系统开发、Uyghur语语音处理研究、教育和培训等场景。研究人员可以利用该数据集进行语音合成算法的研究与优化,开发针对Uyghur语的语音应用;教育工作者可以使用数据集进行语音处理课程的教学和实验;语音技术公司可以利用数据集开发和改进语音识别和合成产品。总之,该数据集为Uyghur语语音技术的研究和应用提供了重要的数据支持。