数据集概述
本数据集包含2022年3月对多款自动音频转录工具的综合评估,涉及工具功能、成本、安全性等信息,同时提供荷兰语测试音频片段及各工具生成的原始转录文本与人工清理文本,为研究自动转录工具性能提供实证数据。
文件详解
- 工具概述文件
- Audio_transcription_tool_overview.pdf:PDF格式,包含多款自动转录工具的功能、成本、安全性等信息概述
- 测试音频文件
- Test_interview_20220203.mp3:MP3格式,用于工具测试的荷兰语音频片段
- 转录文本文件
- Test_interview_cleaned_transcript.odt:ODT格式,人工清理后的标准转录文本
- 原始转录文件(共8个ODT文件):包含Amberscript、HappyScribe、NVIVO transcription等工具生成的原始转录文本,命名格式为Test_interview_[工具名]raw[日期].odt
- 原始转录文件(2个TXT文件):Test_interview_Transcribe_raw_20220315.txt、Test_interview_Kaldi_raw_20220315.txt,TXT格式的工具原始转录文本
- 原始转录文件(1个XML文件):Test_interview_Kaldi_raw_20220315.xml,XML格式的Kaldi工具原始转录文本
数据来源
乌得勒支大学研究数据管理支持部门(RDM Support)与人文学院DataHub SSH项目组合作创建
适用场景
- 自动语音识别技术评估:对比不同转录工具的荷兰语语音识别准确率
- 转录工具选型研究:分析工具功能、成本与安全性对实际应用的影响
- 语音数据处理研究:探索自动转录文本的后处理方法与质量优化路径
- 学术数据管理实践:为机构音频数据转录工作提供工具选择参考依据