中文普通话语音识别开源数据集(持续更新)

原创

已于 2024-01-02 15:50:52 修改

·

1.1w 阅读

·

16

·

64

·

CC 4.0 BY-SA版权

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

文章标签:

#语音识别

于 2020-09-23 09:40:10 首次发布

本文汇总了多个中文普通话语音识别的开源数据集,包括thchs30、aishell1、ST-CMDS等,详细介绍了每个数据集的时长、人数、标注准确率及下载方式。这些资源对于从事语音识别研究和技术开发的人员非常宝贵。

中文普通话语音识别开源数据集,截止到2024.01.02

数据集时长(h)人数标注准确率下载链接开源协议备注thchs303040-openslr.orgApache License v.2.0-Primewords_set1100296>98%openslr.orgCC BY-NC-ND 4.0-aishell1178400>95%openslr.orgApache License v.2.0-ST-CMDS122855-openslr.orgCC BY-NC-ND 4.0-aishell210001991>96%希尔贝壳—专注于人工智能大数据和技术的创新-需要申请aidatatang_200zh200600>98%openslr.orgCC BY-NC-ND 4.0-aidatatang_1505zh15056408>98%数据堂-AI数据服务-人工智能数据采集与标注CC BY-NC-ND 4.0需要申请Speechocean10.3320>98%openslr.orgCC BY-NC-ND 4.0-MAGICDATA7551080>98%openslr.orgCC BY-NC-ND 4.0-Common Voice703333-Common VoiceCC-0mp3格式aishell385218>98%openslr.orgApache License v.2.0TAL_ASR10080+好未来AI开放平台-数据集 (100tal.com)注册即可下载WenetSpeech10000≥95%WenetSpeech (wenet-e2e.github.io)CC BY 4.0填写表格审核通过后下载MAGICDATA Conversational 180 663openslr.orgCC BY-NC-ND 4.0SHALCAS22A60openslr.orgCC BY-NC-ND 4.0