yobo体育官网登录

微信
邮箱

contact@speechocean.com

留资
TOP
由海天瑞声支持,全球最大多领域英语开源数据集发布
2021.07.09

日前,由陈果果、都家宇、张卫强等发起的语音社区志愿者组织SpeechColab和清华语音与音频技术实验室,联合语音社区的8个团队,在语音界大神Daniel Povey, Sanjeev Khudanpur, Shinji Watanabe等的大力支持下(详见下图),发布了全球最大的多领域英语开源数据集—GigaSpeech,介绍该数据集的论文已被国际语音顶会InterSpeech2021接收。


WeChatf3cc3802ed101e3184aa66003ecbe075.png

GigaSpeech参与人员及团队,完整论文下载见下文


海天瑞声很荣幸参与了本次开源数据集的工作,为部分数据集提供了标注以及全部数据集的镜像下载支持,也为全球语音识别技术的探索贡献了自己的力量。


语音识别的性能,很大程度上取决于训练数据集的规模和覆盖性。现有的语音开源数据集适用领域狭窄,缺少难度挑战,准确率接近饱和。学术界和工业界研究开始分道扬镳,碎片化严重。作为目前全球最大的多领域英语开源数据集,GigaSpeech致力于推动学术界和产业界的共同进步。


以下文章来源于THUsatlab ,作者THUsatlab

01

概述

 

GigaSpeech是一个不断发展的、多领域英语语音识别语料库。它拥有10000小时的高质量标注音频,适用于有监督训练任务;以及33000小时的总音频,适用于半监督无监督训练任务。


02

数据来源及质量控制


从发音风格和覆盖主题入手,GigaSpeech从有声读物、播客和YouTube上收集了约33000小时的转录音频,以及对应的人工转录文本、人工字幕等,涵盖诵读和自发口语等一系列不同风格,以及艺术、科学、体育等多种主题。


2.png


图1.png


在质量控制上,GigaSpeech提供一种新的强制对齐和分段处理pipeline工具,以创建适合ASR训练的句子段,并滤除低质量转录片段。对于有监督训练任务,GigaSpeech提供了5个不同规模的子集。在过滤验证环节,最大训练子集的词错误率控制在4%以下;其它较小规模的子集的词错误率控制在0%。


03

适用于有监督训练任务的数据子集详情


GigaSpeech提供了10小时、250小时、1000小时、2500小时和10000小时等5个不同规模的子集,以适用于有监督训练任务。详情如下表所示:


图2.png

04

开发集和测试集


图3.png

05

排行榜


为方便使用,GIgaSpeech为主流的ASR框架提供了baseline的训练脚本,并开放leaderboard排行榜,目前提供的系统包括Athena、Espnet、Kaldi、Pika、WeNet,后续还将继续更新与完善。


1.png


06

使用申请入口


GigaSpeech数据集已开放,欢迎大家使用。


申请入口:

https://forms.gle/UuGQAPyscGRrUMLq6


更多细节,请访问github链接:

https://github.com/SpeechColab/GigaSpeech


       预印版论文地址(已被InterSpeech 2021接收)

       https://arxiv.org/abs/2106.06909


海天瑞声一直专注于为AI算法训练提供数据产品及解决方案,近20年坚持不懈的研发投入以及在语言学领域的不断深耕,实现了“以技术驱动数据生产”,加速客户的AI产品在全球商业化落地进程。此外,海天瑞声还积极投身于前沿技术的学术探索活动中,坚持为学术研究提供各种形式的数据支持,为人工智能在全球发展贡献自己的力量!


电话
留资
会员