Kaldi拜拜!PyTorch语音工具包SpeechBrain要来了,支持多种语音任务,实现最强水准
郭一璞 来源: 量子位能用来做语音识别、说话人识别、语音分离,多麦克风信号处理、自我监督和无监督学习、语音增强等
你厌倦语音工具包Kaldi了么?有没有觉得它不好用?
加拿大也有一群人这么认为。
现在,图灵奖得主、AI三巨头之一Yoshua Bengio领衔的研究机构宣布,要联合英伟达、杜比、三星、PyTorch官方、IBM AI研究院等公司和机构,做一个新的开源一体化语音工具包: SpeechBrain 。
这个工具包将会非常全能,能用来做语音识别(end-to-end & HMM-DNN)、说话人识别、语音分离,多麦克风信号处理(beamforming)、自我监督和无监督学习、语音增强等任务。
SpeechBrain会建立在上,并且和PyTorch官方合作,所有功能都在PyTorch中实现,当然,用的是Python,不是C++。
并且,SpeechBrain将会设计成一个独立的框架,会有Kaldi这类常用的工具包的接口。
其他工具包不完美
准备做这样一个工具包的初衷,是因为别家的语音工具包都不好用。
蒙特利尔大学博士后Mirco Ravanelli在SpeechBrain的官方视频里,把竞对统统吐槽了一遍:
Kaldi,虽然非常高效,表现也好,但是忒难用,不灵活,总得改C++代码;
PyKaldi,虽然用上了机器学习界宠儿Python,但本质上跟Kaldi还是一回事嘛;
PyTorch-Kaldi,虽然灵活了一些,声学模型也易于修改,但是,跟前面一样,它也还是Kaldi呀;
ESPNET,虽然是基于Python和PyTorch的,但是只支持端到端语音识别,太不全面了;
因此,Mirco Ravanelli说,将会把SpeechBrain设计成一个易用、用户友好、端到端的工具包,支持多任务系统,帮助大家提升研究和开发的效率,会是单一的工具包,而不是一堆各种各样的工具,并且实现state-of-the-art的语音技术水平。
另外,他们还会建设SpeechBrain的用户社区,让大家一起来分享模型技术和经验。
业界热烈欢迎
有人觉得,Kaldi那么难用,总算有人要出新的取代它了:
甚至Kaldi的铁杆粉丝也觉得需要更灵活的工具来代替它:
还有人称赞,这就是语音界的ImageNet时刻:
总之,如果SpeechBrain真的如预期一样诞生,那么Kaldi可能真的要吃灰了。
传送门
最后,SpeechBrain项目也在招实习生,如果有蒙特利尔的读者可以围观一下。
另外,如果你要去参加下周的interspeech,可以听到更多消息。
项目官网:
版权所有,未经授权不得以任何形式转载及使用,违者必究。