aiOla 放弃超快“多头”语音识别模型,击败 OpenAI Whisper 

今天,以色列AI初创公司aiOla宣布推出一种新的开源语音识别模型,其速度比OpenAI著名的Whisper快50%。

该模型的正式名称为 Whisper-Medusa,以 Whisper 为基础,但使用了一种新颖的“多头注意力”架构,可以同时预测比 OpenAI 提供的多得多的 token。其代码和权重已在Hugging Face上发布,符合 MIT 许可,可用于研究和商业用途。

aiOla 研究副总裁 Gill Hetz 告诉 VentureBeat:“通过以开源形式发布我们的解决方案,我们鼓励社区内的进一步创新和协作,随着开发人员和研究人员为我们的工作做出贡献并在此基础上进一步发展,这可以带来更大的速度提升和改进。”

这项工作可能为复合人工智能系统铺平道路,该系统可以几乎实时地理解和回答用户的任何询问。

是什么让 aiOla Whisper-Medusa 与众不同?

即使在基础模型可以生成多样化内容的时代,高级语音识别仍然非常重要。该技术不仅推动了医疗保健和金融科技等行业的关键功能(帮助完成转录等任务),而且还为功能强大的多模式人工智能系统提供支持。去年,该领域的领导者OpenAI 利用自己的 Whisper 模型踏上了这一征程。它将用户音频转换为文本,允许 LLM 处理查询并提供答案,然后将答案再次转换回语音。

由于能够几乎实时地处理不同语言和口音的复杂语音,Whisper 已成为语音识别领域的黄金标准,每月下载量超过500 万次,为数以万计的应用程序提供支持。

但是,如果一个模型能够比 Whisper 更快地识别和转录语音,情况会怎样?好吧,这就是 aiOla 声称通过新的 Whisper-Medusa 产品所实现的——为更无缝的语音到文本转换铺平了道路。

为了开发 Whisper-Medusa,该公司修改了 Whisper 的架构,添加了多头注意力机制 — 众所周知,该机制允许模型通过并行使用多个“注意力头”来共同关注来自不同位置的不同表示子空间的信息。架构变化使模型每次可以预测 10 个 token,而不是标准的每次预测一个 token,最终使语音预测速度和生成运行时间增加了 50%。

aiOla Whisper-Medusa 与 OpenAI Whisper

更重要的是,由于 Whisper-Medusa 的主干是建立在 Whisper 之上的,因此速度的提高不会以牺牲性能为代价。这款新产品的文本转录准确度与原始 Whisper 相同。Hetz 指出,他们是业内首批成功将该方法应用于 ASR 模型并将其向公众开放以供进一步研究和开发的公司。

“与自动语音识别系统相比,提高 LLM 的速度和延迟要容易得多。由于处理连续音频信号和处理噪音或口音的复杂性,编码器和解码器架构带来了独特的挑战。我们通过采用新颖的多头注意力方法解决了这些挑战,从而产生了一个预测速度几乎翻倍的模型,同时保持了 Whisper 的高准确度,”他说。

语音识别模型是如何训练的?

在训练 Whisper-Medusa 时,aiOla 采用了一种称为弱监督的机器学习方法。作为其中的一部分,它冻结了 Whisper 的主要组件,并使用模型生成的音频转录作为标签来训练额外的标记预测模块。 

Hetz 告诉 VentureBeat,他们从 10 头模型开始,但很快将扩展到更大的 20 头版本,该模型能够一次预测 20 个标记,从而实现更快的识别和转录,而不会损失准确性。 

“我们选择训练我们的模型,使其每次预测 10 个 token,在保持准确性的同时实现了大幅加速,但同样的方法也可用于预测每一步中的任意数量的 token。由于 Whisper 模型的解码器一次性处理整个语音音频,而不是逐段处理,因此我们的方法减少了多次处理数据的需要,并有效地加快了速度,”研究副总裁解释道。

当被问及是否有公司可以提前使用 Whisper-Medusa 时,Hetz 没有多说什么。不过,他指出,他们已经在实际企业数据用例上测试了新模型,以确保其在实际场景中准确执行。最终,他相信识别和转录速度的提高将缩短语音应用程序的周转时间,并为提供实时响应铺平道路。想象一下 Alexa 识别您的命令并在几秒钟内返回预期答案。

“任何涉及实时语音转文本功能的解决方案(如对话式语音应用中的解决方案)都将为行业带来巨大好处。个人和公司可以提高生产力、降低运营成本并更及时地交付内容,”Hetz 补充道。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注