Hertz-dev实时对话生成模型

Hertz-dev是一个革命性的开源音频模型,这个配备 85 亿个参数的 AI 模型已在 2000 万小时的高质量音频数据上进行训练,成功实现了人们梦寐以求的全双工实时对话。

Hertz-dev的源代码可以从Github下载, 预训练模型可以从官网下载。

1、Hertz-dev简介

在过去的几个月里,Standard Intelligence 团队一直在研究可扩展的跨模态学习。我们很高兴地宣布,我们正在开源全双工、纯音频基础模型 hertz-dev 的当前检查点,该模型共有 85 亿个参数和三个主要部分:

Hertz-codec

Hertz-codec 是一个卷积音频 VAE,采用单声道、16kHz 语音,并使用 KL 正则化的 1kbps 比特率编码 8Hz 隐表示。编解码器隐表示没有残差,每 125ms 帧只有一个 32 维隐表示。

在主观评估中,该编解码器在 6kbps 时优于 Soundstream 和 Encodec,在 8kbps 时与 DAC 相当,同时每秒的标记数低于任何流行的标记器,这对于语言建模至关重要。

Hertz-codec 有 500 万个编码器参数和 9500 万个解码器参数。

Hertz-lm

Hertz-lm是一个 66 亿参数、32 层解码器专用转换器,上下文为 2048 个输入标记(约 4.5 分钟)。Hertz-lm 接收完整的隐历史作为输入,但预测一系列量化表示,这些表示是赫兹编解码器标记的 15 位压缩版本。它就像一个典型的语言模型,在下一个标记预测损失上进行训练。

我们发布了两个版本的单通道堆栈,均在 2000 万小时的音频数据上进行训练。主要检查点的权重由在 2T 文本标记上训练的预训练语言模型的权重初始化。第二个是纯粹在音频上训练的消融,没有文本预训练。

虽然从文本训练开始的模型在主观评价中具有更高的连贯性,但两者都表现出相似的语言理解能力,我们很高兴地了解到,仅音频就为模型学习语言提供了足够的基础。

双通道版本的 hertz-lm 预测两个量化隐向量,它们用作两个独立 hertz-vae 和 hertz-codec 实例的输入。

Hertz-vae

Hertz-vae是一个 18 亿参数、8 层解码器专用transformer网络。前四层接收潜伏历史作为输入。在训练期间,第 5 层接收下一个 15 位量化隐表示,即基准事实。在推理期间,我们直接采样 hertz-lm 的下一个标记预测并将其作为量化表示提供给 hertz-vae。

我们在训练期间通过进行自回归生成来评估 hertz-vae,同时保持地面实况量化潜伏静态,并测量重新合成的质量:模型能够多好地从量化潜伏、提示和生成历史重建原始语音。从转录评估来看,hertz-vae 几乎完美地从每秒 120 比特的信息中重建语音语义。

Hertz-dev 是同类中第一个公开发布的音频基础模型。基础模型可以准确预测它们所训练的数据的分布,而那些经过大量 RL 调优以压缩其生成分布的模型则不同。这使得基础模型成为微调大量不同任务的最佳起点。

我们目前正在训练更大、更高级的 Hertz 版本,它将使用缩放的基础模型配方和 RL 调优来大幅提高模型的原始功能和最终一致性。Hertz-dev 是实时语音交互未来的一瞥,也是世界上最容易供研究人员微调和构建的对话音频模型。

2、Hertz-dev生成的样本

为了展示 hertz-dev 的音频建模功能,我们采样了:a) 单通道生成;b) 双通道生成; c)模型与人类之间的实时对话:

3、实时推理

以下是用于推理的模型的简单 1 通道前向传递:

  • Hertz-codec 将音频提示从 16 kHz 转换为具有 dim 32 和序列长度 8 个标记每秒的隐表示。此隐表示几乎可以完美地重建为原始语音;它具有与 Opus 等领先音频编解码器类似的压缩量。
  • Hertz-lm 将这些表示作为输入并输出下一个标记的单个量化表示。此量化表示只有 15 位信息,并传递到 hertz-vae 的第 5 层。
  • Hertz-vae 输出高斯混合的参数,我们从中采样以获得 32 维潜在表示;然后我们使用 hertz-codec 将其上采样回音频。

在实时推理期间,模型需要以每秒 8 次前向传递的速度运行,进行恒定自回归生成。它需要两个单独的通道作为输入,但在对话中只返回一个。在每个步骤中,它都会接收人类的音频并将其标记为隐数据,将其与模型最新生成的潜在数据相结合,并将两者输入到 hertz-vae 和 hertz-lm 中。

这使得延迟(以用户话语和模型响应之间的平均时间测量)达到 62.5 毫秒(平均时间 b任何给定话语与一个标记结束之间的延迟)+ 前向传递时间 + 往返互联网延迟。

通过在靠近最终用户的服务器上运行,我们实现了 120 毫秒的实际平均延迟。这比任何其他音频模型都低 2 倍——这对于能够以类似人类的方式与你互动的模型来说是必要的,而不是感觉像延迟、断断续续的电话。


原文链接:Introducing hertz-dev, the first open-source base model for conversational audio generation

汇智网翻译整理,转载请标明出处