Hertz-dev实时对话生成模型

Hertz-dev是一个革命性的开源音频模型，这个配备 85 亿个参数的 AI 模型已在 2000 万小时的高质量音频数据上进行训练，成功实现了人们梦寐以求的全双工实时对话。

Hertz-dev的源代码可以从Github下载，预训练模型可以从官网下载。

1、Hertz-dev简介

在过去的几个月里，Standard Intelligence 团队一直在研究可扩展的跨模态学习。我们很高兴地宣布，我们正在开源全双工、纯音频基础模型 hertz-dev 的当前检查点，该模型共有 85 亿个参数和三个主要部分：

Hertz-codec

Hertz-codec 是一个卷积音频 VAE，采用单声道、16kHz 语音，并使用 KL 正则化的 1kbps 比特率编码 8Hz 隐表示。编解码器隐表示没有残差，每 125ms 帧只有一个 32 维隐表示。

在主观评估中，该编解码器在 6kbps 时优于 Soundstream 和 Encodec，在 8kbps 时与 DAC 相当，同时每秒的标记数低于任何流行的标记器，这对于语言建模至关重要。

Hertz-codec 有 500 万个编码器参数和 9500 万个解码器参数。

Hertz-lm

Hertz-lm是一个 66 亿参数、32 层解码器专用转换器，上下文为 2048 个输入标记（约 4.5 分钟）。Hertz-lm 接收完整的隐历史作为输入，但预测一系列量化表示，这些表示是赫兹编解码器标记的 15 位压缩版本。它就像一个典型的语言模型，在下一个标记预测损失上进行训练。

我们发布了两个版本的单通道堆栈，均在 2000 万小时的音频数据上进行训练。主要检查点的权重由在 2T 文本标记上训练的预训练语言模型的权重初始化。第二个是纯粹在音频上训练的消融，没有文本预训练。

虽然从文本训练开始的模型在主观评价中具有更高的连贯性，但两者都表现出相似的语言理解能力，我们很高兴地了解到，仅音频就为模型学习语言提供了足够的基础。

双通道版本的 hertz-lm 预测两个量化隐向量，它们用作两个独立 hertz-vae 和 hertz-codec 实例的输入。

Hertz-vae

Hertz-vae是一个 18 亿参数、8 层解码器专用transformer网络。前四层接收潜伏历史作为输入。在训练期间，第 5 层接收下一个 15 位量化隐表示，即基准事实。在推理期间，我们直接采样 hertz-lm 的下一个标记预测并将其作为量化表示提供给 hertz-vae。

我们在训练期间通过进行自回归生成来评估 hertz-vae，同时保持地面实况量化潜伏静态，并测量重新合成的质量：模型能够多好地从量化潜伏、提示和生成历史重建原始语音。从转录评估来看，hertz-vae 几乎完美地从每秒 120 比特的信息中重建语音语义。

Hertz-dev 是同类中第一个公开发布的音频基础模型。基础模型可以准确预测它们所训练的数据的分布，而那些经过大量 RL 调优以压缩其生成分布的模型则不同。这使得基础模型成为微调大量不同任务的最佳起点。

我们目前正在训练更大、更高级的 Hertz 版本，它将使用缩放的基础模型配方和 RL 调优来大幅提高模型的原始功能和最终一致性。Hertz-dev 是实时语音交互未来的一瞥，也是世界上最容易供研究人员微调和构建的对话音频模型。

为了展示 hertz-dev 的音频建模功能，我们采样了：a) 单通道生成；b) 双通道生成； c)模型与人类之间的实时对话：

以下是用于推理的模型的简单 1 通道前向传递：

Hertz-codec 将音频提示从 16 kHz 转换为具有 dim 32 和序列长度 8 个标记每秒的隐表示。此隐表示几乎可以完美地重建为原始语音；它具有与 Opus 等领先音频编解码器类似的压缩量。
Hertz-lm 将这些表示作为输入并输出下一个标记的单个量化表示。此量化表示只有 15 位信息，并传递到 hertz-vae 的第 5 层。
Hertz-vae 输出高斯混合的参数，我们从中采样以获得 32 维潜在表示；然后我们使用 hertz-codec 将其上采样回音频。

在实时推理期间，模型需要以每秒 8 次前向传递的速度运行，进行恒定自回归生成。它需要两个单独的通道作为输入，但在对话中只返回一个。在每个步骤中，它都会接收人类的音频并将其标记为隐数据，将其与模型最新生成的潜在数据相结合，并将两者输入到 hertz-vae 和 hertz-lm 中。

这使得延迟（以用户话语和模型响应之间的平均时间测量）达到 62.5 毫秒（平均时间 b任何给定话语与一个标记结束之间的延迟）+ 前向传递时间 + 往返互联网延迟。

通过在靠近最终用户的服务器上运行，我们实现了 120 毫秒的实际平均延迟。这比任何其他音频模型都低 2 倍——这对于能够以类似人类的方式与你互动的模型来说是必要的，而不是感觉像延迟、断断续续的电话。

汇智网翻译整理，转载请标明出处