APPLICATION

探索音频数据建模的3种方法

本研究的目标是尝试使用 GTZAN 数据集解决流派分类任务的不同建模方法。为了确保模型的公平比较，所有实验都使用了相同的训练-测试分割。

admin

Dec 13, 2024 • 6 min read

也许没有其他类型的数据像音频数据一样，拥有如此多样化的建模方法。在本文中，我们将探讨对音频文件进行分类的各种方法，包括经典的机器学习、计算机视觉和变换器模型。

本研究的目标是尝试使用 GTZAN 数据集解决流派分类任务的不同建模方法。GTZAN 数据集通常被称为声音的 MNIST，包含 10 个流派的 1,000 个音频文件。为了确保模型的公平比较，所有实验都使用了相同的训练-测试分割。然而，本文的目的并不是选择单一的最佳音频数据建模方法，而是探索各种可能性。

音频数据的建模方法

本文延续了一系列关于音乐信息检索的材料：

第一部分讨论了处理音频数据的具体细节。
第二部分重点介绍特征工程。

我将跳过前面部分讨论的基础知识，因此请根据需要参考它们。查看 GitHub 中的笔记本以获取代码。

1、从音频到表格：经典机器学习方法

第一种方法遵循非结构化数据的经典机器学习逻辑：通过特征工程将其转换为表格格式。

建模音频数据的经典 ML 方法

音乐信息检索：特征工程涵盖了许多可能的特征，如梅尔频率倒谱系数、时间和频域特征。

1.1 准备和结果

对于这项任务，我计算了这些特征的平均值和方差：

节奏，
幅度包络，
均方根能量，
过零率，
频谱质心、带宽和滚降，
谐波和打击乐，
色度图，
20 个梅尔频率倒谱系数 (MFCC)。

这为 10 个流派的 1,000 个音频文件提供了 57 个特征。

数据集快照

数据被分成训练集 (70%) 和测试集 (30%)，并使用标准缩放器进行缩放。我将一些模型从 KNN 和 Logistic 回归训练为集成模型：

经典 ML 方法的比较

结果：无需大量调整，LightGBM 的表现就优于其他经典模型，在测试集上的准确率达到 0.79。还不错！

1.2 人工神经网络

可以使用相同的特征工程过程来训练人工神经网络 (ANN)。

用于分类的神经网络

结果：我的四级神经网络在相同测试集上的准确率达到 0.77。

2、从音频到图像：计算机视觉方法

音频数据的计算机视觉方法

一个有趣的想法是将音频转换为图像并应用计算机视觉技术。这涉及为每个音频文件生成梅尔频谱图，该频谱图表示音频信号随时间的频率内容。

与传统图像处理不同，旋转、缩放或翻转等数据增强技术不适用于梅尔频谱图，因为这些失真会使频谱图变得毫无意义。

2.1 实验和结果

迁移学习模型的架构

我尝试了：

卷积神经网络 (CNN)，
使用 EfficientNet 的迁移学习方法（灵感来自这篇 Kaggle 文章，声称准确率为 0.78）。

结果：使用 EfficientNet 的迁移学习在同一测试集上实现了 0.74 的准确率。

3、从音频到嵌入：Transformer 方法

Transformer 方法处理音频数据

Transformer 席卷了 2024 年，音频数据也不例外。对于这个实验，我使用了 DistilHuBERT 和 WasuratS/distilhubert-finetuned-gtzan 中的参数，声称在 GTZAN 上的准确率为 0.9。

3.1 实验和结果

DistilHuBERT 微调方案

此模型的数据准备非常简单，涉及使用预先训练的 FeatureExtractor 执行以下步骤：

规范化
截断/填充到固定长度（由于资源限制，本例中为 3 秒）。
返回其他特定于模型的功能，例如注意力掩码。

结果：尽管数据长度缩短，但 Transformer 模型在 15 个时期后仍实现了 0.70 的准确率。

4、结束语

本研究的目标不是确定音频数据的最佳模型，而是探索一系列可能性。在我的实验中，明显的赢家是 LightGBM，尽管通过适当的超参数调整，这可能会改变。

对于音频数据建模，没有一刀切的解决方案。相反，应该根据任务考虑各种方法——从特征工程到计算机视觉和 Transformer 模型。仍然建议探索不同的选项以找到最适合你的特定应用的模型。

原文链接：Music Information Retrieval: Modeling Audio Data

汇智网翻译整理，转载请标明出处