探索音频数据建模的3种方法
本研究的目标是尝试使用 GTZAN 数据集解决流派分类任务的不同建模方法。为了确保模型的公平比较,所有实验都使用了相同的训练-测试分割。

也许没有其他类型的数据像音频数据一样,拥有如此多样化的建模方法。在本文中,我们将探讨对音频文件进行分类的各种方法,包括经典的机器学习、计算机视觉和变换器模型。
本研究的目标是尝试使用 GTZAN 数据集解决流派分类任务的不同建模方法。GTZAN 数据集通常被称为声音的 MNIST,包含 10 个流派的 1,000 个音频文件。为了确保模型的公平比较,所有实验都使用了相同的训练-测试分割。然而,本文的目的并不是选择单一的最佳音频数据建模方法,而是探索各种可能性。

本文延续了一系列关于音乐信息检索的材料:
我将跳过前面部分讨论的基础知识,因此请根据需要参考它们。查看 GitHub 中的笔记本以获取代码。
1、从音频到表格:经典机器学习方法
第一种方法遵循非结构化数据的经典机器学习逻辑:通过特征工程将其转换为表格格式。

音乐信息检索:特征工程涵盖了许多可能的特征,如梅尔频率倒谱系数、时间和频域特征。
1.1 准备和结果
对于这项任务,我计算了这些特征的平均值和方差:
- 节奏,
- 幅度包络,
- 均方根能量,
- 过零率,
- 频谱质心、带宽和滚降,
- 谐波和打击乐,
- 色度图,
- 20 个梅尔频率倒谱系数 (MFCC)。
这为 10 个流派的 1,000 个音频文件提供了 57 个特征。

数据被分成训练集 (70%) 和测试集 (30%),并使用标准缩放器进行缩放。我将一些模型从 KNN 和 Logistic 回归训练为集成模型:

结果:无需大量调整,LightGBM 的表现就优于其他经典模型,在测试集上的准确率达到 0.79。还不错!
1.2 人工神经网络
可以使用相同的特征工程过程来训练人工神经网络 (ANN)。

结果:我的四级神经网络在相同测试集上的准确率达到 0.77。
2、从音频到图像:计算机视觉方法

一个有趣的想法是将音频转换为图像并应用计算机视觉技术。这涉及为每个音频文件生成梅尔频谱图,该频谱图表示音频信号随时间的频率内容。
与传统图像处理不同,旋转、缩放或翻转等数据增强技术不适用于梅尔频谱图,因为这些失真会使频谱图变得毫无意义。
2.1 实验和结果

我尝试了:
- 卷积神经网络 (CNN),
- 使用 EfficientNet 的迁移学习方法(灵感来自这篇 Kaggle 文章,声称准确率为 0.78)。
结果:使用 EfficientNet 的迁移学习在同一测试集上实现了 0.74 的准确率。
3、从音频到嵌入:Transformer 方法

Transformer 席卷了 2024 年,音频数据也不例外。对于这个实验,我使用了 DistilHuBERT 和 WasuratS/distilhubert-finetuned-gtzan 中的参数,声称在 GTZAN 上的准确率为 0.9。
3.1 实验和结果

此模型的数据准备非常简单,涉及使用预先训练的 FeatureExtractor 执行以下步骤:
- 规范化
- 截断/填充到固定长度(由于资源限制,本例中为 3 秒)。
- 返回其他特定于模型的功能,例如注意力掩码。
结果:尽管数据长度缩短,但 Transformer 模型在 15 个时期后仍实现了 0.70 的准确率。
4、结束语
本研究的目标不是确定音频数据的最佳模型,而是探索一系列可能性。在我的实验中,明显的赢家是 LightGBM,尽管通过适当的超参数调整,这可能会改变。
对于音频数据建模,没有一刀切的解决方案。相反,应该根据任务考虑各种方法——从特征工程到计算机视觉和 Transformer 模型。仍然建议探索不同的选项以找到最适合你的特定应用的模型。
原文链接:Music Information Retrieval: Modeling Audio Data
汇智网翻译整理,转载请标明出处