探索音频数据建模的3种方法

本研究的目标是尝试使用 GTZAN 数据集解决流派分类任务的不同建模方法。为了确保模型的公平比较,所有实验都使用了相同的训练-测试分割。

探索音频数据建模的3种方法

也许没有其他类型的数据像音频数据一样,拥有如此多样化的建模方法。在本文中,我们将探讨对音频文件进行分类的各种方法,包括经典的机器学习、计算机视觉和变换器模型。

本研究的目标是尝试使用 GTZAN 数据集解决流派分类任务的不同建模方法。GTZAN 数据集通常被称为声音的 MNIST,包含 10 个流派的 1,000 个音频文件。为了确保模型的公平比较,所有实验都使用了相同的训练-测试分割。然而,本文的目的并不是选择单一的最佳音频数据建模方法,而是探索各种可能性。

音频数据的建模方法

本文延续了一系列关于音乐信息检索的材料:

我将跳过前面部分讨论的基础知识,因此请根据需要参考它们。查看 GitHub 中的笔记本以获取代码。

1、从音频到表格:经典机器学习方法

第一种方法遵循非结构化数据的经典机器学习逻辑:通过特征工程将其转换为表格格式。

建模音频数据的经典 ML 方法

音乐信息检索:特征工程涵盖了许多可能的特征,如梅尔频率倒谱系数、时间和频域特征。

1.1 准备和结果

对于这项任务,我计算了这些特征的平均值和方差:

  • 节奏,
  • 幅度包络,
  • 均方根能量,
  • 过零率,
  • 频谱质心、带宽和滚降,
  • 谐波和打击乐,
  • 色度图,
  • 20 个梅尔频率倒谱系数 (MFCC)。

这为 10 个流派的 1,000 个音频文件提供了 57 个特征。

数据集快照

数据被分成训练集 (70%) 和测试集 (30%),并使用标准缩放器进行缩放。我将一些模型从 KNN 和 Logistic 回归训练为集成模型:

经典 ML 方法的比较

结果:无需大量调整,LightGBM 的表现就优于其他经典模型,在测试集上的准确率达到 0.79。还不错!

1.2 人工神经网络

可以使用相同的特征工程过程来训练人工神经网络 (ANN)。

用于分类的神经网络

结果:我的四级神经网络在相同测试集上的准确率达到 0.77。

2、从音频到图像:计算机视觉方法

音频数据的计算机视觉方法

一个有趣的想法是将音频转换为图像并应用计算机视觉技术。这涉及为每个音频文件生成梅尔频谱图,该频谱图表示音频信号随时间的频率内容。

与传统图像处理不同,旋转、缩放或翻转等数据增强技术不适用于梅尔频谱图,因为这些失真会使频谱图变得毫无意义。

2.1 实验和结果

迁移学习模型的架构

我尝试了:

  • 卷积神经网络 (CNN),
  • 使用 EfficientNet 的迁移学习方法(灵感来自这篇 Kaggle 文章,声称准确率为 0.78)。

结果:使用 EfficientNet 的迁移学习在同一测试集上实现了 0.74 的准确率。

3、从音频到嵌入:Transformer 方法

Transformer 方法处理音频数据

Transformer 席卷了 2024 年,音频数据也不例外。对于这个实验,我使用了 DistilHuBERT 和 WasuratS/distilhubert-finetuned-gtzan 中的参数,声称在 GTZAN 上的准确率为 0.9。

3.1 实验和结果

DistilHuBERT 微调方案

此模型的数据准备非常简单,涉及使用预先训练的 FeatureExtractor 执行以下步骤:

  • 规范化
  • 截断/填充到固定长度(由于资源限制,本例中为 3 秒)。
  • 返回其他特定于模型的功能,例如注意力掩码。

结果:尽管数据长度缩短,但 Transformer 模型在 15 个时期后仍实现了 0.70 的准确率。

4、结束语

本研究的目标不是确定音频数据的最佳模型,而是探索一系列可能性。在我的实验中,明显的赢家是 LightGBM,尽管通过适当的超参数调整,这可能会改变。

对于音频数据建模,没有一刀切的解决方案。相反,应该根据任务考虑各种方法——从特征工程到计算机视觉和 Transformer 模型。仍然建议探索不同的选项以找到最适合你的特定应用的模型。


原文链接:Music Information Retrieval: Modeling Audio Data

汇智网翻译整理,转载请标明出处