Roboflow多模态数据标注指南

TOOL Dec 4, 2024

现在可以使用 Roboflow Annotate 来标记和审查多模态视觉模型的数据。然后,你可以将这些数据导出为几种流行的格式,包括 GPT-4o 所需的格式,以用于微调大型多模态模型。

微调多模态模型可以帮助你提高模型准确性,尤其是在基础模型可能难以应对的特定领域。要微调多模态模型,拥有高质量的数据集对于帮助你的模型从标注中得出模式至关重要。

在本指南中,我们将介绍如何使用 Roboflow 中的多模态数据集功能。

事不宜迟,让我们开始吧!

让我们介绍如何在 Roboflow 中创建多模态数据集。然后可以导出数据集,以便使用 GPT-4o、Florence-2 和 Roboflow 支持的其他多模态模型进行微调。

1、创建项目

要开始,请创建一个免费的 Roboflow 帐户。在 Roboflow 仪表板中,单击“创建新项目”以创建新项目。

将出现一个页面,你可以从中创建数据集:

为你的项目设置名称。当被要求选择项目类型时,选择“图像 + 文本”。这指的是训练多模态模型中常用的图像文本对。

然后,单击“创建项目”。

2、配置数据集前缀

接下来,你需要设置“前缀”。前缀用于标注你的图像。

前缀可以是:

  • 标识符(如 <PREFIX>),用于提示 VLM(如 Florence-2),或者;
  • 问题(如“这张图片中有什么?”),非常适合与 GPT-4o 等通用 VQA 模型一起使用。

例如,对于 Florence-2 微调,所选前缀将对应于你给模型的前缀提示。对于 Florence-2,前缀应采用 <PREFIX>  格式,如 <TOTAL>

对于 GPT-4o,你的前缀可能是:“这张收据的总额是多少?”

对于本指南,我们将创建一个具有单个前缀 <TOTLA>的项目:

我们可以为收据中想要识别的不同功能添加多个前缀,例如总额、小计和税金。对于本指南,我们将坚持使用一个前缀。

然后,单击“保存”。

3、上传多模态数据

现在可以上传图像以在 Roboflow 中标注或查看。

单击项目左侧边栏中的“上传数据”。

如果你拥有任何兼容的多模态格式(即 GPT-4o JSONL)的数据,可以将图像和标注都上传到 Roboflow。标注将被自动识别。否则,你可以上传原始图像以在 Roboflow 中标注。

拖放你的图像以将其上传到 Roboflow:

然后你的图像将在浏览器中进行处理。

单击“保存并继续”按钮保存并完成数据上传。

上传数据所需的时间取决于你上传的图像数量和数据集的大小。

4、标注多模态数据

准备好前缀并导入数据后,你可以开始标注数据。

要标注数据,请单击左侧边栏中的“标注”,然后选择要开始标注的图像。

将出现 Roboflow Annotate 界面,你可以从中标注图像。 将出现一个窗口,其中包含你在上一步中在前缀页面上配置的所有问题。

以下是我们的收据 VQA 项目的标注界面:

要进行标注,请为每个前缀编写一个文本描述。 你的描述将自动保存。

在上面的例子中,我们的前缀是 <RECEIPT>,我们的“后缀”(答案)是:

{"total": "56.58"}

当你标注完图像后,按页面顶部的左箭头或右箭头可移至下一图像。你也可以使用箭头键在图像之间移动(只要你的键盘未聚焦于文本输入)。

5、生成数据集版本

接下来,我们将创建一个数据集版本。版本是你的数据的快照,该快照会随着时间而冻结。

单击 Roboflow 项目左侧边栏中的“生成”。将出现一个页面,你可以从中创建数据集版本。

你可以将预处理和增强步骤应用于数据集版本中的图像。

对于你的第一个模型版本,我们建议应用默认的预处理步骤,而不应用增强步骤。在未来的训练作业中,你可以尝试适合你项目的不同增强。

单击页面底部的“创建”以创建你的数据集版本。

然后将生成你的数据集版本。此过程可能需要几分钟,具体取决于数据集中的图像数量。

6、导出数据或训练模型

准备好数据集版本后,你可以将其导出以用于微调多模态基础模型(例如 GPT-4o)。

你还可以使用 Roboflow 在云端训练 Florence-2 模型。

要导出数据,请在数据集版本页面上单击“导出数据集”:

将出现一个窗口,你可以从中选择导出数据的格式。选择你需要的格式。

训练模型时,单击“使用 Roboflow 训练”按钮。将出现一个窗口,您可以从中选择要训练的模型:


原文链接:Launch: Label Multimodal Datasets with Roboflow

汇智网翻译整理,转载请标明出处

Tags