MODEL-ZOO

OmniVision-968M 世界最小VLM

Omnivision 是一个紧凑的、不到1B (968M)参数的多模态模型，用于处理视觉和文本输入，针对边缘设备进行了优化。

Nov 15, 2024 • 4 min read

Omnivision 是一个紧凑的、不到1B (968M)参数的多模态模型，用于处理视觉和文本输入，针对边缘设备进行了优化。它在 LLaVA 架构的基础上进行了改进，具有以下特点：

Omnivision演示如下：

可以在HuggingFace Space在线尝试OmniVision：NexaAIDev/omnivlm-dpo-demo

1、本地运行 OmniVision

首先安装 Nexa SDK，然后在你的终端上运行此命令：

nexa run omnivision

或者使用 Streamlit 本地 UI 运行它：

nexa run omnivision -st

注意：OmniVision FP16 版本需要 988 MB RAM 和 948 MB 存储空间。

OmniVision 的架构由三个关键组件组成：

基础语言模型：Qwen2.5-0.5B-Instruct 用作处理文本输入的基础模型。
视觉编码器：SigLIP-400M 以 384 分辨率运行，使用 14×14 块大小来生成图像嵌入。
投影层：多层感知器 (MLP) 将视觉编码器的嵌入与语言模型的标记空间对齐。与 vanilla Llava 架构相比，我们设计了一个投影仪，可将图像标记减少 9 倍。

视觉编码器首先将输入图像转换为嵌入，然后由投影层处理以匹配 Qwen2.5-0.5B-Instruct 的标记空间，从而实现端到端的视觉语言理解。

我们通过三阶段训练流程开发了 OmniVision：

初始阶段专注于使用图像-字幕对建立基本的视觉语言对齐，在此期间仅解冻投影层参数以学习这些基本关系。

我们使用基于图像的问答数据集增强模型的上下文理解。此阶段涉及对包含图像的结构化聊天历史记录进行训练，以便模型生成更符合上下文的响应。

最后阶段通过首先使用基础模型生成对图像的响应来实现 DPO。然后，教师模型生成最少编辑的更正，同时保持与原始响应的高度语义相似性，特别关注准确性关键元素。这些原始和更正的输出形成选择-拒绝对。微调旨在在不改变模型核心响应特征的情况下实现必要的模型输出改进。

下面我们展示了一个图表来展示 OmniVision 与 nanoLLAVA 的表现：

我们还对基准数据集进行了一系列实验，包括 MM-VET、ChartQA、MMMU、ScienceQA、POPE，以评估 Omnivision 的性能。

在所有任务中，OmniVision 的表现都优于 nanoLLAVA（之前世界上最小的视觉语言模型）。

Omnivision 处于早期开发阶段，我们正在努力解决当前的限制：

从长远来看，我们的目标是将 OmniVision 开发为针对边缘 AI 多模式应用的完全优化、可投入生产的解决方案。

汇智网翻译整理，转载请标明出处