Tagged

GOOGLE-COLAB

A collection of 24 posts

Gemini目标检测实测
MODEL-ZOO

Gemini目标检测实测

我们熟悉 Gemini 令人印象深刻的多模态能力,尤其是在推理图像数据时——无论是字幕、OCR、分类还是识别图像中的特定内容。 与其开放模型对手 PaliGemma 不同,Gemini 模型并未专门针对对象检测任务进行训练。这一事实促使我进行了一些实验并撰写了这篇博客。 注意:在这里,当我们谈论对象检测时,我们的意思是通过绘制边界框来识别和定位对象,就像 YOLO、DETR、EfficientDet、Florence-2 和 PaliGemma 等模型一样。所以,事不宜迟,让我们来看看 Gemini 是否可以执行对象检测和定位。如果是,在多大程度上? 1、代码实现我们只需要 Gemini API 密钥—不需要其他任何东西。我假设你已经熟悉 Gemini API。如果还不熟悉,请查看此博客以了解如何在 Google AI Studio 上创建 Gemini API 密钥。