Software 2.0

用AI分析家庭视频
APPLICATION

用AI分析家庭视频

我想给家庭视频添加标签,以便更方便地搜索。当时没有一个很好的模型可以从视频中生成描述性文本,所以我搭建了一个LLM管道,将图像作为输入来生成视频的摘要。我希望使用完全本地化的解决方案,这样就不需要将个人视频发送到云提供商,并且因为视频通常比较大,而且不是总能获得高带宽互联网连接。 这就是我最终搭建的内容——https://github.com/byjlw/video-analyzer/ 它的工作原理是使用whisper转录音频,使用OpenCV选择有趣的/不同的帧,然后使用LLM描述每个帧中的信息。最后,它将所有帧的描述输入以总结整个视频。 有关设计和工作原理的更多详细信息,请参阅存储库中的DESIGN.md 1、要求要使用它,你需要: Python 3.10–3.12FFMPEG - 安装说明在底部如果你希望完全在本地运行,还需要安装Ollama。 如果你的电脑不够强大,无法在本地运行LLM,你可以使用OpenAI的API,openrouter.ai或几乎任何主要的LLM服务。我倾向于使用openrouter,因为它是一个一站式服务,涵盖了几乎所有模型。 2、分析视频要开始,请打开计算机上的终端 我喜欢在使用Python时使用虚拟环境以避免包冲突 在Mac或Linux上输入: python -m

RF-DETR模型微调指南
MODEL-ZOO

RF-DETR模型微调指南

RF-DETR于2025年3月19日发布,是由Roboflow开发的一种基于Transformer的物体检测模型架构。 RF-DETR在COCO和新推出的RF100-VL数据集上实现了最先进的性能,超越了LW-DETR和YOLOv11等模型。RF100-VL是一个基准测试,旨在验证检测能力模型在各种领域的泛化能力。 通过将分辨率扩展到728,RF-DETR在NVIDIA T4 GPU上达到了60.5 mAP,速度为25 FPS,成为第一个在Microsoft COCO基准测试中突破60mAP障碍的实时模型。该模型在NVIDIA T4上也达到了25 FPS。 RF-DETR按照Apache 2.0许可证授权,允许免费商业使用。 RF-DETR在RF100-VL上的评估表现RF-DETR在Microsoft COCO上的评估表现在这篇指南中,我们将介绍如何在自定义数据集上训练一个RF-DETR模型。我们将以识别麻将牌为例进行训练,这是一个涉及多个不同类别的任务。 以下是我们将要训练的模型的结果示例(右侧),以及真实标签(左侧): 我们的模型结果几乎与真实标签一致,这是对RF-DETR预测质量的一个证明。 不多说了,让我们开始吧! 💡你可以使用我们的Colab训练笔记本跟随本指南。我们建议使用A100进行训练。 1、准备数据集首先,我们需要准备一个数据集。在这个指南中,我们将使用一个麻将牌识别数据集,这是RF100-VL基准测试中的一个数据集之一。该数据集包含超过2000张麻将牌图像,并且是根据Apache 2.0许可证授权的。 你可以在Roboflow Universe上的麻将牌页面下载数据集。