MODEL-ZOO Qwen2-VL 本地运行教程 Qwen2-VL 是阿里巴巴于 2024 年 10 月发布的视觉语言模型。它提供三种模型大小:2B、7B 和 72B,并允许用户使用文本询问有关图像的问题,类似于 GPT-4 视觉 API。
MODEL-ZOO 视觉语言模型LoRA微调指南 在本文中,我们将探讨如何使用Unsloth、WandB等强大的工具组合来微调 Meta AI 的 Llama-3.2–11B-Vision 模型,并使用vLLM进行模型服务和推理。
MODEL-ZOO FLUX.1 Tools 图像工具包 FLUX 背后的团队 Black Forest Labs 刚刚发布了 FLUX.1 Tools — 一套由四个强大的工具组成的套件,可增强 FLUX 的图像生成能力和可控性。
MODEL-ZOO LLaMa-Mesh:文本生成3D网格 NVIDIA 发表了一篇引人入胜的论文 LLaMA-Mesh:使用语言模型统一 3D 网格生成 ,该论文允许使用自然语言生成 3D 网格对象。
MODEL-ZOO Neo4j Text2Cypher 模型 Neo4j Text2Cypher模型演示了如何使用 Neo4j Text2Cypher(2024) 数据集微调基础模型来提高 Text2Cypher 任务的性能。
MODEL-ZOO OOTDiffusion虚拟试穿模型 虚拟试穿技术是电子商务和时尚领域的一项前沿创新,它允许客户在不实际穿着的情况下尝试虚拟服装、配饰、化妆品或其他时尚元素。OTDiffusion是一种基于 LDM 的新方法。