MODEL-ZOO - Software 2.0 (Page 4) - 汇智网

Tagged

MODEL-ZOO

A collection of 158 posts

9个主流OCR模型的综合评测

在这篇博文中，我们比较了9种不同的 OCR 解决方案，并比较了它们在工业 OCR 应用的10个不同领域的功效。

专家混合模型 (MoE)快速指南

专家混合模型 (MoE)快速指南

专家混合 (MoE) 已成为一种流行的提高 LLM 效率的架构组件。在这篇博文中，我们将探讨研究人员在实现专家完美混合的道路上所采取的步骤。

PaliGemma 2微调实现JSON提取

PaliGemma 2微调实现JSON提取

本教程将演示如何使用 Google Colab 微调 PaliGemma 2 以从 JSON 格式的图像中提取数据

PaliGemma2微调优化图像理解

PaliGemma2微调优化图像理解

通过使用自定义数据集（例如知名的 VQA）对 PalliGema2 进行微调，可以在高度特定的任务上实现最先进的性能，以连续且可扩展的方式弥合文本和视觉理解之间的差距。

StyleTTS 2和Tortoise-TTS

StyleTTS 2和Tortoise-TTS

本项目指南深入探讨了这场革命前沿的两个突出模型：StyleTTS 2 和 Tortoise-TTS。这两种模型都代表了语音克隆和语音合成的创新方法，每种方法都利用不同的技术来实现令人印象深刻的结果。

Phi-4 GGUF快速指南

本指南将引导你完成在自己的机器上设置和使用 Phi-4 GGUF 的过程，使你能够利用其功能执行各种自然语言处理任务。

MusicGen音乐生成AI模型

MusicGen音乐生成AI模型

Facebook的musicgen-small 开源预训练模型采用Transformer 的神经网络架构，擅长处理音乐等顺序数据。

10个最流行的FLUX LoRA模型

10个最流行的FLUX LoRA模型

如果想为你的项目增添光彩，尝试新的艺术风格，或者只是更深入地研究人工智能生成的艺术，那么这 10 个顶级 Flux LoRA 模型将让你大饱眼福。

34个编程大模型综合比较

本文对通过公共 API 提供的顶级 LLM 进行了深入分析。我专注于它们在编码任务中的表现，以 HumanEval 等基准为衡量标准，以及它们在各自的 Elo 分数中反映的实际表现。

Llama3微调优化关系提取

在 Llama3–70B 的帮助下，我们构建了一个旨在进行关系提取的监督微调数据集。然后，我们使用该数据集对 Llama3–8B 进行微调，以增强其关系提取能力。

本地运行Llama 3.3-70B的3个方法

本地运行Llama 3.3-70B的3个方法

Meta 最新的 Llama 3.3 70B 模型取得了卓越的性能指标，几乎与其更大的 405B 模型相当，同时所需的计算资源却少得多。

Recraft V3 SVG徽标生成器

Recraft V3 SVG 是Replicate推出另一个值得尝试的 AI 图像模型——特别是如果你是平面设计师或想要制作徽标、图标和品牌资产，它与众不同之处在于能够创建 AI 矢量图像。

Llama 3.3-70B简明教程

Llama 3.3-70B简明教程

Meta 在其今年的最终版本中推出了 Llama3.3，这是一个 70B GenAI 模型，已经取得了一些出色的成果，并且已经在基准数据集上击败了一些 SOTA LLM。

Colab+Drive微调大模型

Colab+Drive微调大模型

Google Colab 慷慨地为你提供了一种访问免费GPU计算的方法，使用 Google Drive 保存任何中间结果或模型参数。

F5-TTS音频克隆和生成模型

F5-TTS音频克隆和生成模型

在这篇博客中，我们将探讨为什么 F5-TTS 是一款必试工具，它与 E2-TTS 相比如何，以及是什么让它成为当今最易用、最强大的音频克隆解决方案之一。

ShowUI-2B视觉语言动作模型

ShowUI-2B视觉语言动作模型

ShowUI-2B模型，通过整合视觉、语言和动作能力，带来了全新的交互方式，显著提高了图形界面操作的效率和智能化程度。

拯救量化LLM的准确性

使用量化 LoRA (QLoRA) 对大型语言模型进行微调可以有效更新原始模型权重，但在将 LoRA 权重与量化基础权重合并时，最初可能会降低准确性。

StarCoder私有代码库微调

StarCoder私有代码库微调

在本文中，我们将展示如何在私有代码库上微调StarCoder，以增强其上下文感知能力并提高模型对组织需求的实用性。

Whisper本地推理的4种方法

Whisper本地推理的4种方法

本文总结l了4种在本地CPU上进行推理的方法：HuggingFace管道、ONN运行时、OpenVino运行时和PyTorch。

Qwen2-VL 本地运行教程

Qwen2-VL 本地运行教程

Qwen2-VL 是阿里巴巴于 2024 年 10 月发布的视觉语言模型。它提供三种模型大小：2B、7B 和 72B，并允许用户使用文本询问有关图像的问题，类似于 GPT-4 视觉 API。

8个值得学习的SD 3.5提示

8个值得学习的SD 3.5提示

本文介绍的8个示例展示了 SD3.5 真正能做什么。你可以随意使用这些模板来创作自己的作品。

TimesLM时间序列预测基础模型

TimesLM时间序列预测基础模型

TimesLM 是一款用于时间序列预测的开创性大型语言模型 (LLM)，其灵感来自基于 NLP 的基础模型的进步。

SmolVLM 小型视觉语言模型

SmolVLM 小型视觉语言模型

本文介绍 SmolVLM，这是一款 2B VLM，内存占用率最低。SmolVLM 体积小、速度快、内存效率高，并且完全开源。

视觉语言模型LoRA微调指南

在本文中，我们将探讨如何使用Unsloth、WandB等强大的工具组合来微调 Meta AI 的 Llama-3.2–11B-Vision 模型，并使用vLLM进行模型服务和推理。

Marco-o1开源推理模型

OpenAI-o1 是一个革命性的版本，它使 LLM 能够对数学或物理问题等复杂任务进行详细推理，阿里巴巴的Marco-o1是其开源平替。