MODEL-ZOO - Software 2.0 (Page 6)

MODEL-ZOO

MacBook实测Qwen2.5-Coder-32B

Qwen2.5-Coder-32B 是一款可以在我的 Mac 上运行的、可以很好地编写代码的 LLM。

MODEL-ZOO

10个最常用的音频嵌入模型

在音乐推荐、情感分析、环境声音识别等领域，音频嵌入技术已经成为不可或缺的工具。本文将介绍10个广泛使用的音频嵌入模型。

MODEL-ZOO

Hertz-dev实时对话生成模型

Hertz-dev是一个革命性的开源音频模型，这个配备 85 亿个参数的 AI 模型实现了人们梦寐以求的全双工实时对话。

MODEL-ZOO

Legal-BERT 法律大模型微调

通过微调在法律语料库上预先训练的Legal-BERT模型，我们可以在合同分析、合规性监控和法律文件检索等任务中实现更高的准确性和可靠性。

MODEL-ZOO

Llama 3.2 Vision 评测

Llama 3.2-Vision 指令调整模型针对视觉识别、图像推理、字幕和回答有关图像的一般问题进行了优化。这些模型在常见的行业基准上优于许多可用的开源和封闭多模式模型。

MODEL-ZOO

Llama-3.1微调实现函数调用

本文探讨如何使用 Unsloth微调 Llama-3.1–8B 模型以实现函数调用功能，并使用 vLLM 进行高性能模型推理和服务。

MODEL-ZOO

OuteTTS 简明教程

OuteAI推出的OuteTTS是一种新颖的文本转语音 ( TTS ) 合成方法，它利用纯语言建模，无需外部适配器或复杂架构。

MODEL-ZOO

TTS：MaskGCT & OuteTTS

在过去的一年中，seamless_communication、StyleTTS、VITS、DeepSpeech和Whisper 等项目都在 TTS（文本转语音）技术的进步中发挥了重要作用。但现在，回顾 GitHub，这些项目中的很多都已经沉寂了。最初，我只对它们的功能有基本的了解，而没有深入研究它们背后的技术概念和机制。这次，受到最近发布的 MaskGCT 和 OutTTS 等开源项目的启发，我决定总结一下 TTS 的基础技术。总体而言，音频生成的质量自去年以来有了显着提高。以前，合成的声音听起来很机械；现在，多亏了 Hertz-dev 等模型，我们可以生成听起来更自然、更像人类的音频。 1、TTS 基础知识TTS 系统的主要目标是将输入的文本转换为听起来自然的语音。 1.1 传统TTS模型传统的 TTS 模型（例如 Tacotron 和 WaveNet）通常涉及三个主要步骤：

MODEL-ZOO

SegFormer数据集制作及模型微调

本指南展示了如何微调 Segformer，这是一种最先进的语义分割模型。我们的目标是为披萨送货机器人建立一个模型，这样它就可以看到要行驶的方向并识别障碍物 🍕🤖。我们将首先在 Segments.ai 上标记一组人行道图像。然后，我们将使用 🤗 transformers 微调预先训练的 SegFormer 模型，transformers 是一个开源库，提供最先进模型的易于使用的实现。在此过程中，我们将学习如何使用 Hugging Face Hub，这是最大的开源模型和数据集目录。语义分割是对图像中的每个像素进行分类的任务。你可以将其视为对图像进行更精确分类的方法。它在医学成像和自动驾驶等领域有广泛的用例。例如，对于我们的披萨送货机器人来说，重要的是要确切地知道人行道在图像中的位置，而不仅仅是是否有人行道。因为语义分割是一种分类，所以用于图像分类和语义分割的网络架构非常相似。 2014 年，Long 等人发表了一篇开创性的论文，使用卷积神经网络进行语义分割。最近，Transformers 已用于图像分类（例如 ViT），现在它们也用于语义分割，进一步推动了最先进的技术。 SegFormer 是 Xie 等人于 2021

MODEL-ZOO

Phi-3.5电商数据集微调

本文加载Phi-3.5-mini-instruct 模型并对其进行微调，以根据文本描述对电子商务产品进行分类，并将 LoRA（低秩自适应）微调模型与基础模型合后推送到 Hugging Face。

MODEL-ZOO

SAM 2 自定义数据集微调

虽然 SAM 2 开箱即用，但它在罕见或特定领域的任务上的表现可能并不总是符合预期。微调允许你根据特定需求调整 SAM2，从而提高其针对特定用例的准确性和效率。

MODEL-ZOO

Llama 3.2视觉模型OCR能力

传统的 OCR 工具在文本与视觉元素同时存在时，其性能会很差。但随着 Llama 3.2 视觉模型的发布，只需传递图像并提取文本或对图像提出问题即可。

TOOL

ComfyUI使用FLUX.1量化模型

大部分人的硬件无法提供16-24GB显存来运行FLUX.1模型，本文介绍如何在ComfyUI中使用量化的FLUX.1模型在消费级硬件上生成图像。

MODEL-ZOO

Parler-TTS 微调和推理技巧

本文介绍如何使用Gemini制作自己的数据集，如何微调Parler-TTS，以及如何使用Parler-TTS模型进行推理。

MODEL-ZOO

用LlamaFactory微调Qwen-2 VL

在这篇博文中，我们将探索如何使用 LlamaFactory 框架微调多模态大模型Qwen-2 VL。

MODEL-ZOO

SAM 2 视频分割

Segment Anything Model 2 (SAM 2) 是一个统一的视频和图像分割模型。与图像分割相比，视频分割面临着独特的挑战。物体运动、变形、遮挡、光照变化和其他因素可能会在帧与帧之间发生巨大变化。由于相机运动、模糊和分辨率较低，视频质量通常低于图像，这进一步增加了难度。 SAM 2 在视频分割方面表现出更高的准确性，交互次数比以前的方法少 3 倍。SAM 2 在图像分割方面更准确，速度比原始 Segment Anything Model (SAM) 快 6 倍。 1、加载 SAM 2 模型进行视频处理💡点击这里打开本指南附带的笔记本。首先，使用以下命令克隆存储库并安装所需的依赖项： git clone https://github.com/facebookresearch/segment-anything-2.git

MODEL-ZOO

FLUX.1 低成本LoRA微调

本指南将向你展示如何在自己的图像上集微调FLUX.1，使用消费级硬件，不到一小时即可完成。

MODEL-ZOO

GPT-4o mini微调医疗援助模型

在着手创建由生成式 AI 驱动的聊天解决方案时，效率应该是我们的指导方针。从利用 SaaS 解决方案到从头开始构建模型，选项多种多样。在本文中，我将介绍基于 Azure OpenAI 服务的模型微调，重点是在定制与效率之间取得平衡。注意：本文中显示的输入数据包含与医学相关的一般问题和答案，目的是开发一个包含一些医学领域信息的模型。由于我不是医学专业人士，我仅将这些数据用于本文所讨论的数据科学工作，而不是建议或表明任何医疗状况或疾病的定义、预防、诊断或治疗。优先考虑效率意味着并不总是需要选择最大、最强大的模型。定制通常使我们能够使用更轻量的模型版本实现卓越的性能。出于这个原因，我选择了 GPT-4o mini，它是著名的 GPT-4o 模型的较小版本。在下图中，我们可以在两个阶段使用它：提示工程和 AOAI 模型 FT。 1、为什么微调是一个明智的选择？你可能已经熟悉了少样本学习的概念，其中机器学习模型在极少量的标记示例上进行训练，从而提高效率。微调是另一种（尽管是独立的）优先考虑效率的方法，并且与少样本学习相比具有几个优势：质量结果：微调可以在比单个提示更大的数据集上进行训练，从而产生更高质量的输出。