Opik:端到端LLM应用监测平台

Opik 是一个用于评估、测试和监控 LLM 应用程序的开源平台。由 Comet 构建。

你可以将 Opik 用于:

a) 开发:

  • 跟踪:在开发和生产过程中跟踪所有 LLM 调用和跟踪(快速入门、集成
  • 标注:通过使用 Python SDK 或 UI 记录反馈分数来标注你的 LLM 调用。

b) 评估:自动化你的 LLM 应用程序的评估过程:

  • 数据集和实验:存储测试用例并运行实验(数据集、评估您的 LLM 应用程序)
  • LLM 作为评判指标:使用 Opik 的 LLM 作为复杂问题的评判指标,例如幻觉检测、审核和 RAG 评估(答案相关性、上下文精度)
  • CI/CD 集成:使用我们的 PyTest 集成作为 CI/CD 管道的一部分运行评估

c) 生产监控:在生产中监控你的 LLM 应用程序并通过向评估数据集添加错误跟踪来轻松关闭反馈循环。

1、Opik安装

Opik 可作为完全开源的本地安装或使用 Comet.com 作为托管解决方案。开始使用 Opik 的最简单方法是在 comet.com 上创建一个免费的 Comet 帐户。

如果你想自行托管 Opik,可以通过克隆存储库并使用 Docker Compose 启动平台来实现:

# Clone the Opik repository
git clone https://github.com/comet-ml/opik.git

# Navigate to the opik/deployment/docker-compose directory
cd opik/deployment/docker-compose

# Start the Opik platform
docker compose up --detach

# You can now visit http://localhost:5173 on your browser!

有关不同部署选项的更多信息,请参阅官方部署指南:

2、开始使用Opik

要开始使用Opik,你需要先安装 Python SDK:

pip install opik

安装 SDK 后,你可以通过运行 opik configure 命令对其进行配置:

opik configure

这将允许你通过设置正确的本地服务器地址在本地配置 Opik,或者如果你使用云平台,则通过设置 API 密钥

提示:你还可以从 Python 代码中调用 opik.configure(use_local=True) 方法来配置 SDK 在本地安装上运行。

现在可以开始使用 Python SDK 记录跟踪。

3、记录跟踪

最简单的入门方法是使用我们的集成之一。 Opik 支持:

集成 描述 文档 在 Colab 中尝试
OpenAI 记录所有 OpenAI LLM 调用的跟踪 文档 在 Colab 中打开
LiteLLM 使用 OpenAI 格式调用任何 LLM 模型 文档 在 Colab 中打开
LangChain 记录所有 LangChain LLM 调用的跟踪 文档 在 Colab 中打开
Bedrock 记录所有 Bedrock LLM 调用的跟踪 文档 在 Colab 中打开
Gemini 记录所有 Gemini LLM 调用的跟踪 文档 在 Colab 中打开
Groq 记录所有 Groq LLM 调用的跟踪 文档 在 Colab 中打开
LangGraph 记录所有 LangGraph 执行的跟踪 文档 在 Colab 中打开
LlamaIndex 记录所有 LlamaIndex LLM 调用的跟踪 文档 在 Colab 中打开
Ollama 记录所有 Ollama LLM 调用的跟踪 文档 在 Colab 中打开
Predibase 微调并提供开源大型语言模型 文档 在 Colab 中打开
Ragas 评估框架,用于您的检索增强生成 (RAG) 管道 文档 在 Colab 中打开
watsonx 记录所有 watsonx LLM 调用的跟踪 文档 在 Colab 中打开

如果你不使用上述任何框架,还可以使用 track函数装饰器来记录跟踪

import opik

opik.configure(use_local=True) # Run locally

@opik.track
def my_llm_function(user_question: str) -> str:
    # Your LLM code here

    return "Hello"
提示: track装饰器可以与我们的任何集成结合使用,也可用于跟踪嵌套函数调用。

‍4、LLM as a judge指标

Python Opik SDK 包含许多 LLM as a judge指标,可帮助你评估你的 LLM 应用程序。在指标文档中了解更多信息。

要使用它们,只需导入相关指标并使用评分函数:

from opik.evaluation.metrics import Hallucination

metric = Hallucination()
score = metric.score(
    input="What is the capital of France?",
    output="Paris",
    context=["France is a country in Europe."]
)
print(score)

Opik 还包括许多预构建的启发式指标以及创建自己的指标的能力。在指标文档中了解更多信息。

5、评估 LLM 应用程序

Opik 允许你在开发过程中通过数据集实验评估你的 LLM 应用程序。

你还可以在 CI/CD 过程中使用我们的 PyTest 集成 运行评估。


原文链接:Opik: Open-source end-to-end LLM Development Platform

汇智网翻译整理,转载请标明出处