用AI生成可靠的报告

在过去的一年里,我一直在经营自己的 AI 软件开发和咨询机构,与各种各样的客户合作—从初创公司创始人到学者。在此期间,我接手了各个领域的项目,包括数字营销、SaaS 和网络安全。虽然每个项目的目标和目的各不相同,但一个共同的要求是需要为使用 AI 的利益相关者或最终客户创建可靠的报告。几乎所有的客户在项目中都有一个制作报告的里程碑。

通过这些经历,我对 AI 软件开发中常见的挑战、错误和最佳实践有了宝贵的见解。在这篇文章中,我想分享我对 AI 生成的报告的了解,以及如何使这些报告更可靠、更实用。

1、基础知识

这些都是简单、快速的胜利,可以用最少的努力显著改善你的 AI 系统。它们是我遇到过的最有效的东西,在构建 AI 系统时,它们始终位于我的待办事项列表的首位。

1.1 小胜利

首先检查你是否正在做这些简单的事情:

  • 使用 Markdown:如果你的提示包含表格,请将其格式化为 markdown。LLM 接受过 markdown 文本的训练,因此他们能更好地理解它,并且通常也会以 markdown 进行响应。
  • 让你的提示清晰:就像人一样,LLM 也会因不明确的指示而感到困惑。你表达提示的方式会影响响应的质量。为了让事情更清楚,你甚至可以在与 LLM 聊天时要求他帮助你重写提示。

1.2 使用正确的 LLM/API 配置

依赖 GPT-4o 或 Claude 3.5 等顶级 LLM 很诱人。虽然它们非常适合一般任务,但根据具体任务,你可能会使用其他模型获得更好的结果。你可以查看在线 LLM 排行榜,看看哪些模型在不同任务中表现最佳。即使 GPT-4o 或 Claude 3.5 是正确的选择,调整最大令牌数或温度等设置或缓存提示也可以提高性能。

我经常遇到的 GPT-4o 和 Claude 3.5 的一个限制是它们缺少长上下文窗口。对于某些任务(例如生成详细报告),较长的上下文窗口更有用。在这种情况下,像 Gemini 1.5 这样的模型更适合,它支持多达 2M 个令牌。

1.3 使用常见的提示技术

难以让 LLM 正确响应?尝试添加一个短语,例如“逐步解释你的推理”。这种简单的调整通常会带来更好、更准确的响应。这种方法称为思维链提示。

还有许多其他提示技术,例如 ReAct,可帮助 LLM 更有效地选择工具或代理。你可以手动尝试这些技术,也可以使用 DSPy 等框架,它们具有内置方法,可以轻松添加和测试不同的提示策略。

另一个重要步骤是添加少样本示例,这时长上下文窗口就派上用场了。通过添加你期望的答案的变体,模型更有可能做出更好的响应。

1.4 使用正确的框架

选择正确的代理或 LLM 框架可能是一个热门话题。在我看来,最好直接使用 API 或使用轻量级框架,如 DSPy,它在设计时也考虑到了评估(我将在下一节中解释其重要性)。某些框架可能会不必要地使你的程序过于复杂。

例如,许多框架都带有内置的任务特定模板。虽然这可以使你轻松上手,但通常会使创建适合你需求的可靠 AI 系统变得更加困难。这些模板通常未经优化,会用不必要的标记浪费上下文空间,并限制灵活性。更不用说使用它们会产生许多错误,这会使编程变得更加困难。

另一方面,DSPy 不使用模板。相反,每个 LLM 程序都是使用签名构建的,签名只是提示、输入和输出的组合。

DSPy 签名的解释

如果你在 LLM 输出方面遇到困难,请确保你涵盖了这些基础知识。下一节将更多地关注你可以进行的高级优化以提高可靠性。

2、评估管道

改进 LLM 程序的一种方法是将其“推向”正确的输出。这与微调不同;它是关于找出表达提示、输入和输出的最佳方式,以使程序有效运行。

你可能想知道,如何知道哪种措辞最有效?答案是使用评估管道。在这篇文章中,我将概述评估是什么以及它们如何工作。

解释提示优化和评估

从高层次上讲,评估管道的工作方式如下,首先,你会得到一组查询、输入和“预期”输出。然后,你设计一个指标,该指标根据任务衡量输出的好坏。例如,对于文本到 SQL 程序,你可以创建一个指标,为可以成功运行、具有正确的列名并与用户查询相关的查询提供分数。

一旦有了指标,你就可以对 LLM 程序输出进行评分,并根据预期输出对其进行衡量。然后,你可以为你的程序生成新指令并对其进行测量。迭代此操作将为你提供更好或优化的指令。提示优化中有许多算法,你可以使用 DSPy 为你自动化这些管道。

3、简化 AI 系统

AI 系统的可靠性如何随着复杂性而降低

最后一点是关于 AI 系统的复杂性。在软件设计原则中,提倡简单性并不是什么新鲜事,但对于基于大型语言模型的软件来说,这一点更为重要。原因是 LLM 输出是概率性的,而不是确定性的。

即使 LLM 调用生成正确输出的概率为 95%,并且你的程序每次运行都依赖于 10 次 API 调用。系统可靠输出的概率为 (0.95)¹⁰ = 0.598 或 60%。你应该尝试用最少的 LLM 调用来完成你的任务。一个在 2 次调用中完成任务的系统比 3 次调用完成任务的系统要好得多。

没有算法可以为你减少 API 调用的数量,它需要优秀的工程师精心设计系统并不断重新思考组件。

提示:也许长上下文模型可以比顶级小上下文模型在 2 次 API 调用中更可靠地一次性完成任务。或者你的系统流程中有太多中间步骤。

在设计系统上投入精力可以大大节省以后的可靠性!

4、结束语

使用此清单确保你的可靠性最大化

快速修复:

  • 使用 Markdown:使用 Markdown 格式化表格以更好地理解 LLM。
  • 编写清晰的提示:使用清晰、简洁的说明避免混淆。

优化模型:

  • 为任务选择正确的模型;查看 LLM 排行榜。
  • 调整设置(例如,最大令牌、温度)以获得更好的性能。
  • 使用 Gemini 1.5 等长上下文模型来完成详细任务。

智能提示:

  • 添加“逐步解释”等短语以提高准确性(思维链)。
  • 包括一些示例来指导响应。

选择正确的框架:

  • 避免使用过于复杂的框架;使用 DSPy 等轻量级选项。

评估和迭代:

  • 使用评估管道来测试和优化提示、输入和输出。

简化你的系统:

  • 尽量减少 API 调用以提高可靠性。
  • 简化组件以实现更简单、更高效的工作流程。

此清单绝不是详尽无遗的,这些只是我们通过与客户合作学到的东西。


原文链接:How to make more reliable reports using AI — A Technical Guide

汇智网翻译整理,转载请标明出处