APPLICATION OWASP大模型十大威胁清单 “嘿,Lex!帮我总结一下这篇文章,”我问我闪亮的新大型语言模型 (LLM) 助手。它停顿了一秒钟,然后吐出了一个优雅的总结——以及一个奇怪的预测,我很快就会买一个热水浴缸。虽然我不介意人工智能发挥创造力,但它试图用信用卡为那个热水浴缸收费?是的,不。 那一刻我知道 Lex 需要界限。 像 Lex 这样的 LLM 是人工智能中的法拉利——它们速度快、造型优美,可以让你的生活变得无限酷。但是,如果让一个人在没有护栏的情况下自由行动,你就会陷入混乱的欢乐之旅,穿越人工智能安全的危险。这就是 OWASP的LLM十大威胁清单的作用所在,它列出了一系列至关重要的潜在威胁,几乎可以说是人工智能安全的复仇者联盟。 OWASP 到底是什么?OWASP,即开放式 Web 应用程序安全项目,就像网络安全领域的甘道夫,坚定地对抗数字世界的漏洞。这个全球非营利组织以其 OWASP 十大威胁清单而闻名,这是一份关键安全风险清单,开发人员如果忽视这些风险,将自食其果。这是一本规则手册,上面写着:“你不应该让黑客闯入你的应用程序。
APPLICATION GenAI重塑数据科学团队 对于数据科学家和机器学习团队来说,这种演变对他们的角色产生了直接影响。一种新型的人工智能项目已经出现,在这篇博文中,我们将讨论这一切对数据科学和机器学习团队意味着什么。
APPLICATION 用Agent Builder构建地图搜索 我们将使用 Agent Builder 为理发店构建一个搜索系统。可以将其视为创建一个专用的搜索微服务,可通过 REST API 访问,并可与你的应用集成。
APPLICATION 基于Schema的LLM结构化输出 记者们通过文档转储和白皮书获得 PDF 作为对 FOIA 请求的回应。要使用 PDF,这些记者需要从文档中获取数据并将其转换为易于分析的格式,例如电子表格。该过程可能涉及费力的手动转录或将数据从一种格式复制并粘贴到另一种格式。 从理论上讲,大型语言模型可以协助文档处理,但幻觉等风险和 LLM 输出固有的不确定性使这种方法变得棘手。记者需要确保输出确实包含所需的数据、遵循所需的数据类型并采用可用的格式。 结构化输出为这些挑战提供了解决方案。像 Anthropic 和 OpenAI 这样的提供商以及像 Outlines 这样的开源库允许开发人员定义严格的模式,将 LLM 响应限制在特定字段、数据类型和格式。 结构化输出将原始的 LLM 功能转换为可靠的数据处理管道。例如,从多页 PDF 中提取表格时,模式可确保跨页面的列名和数据类型一致。虽然这种方法不能保证完全准确,但它降低了解析和验证 LLM 响应的工程复杂性,使文档处理工作流更加可靠和易于维护。 模式本质上是一个蓝图,它告诉模型要查找哪些信息以及如何组织这些信息。可以将其想象成一个标准化表格:记者不是让模型以任何格式返回数据,而是提供特定的字段来填写——这是一个日期,这是一个美元金额,另一个应该是是/
APPLICATION RAG管道PDF图文处理 本文提出了一种利用 Gemini 1.5 Flash 的方法,通过标记包含非文本元素的页面、嵌入文本和图像,并将整个 PDF 页面存储在矢量数据库中,可以为文档摘要、问答和数据提取等任务提供更准确的响应。