利用大型语言模型（LLM）进行恶意攻击的手段与防范

1輩吇筷楽 · 发表于 2024-9-9 16:18:47

网络犯罪分子开始利用大型语言模型（LLM）为他们提供的新恶意选项。LLM 可以上传包含隐藏指令的文档，这些指令由连接的系统组件执行。这对网络犯罪分子来说是一个福音，因此对使用它们的企业来说也是一个实质性的风险。

LLM 可以通过多种方式进行欺骗。网络犯罪分子可以输入恶意提示，诱骗 LLM 覆盖其护栏（即生成有害输出），这一过程称为越狱。它们还可以影响模型的功能、使数据中毒或指示 LLM 根据攻击者的请求执行恶意指令。恶意提示还可能导致模型和数据提取，并且模型本身可能包含启用后门程序的功能。所有这些攻击都会使敏感信息面临风险。

过去两年中发生的针对 AI 系统的攻击使用了某种形式的对抗性机器学习（ML）。这些攻击的示例包括中国的全面税务欺诈，攻击者通过创建虚假的空壳公司并向税务系统认可的客户向受害者发送发票，欺诈性地获得了 7700 万美元，以及加利福尼亚州的失业申请欺诈，攻击者通过收集真实身份来制作假驾驶执照，提取了 340 万美元的伪造失业救济金。从而利用系统身份验证过程中的缺陷。

要防范此类攻击，首先要了解安全漏洞及其可能产生的网络危害的频率、来源和程度。从那里开始，网络安全解决方案分为四个关键类别：设计、开发、部署和运营。

设计

通过在训练和部署 AI 之前更改 AI 的技术设计和开发，公司可以在开始之前减少其安全漏洞。例如，即使选择正确的模型架构也会产生相当大的影响，每个 AI 模型都表现出特定的亲和力，以缓解特定类型的提示注入或越狱。为给定用例确定正确的 AI 模型对其成功非常重要，安全性同样如此。

发展

开发具有嵌入式网络安全的 AI 系统从如何准备和处理训练数据开始。必须清理训练数据，并且必须使用过滤器来限制摄取的训练数据。输入恢复通过添加额外的随机性层来混淆对手评估 AI 模型的输入-输出关系的能力。

公司应该创建约束条件，通过 Reject-On-Negative-Impact 训练来减少学习模型的潜在扭曲。之后，应持续对 AI 模型进行定期安全测试和漏洞扫描。

在部署期间，开发人员应通过加密检查来验证修改和可能的篡改。可以通过严格限制软件加载非结构化代码的能力来防止库加载滥用。敏感数据的加密是没有商量余地的。

部署

组织应保持良好的安全卫生习惯。他们的 AI 生命周期应该有据可查，并应提供与组织的 AI 风险治理相一致的 AI 计划的全面清单。必须收集外部利益相关者的反馈并将其整合到系统设计中。员工培训、红队、对 AI 威胁形势的持续研究以及强大的供应链安全性必须成为常见做法。

操作

最重要的是，AI 网络安全需要工具和方法的组合。这是贯穿整个运营和维护的持续过程。这可能包括限制用户可以执行的查询总数。

模型混淆有效地改变了模型属性，使其偏离了提取网络攻击预期的典型操作。内容安全系统可以清理 LLM 的输入和输出，对抗性输入检测可以在将查询流量发送到模型进行推理之前对其进行筛选。

防止新技术面临的网络安全威胁显现并非易事。这是一个需要同时使用多种工具和方法的过程。这些 AI 安全工具和策略确实存在，并且每天都在变得越来越成熟，缺少的一个关键组成部分是整个行业都在推动将其使用作为优先事项。