安全公司警告:认真对待对机器学习系统的威胁

安全咨询公司NCC Group的一项新研究显示,组织越来越多地在其应用程序和服务中使用机器学习(ML)模型,而不考虑它们所需要的安全要求。研究发现,由于机器学习系统开发和部署的独特方式,它们引入了开发人员通常不知道的新威胁向量,并补充说许多旧的和已知的威胁也适用于ML系统。

“自2015年左右以来,我们看到部署ML系统的客户稳步上升,尽管有大量学术文献,但当时并没有太多关于ML特定安全问题的实际讨论,”Chris Anley,NCC Group的首席科学家和该研究的作者说。

最初,Anley看到机器学习被部署在非常小众的应用程序中。但是今天,ML模型越来越多地用于更一般的Web领域,例如内容推荐或工作流优化。

“我们现在看到用于客户支持和其他基于文本的应用程序(如情感分析和文本分类)的聊天机器人变得相当流行 - 具有您所期望的所有隐私和安全影响,”Anley说。

该领域的一项著名研究,机器学习系统的实际攻击,提供了现实世界应用程序中ML威胁形势的总体视图。

它详细介绍了特定于机器学习模型及其训练和部署管道的一些威胁:

  • 对抗性攻击:输入数据用人类无法察觉的噪声进行修改,以改变 ML 模型的行为。
  • 数据中毒和后门攻击:训练数据集受到破坏和修改,使训练后的 ML 模型对特定触发器敏感。
  • 成员推理攻击:查询 ML 模型以确定其训练集中是否使用了特定数据点。
  • 模型反转攻击:查询 ML 模型以部分或全部重新创建其训练数据。

 

虽然学术研究人员已经对这些类型的威胁进行了深入研究和记录,但NCC研究人员专注于在实际环境中重新创建它们,其中ML模型部署在用户身份验证、医疗保健系统和图像分类软件等现实世界的应用程序中。

他们的研究结果表明,在现实世界中对ML系统进行攻击实际上是可行的。

“我认为有数十篇论文准确描述了这些攻击是如何工作的,这相当令人吃惊,”Anley说。“我们已经以‘演示’形式复制了这些论文中的一些结果,并且我们已经成功地对客户的类似线路进行了模拟攻击。尽管这些隐私攻击不像SQL注入驱动的数据泄露那样简单,但它们肯定是实用的。”

该研究还表明,机器学习系统通常容易受到机器学习模型中嵌入的恶意有效载荷、机器学习库源代码中的漏洞、机器学习管道中的安全漏洞、针对网络托管机器学习系统的SQL注入攻击以及供应链攻击的攻击。针对机器学习软件中使用的依赖项。

“数据泄露始终是一个问题,ML的一些基本方面会改变隐私风险,”Anley说。

首先,随着用于训练它们的数据量的增加,机器学习系统的性能会更好,因此组织可能必须处理大量敏感信息。

其次,经过训练的模型没有基于角色的访问控制——所有训练数据都聚合到同一个模型中。

第三,实验是ML开发的关键部分,因此开发人员可以访问大量数据非常重要。

“由于这些问题,保护ML系统可能很困难,尤其是在应用程序处理敏感数据的情况下,”Anley说。“开发人员现在通常可以访问极其强大的凭据,因此重要的是要仔细考虑谁需要做什么,并在不妨碍业务的情况下限制你可以做的事情。”

Anley警告说,机器学习系统的新兴威胁会对网络生态系统产生直接影响。

“我认为文献中出现的主要问题是,即使在网络上托管、API服务器后面,甚至在一些相当严格的条件下,也有可能从经过训练的模型中提取训练数据,”他说。

各种研究,包括Anley和他的同事在他们的研究中复制的一些研究,表明信息提取攻击对于只输出类标签的ML系统是可行的,这是许多Web托管的ML服务的工作方式。

特别值得关注的是在网络上提供的预训练 ML 模型,这些模型近年来变得非常流行。缺乏训练自己的ML模型的技能或资源的开发人员可以从多个Web平台之一下载预先训练的模型,并将它们直接集成到他们的应用程序中。

但是预训练模型可能成为Anley在他的论文中讨论的威胁和攻击的来源。

“经过训练的模型本身通常可以包含代码,因此也应该小心处理它们,”他解释道。“由于训练模型很昂贵,我们已经看到了‘模型动物园’的出现,其中可以使用预先训练的模型。这些显然需要使用与代码相同的控件来处理。”

发表评论

评论已关闭。

相关文章