Mindgard的研究人员发现了微软Azure AI内容安全服务中的严重漏洞,攻击者可以利用该漏洞绕过其安全措施并释放有害的AI生成内容。
2024年2月,总部位于英国的人工智能网络安全初创公司Mindgard发现了微软Azure AI内容安全服务中的两个严重安全漏洞。根据他们分享的研究,这些漏洞可能允许攻击者绕过该服务的安全护栏。
这些漏洞于2024年3月负责任地向微软披露,到2024年10月,该公司部署了“更强大的缓解措施”以减少其影响。然而,Mindgard直到现在才分享了相关细节。
Azure AI内容安全是一项基于Microsoft Azure云的服务,可帮助开发人员通过检测和管理不当内容来为AI应用程序创建安全防护栏。它使用先进的技术来过滤有害内容,包括仇恨言论和露骨/令人反感的内容。Azure OpenAI使用带有Prompt Shield和AI文本审核防护栏的大型语言模型(LLM)来验证输入和AI生成的内容。
然而,研究人员在这些保护AI模型免遭越狱和提示注入的防护措施中发现了两个安全漏洞。根据研究,攻击者可以绕过AI文本审核和提示盾防护措施,将有害内容注入系统,操纵模型的响应,甚至泄露敏感信息。
根据Mindgard的报告,其研究人员采用了两种主要攻击技术来绕过护栏,包括角色注入和对抗性机器学习(AML)。
这是一种通过注入或替换特定符号或序列的字符来操纵文本的技术。这可以通过变音符号、同形异义字、数字替换、空格注入和零宽度字符来实现。这些微妙的变化可以欺骗模型对内容进行错误分类,从而使攻击者能够操纵模型的解释并破坏分析。目标是欺骗护栏对内容进行错误分类。
AML涉及通过某些技术操纵输入数据,以误导模型的预测。这些技术包括扰动技术、单词替换、拼写错误和其他操纵。通过精心选择和扰动单词,攻击者可以让模型误解输入的意图。
这两种技术有效地绕过了AI文本审核保护措施,分别将检测准确率降低了100%和58.49%。研究人员在分享的博客文章中写道,利用这些漏洞可能会造成社会危害,因为“这可能导致有害或不适当的输入到达LLM,导致模型生成违反其道德、安全和保障准则的响应”。
此外,它还允许恶意行为者将有害内容注入AI生成的输出中,操纵模型行为,暴露敏感数据,并利用漏洞来获取对敏感信息或系统的未经授权的访问。
研究人员指出:“通过利用该漏洞发起更广泛的攻击,这可能会损害基于LLM的系统以及依赖它们进行数据处理和决策的应用程序的完整性和声誉。”
对于组织来说,及时更新最新的安全补丁并实施额外的安全措施来保护他们的人工智能应用程序免受此类攻击至关重要。
评论已关闭。