OpenAI DALL-E 3 模型存生成“不当内容”漏洞,一微软员工上报后反遭“封口令”

2月2日消息,微软软件工程部门经理Shane Jones最近发现OpenAI旗下的DALL-E 3模型存在漏洞,据称可以生成一系列不适宜内容。Shane Jones向公司上报了该漏洞,但却被要求保密。然而,他最终还是决定向外界披露了这个漏洞。

OpenAI DALL-E 3 模型存生成“不当内容”漏洞,一微软员工上报后反遭“封口令”

▲ 图源 Shane Jones 对外披露的报告

本站注意到,Shane Jones 在去年 12 月通过独立研究发现 OpenAI 文字生成图片的 DALL-E 3 模型存在一项漏洞。这个漏洞能够绕过 AI 护栏(AI Guardrail),导致生成一系列 NSFW 不当内容。这个发现引起了广泛关注,并引发了对于 AI 系统安全性和道德问题的深入讨论。OpenAI 公司已经表示他们将尽快修复这个漏洞,以确保其系统的正确和安全运行。这个事件再次提醒了我们在开发和应用人工智能技术时需要高度重视安全性和伦理问题。

Shane Jones随后将漏洞上报给微软和OpenAI,并在领英上发布了一封公开信。他声称这些漏洞可能会给大众带来安全风险,并呼吁OpenAI在解决漏洞之前暂时下架DALL-E 3模型。

随后 Shane Jones 被微软法务部及高管找上门,并警告他立即删除领英公开信并停止对外披露任何内容,但却并未给予任何解释说明,此后 Shane Jones 屡次寻求公司内部沟通,但均未得到公司回应,而漏洞也未修复,之后 Shane Jones 便向媒体及有关部门披露了相关漏洞。

Shane Jones 提到,近日网络上出现 AI 生成的知名歌手 Taylor Swift(泰勒・斯威夫特)不雅照便与该漏洞有一定关联,这些不雅照据称是使用微软 Designer AI 功能生成,而 Designer 底层模型正是 DALL-E 3,因此微软在本次事件中下达“封口令”存在重大过失。

此后微软官方回应 Engadget 等媒体,声称将解决相关员工的疑虑,并修复相关漏洞,不过微软同时声称 Shane Jones 披露的漏洞实际上成功率较低,“无法绕过微软为模型设置的所有安全机制”、“目前还不清楚该漏洞与 Taylor Swift 不雅照事件是否有关联性”

OpenAI DALL-E 3 模型存生成“不当内容”漏洞,一微软员工上报后反遭“封口令”